本書(shū)介紹大量特征工程技術(shù),闡明特征工程的基本原則。主要內(nèi)容包括:機(jī)器學(xué)習(xí)流程中
的基本概念,數(shù)值型數(shù)據(jù)的基礎(chǔ)特征工程,自然文本的特征工程,詞頻- 逆文檔頻率,高效的分類(lèi)變量編碼技術(shù),主成分分析,模型堆疊,圖像處理,等等。
特征工程是機(jī)器學(xué)習(xí)流程中至關(guān)重要的一個(gè)環(huán)節(jié),然而專(zhuān)門(mén)討論這個(gè)話題的著作卻很少。本書(shū)旨在填補(bǔ)這一空白,著重闡明特征工程的基本原則,介紹大量特征工程技術(shù),教你從原始數(shù)據(jù)中提取出正確的特征并將其轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型的格式,從而輕松構(gòu)建模型,增強(qiáng)機(jī)器學(xué)習(xí)算法的效果。
然而,本書(shū)并非單純地講述特征工程的基本原則,而是通過(guò)大量示例和練習(xí)將重點(diǎn)放在了實(shí)際應(yīng)用上。每一章都集中研究一個(gè)數(shù)據(jù)問(wèn)題:如何表示文本數(shù)據(jù)或圖像數(shù)據(jù),如何為自動(dòng)生成的特征降低維度,何時(shí)以及如何對(duì)特征進(jìn)行標(biāo)準(zhǔn)化,等等。最后一章通過(guò)一個(gè)完整的例子演示了多種特征工程技術(shù)的實(shí)際應(yīng)用。書(shū)中所有代碼示例均是用Python編寫(xiě)的,涉及NumPy、Pandas、scikit-learn和Matplotlib等程序包。
- 數(shù)值型數(shù)據(jù)的特征工程:過(guò)濾、分箱、縮放、對(duì)數(shù)變換和指數(shù)變換
- 自然文本技術(shù):詞袋、n元詞與短語(yǔ)檢測(cè)
- 基于頻率的過(guò)濾和特征縮放
- 分類(lèi)變量編碼技術(shù):特征散列化與分箱計(jì)數(shù)
- 使用主成分分析的基于模型的特征工程
- 模型堆疊與k-均值特征化
- 圖像特征提。喝斯ぬ崛∨c深度學(xué)習(xí)
愛(ài)麗絲·鄭(Alice Zheng) 亞馬遜廣告平臺(tái)建模和優(yōu)化團(tuán)隊(duì)負(fù)責(zé)人,應(yīng)用機(jī)器學(xué)習(xí)、生成算法和平臺(tái)開(kāi)發(fā)領(lǐng)域的技術(shù)領(lǐng)dao者,前微軟研究院機(jī)器學(xué)習(xí)研究員。
阿曼達(dá)·卡薩麗(Amanda Casari) 谷歌云開(kāi)發(fā)者關(guān)系工程經(jīng)理,曾是Concur Labs的產(chǎn)品經(jīng)理和數(shù)據(jù)科學(xué)家,在數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、復(fù)雜系統(tǒng)和機(jī)器人等多個(gè)領(lǐng)域都有豐富經(jīng)驗(yàn)。
前言 ix
第 1 章 機(jī)器學(xué)習(xí)流程 1
1.1 數(shù)據(jù) 1
1.2 任務(wù) 1
1.3 模型 2
1.4 特征 3
1.5 模型評(píng)價(jià) 3
第 2 章 簡(jiǎn)單而又奇妙的數(shù)值 4
2.1 標(biāo)量、向量和空間 5
2.2 處理計(jì)數(shù) 7
2.2.1 二值化 7
2.2.2 區(qū)間量化(分箱) 9
2.3 對(duì)數(shù)變換 13
2.3.1 對(duì)數(shù)變換實(shí)戰(zhàn) 16
2.3.2 指數(shù)變換:對(duì)數(shù)變換的推廣 19
2.4 特征縮放/ 歸一化 24
2.4.1 min-max 縮放 24
2.4.2 特征標(biāo)準(zhǔn)化/ 方差縮放 24
2.4.3 2
歸一化 25
2.5 交互特征 28
2.6 特征選擇 30
2.7 小結(jié) 31
2.8 參考文獻(xiàn) 32
第3 章 文本數(shù)據(jù):扁平化、過(guò)濾和分塊 33
3.1 元素袋:將自然文本轉(zhuǎn)換為扁平向量 34
3.1.1 詞袋 34
3.1.2 n 元詞袋 37
3.2 使用過(guò)濾獲取清潔特征 39
3.2.1 停用詞 39
3.2.2 基于頻率的過(guò)濾 40
3.2.3 詞干提取 42
3.3 意義的單位:從單詞、n 元詞到短語(yǔ) 43
3.3.1 解析與分詞 43
3.3.2 通過(guò)搭配提取進(jìn)行短語(yǔ)檢測(cè) 44
3.4 小結(jié) 50
3.5 參考文獻(xiàn) 51
第4 章 特征縮放的效果:從詞袋到tf-idf 52
4.1 tf-idf:詞袋的一種簡(jiǎn)單擴(kuò)展 52
4.2 tf-idf 方法測(cè)試 54
4.2.1 創(chuàng)建分類(lèi)數(shù)據(jù)集 55
4.2.2 使用tf-idf 變換來(lái)縮放詞袋 56
4.2.3 使用邏輯回歸進(jìn)行分類(lèi) 57
4.2.4 使用正則化對(duì)邏輯回歸進(jìn)行調(diào)優(yōu) 58
4.3 深入研究:發(fā)生了什么 62
4.4 小結(jié) 64
4.5 參考文獻(xiàn) 64
第5 章 分類(lèi)變量:自動(dòng)化時(shí)代的數(shù)據(jù)計(jì)數(shù) 65
5.1 分類(lèi)變量的編碼 66
5.1.1 one-hot 編碼 66
5.1.2 虛擬編碼 66
5.1.3 效果編碼 69
5.1.4 各種分類(lèi)變量編碼的優(yōu)缺點(diǎn) 70
5.2 處理大型分類(lèi)變量 70
5.2.1 特征散列化 71
5.2.2 分箱計(jì)數(shù) 73
5.3 小結(jié) 79
5.4 參考文獻(xiàn) 80
第6 章 數(shù)據(jù)降維:使用PCA 擠壓數(shù)據(jù) 82
6.1 直觀理解 82
6.2 數(shù)學(xué)推導(dǎo) 84
6.2.1 線性投影 84
6.2.2 方差和經(jīng)驗(yàn)方差 85
6.2.3 主成分:第 一種表示形式 86
6.2.4 主成分:矩陣- 向量表示形式 86
6.2.5 主成分的通用解 86
6.2.6 特征轉(zhuǎn)換 87
6.2.7 PCA 實(shí)現(xiàn) 87
6.3 PCA 實(shí)戰(zhàn) 88
6.4 白化與ZCA 89
6.5 PCA 的局限性與注意事項(xiàng) 90
6.6 用例 91
6.7 小結(jié) 93
6.8 參考文獻(xiàn) 93
第7 章 非線性特征化與k-均值模型堆疊 94
7.1 k-均值聚類(lèi) 95
7.2 使用聚類(lèi)進(jìn)行曲面拼接 97
7.3 用于分類(lèi)問(wèn)題的k-均值特征化 100
7.4 優(yōu)點(diǎn)、缺點(diǎn)以及陷阱 105
7.5 小結(jié) 107
7.6 參考文獻(xiàn) 107
第8 章 自動(dòng)特征生成:圖像特征提取和深度學(xué)習(xí) 108
8.1 最簡(jiǎn)單的圖像特征(以及它們因何失效) 109
8.2 人工特征提。篠IFT 和HOG 110
8.2.1 圖像梯度 110
8.2.2 梯度方向直方圖 113
8.2.3 SIFT 體系 116
8.3 通過(guò)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像特征 117
8.3.1 全連接層 117
8.3.2 卷積層 118
8.3.3 ReLU 變換 122
8.3.4 響應(yīng)歸一化層 123
8.3.5 池化層 124
8.3.6 AlexNet 的結(jié)構(gòu) 124
8.4 小結(jié) 127
8.5 參考文獻(xiàn) 128
第9 章 回到特征:建立學(xué)術(shù)論文推薦器 129
9.1 基于項(xiàng)目的協(xié)同過(guò)濾 129
9.2 第 一關(guān):數(shù)據(jù)導(dǎo)入、清理和特征解析 130
9.3 第二關(guān):更多特征工程和更智能的模型 136
9.4 第三關(guān):更多特征= 更多信息 141
9.5 小結(jié) 144
9.6 參考文獻(xiàn) 144
附錄A 線性建模與線性代數(shù)基礎(chǔ) 145
A.1 線性分類(lèi)概述 145
A.2 矩陣的解析 147
A.2.1 從向量到子空間 148
A.2.2 奇異值分解(SVD) 150
A.2.3 數(shù)據(jù)矩陣的四個(gè)基本子空間 151
A.3 線性系統(tǒng)求解 153
A.4 參考文獻(xiàn) 155
作者簡(jiǎn)介 156
封面簡(jiǎn)介 156