特征工程的藝術(shù):通用技巧與實(shí)用案例
定 價(jià):89.8 元
- 作者:[加拿大]巴勃羅·迪布(PabloDuboue)
- 出版時(shí)間:2022/5/1
- ISBN:9787115588418
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):TP181
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:128開(kāi)
特征工程可以修改數(shù)據(jù)特征,更好地捕獲問(wèn)題本質(zhì),從而改進(jìn)結(jié)果。這個(gè)過(guò)程既是一種藝術(shù),也是技巧和訣竅的一種結(jié)合。本書(shū)是一本特征工程實(shí)用指南,主要探討如何利用特征工程提升機(jī)器學(xué)習(xí)解決方案的性能。本書(shū)從特征工程的基本概念和技術(shù)開(kāi)始介紹,建立了一種特殊的跨領(lǐng)域方法,通過(guò)充分研究案例詳細(xì)介紹了圖數(shù)據(jù)、時(shí)間戳數(shù)據(jù)、文本數(shù)據(jù)和圖像數(shù)據(jù)的處理方法,包括分箱、折外估計(jì)、特征選擇、數(shù)據(jù)降維和可變長(zhǎng)度數(shù)據(jù)編碼等重要主題。
為改善機(jī)器學(xué)習(xí)模型的表現(xiàn),你會(huì)花多少時(shí)間修改輸入數(shù)據(jù)的特征?圖靈獎(jiǎng)得主Yoshua Bengio曾說(shuō):“好的輸入特征是機(jī)器學(xué)習(xí)取得成功的基本條件。在產(chǎn)業(yè)化機(jī)器學(xué)習(xí)中,特征工程所占的工作量接近90%!毙薷臄(shù)據(jù)特征以更好地捕獲問(wèn)題的本質(zhì),這是機(jī)器學(xué)習(xí)的重中之重。
沒(méi)有高深的領(lǐng)域知識(shí)能否進(jìn)行高質(zhì)量的特征工程?本書(shū)直面這一充滿(mǎn)爭(zhēng)議的話(huà)題,在不考慮領(lǐng)域知識(shí)的情況下,給出了特征工程的一些通用技巧。此外,本書(shū)還展示了豐富的案例,涵蓋圖數(shù)據(jù)、時(shí)間戳數(shù)據(jù)、文本數(shù)據(jù)和圖像數(shù)據(jù)。你將在學(xué)習(xí)各種技巧和訣竅的過(guò)程中,逐漸領(lǐng)會(huì)特征工程的藝術(shù)。
巴勃羅·迪布(Pablo Duboue)
NLP學(xué)者。2005年博士畢業(yè)于美國(guó)哥倫比亞大學(xué),師從ACL前主席Kathleen McKeown教授,曾是IBM Watson DeepQA團(tuán)隊(duì)成員。2016年創(chuàng)辦NLP技術(shù)公司Textualization。他有豐富的教學(xué)經(jīng)驗(yàn),是世界多所大學(xué)的訪問(wèn)教授。
第 一部分 基礎(chǔ)知識(shí)
第 1章 簡(jiǎn)介 2
1.1 特征工程 4
1.2 模型評(píng)價(jià) 8
1.2.1 度量 8
1.2.2 交叉驗(yàn)證 10
1.2.3 過(guò)擬合 11
1.2.4 維數(shù)災(zāi)難 12
1.3 周期 12
1.3.1 ML周期 13
1.3.2 特征工程周期 15
1.4 分析 17
1.4.1 探索性數(shù)據(jù)分析 17
1.4.2 誤差分析 18
1.5 其他過(guò)程 20
1.5.1 領(lǐng)域建模 20
1.5.2 特征構(gòu)建 22
1.6 討論 24
1.7 擴(kuò)展學(xué)習(xí) 26
第 2章 特征組合:歸一化、離散化和異常值 28
2.1 歸一化特征 29
2.1.1 標(biāo)準(zhǔn)化和去相關(guān)性 31
2.1.2 平滑 33
2.1.3 特征加權(quán) 34
2.2 離散化和分箱 35
2.2.1 無(wú)監(jiān)督離散化 36
2.2.2 監(jiān)督離散化 38
2.3 描述性特征 41
2.3.1 直方圖 41
2.3.2 其他描述性特征 43
2.4 處理異常值 44
2.5 高級(jí)技術(shù) 46
2.6 擴(kuò)展學(xué)習(xí) 47
第3章 特征擴(kuò)展:可計(jì)算特征、填充與核技巧 48
3.1 可計(jì)算特征 49
3.2 填充 54
3.3 復(fù)雜特征分解 57
3.4 核操作特征擴(kuò)展 59
3.5 擴(kuò)展學(xué)習(xí) 62
第4章 特征縮減:特征選擇、降維和嵌入 64
4.1 特征選擇 65
4.1.1 度量 66
4.1.2 組成特征集:搜索與篩選 73
4.1.3 高級(jí)技術(shù) 75
4.2 正則化與嵌入式特征選擇 77
4.2.1 L2 正則化:嶺回歸 78
4.2.2 L1 正則化:LASSO 78
4.2.3 其他使用嵌入式特征選擇的算法 79
4.3 數(shù)據(jù)降維 80
4.3.1 特征哈! 81
4.3.2 隨機(jī)投影 82
4.3.3 奇異值分解 82
4.3.4 隱狄利克雷分配 83
4.3.5 聚類(lèi) 84
4.3.6 其他數(shù)據(jù)降維技術(shù) 85
4.3.7 嵌入 86
4.4 擴(kuò)展學(xué)習(xí) 90
第5章 高級(jí)主題:可變長(zhǎng)度數(shù)據(jù)與自動(dòng)特征工程 91
5.1 可變長(zhǎng)度特征向量 91
5.1.1 集合 91
5.1.2 列表 92
5.1.3 樹(shù) 94
5.1.4 圖 96
5.1.5 時(shí)間序列 97
5.2 基于實(shí)例的特征工程 100
5.3 深度學(xué)習(xí)與特征工程 102
5.4 自動(dòng)特征工程 105
5.4.1 特征學(xué)習(xí) 105
5.4.2 無(wú)監(jiān)督特征工程 108
5.5 擴(kuò)展學(xué)習(xí) 109
第二部分 案例研究
第6章 圖數(shù)據(jù) 113
6.0 本章概述 115
6.1 WikiCities數(shù)據(jù)集 116
6.2 探索性數(shù)據(jù)分析 117
6.3 第 一個(gè)特征集 124
6.4 第二個(gè)特征集 130
6.5 終的特征集 131
6.6 擴(kuò)展學(xué)習(xí) 133
第7章 時(shí)間戳數(shù)據(jù) 134
7.0 本章概述 135
7.1 WikiCities:歷史特征 137
7.2 時(shí)間延遲特征 139
7.2.1 填充時(shí)間戳數(shù)據(jù) 139
7.2.2 第 一次特征化:填充二階延遲數(shù)據(jù) 140
7.2.3 誤差分析 141
7.3 滑動(dòng)窗口 142
7.4 第三次特征化:EMA 143
7.5 使用歷史數(shù)據(jù)進(jìn)行擴(kuò)展 143
7.5.1 第四次特征化:擴(kuò)展的數(shù)據(jù) 144
7.6 時(shí)間序列 145
7.6.1 WikiCountries數(shù)據(jù)集 145
7.6.2 探索性數(shù)據(jù)分析 146
7.6.3 第 一次特征化:無(wú)TS特征 149
7.6.5 使用模型預(yù)測(cè)作為特征 149
7.6.6 討論 150
7.7 擴(kuò)展學(xué)習(xí) 151
第8章 文本數(shù)據(jù) 153
8.0 本章概述 155
8.1 WikiCities:文本 156
8.2 探索性數(shù)據(jù)分析 156
8.3 僅數(shù)值型記號(hào) 159
8.3.1 詞類(lèi)型與記號(hào) 160
8.3.2 分詞:基礎(chǔ)知識(shí) 160
8.3.3 第 一次特征化 161
8.4 詞袋 162
8.4.1 分詞 162
8.4.2 第二次特征化 163
8.5 停用詞和形態(tài)學(xué)特征 165
8.5.1 停用詞 165
8.5.2 分詞:詞干提取 166
8.5.3 第三次特征化 166
8.6 上下文特征 167
8.6.1 二元詞 168
8.6.2 第四次特征化 169
8.7 跳躍二元詞與特征哈希 169
8.7.1 跳躍二元詞 169
8.7.2 第五次特征化 169
8.8 數(shù)據(jù)降維與嵌入 170
8.8.1 嵌入 170
8.8.2 特征加權(quán):TF-IDF 171
8.8.3 第六次特征化 172
8.9 結(jié)束語(yǔ) 172
8.9.1 內(nèi)容擴(kuò)展 174
8.9.2 文本中的結(jié)構(gòu) 174
8.10 擴(kuò)展學(xué)習(xí) 174
第9章 圖像數(shù)據(jù) 175
9.0 本章概述 176
9.1 WikiCities:衛(wèi)星圖像 177
9.2 探索性數(shù)據(jù)分析 178
9.3 像素即特征 179
9.3.1 第 一次特征化 179
9.3.2 可計(jì)算特征:高斯模糊 180
9.3.3 白化 182
9.3.4 對(duì)變動(dòng)的誤差分析 183
9.4 自動(dòng)數(shù)據(jù)集擴(kuò)展 183
9.4.1 仿射變換 184
9.4.2 第二次特征化 184
9.5 描述性特征:直方圖 184
9.6 局部特征檢測(cè)器:角點(diǎn) 185
9.6.1 Harris角點(diǎn)檢測(cè) 186
9.6.2 第四次特征化 186
9.7 數(shù)據(jù)降維:HOG 187
9.8 結(jié)束語(yǔ) 189
9.9 擴(kuò)展學(xué)習(xí) 191
第 10章 其他領(lǐng)域:視頻、GIS和偏好 192
10.1 視頻 193
10.1.1 數(shù)據(jù):屏幕錄制 194
10.1.2 關(guān)鍵幀檢測(cè) 194
10.1.3 目標(biāo)跟蹤:均值漂移 195
10.1.4 擴(kuò)展學(xué)習(xí) 197
10.2 地理特征 197
10.3 偏好 199
10.3.1 數(shù)據(jù):Linux核心代碼提交 200
10.3.2 填充偏好數(shù)據(jù) 201
10.3.3 擴(kuò)展學(xué)習(xí) 202