機(jī)器學(xué)習(xí)基礎(chǔ):從入門(mén)到求職
定 價(jià):89 元
- 作者:胡歡武
- 出版時(shí)間:2019/3/1
- ISBN:9787121355219
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP181
- 頁(yè)碼:384
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)是一本機(jī)器學(xué)習(xí)算法方面的理論+實(shí)踐讀物,主要包含機(jī)器學(xué)習(xí)基礎(chǔ)理論、回歸模型、分類(lèi)模型、聚類(lèi)模型、降維模型和深度學(xué)習(xí)模型六大部分。機(jī)器學(xué)習(xí)基礎(chǔ)理論部分包含第1、2章,主要介紹機(jī)器學(xué)習(xí)的理論基礎(chǔ)和工程實(shí)踐基礎(chǔ)。第3章是回歸模型部分,主要包括模型的建立、學(xué)習(xí)策略的確定和優(yōu)化算法的求解過(guò)程,最后結(jié)合三種常見(jiàn)的線(xiàn)性回歸模型實(shí)現(xiàn)了一個(gè)房?jī)r(jià)預(yù)測(cè)的案例。第4至11章詳細(xì)介紹了幾種常見(jiàn)的分類(lèi)模型,包括樸素貝葉斯模型、K近鄰模型、決策樹(shù)模型、Logistic回歸模型、支持向量機(jī)模型、隨機(jī)森林模型、AdaBoost模型和提升樹(shù)模型,每一個(gè)模型都給出了較為詳細(xì)的推導(dǎo)過(guò)程和實(shí)際應(yīng)用案例。第12章系統(tǒng)介紹了五種常見(jiàn)的聚類(lèi)模型,包括K-Means聚類(lèi)、層次聚類(lèi)、密度聚類(lèi)、譜聚類(lèi)和高斯混合聚類(lèi),每一個(gè)模型的原理、優(yōu)缺點(diǎn)和工程應(yīng)用實(shí)踐都給出了較為詳細(xì)的說(shuō)明。第13章系統(tǒng)介紹了四種常用的降維方式,包括奇異值分解、主成分分析、線(xiàn)性判別分析和局部線(xiàn)性嵌入,同樣給出了詳細(xì)的理論推導(dǎo)和分析。最后兩章分別是詞向量模型和深度神經(jīng)網(wǎng)絡(luò)模型,其中,詞向量模型詳細(xì)介紹了Word2Vec和Doc2Vec模型的原理推導(dǎo)和應(yīng)用;深度神經(jīng)網(wǎng)絡(luò)模型系統(tǒng)介紹了深度學(xué)習(xí)相關(guān)的各類(lèi)基礎(chǔ)知識(shí)。本書(shū)適合對(duì)人工智能和機(jī)器學(xué)習(xí)感興趣的學(xué)生、求職者和已工作人士,以及想要使用機(jī)器學(xué)習(xí)這一工具的跨行業(yè)者(有最基本的高等數(shù)學(xué)、線(xiàn)性代數(shù)、概率基礎(chǔ)即可),具體判別方法建議您閱讀本書(shū)的前言。
胡歡武,畢業(yè)于上海交通大學(xué)電子與通信工程專(zhuān)業(yè),研究機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方面近4年。運(yùn)營(yíng)有數(shù)據(jù)科學(xué)方面的知乎專(zhuān)欄和微信公眾號(hào),在過(guò)去3個(gè)月期間累計(jì)關(guān)注者已經(jīng)超過(guò)3000人,F(xiàn)就職于阿里巴巴。
第1章 機(jī)器學(xué)習(xí)概述 1
1.1 機(jī)器學(xué)習(xí)介紹 1
1.1.1 機(jī)器學(xué)習(xí)的特點(diǎn) 1
1.1.2 機(jī)器學(xué)習(xí)的對(duì)象 2
1.1.3 機(jī)器學(xué)習(xí)的應(yīng)用 4
1.2 機(jī)器學(xué)習(xí)分類(lèi) 5
1.2.1 按任務(wù)類(lèi)型分類(lèi) 5
1.2.2 按學(xué)習(xí)方式分類(lèi) 7
1.2.3 生成模型與判別模型 9
1.3 機(jī)器學(xué)習(xí)方法三要素 11
1.3.1 模型 11
1.3.2 策略 13
1.3.3 算法 14
1.3.4 小結(jié) 23
第2章 機(jī)器學(xué)習(xí)工程實(shí)踐 24
2.1 模型評(píng)估指標(biāo) 24
2.1.1 回歸模型的評(píng)估指標(biāo) 24
2.1.2 分類(lèi)模型的評(píng)估指標(biāo) 25
2.1.3 聚類(lèi)模型的評(píng)估指標(biāo) 33
2.1.4 常用距離公式 37
2.2 模型復(fù)雜度度量 40
2.2.1 偏差與方差 40
2.2.2 過(guò)擬合與正則化 42
2.3 特征工程與模型調(diào)優(yōu) 47
2.3.1 數(shù)據(jù)挖掘項(xiàng)目流程 47
2.3.2 特征工程 50
2.3.3 模型選擇與模型調(diào)優(yōu) 57
第3章 線(xiàn)性回歸 63
3.1 問(wèn)題引入 63
3.2 線(xiàn)性回歸模型 64
3.2.1 模型建立 64
3.2.2 策略確定 65
3.2.3 算法求解 66
3.2.4 線(xiàn)性回歸模型流程 67
3.3 線(xiàn)性回歸的scikit-learn實(shí)現(xiàn) 67
3.3.1 普通線(xiàn)性回歸 68
3.3.2 Lasso回歸 69
3.3.3 嶺回歸 70
3.3.4 ElasticNet回歸 71
3.4 線(xiàn)性回歸實(shí)例 73
3.5 小結(jié) 75
第4章 樸素貝葉斯 77
4.1 概述 77
4.2 相關(guān)原理 77
4.2.1 樸素貝葉斯基本原理 77
4.2.2 原理的進(jìn)一步闡述 79
4.2.3 后驗(yàn)概率最大化的含義 82
4.2.4 拉普拉斯平滑 83
4.3 樸素貝葉斯的三種形式及scikit-learn實(shí)現(xiàn) 84
4.3.1 高斯型 84
4.3.2 多項(xiàng)式型 85
4.3.3 伯努利型 86
4.4 中文文本分類(lèi)項(xiàng)目 87
4.4.1 項(xiàng)目簡(jiǎn)介 87
4.4.2 項(xiàng)目過(guò)程 87
4.4.3 完整程序?qū)崿F(xiàn) 94
4.5 小結(jié) 100
第5章 K近鄰 102
5.1 概述 102
5.2 K近鄰分類(lèi)原理 102
5.2.1 K值的選擇 103
5.2.2 距離度量 103
5.2.3 分類(lèi)決策規(guī)則 104
5.2.4 K近鄰分類(lèi)算法過(guò)程 105
5.3 K近鄰回歸原理 106
5.3.1 回歸決策規(guī)則 106
5.3.2 K近鄰回歸算法過(guò)程 106
5.4 搜索優(yōu)化——KD樹(shù) 107
5.4.1 構(gòu)造KD樹(shù) 107
5.4.2 搜索KD樹(shù) 108
5.5 K近鄰的scikit-learn實(shí)現(xiàn) 110
5.5.1 K近鄰分類(lèi) 110
5.5.2 K近鄰回歸 112
5.6 K近鄰應(yīng)用實(shí)例 112
5.7 小結(jié) 115
第6章 決策樹(shù) 117
6.1 概述 117
6.2 特征選擇 119
6.2.1 信息增益 119
6.2.2 信息增益比 122
6.2.3 基尼指數(shù) 123
6.3 決策樹(shù)生成 124
6.3.1 ID3決策樹(shù) 124
6.3.2 C4.5決策樹(shù) 125
6.3.3 CART決策樹(shù) 126
6.4 決策樹(shù)剪枝 131
6.5 決策樹(shù)的scikit-learn實(shí)現(xiàn) 133
6.6 決策樹(shù)應(yīng)用于文本分類(lèi) 135
6.7 小結(jié) 138
第7章 Logistic回歸 140
7.1 Logistic回歸概述 140
7.2 Logistic回歸原理 140
7.2.1 Logistic回歸模型 140
7.2.2 Logistic回歸學(xué)習(xí)策略 141
7.2.3 Logistic回歸優(yōu)化算法 142
7.3 多項(xiàng)Logistic回歸 144
7.4 Logistic回歸的scikit-learn實(shí)現(xiàn) 144
7.5 Logistic回歸實(shí)例 146
7.6 小結(jié) 153
第8章 支持向量機(jī) 155
8.1 感知機(jī) 155
8.1.1 感知機(jī)模型 155
8.1.2 感知機(jī)學(xué)習(xí)策略 157
8.1.3 感知機(jī)優(yōu)化算法 159
8.1.4 感知機(jī)模型整體流程 159
8.1.5 小結(jié) 160
8.2 硬間隔支持向量機(jī) 160
8.2.1 引入 160
8.2.2 推導(dǎo) 161
8.3 軟間隔支持向量機(jī) 169
8.4 合頁(yè)損失函數(shù) 176
8.5 非線(xiàn)性支持向量機(jī) 177
8.6 SVM的scikit-learn實(shí)現(xiàn) 180
8.6.1 線(xiàn)性SVM 180
8.6.2 非線(xiàn)性SVM 181
8.7 SVM實(shí)例 182
8.8 小結(jié) 184
第9章 隨機(jī)森林 186
9.1 Bagging 186
9.2 隨機(jī)森林概念 188
9.3 RF的推廣——extra trees 188
9.4 RF的scikit-learn實(shí)現(xiàn) 189
9.5 RF的scikit-learn使用實(shí)例 192
9.5.1 程序 193
9.5.2 結(jié)果及分析 195
9.5.3 擴(kuò)展 198
9.6 小結(jié) 200
第10章 AdaBoost 202
10.1 AdaBoost的結(jié)構(gòu) 202
10.1.1 AdaBoost的工作過(guò)程 203
10.1.2 AdaBoost多分類(lèi)問(wèn)題 204
10.1.3 AdaBoost回歸問(wèn)題 208
10.2 AdaBoost的原理 210
10.3 AdaBoost的scikit-learn實(shí)現(xiàn) 212
10.4 AdaBoost應(yīng)用實(shí)例 214
10.5 AdaBoost模型的優(yōu)缺點(diǎn) 217
第11章 提升樹(shù) 218
11.1 提升樹(shù)的定義 218
11.2 梯度提升樹(shù) 223
11.2.1 梯度提升樹(shù)的原理推導(dǎo) 224
11.2.2 GBDT和GBRT模型的處理過(guò)程 226
11.2.3 梯度提升模型的scikit-learn實(shí)現(xiàn) 227
11.2.4 梯度提升模型的scikit-learn使用實(shí)例 230
11.2.5 GBDT模型的優(yōu)缺點(diǎn) 236
11.3 XGBoost 236
11.3.1 XGBoost的原理 236
11.3.2 XGBoost調(diào)參 239
11.3.3 XGBoost與GBDT的比較 241
第12章 聚類(lèi) 243
12.1 聚類(lèi)問(wèn)題介紹 243
12.2 K-Means聚類(lèi) 244
12.2.1 K-Means聚類(lèi)過(guò)程和原理 244
12.2.2 K-Means算法優(yōu)化 247
12.2.3 小結(jié) 248
12.2.4 K-Means應(yīng)用實(shí)例 248
12.3 層次聚類(lèi) 252
12.3.1 層次聚類(lèi)的過(guò)程和原理 252
12.3.2 小結(jié) 254
12.3.3 層次聚類(lèi)應(yīng)用實(shí)例 254
12.4 密度聚類(lèi)算法 256
12.4.1 密度聚類(lèi)算法過(guò)程和原理 256
12.4.2 密度聚類(lèi)小結(jié) 258
12.4.3 密度聚類(lèi)應(yīng)用實(shí)例 259
12.5 譜聚類(lèi) 262
12.5.1 譜聚類(lèi)的過(guò)程和原理 262
12.5.2 譜聚類(lèi)小結(jié) 269
12.5.3 譜聚類(lèi)應(yīng)用實(shí)例 270
12.6 高斯混合模型 272
12.6.1 高斯混合聚類(lèi)過(guò)程和原理 272
12.6.2 EM算法 274
12.6.3 小結(jié) 279
12.6.4 GMM應(yīng)用實(shí)例 279
第13章 降維 282
13.1 奇異值分解 282
13.1.1 矩陣的特征分解 282
13.1.2 奇異值分解 283
13.2 主成分分析 286
13.2.1 PCA原理推導(dǎo) 287
13.2.2 核化PCA 293
13.2.3 PCA/KPCA的scikit-learn實(shí)現(xiàn) 293
13.3 線(xiàn)性判別分析 300
13.3.1 LDA原理推導(dǎo) 300
13.3.2 LDA與PCA的比較 305
13.3.3 LDA應(yīng)用實(shí)例 306
13.4 局部線(xiàn)性嵌入 309
13.4.1 局部線(xiàn)性嵌入介紹 309
13.4.2 局部線(xiàn)性嵌入過(guò)程和原理 309
13.4.3 LLE應(yīng)用實(shí)例 314
第14章 Word2Vec和Doc2Vec詞向量模型 317
14.1 Word2Vec 317
14.1.1 Word2Vec概述 317
14.1.2 基于Hierarchical Softmax方法的CBOW模型 318
14.1.3 基于Hierarchical Softmax方法的Skip-Gram模型 322
14.1.4 基于Negative Sampling方法的CBOW模型 323
14.1.5 基于Negative Sampling方法的Skip-Gram模型 326
14.1.6 Word2Vec應(yīng)用實(shí)例 327
14.2 Doc2Vec模型 329
14.2.1 Doc2Vec模型原理 329
14.2.2 Doc2Vec應(yīng)用實(shí)例 331
第15章 深度神經(jīng)網(wǎng)絡(luò) 335
15.1 深度學(xué)習(xí) 335
15.1.1 概述 335
15.1.2 深度學(xué)習(xí)發(fā)展歷史 336
15.2 神經(jīng)網(wǎng)絡(luò)原理 341
15.2.1 前向傳播 341
15.2.2 反向傳播 343
15.2.3 實(shí)例 347
15.2.4 幾種常用激活函數(shù) 354
15.2.5 梯度消失與梯度爆炸 357
15.2.6 幾種常用的優(yōu)化算法 358
15.3 神經(jīng)網(wǎng)絡(luò)應(yīng)用實(shí)例 363
15.4 小結(jié) 366