數(shù)據科學家目前是北美十分熱門的職業(yè)之一,平均年薪突破10萬美元。但數(shù)據科學并不是一個低門檻的行業(yè),除了對數(shù)學、統(tǒng)計、計算機等相關領域的技術要求以外,還要相關應用領域的知識!短茁罚C器學習:北美數(shù)據科學家的私房課》的寫作對象是那些現(xiàn)在從事數(shù)據分析相關行業(yè),或者之后想從事數(shù)據分析行業(yè)的人,意在為實踐者提供數(shù)據科學家這門職業(yè)的相關信息。讀者可以從閱讀中了解到數(shù)據科學能解決的問題,數(shù)據科學家需要的技能,及背后的“分析哲學”。對于新手而言,一開始就直奔艱深的理論,很容易因為困難而失去興趣然后放棄。因此《套路!機器學習:北美數(shù)據科學家的私房課》倡導的是一種循序漸進的啟發(fā)教學路徑,著重在于數(shù)據科學的實際應用,讓讀者能夠重復書中的結果,學習數(shù)據分析技能實際的方式是實踐!為了平衡理論和應用,書中包括了一些選學小節(jié),用來介紹更多的模型數(shù)理背景或給出必要的參考資料來源。抽絲剝繭介紹技術內核,幫助大家知其然,同時知其所以然。希望筆者在北美從事數(shù)據科學工作多年踏遍大大小小不計其數(shù)的坑換來的經驗,能夠幫助讀者更加順利地成為數(shù)據科學家!
亞馬孫資深數(shù)據科學家里面博士、統(tǒng)計之都創(chuàng)始人謝益輝博士搶先品讀
當前關于大數(shù)據、人工智能的炒作著實令人眼花繚亂,如大數(shù)據平臺(如Hadoop、Spark),以及一些黑箱模型,如神經網絡,深度學習(實際上就是多層神經網絡)。各路媒體和“磚家”深諳吃瓜群眾不明覺厲的心態(tài),所以就像個“妓院頭牌“似的越發(fā)擺譜。作者并沒有打算寫一本數(shù)據科學的圣經,告訴你所有關于數(shù)據科學的一切;只想盡可能地給大家還原一個真實的數(shù)據科學和數(shù)據科學家。希望能為后來者提供一些信息,使得讀者們能夠少走彎路。
2013年至今任美國杜邦公司商業(yè)數(shù)據科學家。北京師范大學數(shù)學科學學院本科,愛荷華州立大學統(tǒng)計學院碩士和博士。曾任愛荷華州立大學獸醫(yī)學院統(tǒng)計咨詢師(2009-2013)及商學院分析咨詢師(2012-2013)。當選2017-2018美國統(tǒng)計協(xié)會市場營銷統(tǒng)計項目主席。翻譯出版了《應用預測建模》和《R語言市場研究分析》。
第1章 白話數(shù)據科學 1
1.1 什么是數(shù)據科學 3
1.2 什么是數(shù)據科學家 5
1.2.1 數(shù)據科學家需要的技能 6
1.2.2 數(shù)據科學算法總結 10
1.3 數(shù)據科學可以解決什么問題 20
1.3.1 前提要求 20
1.3.2 問題種類 22
1.4 小結 25
第2章 數(shù)據集 26
2.1 服裝消費者數(shù)據 26
2.2 航空公司滿意度調查 33
2.3 生豬疫情風險預測數(shù)據 37
第3章 數(shù)據分析流程 41
3.1 從問題到數(shù)據 42
3.2 從數(shù)據到信息 44
3.3 從信息到行動 46
第4章 數(shù)據預處理 47
4.1 介紹 47
4.2 數(shù)據清理 50
4.3 缺失值填補 52
4.3.1 中位數(shù)或眾數(shù)填補 53
4.3.2 K-近鄰填補 54
4.3.3 裝袋樹填補 56
4.4 中心化和標量化 56
4.5 有偏分布 59
4.6 處理離群點 63
4.7 共線性 66
4.8 稀疏變量 70
4.9 編碼名義變量 71
4.10 小結 73
第5章 數(shù)據操作 75
5.1 數(shù)據讀寫 76
5.1.1 取代傳統(tǒng)數(shù)據框的tibble對象 76
5.1.2 高效數(shù)據讀寫:readr包 80
5.1.3 數(shù)據表對象讀取 83
5.2 數(shù)據整合 91
5.2.1 base包:apply() 91
5.2.2 plyr包:ddply()函數(shù) 93
5.2.3 dplyr包 96
5.3 數(shù)據整形 102
5.3.1 reshape2包 102
5.3.2 tidyr包 105
5.4 小結 107
第6章 基礎建模技術 109
6.1 有監(jiān)督和無監(jiān)督 109
6.2 誤差及其來源 111
6.2.1 系統(tǒng)誤差和隨機誤差 111
6.2.2 因變量誤差 117
6.2.3 自變量誤差 121
6.3 數(shù)據劃分和再抽樣 122
6.3.1 劃分訓練集和測試集 123
6.3.2 重抽樣 131
6.4 小結 135
第7章 模型評估度量 136
7.1 回歸模型評估度量 136
7.2 分類模型評估度量 139
7.2.1 Kappa統(tǒng)計量 141
7.2.2 ROC曲線 143
7.2.3 提升圖 145
7.3 小結 146
第8章 特征工程 148
8.1 特征構建 149
8.2 特征提取 152
8.2.1 初步探索特征 153
8.2.2 主成分分析 158
8.2.3 探索性因子分析 163
8.2.4 高維標度化 167
8.2.5 知識擴展:3種降維特征提取方法的理論 171
8.3 特征選擇 177
8.3.1 過濾法 178
8.3.2 繞封法 188
8.4 小結 195
第9章 線性回歸及其衍生 196
9.1 普通線性回歸 197
9.1.1 最小二乘線性模型 197
9.1.2 回歸診斷 201
9.1.3 離群點、高杠桿點和強影響點 204
9.2 收縮方法 205
9.2.1 嶺回歸 205
9.2.2 Lasso 209
9.2.3 彈性網絡 212
9.3 知識擴展:LASSO的變量選擇功能 213
9.4 主成分和偏最小二乘回歸 215
9.5 小結 221
第10章 廣義線性模型壓縮方法 222
10.1 初識GLMNET 223
10.2 收縮線性回歸 227
10.3 邏輯回歸 235
10.3.1 普通邏輯回歸 235
10.3.2 收縮邏輯回歸 236
10.3.3 知識擴展:群組lasso邏輯回歸 239
10.4 收縮多項回歸 243
10.5 泊松收縮回歸 246
10.6 小結 249
第11章 樹模型 250
11.1 分裂準則 252
11.2 樹的修剪 256
11.3 回歸樹和決策樹 260
11.4 裝袋樹 268
11.5 隨機森林 273
11.6 助推法 277
11.7 知識擴展:助推法的可加模型框架 283
11.8 知識擴展:助推樹的數(shù)學框架 286
11.8.1 數(shù)學表達 286
11.8.2 梯度助推數(shù)值優(yōu)化 289
11.9 小結 290
第12章 神經網絡 292
12.1 投影尋蹤回歸(PROJECTION PURSUIT REGRESSION) 293
12.2 神經網絡(NEURAL NETWORKS) 296
12.3 神經網絡擬合 299
12.4 訓練神經網絡 300
12.5 用CARET包訓練神經網絡 302
12.6 小結 311
參考文獻 312