本書以Python機器學習常用技術(shù)與真實案例相結(jié)合的方式,深入淺出地介紹了Python機器學習應用的主要內(nèi)容。全書共11章,分別介紹了機器學習概述、數(shù)據(jù)準備、特征工程、有監(jiān)督學習、無監(jiān)督學習、智能推薦的相關(guān)知識,并介紹了市財政收入分析案例、基于非侵入式電力負荷監(jiān)測與分解的電力分析案例、航空公司客戶價值分析案例、廣電大數(shù)據(jù)營銷推薦案例以及基于TipDM數(shù)據(jù)挖掘建模平臺實現(xiàn)航空公司客戶價值分析案例。每章都包含了課后習題,幫助讀者鞏固所學的內(nèi)容。
本書可以作為高校數(shù)據(jù)科學或人工智能的相關(guān)專業(yè)教材,也可以作為機器學習愛好者的自學用書。
1.將Python基礎與機器學習常用編程庫精煉整合,幫助零基礎讀者更快地學會使用Python進行機器學習。
2.以實現(xiàn)機器學習流程的各個步驟為導向,介紹了如何從零開始構(gòu)建機器學習應用所需的必備技能
3.設計思路以應用為導向,讓讀者明確如何利用所學知識來解決問題,通過課后練習鞏固所學知識,使讀者真正理解并能夠應用所學知識
4.提供PPT課件、教學大綱、教學進度表等教學資源
何偉,閩江學院,男,中共黨員,1982年出生,工學博士,副教授,碩士生導師,閩都學者拔尖人才,香港理工訪問學者,入選福建省高校杰出青年科研人才培育計劃。
主要研究領域:智能系統(tǒng)與信息融合、船海裝備與新能源。近三年,承擔了《系統(tǒng)工程》、《大數(shù)據(jù)分析與應用》《智能交通系統(tǒng)創(chuàng)新》、《物流技術(shù)與設備》等課程教學任務,先后在國內(nèi)外發(fā)表學術(shù)論文30余篇,其中SCI、EI等檢索收錄論文20余篇;主持和參與國家自然科學基金、省自然科學基金項目等省部級以上項目十余項;獲得福建省教學成果特等獎、福建省科技進步二等獎、中國航海學會科學技術(shù)一等獎等多項省部級獎項,F(xiàn)兼任福建省創(chuàng)新創(chuàng)業(yè)創(chuàng)造教育指導委員會委員,中國智能交通協(xié)會水路交通專業(yè)委員會委員,福建省船舶與海洋工程學會委員。
張良均 高級信息系統(tǒng)項目管理師,泰迪杯全國大學生數(shù)據(jù)挖掘競賽的發(fā)起人。華南師范大學、廣東工業(yè)大學兼職教授,廣東省工業(yè)與應用數(shù)學學會理事。兼有大型高科技企業(yè)和高校的工作經(jīng)歷,主要從事大數(shù)據(jù)挖掘及其應用的策劃、研發(fā)及咨詢培訓。全國計算機技術(shù)與軟件專業(yè)技術(shù)資格(水平)考試繼續(xù)教育和CDA數(shù)據(jù)分析師培訓講師。發(fā)表數(shù)據(jù)挖掘相關(guān)論文數(shù)二十余篇,已取得國家發(fā)明專利12項,主編圖書《神經(jīng)網(wǎng)絡實用教程》、《數(shù)據(jù)挖掘:實用案例分析》、《MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》等9本暢銷圖書,主持并完成科技項目9項。獲得SAS、SPSS數(shù)據(jù)挖掘認證及Hadoop開發(fā)工程師證書,具有電力、電信、銀行、制造企業(yè)、電子商務和電子政務的項目經(jīng)驗和行業(yè)背景。
第 1章 機器學習概述 1
1.1 機器學習簡介 1
1.1.1 機器學習的概念 1
1.1.2 機器學習的應用領域 1
1.2 機器學習通用流程 3
1.2.1 目標分析 4
1.2.2 數(shù)據(jù)準備 5
1.2.3 特征工程 6
1.2.4 模型訓練 7
1.2.5 性能度量與模型調(diào)優(yōu) 7
1.3 Python機器學習工具庫簡介 7
1.3.1 數(shù)據(jù)準備相關(guān)工具庫 8
1.3.2 數(shù)據(jù)可視化相關(guān)工具庫 8
1.3.3 模型訓練與評估相關(guān)工具庫 9
小結(jié) 10
課后習題 10
第 2章 數(shù)據(jù)準備 13
2.1 數(shù)據(jù)質(zhì)量校驗 13
2.1.1 一致性校驗 13
2.1.2 缺失值校驗 16
2.1.3 異常值分析 17
2.2 數(shù)據(jù)分布與趨勢探查 18
2.2.1 分布分析 18
2.2.2 對比分析 22
2.2.3 描述性統(tǒng)計分析 26
2.2.4 周期性分析 28
2.2.5 貢獻度分析 30
2.2.6 相關(guān)性分析 31
2.3 數(shù)據(jù)清洗 35
2.3.1 缺失值處理 35
2.3.2 異常值處理 39
2.4 數(shù)據(jù)合并 39
2.4.1 數(shù)據(jù)堆疊 40
2.4.2 主鍵合并 43
小結(jié) 45
課后習題 45
第3章 特征工程 48
3.1 特征變換 48
3.1.1 特征縮放 48
3.1.2 獨熱編碼 52
3.1.3 離散化 53
3.2 特征選擇 56
3.2.1 過濾式選擇 57
3.2.2 包裹式選擇 58
3.2.3 嵌入式選擇 58
3.2.4 字典學習 59
小結(jié) 64
課后習題 64
第4章 有監(jiān)督學習 67
4.1 有監(jiān)督學習簡介 67
4.2 性能度量 67
4.2.1 分類任務性能度量 68
4.2.2 回歸任務性能度量 70
4.3 線性模型 70
4.3.1 線性模型簡介 70
4.3.2 線性回歸 70
4.3.3 邏輯回歸 73
4.4 k近鄰分類 76
4.5 決策樹 78
4.5.1 決策樹簡介 78
4.5.2 ID3算法 79
4.5.3 C4.5算法 81
4.5.4 CART算法 84
4.6 支持向量機 86
4.6.1 支持向量機簡介 86
4.6.2 線性支持向量機 87
4.6.3 非線性支持向量機 91
4.7 樸素貝葉斯 94
4.8 神經(jīng)網(wǎng)絡 98
4.8.1 神經(jīng)網(wǎng)絡介紹 98
4.8.2 BP神經(jīng)網(wǎng)絡 99
4.9 集成學習 103
4.9.1 Bagging 104
4.9.2 Boosting 106
4.9.3 Stacking 109
小結(jié) 111
課后習題 111
第5章 無監(jiān)督學習 113
5.1 無監(jiān)督學習簡介 113
5.2 降維 113
5.2.1 PCA 114
5.2.2 核化線性降維 116
5.3 聚類任務 119
5.3.1 性能度量 119
5.3.2 距離計算 120
5.3.3 原型聚類 121
5.3.4 密度聚類 128
5.3.5 層次聚類 131
小結(jié) 133
課后習題 133
第6章 智能推薦 135
6.1 智能推薦簡介 135
6.1.1 什么是推薦系統(tǒng) 135
6.1.2 智能推薦的應用 135
6.2 智能推薦性能度量 137
6.2.1 離線實驗評價指標 137
6.2.2 用戶調(diào)查評價指標 139
6.2.3 在線實驗評價指標 140
6.3 基于關(guān)聯(lián)規(guī)則的智能推薦 140
6.3.1 關(guān)聯(lián)規(guī)則和頻繁項集 140
6.3.2 Apriori 141
6.3.3 FP-Growth 145
6.4 基于協(xié)同過濾的智能推薦 150
6.4.1 基于用戶的協(xié)同過濾 150
6.4.2 基于物品的協(xié)同過濾 153
小結(jié) 157
課后習題 157
第7章 市財政收入分析 160
7.1 目標分析 160
7.1.1 背景 160
7.1.2 數(shù)據(jù)說明 160
7.1.3 分析目標 161
7.2 數(shù)據(jù)準備 162
7.3 特征工程 164
7.3.1 Lasso回歸 164
7.3.2 特征選擇 164
7.4 模型訓練 165
7.4.1 灰色預測模型 165
7.4.2 關(guān)鍵特征預測 166
7.4.3 SVR模型預測 168
7.5 性能度量 169
小結(jié) 171
課后習題 171
第8章 基于非侵入式電力負荷監(jiān)測與分解的電力分析 172
8.1 目標分析 172
8.1.1 背景 172
8.1.2 數(shù)據(jù)說明 173
8.1.3 分析目標 175
8.2 數(shù)據(jù)準備 176
8.2.1 數(shù)據(jù)探索 176
8.2.2 缺失值處理 179
8.3 特征工程 181
8.3.1 設備數(shù)據(jù) 181
8.3.2 周波數(shù)據(jù) 182
8.4 模型訓練 183
8.5 性能度量 185
小結(jié) 189
課后習題 189
第9章 航空公司客戶價值分析 190
9.1 目標分析 190
9.1.1 背景 190
9.1.2 數(shù)據(jù)說明 191
9.1.3 分析目標 192
9.2 數(shù)據(jù)準備 192
9.2.1 數(shù)據(jù)探索 192
9.2.2 數(shù)據(jù)清洗 193
9.3 特征工程 193
9.3.1 特征構(gòu)造 193
9.3.2 特征選擇 195
9.3.3 特征變換 196
9.4 模型訓練 198
9.5 性能度量 199
9.5.1 結(jié)果分析 199
9.5.2 客戶價值分析 201
小結(jié) 202
課后習題 202
第 10章 廣電大數(shù)據(jù)營銷推薦 205
10.1 目標分析 205
10.1.1 背景 205
10.1.2 數(shù)據(jù)說明 206
10.1.3 分析目標 208
10.2 數(shù)據(jù)準備 209
10.2.1 數(shù)據(jù)獲取 209
10.2.2 數(shù)據(jù)清洗 209
10.2.3 數(shù)據(jù)探索分析 216
10.3 特征工程 222
10.3.1 特征構(gòu)造 222
10.3.2 節(jié)目信息的獲取 244
10.4 模型構(gòu)建 247
10.4.1 基于物品的協(xié)同過濾算法的推薦模型 248
10.4.2 基于Simple TagBased TF-IDF算法的標簽推薦模型 250
10.4.3 Popular流行度推薦模型 254
10.5 性能度量 255
10.6 結(jié)果分析 258
小結(jié) 258
課后習題 259
第 11章 基于TipDM數(shù)據(jù)挖掘建模平臺實現(xiàn)航空公司客戶價值分析 260
11.1 平臺簡介 260
11.1.1 首頁 261
11.1.2 數(shù)據(jù)源 261
11.1.3 工程 263
11.1.4 系統(tǒng)組件 263
11.1.5 TipDM數(shù)據(jù)挖掘建模平臺的本地化部署 264
11.2 快速構(gòu)建航空公司客戶價值分析工程 267
11.2.1 數(shù)據(jù)獲取 267
11.2.2 數(shù)據(jù)準備 270
11.2.3 特征工程 273
11.2.4 模型訓練 275
小結(jié) 277
課后習題 277
參考文獻 278