定 價:88 元
叢書名:高級大數(shù)據(jù)人才培養(yǎng)叢書
- 作者:王朝霞
- 出版時間:2023/5/1
- ISBN:9787121455025
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:308
- 紙張:
- 版次:01
- 開本:16開
本書是《數(shù)據(jù)挖掘》的第2版,系統(tǒng)地介紹了數(shù)據(jù)挖掘的理論、方法與應用,包括數(shù)據(jù)特征分析及預處理、經(jīng)典數(shù)據(jù)挖掘算法(分類、回歸、聚類、關(guān)聯(lián)規(guī)則和集成學習等)、大數(shù)據(jù)新常態(tài)下催生的數(shù)據(jù)分析方法(推薦系統(tǒng)、鏈接分析與網(wǎng)頁排序、互聯(lián)網(wǎng)信息抽取、日志挖掘與查詢分析等)理論與方法。在此基礎(chǔ)上,除第1章外,每章均有基于Python語言的實例應用。
劉鵬:教授,清華大學博士,南京云創(chuàng)大數(shù)據(jù)科技股份有限公司總裁,中國大數(shù)據(jù)應用聯(lián)盟人工智能專家委員會主任,中國信息協(xié)會教育分會人工智能教育專家委員會主任,教育部全國普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導委員會委員,第45屆世界技能大賽中國區(qū)云計算選拔賽裁判長/專家指導組組長,2019年全國大學生數(shù)據(jù)建模比賽命題人,工信部云計算研究中心專家。在云計算、大數(shù)據(jù)、人工智能領(lǐng)域具有多年的研究積累,是我國該領(lǐng)域的知名專家。主持科研項目40多項,發(fā)表論文80余篇,出版專業(yè)書籍30多種。曾于2002年獲得全球數(shù)據(jù)處理比賽PennySort的世界冠軍,于2003年奪得全國挑戰(zhàn)杯比賽總冠軍。提出的反垃圾郵件網(wǎng)格,被IEEE Cluster 2003評為杰出網(wǎng)格項目,為解決困擾全球的垃圾郵件問題做出根本貢獻,該技術(shù)成為云安全技術(shù)的基礎(chǔ)。曾擔任全軍網(wǎng)格技術(shù)研究中心主任,獲“全軍十大學習成才標兵”(排名第一)、南京市“十大杰出青年”、“中國大數(shù)據(jù)創(chuàng)新百人”、江蘇省“333工程”中青年領(lǐng)軍人才、清華大學“學術(shù)新秀”等稱號。王朝霞:主要從事大數(shù)據(jù)分析、后勤信息化、軍事物流技術(shù)與裝備研究與教學工作。作為碩士研究生導師,已培養(yǎng)碩士生3名。指導本科畢業(yè)設計20余名。主持國家博士后基金1項、軍隊后勤重點科研項目2項、軍隊雙重建設子項目1項,參與軍隊網(wǎng)信建設重大項目1項、參與軍隊后勤重點科研項目4項。發(fā)表論文50余篇,其中SCI檢索3篇(兩篇1作,一篇通信作者)、EI檢索6篇(四篇1作)。出版教材3本(主編1本)、譯著1本。授權(quán)專利3項、軟件著作權(quán)1項。獲教育部科技進步一等獎1項,省部級優(yōu)秀課題二等獎1項。
第1章 緒論 1
1.1 數(shù)據(jù)挖掘的基本概念 1
1.1.1 數(shù)據(jù)挖掘的概念 1
1.1.2 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘 2
1.1.3 數(shù)據(jù)挖掘的特性 3
1.1.4 數(shù)據(jù)挖掘的任務和功能 3
1.1.5 數(shù)據(jù)挖掘的對象 4
1.1.6 數(shù)據(jù)挖掘的過程 5
1.2 數(shù)據(jù)挖掘的起源及發(fā)展 6
1.3 數(shù)據(jù)挖掘的常用工具 9
1.3.1 商用工具 9
1.3.2 開源工具 10
1.4 數(shù)據(jù)挖掘的應用 12
習題 15
參考文獻 16
第2章 數(shù)據(jù)特征分析及預處理 17
2.1 數(shù)據(jù)類型 17
2.1.1 屬性與度量 17
2.1.2 數(shù)據(jù)集的類型 18
2.2 數(shù)據(jù)特征分析 19
2.2.1 描述數(shù)據(jù)集中趨勢的度量 19
2.2.2 描述數(shù)據(jù)離散程度的度量 21
2.2.3 數(shù)據(jù)相關(guān)性分析 24
2.3 數(shù)據(jù)預處理 28
2.3.1 數(shù)據(jù)清洗 28
2.3.2 數(shù)據(jù)集成 34
2.3.3 數(shù)據(jù)規(guī)范化 34
2.3.4 數(shù)據(jù)規(guī)約 38
2.3.5 數(shù)據(jù)離散化 45
2.4 數(shù)據(jù)的相似性 47
2.4.1 數(shù)值屬性的相似性度量 47
2.4.2 標稱屬性的相似性度量 49
2.4.3 組合異種屬性的相似性度量 50
2.4.4 文本的相似性度量 52
2.4.5 離散序列的相似性度量 53
習題 55
參考文獻 56
第3章 分類 57
3.1 分類概述 58
3.1.1 分類的基本概念 58
3.1.2 分類的過程 58
3.1.3 分類器性能的評估方法 59
3.2 決策樹 61
3.2.1 決策樹的基本概念 62
3.2.2 決策樹的用途和特性 62
3.2.3 決策樹的工作原理 63
3.2.4 決策樹的構(gòu)建步驟 64
3.2.5 決策樹算法原理 65
3.3 貝葉斯分類 76
3.3.1 貝葉斯定理 76
3.3.2 樸素貝葉斯分類 77
3.3.3 貝葉斯分析 80
3.3.4 貝葉斯決策 80
3.3.5 貝葉斯估計 81
3.4 支持向量機 81
3.4.1 支持向量機的主要思想 82
3.4.2 支持向量機的基礎(chǔ)理論 82
3.4.3 支持向量機的原理 87
3.5 實戰(zhàn):Python支持向量機分類 92
習題 95
參考文獻 95
第4章 回歸 98
4.1 回歸的基本概念 99
4.1.1 回歸分析的定義 99
4.1.2 回歸分析的步驟 99
4.1.3 回歸分析要注意的問題 100
4.2 一元回歸分析 100
4.2.1 一元回歸分析的模型設定 100
4.2.2 回歸參數(shù)的最小二乘估計 102
4.2.3 基本假設下OLS估計的統(tǒng)計性質(zhì) 104
4.2.4 誤差方差估計 105
4.2.5 回歸系數(shù)檢驗(t檢驗) 106
4.2.6 擬合優(yōu)度和模型檢驗(F檢驗) 107
4.3 多元線性回歸分析 108
4.3.1 多元線性回歸模型 108
4.3.2 多元線性回歸模型的假定 110
4.3.3 多元線性回歸模型的參數(shù)估計 110
4.3.4 顯著性檢驗 112
4.3.5 回歸變量的選擇與逐步回歸 114
4.4 邏輯回歸分析 116
4.4.1 邏輯回歸模型 116
4.4.2 logit變換 117
4.4.3 估計回歸系數(shù) 118
4.4.4 Logistic分布 118
4.4.5 列聯(lián)表的Logistic回歸模型 119
4.5 其他回歸分析 120
4.5.1 多項式回歸 120
4.5.2 逐步回歸 120
4.5.3 嶺回歸 120
4.5.4 套索回歸 121
4.5.5 彈性網(wǎng)絡 122
4.6 實戰(zhàn):獲得最大有效率時的藥物用量 122
習題 127
參考文獻 128
第5章 聚類 129
5.1 聚類基本概念 129
5.2 劃分聚類方法 131
5.2.1 k-平均算法 132
5.2.2 k-中心點算法 134
5.3 層次聚類方法 137
5.3.1 層次聚類方法的分類 137
5.3.2 BIRCH算法 141
5.4 密度聚類方法 144
5.5 實戰(zhàn):Python聚類分析 147
5.5.1 Python實現(xiàn)k-均值劃分聚類 147
5.5.2 Python實現(xiàn)BIRCH層次聚類 150
5.5.3 Python實現(xiàn)DBSCAN密度聚類 152
習題 153
參考文獻 154
第6章 關(guān)聯(lián)規(guī)則 155
6.1 基本概念 155
6.1.1 啤酒與尿布的經(jīng)典案例 155
6.1.2 關(guān)聯(lián)規(guī)則的概念 155
6.1.3 頻繁項集的產(chǎn)生 159
6.2 Apriori算法:通過限制候選產(chǎn)生發(fā)現(xiàn)頻繁項集 160
6.2.1 Apriori算法的頻繁項集產(chǎn)生 160
6.2.2 Apriori算法描述 162
6.3 FP-growth算法 164
6.3.1 構(gòu)造FP樹 165
6.3.2 挖掘FP樹 167
6.3.3 FP-growth算法 169
6.4 其他關(guān)聯(lián)規(guī)則算法 170
6.4.1 約束性關(guān)聯(lián)規(guī)則 170
6.4.2 增量式關(guān)聯(lián)規(guī)則 171
6.4.3 多層關(guān)聯(lián)規(guī)則 172
6.5 實戰(zhàn):購物籃關(guān)聯(lián)規(guī)則挖掘 174
6.5.1 背景與挖掘目標 174
6.5.2 分析方法與過程 174
6.5.3 總結(jié) 176
習題 177
參考文獻 177
第7章 集成學習 180
7.1 集成學習的概念 180
7.1.1 集成學習的構(gòu)建 180
7.1.2 集成學習的優(yōu)勢 181
7.2 Bagging算法與隨機森林算法 183
7.2.1 Bagging算法基本思想 183
7.2.2 Bagging算法流程 185
7.2.3 隨機森林算法 185
7.3 Boosting算法 187
7.3.1 Boosting算法流程 187
7.3.2 Boosting系列算法 188
7.4 結(jié)合策略 189
7.4.1 投票方法 189
7.4.2 疊加方法 190
7.5 多樣性 190
7.5.1 多樣性的概念 190
7.5.2 多樣性的作用 191
7.5.3 多樣性的度量 192
7.5.4 多樣性的構(gòu)建 195
7.6 實戰(zhàn)案例 196
7.6.1 鳶尾花數(shù)據(jù)集 197
7.6.2 集成學習算法 198
7.6.3 集成學習在鳶尾花數(shù)據(jù)集上的應用 200
7.7 本章小結(jié) 205
習題 205
參考文獻 205
第8章 推薦系統(tǒng) 206
8.1 推薦系統(tǒng)概述 206
8.1.1 什么是推薦系統(tǒng) 206
8.1.2 推薦系統(tǒng)評測指標 207
8.1.3 推薦系統(tǒng)中的冷啟動 210
8.2 基于內(nèi)容的推薦 213
8.2.1 物品表示 214
8.2.2 物品相似度 217
8.2.3 用戶對物品的評分 218
8.2.4 基于向量空間模型的推薦 218
8.3 協(xié)同過濾推薦 222
8.3.1 協(xié)同過濾的基本概念 222
8.3.2 基于用戶的協(xié)同過濾 226
8.3.3 基于物品的協(xié)同過濾 228
8.3.4 隱語義模型和矩陣因子分解模型 230
8.4 基于標簽的推薦 237
8.4.1 數(shù)據(jù)標注與關(guān)鍵詞提取 238
8.4.2 標簽分類 239
8.4.3 基于標簽的推薦系統(tǒng)原理 240
8.5 實戰(zhàn):搭建一個電影推薦系統(tǒng) 243
8.5.1 數(shù)據(jù)準備與導入 243
8.5.2 電影熱度值計算 244
8.5.3 電影相似度計算 244
8.5.4 指定標簽下的電影統(tǒng)計 248
習題 250
參考文獻 250
第9章 互聯(lián)網(wǎng)數(shù)據(jù)挖掘 253
9.1 鏈接分析與網(wǎng)頁排序 253
9.1.1 PageRank 253
9.1.2 PageRank的快速計算 259
9.1.3 面向主題的PageRank 260
9.1.4 時間序列分析 260
9.1.5 排序背后的機理探討 262
9.1.6 重新思考時間序列 263
9.2 互聯(lián)網(wǎng)信息抽取 264
9.2.1 互聯(lián)網(wǎng)信息深度挖掘概述 264
9.2.2 典型應用模型構(gòu)建 264
9.2.3 挖掘、存儲與網(wǎng)絡技術(shù)分析 265
9.2.4 數(shù)據(jù)信息采集管理 266
9.2.5 信息抽取方法與知識發(fā)現(xiàn) 267
9.2.6 智能決策 269
9.2.7 行業(yè)案例研究 270
9.3 日志挖掘與查詢分析 272
9.3.1 互聯(lián)網(wǎng)日志分析概述 272
9.3.2 挖掘分析技術(shù)方法 274
9.3.3 工具比較 275
9.3.4 海量數(shù)據(jù)挖掘過程展現(xiàn)與分析 276
9.3.5 行業(yè)應用舉例 277
9.4 Python實戰(zhàn)案例 280
9.4.1 PageRank Python實現(xiàn) 280
9.4.2 跨境電商運營潛在市場選擇 282
9.4.3 天池“雙11”日志數(shù)據(jù)挖掘示例 286
習題 290
參考文獻 290