本書內(nèi)容分為數(shù)據(jù)挖掘理論和數(shù)據(jù)挖掘?qū)嵺`兩部分。數(shù)據(jù)挖掘理論部分主要包括數(shù)據(jù)挖掘的基本概念、數(shù)據(jù)預(yù)處理、聚類分析、分類與回歸、關(guān)聯(lián)規(guī)則挖掘及離群點(diǎn)檢測(cè)。數(shù)據(jù)挖掘?qū)嵺`部分討論數(shù)據(jù)挖掘在文本挖掘和金融領(lǐng)域中的應(yīng)用,通過虛假新聞檢測(cè)和社交平臺(tái)情緒分析等案例,展示數(shù)據(jù)挖掘在文本挖掘方面的應(yīng)用;通過潛在貸款客戶挖掘、貸款違約等案例展示數(shù)據(jù)挖掘在金融領(lǐng)域的應(yīng)用。 本書可作為高等學(xué)校計(jì)算機(jī)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)、電子商務(wù)、信息科學(xué)等相關(guān)專業(yè)的教材或參考書,也可供從事數(shù)據(jù)挖掘研究的科研、技術(shù)人員參考。
蔣盛益,教授、博士,碩士生導(dǎo)師;廣東省"千百十"工程省級(jí)培養(yǎng)對(duì)象,廣東外語外貿(mào)大學(xué)教學(xué)名師。中國計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員,中國計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)專委會(huì)委員,中國中文信息學(xué)會(huì)計(jì)算語言學(xué)專業(yè)委員會(huì)委員、社會(huì)媒體處理專委會(huì)委員,人工智能學(xué)會(huì)機(jī)器學(xué)習(xí)專委會(huì)委員,廣東省計(jì)算機(jī)學(xué)會(huì)常務(wù)理事;廣州市計(jì)算機(jī)學(xué)會(huì)常務(wù)理事;第十、十一屆廣東省政協(xié)委員。先后在湖南師范大學(xué)、中南工業(yè)大學(xué)、華中科技大學(xué)畢業(yè),分別獲理學(xué)學(xué)士學(xué)位、理學(xué)碩士學(xué)位、工學(xué)博士學(xué)位。目前重點(diǎn)研究方向是利用自然語言處理、社會(huì)網(wǎng)絡(luò)分析技術(shù)來處理網(wǎng)絡(luò)新聞和社交媒體中的數(shù)據(jù),包括新聞?dòng)^點(diǎn)自動(dòng)提取、對(duì)特定事件的立場(chǎng)(支持還是反對(duì))分析、輿情傳播模式研究、用戶影響力分析等。應(yīng)用背景包括國內(nèi)外輿情分析、海上絲綢之路的情報(bào)分析。
目 錄
上篇 理論篇
第1章 緒論 2
1.1 數(shù)據(jù)挖掘技術(shù)使用背景 4
1.2 數(shù)據(jù)挖掘任務(wù)及過程 5
1.2.1 數(shù)據(jù)挖掘定義 5
1.2.2 數(shù)據(jù)挖掘任務(wù) 5
1.2.3 數(shù)據(jù)挖掘過程 7
1.2.4 數(shù)據(jù)挖掘?qū)ο?8
1.2.5 數(shù)據(jù)挖掘工具及其選擇 13
1.3 數(shù)據(jù)挖掘應(yīng)用 13
1.3.1 數(shù)據(jù)挖掘在計(jì)算機(jī)領(lǐng)域中的應(yīng)用 14
1.3.2 數(shù)據(jù)挖掘在商業(yè)領(lǐng)域中的應(yīng)用 15
1.3.3 數(shù)據(jù)挖掘在其他領(lǐng)域中的應(yīng)用 16
1.3.4 數(shù)據(jù)挖掘技術(shù)的前景 17
1.4 數(shù)據(jù)挖掘與隱私保護(hù) 18
本章小結(jié) 20
習(xí)題1 20
第2章 數(shù)據(jù)處理基礎(chǔ) 23
2.1 數(shù)據(jù) 24
2.1.1 數(shù)據(jù)及數(shù)據(jù)類型 24
2.1.2 數(shù)據(jù)集的類型 25
2.2 數(shù)據(jù)探索 27
2.2.1 描述性統(tǒng)計(jì)分析 27
2.2.2 數(shù)據(jù)可視化 30
2.2.3 辛普森悖論 34
2.3 數(shù)據(jù)預(yù)處理 37
2.3.1 數(shù)據(jù)清理 38
2.3.2 數(shù)據(jù)集成 41
2.3.3 特征變換 41
2.3.4 數(shù)據(jù)歸約 48
2.4 相似性度量 55
2.4.1 屬性之間的相似性度量 56
2.4.2 對(duì)象之間的相似性度量 57
本章小結(jié) 60
習(xí)題2 61
第3章 分類和回歸 65
3.1 分類概述 66
3.2 決策樹分類方法 67
3.2.1 決策樹的基本概念 67
3.2.2 構(gòu)建決策樹的要素 68
3.2.3 Hunt算法 73
3.2.4 C4.5算法 74
3.2.5 CART算法 79
3.2.6 決策樹算法的特點(diǎn) 90
3.3 貝葉斯分類方法 90
3.3.1 貝葉斯定理 91
3.3.2 樸素貝葉斯分類算法 92
3.3.3 貝葉斯信念網(wǎng)絡(luò) 96
3.4 k-最近鄰分類方法 97
3.4.1 k-最近鄰分類的基本問題 98
3.4.2 k-最近鄰分類算法描述 98
3.4.3 k-最近鄰分類算法的優(yōu)缺點(diǎn) 100
3.5 神經(jīng)網(wǎng)絡(luò)分類方法 100
3.5.1 人工神經(jīng)網(wǎng)絡(luò)的基本概念 100
3.5.2 典型神經(jīng)網(wǎng)絡(luò)模型介紹 102
3.5.3 神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 103
3.5.4 深度網(wǎng)絡(luò)和深度學(xué)習(xí)算法 104
3.6 支持向量機(jī) 105
3.7 集成分類方法 107
3.8 分類問題拓展 113
3.8.1 不平衡分類問題 113
3.8.2 半監(jiān)督學(xué)習(xí) 115
3.8.3 單類分類 115
3.8.4 多標(biāo)簽分類 115
3.8.5 層次分類 115
3.9 分類模型的評(píng)價(jià) 116
3.9.1 分類模型性能評(píng)價(jià)指標(biāo) 116
3.9.2 分類模型的過度擬合 117
3.9.3 評(píng)估分類模型性能的方法 117
3.10 綜合案例:信用風(fēng)險(xiǎn)分析 118
3.11 回歸分析 121
3.11.1 多元線性回歸模型 122
3.11.2 非線性回歸 125
3.11.3 邏輯回歸 127
本章小結(jié) 131
習(xí)題3 131
第4章 聚類分析 137
4.1 聚類分析概述 138
4.2 k-means算法及其改進(jìn) 141
4.2.1 基本k-means算法 141
4.2.2 k-means聚類算法的拓展 145
4.3 層次聚類算法 150
4.3.1 二分k-means算法 151
4.3.2 BIRCH算法 152
4.3.3 CURE算法 154
4.3.4 ROCK算法 155
4.4 基于密度的聚類算法 157
4.5 基于圖的聚類算法 160
4.5.1 Chameleon聚類算法 160
4.5.2 基于SNN的聚類算法 165
4.6 一趟聚類算法 167
4.6.1 閾值選擇 167
4.6.2 算法應(yīng)用 171
4.7 基于模型的聚類算法 172
4.7.1 期望最大化方法 172
4.7.2 概念聚類 172
4.7.3 SOM方法 174
4.8 聚類算法評(píng)價(jià) 176
4.9 綜合案例:航空公司客戶價(jià)值分析 178
本章小結(jié) 184
習(xí)題4 184
第5章 關(guān)聯(lián)分析 187
5.1 關(guān)聯(lián)分析概述 188
5.2 關(guān)聯(lián)規(guī)則分析基礎(chǔ) 188
5.2.1 基本概念 188
5.2.2 基礎(chǔ)分析方法 190
5.3 Apriori算法 192
5.3.1 Apriori性質(zhì) 192
5.3.2 產(chǎn)生頻繁項(xiàng)集 193
5.3.3 頻繁項(xiàng)集構(gòu)造示例 194
5.3.4 產(chǎn)生關(guān)聯(lián)規(guī)則 195
5.3.5 規(guī)則的評(píng)估標(biāo)準(zhǔn) 198
5.3.6 Apriori算法評(píng)價(jià) 201
5.4 FP-Growth算法 201
5.4.1 FP-tree表示法 201
5.4.2 構(gòu)建FP-tree 202
5.4.3 發(fā)現(xiàn)頻繁項(xiàng)集 204
5.5 關(guān)聯(lián)規(guī)則擴(kuò)展 205
5.5.1 關(guān)聯(lián)規(guī)則分類 205
5.5.2 多層次關(guān)聯(lián)規(guī)則 206
5.5.3 多維度關(guān)聯(lián)規(guī)則 207
5.5.4 定量關(guān)聯(lián)規(guī)則 208
5.5.5 基于約束的關(guān)聯(lián)規(guī)則 208
5.5.6 序列模式挖掘 208
5.6 綜合案例:移動(dòng)業(yè)務(wù)關(guān)聯(lián)分析 209
5.6.1 數(shù)據(jù)準(zhǔn)備 209
5.6.2 數(shù)據(jù)預(yù)處理 209
5.6.3 關(guān)聯(lián)規(guī)則挖掘過程 211
5.6.4 規(guī)則的優(yōu)化 214
5.6.5 模型的應(yīng)用 215
本章小結(jié) 216
習(xí)題5 216
第6章 離群點(diǎn)挖掘 220
6.1 離群點(diǎn)挖掘概述 221
6.2 基于統(tǒng)計(jì)的方法 222
6.3 基于距離的方法 224
6.4 基于相對(duì)密度的方法 226
6.5 基于聚類的方法 231
6.5.1 基于對(duì)象的離群因子方法 231
6.5.2 基于簇的離群因子方法 234
6.5.3 基于聚類的動(dòng)態(tài)數(shù)據(jù)離群點(diǎn)檢測(cè)方法 236
6.6 離群點(diǎn)挖掘方法的評(píng)估 237
6.7 綜合案例 237
6.7.1 離群點(diǎn)檢測(cè)在癌癥診斷中的應(yīng)用 237
6.7.2 離群點(diǎn)檢測(cè)在網(wǎng)絡(luò)入侵檢測(cè)中的應(yīng)用 239
本章小結(jié) 242
習(xí)題6 242
下篇 實(shí)踐篇
第7章 文本挖掘 246
7.1 文本挖掘概述 247
7.1.1 分詞 247
7.1.2 文本表示與詞權(quán)重計(jì)算 250
7.1.3 文本特征選擇 252
7.1.4 文本分類 253
7.1.5 文本聚類 256
7.1.6 文檔自動(dòng)摘要 258
7.1.7 文本情感分析 262
7.1.8 用戶畫像 265
7.2 案例分析 269
7.2.1 虛假新聞檢測(cè)案例 269
7.2.2 社交平臺(tái)情感分類 277
本章小結(jié) 283
第8章 數(shù)據(jù)挖掘的金融應(yīng)用 285
8.1 數(shù)據(jù)挖掘在金融領(lǐng)域中的應(yīng)用概述 287
8.1.1 金融科技 287
8.1.2 金融領(lǐng)域中的數(shù)據(jù)挖掘應(yīng)用 289
8.2 銀行潛在貸款客戶挖掘 295
8.2.1 業(yè)務(wù)理解 295
8.2.2 數(shù)據(jù)理解與數(shù)據(jù)準(zhǔn)備 296
8.2.3 模型構(gòu)建與評(píng)估 299
8.3 貸款違約 301
本章小結(jié) 305
附錄A 數(shù)據(jù)挖掘常用資源列表 307
參考文獻(xiàn) 308