關于我們
書單推薦
新書推薦
|
數(shù)據(jù)挖掘基礎及其應用
本書全面介紹了數(shù)據(jù)挖掘基礎及其應用,重點闡述了數(shù)據(jù)挖掘經(jīng)典算法、原理及其應用,旨在為讀者提供數(shù)據(jù)挖掘所需的基本知識,使讀者能夠從整體上對數(shù)據(jù)挖掘內(nèi)容與方法有所理解。本書內(nèi)容包含五個主題:數(shù)據(jù)、分類、關聯(lián)規(guī)則、聚類分析及其應用。對于分類、關聯(lián)規(guī)則、聚類分析這三個主題,首先介紹了其基本概念與經(jīng)典算法,在后續(xù)的章節(jié)中闡述了其更高級的主題。
本書可作為高等學校計算機相關專業(yè)的高年級本科生與研究生教材, 也可作為需要理解數(shù)據(jù)挖掘和智能系統(tǒng)的專業(yè)人員的參考書。
大容量存儲設備的出現(xiàn)使得收集海量數(shù)據(jù)成為可能, 也加速了大數(shù)據(jù)時代的到來。高性能計算機為大數(shù)據(jù)的處理、分析和挖掘提供了計算平臺。在國防、政務、氣象、商業(yè)、科研等與人們生產(chǎn)和生活息息相關的各個領域中,數(shù)據(jù)正在以前所未有的速度產(chǎn)生。 大數(shù)據(jù)背后蘊含著巨大的價值, 分析與挖掘這些有價值的規(guī)則與知識對人類的生產(chǎn)和生活具有重要的意義。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關注, 如何從日益增加的數(shù)據(jù)中獲取準確的信息和知識, 并進一步廣泛應用于商務管理、生產(chǎn)控制、市場分析、工程設計和科學探索等方面,是數(shù)據(jù)挖掘的核心。數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫領域研究的熱點問題,旨在從數(shù)據(jù)中提取出隱含的、先前未知的、具有潛在價值的規(guī)律與知識,主要有數(shù)據(jù)處理、模式挖掘和知識表示三個步驟。數(shù)據(jù)處理是從相關的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;模式挖掘是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來; 知識表示是盡可能以用戶可理解的方式(如可視化)將找出的知識表示出來。數(shù)據(jù)挖掘也是一門多學科交叉的研究與應用領域,所涉及的領域包括數(shù)據(jù)庫技術、人工智能、機器學習、統(tǒng)計學、模式識別、高性能計算、信息檢索等。本書主要介紹數(shù)據(jù)挖掘的相關方法與技術,包括數(shù)據(jù)處理、決策樹算法、支持向量機、貝葉斯網(wǎng)絡、頻繁模式樹算法、 K均值算法、層次聚類與密度聚類以及數(shù)據(jù)挖掘在社交網(wǎng)絡與生物網(wǎng)絡中的應用研究等。 本書涵蓋了數(shù)據(jù)挖掘中的主要內(nèi)容,旨在讓讀者對數(shù)據(jù)挖掘的基本任務、算法原理及其應用有全面的認識。
本書廣泛適用于高年級本科生和研究生。由于學習這門課程的學生專業(yè)背景不同,很難達到堅實的統(tǒng)計學、數(shù)學專業(yè)要求,因此本書只要求最低限度的預備知識,不需要讀者具有數(shù)據(jù)庫的專業(yè)知識,但是假定讀者有一定的統(tǒng)計學與高等數(shù)學背景。如果讀者對于專業(yè)數(shù)學知識不了解,附錄中提供了最基礎的數(shù)學知識點,可輔助讀者理解數(shù)據(jù)挖掘中的算法理論與過程。本書的章節(jié)安排自成體系,主講順序可以靈活處理:核心內(nèi)容在第2、3、4、7、10章, 第5、6、8、9章是對這些內(nèi)容的補充,可由教師根據(jù)課時長度與難易程度來選擇講授,其中分類、關聯(lián)規(guī)則和聚類分析這三部分內(nèi)容無先后順序,可以根據(jù)喜好來進行講授與學習; 第11、12章是數(shù)據(jù)挖掘在社交網(wǎng)絡與生物網(wǎng)絡中的應用研究,可以選擇性學習與講授。
很多單位和個人都為本書的編寫與出版作出了貢獻,作者的博士生吳文銘同學,碩士生李東遠、黃志豪、張本輝、譚詩吟等同學對本書的插圖與文字進行了大量的校訂工作,在此表示感謝。感謝西安電子科技大學對本書的支持與資助,同時感謝西安電子科技大學出版社的高櫻編輯為本書出版所付出的努力。作者在編寫本書時花費了大量的時間,特別感謝家人對作者工作的支持。
由于作者的水平有限,書中難免會存在疏漏與不足之處,敬請各位讀者批評指正。作者E-mail: xkma@xidian.edu.cn。
第1章 緒論 1
1.1 數(shù)據(jù)概述 1
1.2 數(shù)據(jù)與社會變革 3
1.2.1 數(shù)據(jù)改變思維模式 3
1.2.2 數(shù)據(jù)改變社會模式 3
1.2.3 數(shù)據(jù)改變國家戰(zhàn)略 4
1.3 數(shù)據(jù)挖掘的定義 5
1.4 數(shù)據(jù)挖掘的發(fā)展與應用 7
1.4.1 數(shù)據(jù)挖掘的發(fā)展 7
1.4.2 數(shù)據(jù)挖掘的應用 8
1.5 數(shù)據(jù)挖掘的任務與挑戰(zhàn) 9
1.5.1 數(shù)據(jù)挖掘的任務 10
1.5.2 數(shù)據(jù)挖掘面臨的挑戰(zhàn) 12
1.6 本書內(nèi)容與組織 13
1.6.1 章節(jié)安排 13
1.6.2 輔助閱讀材料 15
本章小結(jié) 16
習題 16
參考文獻 17
第2章 數(shù)據(jù) 21
2.1 數(shù)據(jù)的定義 21
2.2 屬性的分類 22
2.3 數(shù)據(jù)類型 24
2.3.1 數(shù)據(jù)的特性 24
2.3.2 數(shù)據(jù)的分類 24
2.4 相似性計算 26
2.4.1 相似性定義 26
2.4.2 單屬性相似性度量 28
2.4.3 多屬性相似性度量 29
本章小結(jié) 35
習題 35
參考文獻 37
第3章 數(shù)據(jù)預處理 38
3.1 數(shù)據(jù)質(zhì)量 38
3.1.1 誤差與噪聲 38
3.1.2 應用問題 41
3.2 數(shù)據(jù)預處理概述 41
3.3 數(shù)據(jù)清洗 43
3.3.1 缺失數(shù)據(jù)處理 43
3.3.2 噪聲數(shù)據(jù)處理 43
3.3.3 不一致數(shù)據(jù)處理 45
3.4 數(shù)據(jù)集成與轉(zhuǎn)換 45
3.4.1 數(shù)據(jù)集成處理 45
3.4.2 數(shù)據(jù)轉(zhuǎn)換處理 46
3.4.3 離散化和二進制化 47
3.5 數(shù)據(jù)約簡 49
3.5.1 數(shù)據(jù)立方歸并 49
3.5.2 維數(shù)約簡 50
3.5.3 數(shù)據(jù)壓縮 51
3.5.4 數(shù)據(jù)塊約簡 52
本章小結(jié) 55
習題 55
參考文獻 57
第4章 分類I:概念與決策樹算法 58
4.1 引言 58
4.1.1 分類的定義 58
4.1.2 分類的應用 59
4.1.3 分類算法 60
4.2 決策樹 61
4.3 決策樹原理與構(gòu)建 63
4.3.1 算法原理 64
4.3.2 分支原則 65
4.3.3 最優(yōu)劃分 67
4.4 補充算法 76
4.4.1 ID3算法 76
4.4.2 C4.5算法 77
4.5 過擬合/欠擬合 80
4.5.1 定義 80
4.5.2 規(guī)避策略 81
4.6 分類準確性評估 86
4.6.1 準確性 86
4.6.2 ROC曲線 87
本章小結(jié) 90
習題 90
參考文獻 94
第5章 分類Ⅱ:支持向量機 95
5.1 引言 95
5.2 數(shù)學模型 96
5.2.1 算法動機 96
5.2.2 數(shù)學模型 97
5.3 優(yōu)化理論 99
5.3.1 凸優(yōu)化 99
5.3.2 對偶理論 99
5.3.3 拉格朗日方法和KKT條件 101
5.4 SVM優(yōu)化 103
5.4.1 硬間隔SVM 103
5.4.2 軟間隔SVM 104
5.5 非線性SVM 106
5.6 SVM的應用 109
5.6.1 人臉識別 110
5.6.2 語音識別 110
5.6.3 圖像處理 110
本章小結(jié) 111
習題 112
參考文獻 113
第6章 分類Ⅲ:概率分類與回歸 115
6.1 引言 115
6.2 貝葉斯公式 116
6.2.1 概率基礎 116
6.2.2 圖論基礎 118
6.2.3 信息理論 118
6.3 貝葉斯分類算法 119
6.3.1 算法原理 119
6.3.2 樸素貝葉斯算法 121
6.3.3 算法應用 124
6.4 貝葉斯信念網(wǎng)絡 125
6.4.1 定義與推理 126
6.4.2 結(jié)構(gòu)學習(網(wǎng)絡構(gòu)建) 128
6.4.3 貝葉斯信念網(wǎng)絡的特點 130
6.5 回歸分析 131
6.5.1 預備知識 131
6.5.2 線性回歸 131
6.5.3 多元線性回歸 135
6.5.4 最小二乘回歸 136
本章小結(jié) 136
習題 137
參考文獻 139
第7章 關聯(lián)規(guī)則Ⅰ:頻繁模式挖掘 141
7.1 引言 141
7.2 基本概念 143
7.3 頻繁項集挖掘 144
7.3.1 暴力破解方法 144
7.3.2 Apriori算法 145
7.3.3 加速技術 150
7.4 頻繁模式樹算法 153
7.4.1 FP樹表示法 153
7.4.2 FP算法的頻繁項集的產(chǎn)生 154
7.4.3 FP樹挖掘?qū)Ρ華priori算法 157
本章小結(jié) 158
習題 158
參考文獻 161
第8章 關聯(lián)規(guī)則Ⅱ:關聯(lián)規(guī)則挖掘 162
8.1 引言 162
8.2 關聯(lián)規(guī)則提取 162
8.2.1 候選規(guī)則創(chuàng)建 163
8.2.2 關聯(lián)規(guī)則挖掘 164
8.3 規(guī)則評價標準 167
8.3.1 支持度與置信度缺陷 167
8.3.2 關聯(lián)規(guī)則價值衡量的方法 168
8.4 規(guī)則評價指標 169
8.4.1 興趣度 169
8.4.2 其他度量 172
8.5 一致性問題 174
8.6 關聯(lián)規(guī)則的應用 177
8.6.1 關聯(lián)規(guī)則與CRM 177
8.6.2 CRM關聯(lián)規(guī)則挖掘 178
本章小結(jié) 180
習題 180
參考文獻 183
第9章 聚類分析Ⅰ:概念與
K均值算法 185
9.1 引言 185
9.2 聚類流程與方法 187
9.2.1 聚類流程 187
9.2.2 聚類方法 189
9.3 K均值算法 190
9.3.1 算法的三大要素 191
9.3.2 算法的流程 192
9.3.3 算法的性能分析 194
9.4 K均值算法的拓展 195
9.5 圖像分割的應用 196
本章小結(jié) 198
習題 199
參考文獻 200
第10章 聚類分析Ⅱ: 分層聚類與
密度聚類 201
10.1 引言 201
10.2 分層聚類 202
10.2.1 算法流程 202
10.2.2 集合距離計算 204
10.3 分層聚類的實現(xiàn) 206
10.4 密度聚類 211
10.4.1 類密度 211
10.4.2 算法過程 213
10.5 聚類結(jié)果評估 215
10.6 聚類算法對比 217
10.6.1 K均值算法 217
10.6.2 分層聚類 217
10.6.3 DBSCAN算法 218
本章小結(jié) 218
習題 219
參考文獻 220
第11章 社交網(wǎng)絡圖聚類 221
11.1 引言 221
11.2 社團結(jié)構(gòu) 222
11.2.1 社團度量標準 223
11.2.2 社團檢測算法 223
11.3 半監(jiān)督學習 225
11.4 社團挖掘 226
11.4.1 算法框架 226
11.4.2 參數(shù)優(yōu)化 227
11.5 實驗結(jié)果 228
11.5.1 檢測性能 229
11.5.2 分辨極限容忍性分析 231
本章小結(jié) 234
參考文獻 234
第12章 生物網(wǎng)絡挖掘 236
12.1 引言 236
12.2 相關工作 237
12.3 基于圖通信的檢測算法 238
12.3.1 拓撲刻畫 239
12.3.2 復合體檢測 241
12.4 基于弱連接的檢測算法 244
12.4.1 弱連接效應 244
12.4.2 置信網(wǎng)絡構(gòu)建 246
12.4.3 復合體檢測 247
12.5 實驗結(jié)果 247
12.5.1 實驗數(shù)據(jù) 247
12.5.2 F值與覆蓋率 248
12.5.3 P值 249
12.5.4 參數(shù)影響 251
12.5.5 魯棒性分析 256
12.6 圖密度與復合體拓撲關系 258
本章小結(jié) 259
參考文獻 260
附錄 數(shù)學基礎 262
你還可能感興趣
我要評論
|