數(shù)據(jù)挖掘?qū)д摚ㄓ⑽陌妗ぴ瓡?shū)第2版)
定 價(jià):199 元
叢書(shū)名:經(jīng)典原版書(shū)庫(kù)
- 作者:[美]陳封能(Pang-Ning Tan)邁克爾·斯坦巴赫
- 出版時(shí)間:2019/11/1
- ISBN:9787111637882
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:16開(kāi)
本書(shū)從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。為了更好地理解數(shù)據(jù)挖掘技術(shù)如何用于各種類型的數(shù)據(jù),研究這些原理與技術(shù)是至關(guān)重要的。
本書(shū)所涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測(cè)建模、關(guān)聯(lián)分析、聚類分析、異常檢測(cè)和避免錯(cuò)誤發(fā)現(xiàn)。通過(guò)介紹每個(gè)主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實(shí)際問(wèn)題所需的必要背景以及使用方法。
自12年前的第1版以來(lái),數(shù)據(jù)分析領(lǐng)域發(fā)生了很大的變化。采集數(shù)據(jù)和用數(shù)據(jù)做決策的速率不斷提高,采集到的數(shù)據(jù)數(shù)量和種類也在不斷增加。事實(shí)上,“大數(shù)據(jù)”這個(gè)術(shù)語(yǔ)已被用于指代那些可獲得的海量、多樣的數(shù)據(jù)集。此外,“數(shù)據(jù)科學(xué)”這個(gè)術(shù)語(yǔ)也被用于描述一個(gè)新興領(lǐng)域,其中,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等諸多領(lǐng)域的工具和技術(shù),被用于從數(shù)據(jù)(通常是大數(shù)據(jù))中提取出可實(shí)際應(yīng)用的見(jiàn)解。
數(shù)據(jù)的增長(zhǎng)為數(shù)據(jù)分析的各領(lǐng)域創(chuàng)造了大量的機(jī)會(huì)。其中,有著廣泛應(yīng)用的預(yù)測(cè)建模領(lǐng)域的發(fā)展最引人注目。例如,在神經(jīng)網(wǎng)絡(luò)(也稱為深度學(xué)習(xí))方面取得的最新進(jìn)展,已經(jīng)在許多具有挑戰(zhàn)性的領(lǐng)域(如圖像分類、語(yǔ)音識(shí)別以及文本分類和理解)表現(xiàn)出令人矚目的成果。即使那些發(fā)展不是特別顯著的領(lǐng)域(例如聚類、關(guān)聯(lián)分析和異常檢測(cè)等)也在不斷前進(jìn)。這個(gè)新版本就是對(duì)這些發(fā)展的響應(yīng)。
概述 與第1版相同,本書(shū)第2版全面介紹了數(shù)據(jù)挖掘,方便學(xué)生、教師、研究人員和專業(yè)人士理解有關(guān)概念和技術(shù)。本書(shū)涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測(cè)建模、關(guān)聯(lián)分析、聚類分析、異常檢測(cè)和避免錯(cuò)誤發(fā)現(xiàn)。通過(guò)介紹每個(gè)主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實(shí)際問(wèn)題所需的必要背景。與第1版一樣,分類、關(guān)聯(lián)分析和聚類分析都分兩章講述。前面一章(介紹章)講述基本概念、代表性算法和評(píng)估技術(shù),后面一章(高級(jí)章)深入討論高級(jí)概念和算法。同第1版一樣,這樣做的目的是使讀者透徹地理解數(shù)據(jù)挖掘的基礎(chǔ)知識(shí),同時(shí)論述更多重要的高級(jí)主題。由于這種安排,本書(shū)既可用作教材也可用作參考書(shū)。
為了幫助讀者更好地理解書(shū)中講述的概念,我們提供了大量的示例、圖表和習(xí)題,并在網(wǎng)上公開(kāi)了原有習(xí)題的答案。除了第10章的新習(xí)題,其余習(xí)題與第1版的基本一致。教師可以通過(guò)網(wǎng)絡(luò)獲取各章的新習(xí)題及其答案。對(duì)更高級(jí)的主題、重要的歷史文獻(xiàn)和當(dāng)前趨勢(shì)感興趣的讀者,可以在每一章結(jié)尾找到文獻(xiàn)注釋,本版對(duì)這部分內(nèi)容做了較大的更新。此外,還提供了一個(gè)覆蓋本書(shū)所有主題的索引。
第2版的新內(nèi)容 內(nèi)容上主要的更新是與分類相關(guān)的兩章內(nèi)容(第3章和第4章)。第3章仍使用決策樹(shù)分類器進(jìn)行講解,但對(duì)適用于各種分類方法的主題討論進(jìn)行了大量的擴(kuò)充,這些主題包括:過(guò)擬合、欠擬合、訓(xùn)練規(guī)模的影響、模型復(fù)雜度、模型選擇以及模型評(píng)估中常見(jiàn)的缺陷等。第4章的每一節(jié)幾乎都進(jìn)行了重大更新,著重?cái)U(kuò)展了貝葉斯網(wǎng)絡(luò)、支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)的內(nèi)容。對(duì)深度網(wǎng)絡(luò),我們單獨(dú)增加了一節(jié)來(lái)介紹該領(lǐng)域當(dāng)前的發(fā)展。我們還更新了4.11節(jié)“類不平衡問(wèn)題”中有關(guān)評(píng)估方法的討論。
關(guān)聯(lián)分析內(nèi)容的改進(jìn)則更具體。我們對(duì)關(guān)聯(lián)模式評(píng)估部分(第5章)以及序列和圖形挖掘部分(第6章)進(jìn)行了全面修訂。對(duì)聚類分析的修訂也很具體。在聚類分析的介紹章(第7章)增添了K均值初始化技術(shù)并更新了簇評(píng)估的討論。聚類分析的高級(jí)章(第8章)新添了關(guān)于譜圖聚類的內(nèi)容。對(duì)異常檢測(cè)部分也進(jìn)行了大量的修訂和擴(kuò)展。我們保留并更新了現(xiàn)有方法,如統(tǒng)計(jì)學(xué)、基于最近鄰/密度方法和基于聚類方法,同時(shí)介紹了基于重構(gòu)的方法、單類分類和信息論方法。基于重構(gòu)的方法通過(guò)深度學(xué)習(xí)范疇中的自編碼網(wǎng)絡(luò)進(jìn)行闡述。關(guān)于數(shù)據(jù)的第2章也進(jìn)行了更新,更新內(nèi)容包括對(duì)互信息的討論和基于核技術(shù)的討論。
第10章討論了如何避免錯(cuò)誤發(fā)現(xiàn)并產(chǎn)生正確的結(jié)果,這一章的內(nèi)容是全新的并且在當(dāng)前關(guān)于數(shù)據(jù)挖掘的教科書(shū)中也是新穎的。該章討論了關(guān)于避免虛假結(jié)果的統(tǒng)計(jì)概念(統(tǒng)計(jì)顯著性、p值、錯(cuò)誤發(fā)現(xiàn)率、置換檢驗(yàn)等),這些是對(duì)其他章中相關(guān)內(nèi)容的補(bǔ)充,然后在介紹數(shù)據(jù)挖掘技術(shù)的內(nèi)容中對(duì)這些概念進(jìn)行了闡述。這一章還強(qiáng)調(diào)了對(duì)數(shù)據(jù)分析結(jié)果的有效性和可重復(fù)性的關(guān)注。新增的最后一章,是認(rèn)識(shí)到這個(gè)主題的重要性后的產(chǎn)物,同時(shí)也是對(duì)“在分析數(shù)據(jù)時(shí)需要對(duì)相關(guān)領(lǐng)域有更深入的理解”這一觀點(diǎn)的認(rèn)可。
本版紙書(shū)刪除了數(shù)據(jù)探索章節(jié)以及附錄,但仍將其保留在網(wǎng)上。本版附錄對(duì)大數(shù)據(jù)環(huán)境下的可伸縮性進(jìn)行了簡(jiǎn)要討論。
致教師 作為一本教材,本書(shū)廣泛適用于高年級(jí)本科生和研究生教學(xué)。由于學(xué)習(xí)這門課程的學(xué)生背景不同,他們可能不具備廣博的統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫(kù)知識(shí),因此本書(shū)只要求最低限度的預(yù)備知識(shí)。數(shù)據(jù)庫(kù)知識(shí)不是必需的,但我們假定讀者有一定的統(tǒng)計(jì)學(xué)或數(shù)學(xué)背景,這些背景會(huì)讓他們更容易學(xué)習(xí)某些內(nèi)容。與以前一樣,本書(shū)或者更確切地說(shuō)是討論主要數(shù)據(jù)挖掘主題的各章,都盡可能自成一體。因此,這些主題的講授次序相當(dāng)靈活。其中第2章、第3章、第5章、第7章和第9章是核心內(nèi)容。對(duì)于第10章,建議至少給出粗略的介紹,以在學(xué)生解釋他們的數(shù)據(jù)分析結(jié)果時(shí)引起一些注意。盡管應(yīng)先介紹數(shù)據(jù)(第2章),但可以按任意順序來(lái)講授基本分類(第3章)、關(guān)聯(lián)分析(第5章)和聚類分析(第7章)。由于異常檢測(cè)(第9章)與分類(第3章)和聚類分析(第7章)具備先后關(guān)系,所以后兩章應(yīng)先于第9章進(jìn)行講解。同時(shí),可以根據(jù)時(shí)間安排和興趣,從高級(jí)分類、關(guān)聯(lián)分析和聚類分析章節(jié)(第4章、第6章、第8章)中選擇多種主題進(jìn)行講解。我們還建議通過(guò)數(shù)據(jù)挖掘中的項(xiàng)目或?qū)嵺`練習(xí)來(lái)強(qiáng)化聽(tīng)課效果,雖然它們要花費(fèi)一些時(shí)間,但這種實(shí)踐作業(yè)可以大
陳封能(Pang-Ning Tan) 密歇根州立大學(xué)計(jì)算機(jī)科學(xué)與工程系教授,主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)系統(tǒng)、網(wǎng)絡(luò)空間安全、網(wǎng)絡(luò)分析等。
第1章 緒論1
1.1 什么是數(shù)據(jù)挖掘4
1.2 數(shù)據(jù)挖掘要解決的問(wèn)題5
1.3 數(shù)據(jù)挖掘的起源7
1.4 數(shù)據(jù)挖掘任務(wù)9
1.5 本書(shū)組織結(jié)構(gòu)13
1.6 文獻(xiàn)注釋15
1.7 習(xí)題21
第2章 數(shù)據(jù)23
2.1 數(shù)據(jù)類型26
2.1.1 屬性與度量27
2.1.2 數(shù)據(jù)集的類型34
2.2 數(shù)據(jù)質(zhì)量42
2.2.1 測(cè)量和數(shù)據(jù)收集問(wèn)題42
2.2.2 關(guān)于應(yīng)用的問(wèn)題49
2.3 數(shù)據(jù)預(yù)處理50
2.3.1 聚集51
2.3.2 抽樣52
2.3.3 維歸約56
2.3.4 特征子集選擇58
2.3.5 特征創(chuàng)建61
2.3.6 離散化和二元化63
2.3.7 變量變換69
2.4 相似性和相異性的度量71
2.4.1 基礎(chǔ)72
2.4.2 簡(jiǎn)單屬性之間的相似度和相異度74
2.4.3 數(shù)據(jù)對(duì)象之間的相異度76
2.4.4 數(shù)據(jù)對(duì)象之間的相似度78
2.4.5 鄰近度度量的例子79
2.4.6 互信息88
* 2.4.7 核函數(shù)90
* 2.4.8 Bregman散度94
2.4.9 鄰近度計(jì)算問(wèn)題96
2.4.10 選擇正確的鄰近度度量98
2.5 文獻(xiàn)注釋100
2.6 習(xí)題105
第3章 分類:基本概念和技術(shù)113
3.1 基本概念114
3.2 一般的分類框架117
3.3 決策樹(shù)分類器119
3.3.1 構(gòu)建決策樹(shù)的基本算法121
3.3.2 表示屬性測(cè)試條件的方法124
3.3.3 選擇屬性測(cè)試條件的方法127
3.3.4 決策樹(shù)歸納算法136
3.3.5 示例:Web機(jī)器人檢測(cè)138
3.3.6 決策樹(shù)分類器的特征140
3.4 模型的過(guò)擬147
3.5 模型選擇156
3.5.1 驗(yàn)證集應(yīng)用156
3.5.2 模型復(fù)雜度合并157
3.5.3 統(tǒng)計(jì)范圍估計(jì)162
3.5.4 決策樹(shù)的模型選擇162
3.6 模型評(píng)估164
3.6.1 保持方法165
3.6.2 交叉驗(yàn)證165
3.7 超參數(shù)的使用168
3.7.1 超參數(shù)選擇168
3.7.2 嵌套交叉驗(yàn)證170
3.8 模型選擇和評(píng)估中的陷阱172
3.8.1 訓(xùn)練集和測(cè)試集之間的重疊172
3.8.2 使用驗(yàn)證錯(cuò)誤率作為泛化錯(cuò)誤率
*3.9 模型比較173
3.9.1 估計(jì)準(zhǔn)確率的置信區(qū)間174
3.9.2 比較兩個(gè)模型的性能175
3.10 文獻(xiàn)注釋176
3.11 習(xí)題185
第4章 分類:其他技術(shù)193
4.1 分類器的種類193
4.2 基于規(guī)則的分類器195
4.2.1 基于規(guī)則的分類器原理197
4.2.2 規(guī)則集的屬性198
4.2.3 規(guī)則提取的直接方法199
4.2.4 規(guī)則提取的間接方法204
4.2.5 基于規(guī)則的分類器的特點(diǎn)206
4.3 最近鄰分類器208
4.3.1 算法209
4.3.2 最近鄰分類器的特點(diǎn)210
4.4 樸素貝葉斯分類器212
4.4.1 概率論基礎(chǔ)213
4.4.2 樸素貝葉斯假設(shè)218
4.5 貝葉斯網(wǎng)絡(luò)227
4.5.1 圖表示227
4.5.2 推理與學(xué)習(xí)233
4.5.3 貝葉斯網(wǎng)絡(luò)的特點(diǎn)242
4.6 logistic回歸243
4.6.1 logistic回歸用作廣義線性模型244
4.6.2 學(xué)習(xí)模型參數(shù)245
4.6.3 logistic回歸模型的特點(diǎn)248
4.7 人工神經(jīng)網(wǎng)絡(luò)249
4.7.1 感知機(jī)250
4.7.2 多層神經(jīng)網(wǎng)絡(luò)254
4.7.3 人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)261
4.8 深度學(xué)習(xí)262
4.8.1 使用協(xié)同損失函數(shù)263
4.8.2 使用響應(yīng)激活函數(shù)266
4.8.3 正則化268
4.8.4 模型參數(shù)的初始化271
4.8.5 深度學(xué)習(xí)的特點(diǎn)275
4.9 支持向量機(jī)276
4.9.1 分離超平面的邊緣276
4.9.2 線性SVM278
4.9.3 軟邊緣SVM284
4.9.4 非線性SVM290
4.9.5 SVM的特點(diǎn)294
4.10 組合方法296
4.10.1 組合方法的基本原理297
4.10.2 構(gòu)建組合分類器的方法297
4.10.3 偏置–方差分解300
4.10.4 裝袋302
4.10.5 提升305
4.10.6 隨機(jī)森林310
4.10.7 組合方法的實(shí)驗(yàn)比較312
4.11 類不平衡問(wèn)題313
4.11.1 類不平衡的分類器構(gòu)建314
4.11.2 帶類不平衡的性能評(píng)估318
4.11.3 尋找最優(yōu)的評(píng)分閾值322
4.11.4 綜合評(píng)估性能323
4.12 多類問(wèn)題330
4.13 文獻(xiàn)注釋333
4.14 習(xí)題345
第5章 關(guān)聯(lián)分析:基本概念和算法357
5.1 預(yù)備知識(shí)358
5.2 頻繁項(xiàng)集的產(chǎn)生362
5.2.1 先驗(yàn)原理363
5.2.2 Apriori算法的頻繁項(xiàng)集產(chǎn)生364
5.2.3 候選項(xiàng)集的產(chǎn)生與剪枝368
5.2.4 支持度計(jì)數(shù)373
5.2.5 計(jì)算復(fù)雜度377
5.3 規(guī)則的產(chǎn)生380
5.3.1 基于置信度的剪枝380
5.3.2 Apriori算法中規(guī)則的產(chǎn)生381
5.3.3 示例:美國(guó)國(guó)會(huì)投票記錄382
5.4 頻繁項(xiàng)集的緊湊表示384
5.4.1 極大頻繁項(xiàng)集384
5.4.2 閉項(xiàng)集386
*5.5 其他產(chǎn)生頻繁項(xiàng)集的方法389
*5.6 FP增長(zhǎng)算法393
5.6.1 FP樹(shù)表示法394
5.6.2 FP增長(zhǎng)算法的頻繁項(xiàng)集產(chǎn)生397
5.7 關(guān)聯(lián)模式的評(píng)估401
5.7.1 興趣度的客觀度量402
5.7.2 多個(gè)二元變量的度量414
5.7.3 辛普森悖論416
5.8 傾斜支持度分布的影響418
5.9 文獻(xiàn)注釋424
5.10 習(xí)題438
第6章 關(guān)聯(lián)分析:高級(jí)概念451
6.1 處理分類屬性451
6.2 處理連續(xù)屬性454
6.2.1 基于離散化的方法454
6.2.2 基于統(tǒng)計(jì)學(xué)的方法458
6.2.3 非離散化方法460
6.3 處理概念分層462
6.4 序列模式464
6.4.1 預(yù)備知識(shí)465
6.4.2 序列模式發(fā)現(xiàn)468
* 6.4.3 時(shí)限約束473
* 6.4.4 可選計(jì)數(shù)方案477
6.5 子圖模式479
6.5.1 預(yù)備知識(shí)480
6.5.2 頻繁子圖挖掘483
6.5.3 候選生成487
6.5.4 候選剪枝493
6.5.5 支持度計(jì)數(shù)493
*6.6 非頻繁模式493
6.6.1 負(fù)模式494
6.6.2 負(fù)相關(guān)模式495
6.6.3 非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較496
6.6.4 挖掘有趣的非頻繁模式的技術(shù)498
6.6.5 基于挖掘負(fù)模式的技術(shù)499
6.6.6 基于支持度期望的技術(shù)501
6.7 文獻(xiàn)注釋505
6.8 習(xí)題510
第7章 聚類分析:基本概念和算法525
7.1 概述528
7.1.1 什么是聚類分析528
7.1.2 聚類的不同類型529
7.1.3 簇的不同類型531
7.2 K均值534
7.2.1 K均值算法535
7.2.2 K均值:附加的問(wèn)題544
7.2.3 二分K均值547
7.2.4 K均值和不同的簇類型548
7.2.5 優(yōu)點(diǎn)與缺點(diǎn)549
7.2.6 K均值作為優(yōu)化問(wèn)題549
7.3 凝聚層次聚類554
7.3.1 基本凝聚層次聚類算法555
7.3.2 特殊技術(shù)557
7.3.3 簇鄰近度的Lance-Williams公式562
7.3.4 層次聚類的主要問(wèn)題563
7.3.5 離群點(diǎn)564
7.3.6 優(yōu)點(diǎn)與缺點(diǎn)565
7.4 DBSCAN565
7.4.1 傳統(tǒng)的密度:基于中心的方法565
7.4.2 DBSCAN算法567
7.4.3 優(yōu)點(diǎn)與缺點(diǎn)569
7.5 簇評(píng)估571
7.5.1 概述571
7.5.2 無(wú)監(jiān)督簇評(píng)估:使用凝聚度和分離度574
7.5.3 無(wú)監(jiān)督簇評(píng)估:使用鄰近度矩陣582
7.5.4 層次聚類的無(wú)監(jiān)督評(píng)估585
7.5.5 確定正確的簇個(gè)數(shù)587
7.5.6 聚類趨勢(shì)588
7.5.7 簇有效性的監(jiān)督度量589
7.5.8 評(píng)估簇有效性度量的顯著性594
7.5.9 簇有效性度量的選擇596
7.6 文獻(xiàn)注釋597
7.7 習(xí)題603
第8章 聚類分析:其他問(wèn)題與算法613
8.1 數(shù)據(jù)、簇和聚類算法的特性614
8.1.1 示例:比較K均值和DBSCAN614
8.1.2 數(shù)據(jù)特性615
8.1.3 簇特性617
8.1.4 聚類算法的一般特性619
8.2 基于原型的聚類621
8.2.1 模糊聚類621
8.2.2 使用混合模型的聚類627
8.2.3 自組織映射637
8.3 基于密度的聚類644
8.3.1 基于網(wǎng)格的聚類644
8.3.2 子空間聚類648
8.3.3 DENCLUE:基于密度聚類的一種基于核的方案652
8.4 基于圖的聚類656
8.4.1 稀疏化657
8.4.2 最小生成樹(shù)聚類658
8.4.3 OPOSSUM:使用METIS的稀疏相似度最優(yōu)劃分659
8.4.4 Chameleon:使用動(dòng)態(tài)建模的層次聚類660
8.4.5 譜聚類666
8.4.6 共享最近鄰相似度673
8.4.7 Jarvis-Patrick聚類算法676
8.4.8 SNN密度678
8.4.9 基于SNN密度的聚類679
8.5 可伸縮的聚類算法681
8.5.1 可伸縮:一般問(wèn)題和方法681
8.5.2 BIRCH684
8.5.3 CURE686
8.6 使用哪種聚類算法690
8.7 文獻(xiàn)注釋693
8.8 習(xí)題699
第9章 異常檢測(cè)703
9.1 異常檢測(cè)問(wèn)題的特性705
9.1.1 異常的定義705
9.1.2 數(shù)據(jù)的性質(zhì)706
9.1.3 如何使用異常檢測(cè)707
9.2 異常檢測(cè)方法的特性708
9.3 統(tǒng)計(jì)方法710
9.3.1 使用參數(shù)模型710
9.3.2 使用非參數(shù)模型714
9.3.3 對(duì)正常類和異常類建模715
9.3.4 評(píng)估統(tǒng)計(jì)意義717
9.3.5 優(yōu)點(diǎn)與缺點(diǎn)718
9.4 基于鄰近度的方法719
9.4.1 基于距離的異常分?jǐn)?shù)719
9.4.2 基于密度的異常分?jǐn)?shù)720
9.4.3 基于相對(duì)密度的異常分?jǐn)?shù)722
9.4.4 優(yōu)點(diǎn)與缺點(diǎn)723
9.5 基于聚類的方法724
9.5.1 發(fā)現(xiàn)異常簇724
9.5.2 發(fā)現(xiàn)異常實(shí)例725
9.5.3 優(yōu)點(diǎn)與缺點(diǎn)728
9.6 基于重構(gòu)的方法728
9.7 單類分類732
9.7.1 核函數(shù)的使用733
9.7.2 原點(diǎn)技巧734
9.7.3 優(yōu)點(diǎn)與缺點(diǎn)738
9.8 信息論方法738
9.9 異常檢測(cè)評(píng)估740
9.10 文獻(xiàn)注釋742
9.11 習(xí)題749
第10章 避免錯(cuò)誤發(fā)現(xiàn)755
10.1 預(yù)備知識(shí):統(tǒng)計(jì)檢驗(yàn)756
10.1.1 顯著性檢驗(yàn)756
10.1.2 假設(shè)檢驗(yàn)761
10.1.3 多重假設(shè)檢驗(yàn)767
10.1.4 統(tǒng)計(jì)檢驗(yàn)中的陷阱776
10.2 對(duì)零分布和替代分布建模778
10.2.1 生成合成數(shù)據(jù)集781
10.2.2 隨機(jī)化類標(biāo)782
10.2.3 實(shí)例重采樣782
10.2.4 對(duì)檢驗(yàn)統(tǒng)計(jì)量的分布建模783
10.3 分類問(wèn)題的統(tǒng)計(jì)檢驗(yàn)783
10.3.1 評(píng)估分類性能783
10.3.2 以多重假設(shè)檢 驗(yàn)處理二分類問(wèn)題785
10.3.3 模型選擇中的多重假設(shè)檢驗(yàn)786
10.4 關(guān)聯(lián)分析的統(tǒng)計(jì)檢驗(yàn)787
10.4.1 使用統(tǒng)計(jì)模型788
10.4.2 使用隨機(jī)化方法794
10.5 聚類分析的統(tǒng)計(jì)檢驗(yàn)795
10.5.1 為內(nèi)部指標(biāo)生成零分布796
10.5.2 為外部指標(biāo)生成零分布798
10.5.3 富集798
10.6 異常檢測(cè)的統(tǒng)計(jì)檢驗(yàn)800
10.7 文獻(xiàn)注釋803
10.8 習(xí)題808
Contents
1 Introduction1
1.1 What Is Data Mining?4
1.2 Motivating Challenges5
1.3 The Origins of Data Mining7
1.4 Data Mining Tasks9
1.5 Scope and Organization of the Book13
1.6 Bibliographic Notes15
1.7 Exercises21
2 Data23
2.1 Types of Data26
2.1.1 Attributes and Measurement27
2.1.2 Types of Data Sets34
2.2 Data Quality42
2.2.1 Measurement and Data Collection Issues42
2.2.2 Issues Related to Applications49
2.3 Data Preprocessing50
2.3.1 Aggregation51
2.3.2 Sampling52
2.3.3 Dimensionality Reduction56