本書為數(shù)據(jù)挖掘入門級(jí)教材,共分8章,主要內(nèi)容分為三個(gè)專題:技術(shù)、數(shù)據(jù)和評(píng)估。技術(shù)專題包括決策樹技術(shù)、K-means算法、關(guān)聯(lián)分析技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)、回歸分析技術(shù)、貝葉斯分析、凝聚聚類、概念分層聚類、混合模型聚類技術(shù)的EM算法、時(shí)間序列分析和基于Web的數(shù)據(jù)挖掘等常用的機(jī)器學(xué)習(xí)方法和統(tǒng)計(jì)技術(shù)。數(shù)據(jù)專題包括數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)處理模型和數(shù)據(jù)倉庫及OLAP技術(shù)。評(píng)估專題包括利用檢驗(yàn)集分類正確率和混淆矩陣,并結(jié)合檢驗(yàn)集置信區(qū)間評(píng)估有指導(dǎo)學(xué)習(xí)模型,使用無指導(dǎo)聚類技術(shù)評(píng)估有指導(dǎo)模型,利用Lift和假設(shè)檢驗(yàn)比較兩個(gè)有指導(dǎo)學(xué)習(xí)模型,使用MS Excel 2010和經(jīng)典的假設(shè)檢驗(yàn)?zāi)P驮u(píng)估屬性,使用簇質(zhì)量度量方法和有指導(dǎo)學(xué)習(xí)技術(shù)評(píng)估無指導(dǎo)聚類模型。
本書秉承教材風(fēng)格,強(qiáng)調(diào)廣度講解。注重成熟模型和開源工具的使用,以提高學(xué)習(xí)者的應(yīng)用能力為目標(biāo);注重結(jié)合實(shí)例和實(shí)驗(yàn),加強(qiáng)基本概念和原理的理解和運(yùn)用;注重實(shí)例的趣味性和生活性,提高學(xué)習(xí)者學(xué)習(xí)的積極性。使用章后練習(xí)、計(jì)算和實(shí)驗(yàn)作業(yè)鞏固和檢驗(yàn)所學(xué)內(nèi)容;使用詞匯表附錄,解釋和規(guī)范數(shù)據(jù)挖掘?qū)W科專業(yè)術(shù)語;使用適合教學(xué)的簡(jiǎn)單易用開源的Weka和通用的MS Excel軟件工具實(shí)施數(shù)據(jù)挖掘驗(yàn)證和體驗(yàn)數(shù)據(jù)挖掘的精妙。
本書可作為普通高等院校計(jì)算機(jī)科學(xué)、信息科學(xué)、數(shù)學(xué)和統(tǒng)計(jì)學(xué)專業(yè)的入門教材,也可作為如經(jīng)濟(jì)學(xué)、管理學(xué)、檔案學(xué)等對(duì)數(shù)據(jù)管理、數(shù)據(jù)分析與數(shù)據(jù)挖掘有教學(xué)需求的其他相關(guān)專業(yè)的基礎(chǔ)教材。同時(shí),對(duì)數(shù)據(jù)挖掘技術(shù)和方法感興趣,致力于相關(guān)方面的研究和應(yīng)用的其他讀者,也可以從本書中獲取基本的指導(dǎo)和體驗(yàn)。
本書配有教學(xué)幻燈片、大部分章后習(xí)題和實(shí)驗(yàn)的參考答案以及課程大綱。
未來學(xué)家約翰·奈斯比特(John Naisbitt)驚呼:“人類正被數(shù)據(jù)淹沒,卻饑渴于信息!睆暮棋珶o際的數(shù)據(jù)海洋中發(fā)現(xiàn)潛在的、有價(jià)值的信息,是這個(gè)大數(shù)據(jù)時(shí)代的一個(gè)標(biāo)志性工作。
數(shù)據(jù)挖掘(Data Mining)是利用一種或多種計(jì)算機(jī)學(xué)習(xí)技術(shù),從數(shù)據(jù)中自動(dòng)分析并提取信息的處理過程,其目的是發(fā)現(xiàn)數(shù)據(jù)中潛在的和有價(jià)值的信息、知識(shí)、規(guī)律、聯(lián)系、模式,從而為解釋當(dāng)前行為和預(yù)測(cè)未來結(jié)果提供支持。數(shù)據(jù)挖掘一般使用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、聯(lián)機(jī)分析處理、專家系統(tǒng)和模式識(shí)別等多種方法來實(shí)現(xiàn),是一門交叉學(xué)科,涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、統(tǒng)計(jì)學(xué)方法、可視化技術(shù)、并行計(jì)算等。數(shù)據(jù)挖掘是一種商業(yè)智能信息處理技術(shù),其圍繞商業(yè)目標(biāo),對(duì)大量商業(yè)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù),揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,是一種深層次的商業(yè)數(shù)據(jù)分析方法。
本書作為一本數(shù)據(jù)挖掘的入門級(jí)教材,關(guān)注于數(shù)據(jù)挖掘的基本概念、基本原理和基本技術(shù)的介紹和實(shí)踐應(yīng)用。全書圍繞知識(shí)發(fā)現(xiàn)過程中的數(shù)據(jù)專題、技術(shù)專題和評(píng)估專題展開,包含大量實(shí)例和實(shí)驗(yàn)。實(shí)驗(yàn)采用Weka開源數(shù)據(jù)挖掘工具和MS Excel 2010,兩者作為教學(xué)軟件,具有很好的通用性和易學(xué)易用性。本書最后附有詞匯表和數(shù)據(jù)挖掘數(shù)據(jù)集,包括了書中涉及的數(shù)據(jù)挖掘的最基本詞匯、例子及實(shí)驗(yàn)所用數(shù)據(jù)集。其中數(shù)據(jù)集有來自UCI的共享數(shù)據(jù)集,也有為了舉例和實(shí)驗(yàn)而設(shè)計(jì)的假想數(shù)據(jù)集。
本書分為8章和兩個(gè)附錄,其中戴紅編寫了8章中的大部分內(nèi)容,常子冠和于寧編寫了附錄A和附錄B,以及前8章的部分內(nèi)容。
本書目標(biāo)
本書希望幫助讀者達(dá)到以下學(xué)習(xí)目標(biāo)。
了解數(shù)據(jù)挖掘的技術(shù)定義和商業(yè)定義、作用和應(yīng)用領(lǐng)域。
了解數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)、數(shù)據(jù)查詢、專家系統(tǒng)的關(guān)系。
掌握數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的處理過程。
掌握數(shù)據(jù)挖掘的基本技術(shù)和方法,包括有指導(dǎo)的學(xué)習(xí)技術(shù)——決策樹技術(shù)、產(chǎn)生式規(guī)則、神經(jīng)網(wǎng)絡(luò)技術(shù)和統(tǒng)計(jì)分析方法,以及無指導(dǎo)聚類技術(shù)和關(guān)聯(lián)分析方法。
掌握數(shù)據(jù)挖掘的評(píng)估技術(shù),包括數(shù)據(jù)評(píng)估和模型評(píng)估方法。
了解數(shù)據(jù)倉庫的設(shè)計(jì)目標(biāo)和結(jié)構(gòu)。
了解聯(lián)機(jī)分析處理(OLAP)的目標(biāo)和數(shù)據(jù)分析方法。
掌握時(shí)間序列分析方法,了解基于Web的數(shù)據(jù)挖掘目標(biāo)、方法和技術(shù)。
能夠使用Weka軟件工具,應(yīng)用各種數(shù)據(jù)挖掘算法,建立分類和聚類模型并進(jìn)行關(guān)聯(lián)分析,嘗試解決實(shí)際問題。
能夠使用MS Excel進(jìn)行數(shù)據(jù)相關(guān)性分析,建立回歸模型,以及使用Excel的數(shù)據(jù)透視表和數(shù)據(jù)透視圖進(jìn)行OLAP分析。
本書讀者
本書既可作為計(jì)算機(jī)科學(xué)、信息科學(xué)、數(shù)學(xué)和統(tǒng)計(jì)學(xué)專業(yè)的入門教材,也可作為如經(jīng)濟(jì)學(xué)、管理學(xué)、檔案學(xué)等,對(duì)數(shù)據(jù)管理、數(shù)據(jù)分析與數(shù)據(jù)挖掘有教學(xué)需求的其他相關(guān)專業(yè)的基礎(chǔ)教材。同時(shí),對(duì)數(shù)據(jù)挖掘技術(shù)和方法感興趣,致力于相關(guān)方面的研究和應(yīng)用的其他讀者,也可以從本書中獲取基本的指導(dǎo)和體驗(yàn)。
本書特點(diǎn)
本書強(qiáng)調(diào)基本概念、基本原理、基本技術(shù)的廣度講解。注重成熟模型和開源工具的介紹和使用;注重對(duì)數(shù)據(jù)挖掘經(jīng)典算法過程的可理解性描述,而非聚焦細(xì)節(jié)的剖析,以提高授課學(xué)生的應(yīng)用能力;注重結(jié)合基礎(chǔ)實(shí)用案例,通過案例加強(qiáng)基本概念和原理的理解和運(yùn)用;同時(shí)注重提高實(shí)例的趣味性和生活性,以提高學(xué)生的學(xué)習(xí)積極性。
本書秉承教材風(fēng)格,使用實(shí)例和實(shí)驗(yàn)來描述和驗(yàn)證概念、原理和技術(shù);使用章后練習(xí)、計(jì)算和實(shí)驗(yàn)作業(yè)鞏固和檢驗(yàn)所學(xué)內(nèi)容;使用詞匯表附錄,解釋和規(guī)范數(shù)據(jù)挖掘?qū)W科專業(yè)術(shù)語;使用適合教學(xué)的簡(jiǎn)單易用開源的Weka和通用的MS Excel軟件工具實(shí)施數(shù)據(jù)挖掘,驗(yàn)證和體驗(yàn)數(shù)據(jù)挖掘的精妙。
本書內(nèi)容
第1章 認(rèn)識(shí)數(shù)據(jù)挖掘。主要是對(duì)數(shù)據(jù)挖掘作全面的概述,包括數(shù)據(jù)挖掘的基本概念、作用、過程、方法、技術(shù)和應(yīng)用。同時(shí)介紹了本書使用的開源數(shù)據(jù)挖掘軟件Weka。
從第2章到第8章,可分為三個(gè)專題:技術(shù)專題、數(shù)據(jù)專題和評(píng)估專題。
技術(shù)專題
第2章 基本數(shù)據(jù)挖掘技術(shù)。介紹有指導(dǎo)學(xué)習(xí)技術(shù)中的決策樹算法、無指導(dǎo)聚類和K-means算法,重點(diǎn)討論生成關(guān)聯(lián)規(guī)則技術(shù)和針對(duì)不同問題如何考慮選擇不同的數(shù)據(jù)挖掘技術(shù)和算法。第6章 神經(jīng)網(wǎng)絡(luò)技術(shù)。介紹神經(jīng)網(wǎng)絡(luò)的基本概念、結(jié)構(gòu)模型、反向傳播學(xué)習(xí)、自組織學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)勢(shì)和缺點(diǎn),討論神經(jīng)網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù)的要求,詳細(xì)描述反向傳播學(xué)習(xí)算法和自組織學(xué)習(xí)方法的一次迭代過程,并通過兩個(gè)實(shí)驗(yàn),介紹了使用Weka軟件實(shí)現(xiàn)BP前饋神經(jīng)網(wǎng)絡(luò)模型的過程。第7章 統(tǒng)計(jì)技術(shù)。介紹數(shù)據(jù)挖掘中幾種常用的統(tǒng)計(jì)技術(shù),包括線性回歸、非線性回歸和樹回歸,貝葉斯分類器,聚類技術(shù)中的凝聚聚類、概念分層聚類和混合模型聚類技術(shù)的EM算法,對(duì)比了統(tǒng)計(jì)技術(shù)和機(jī)器學(xué)習(xí)方法的不同之處,為針對(duì)不同的問題和數(shù)據(jù)情況選擇不同的數(shù)據(jù)挖掘技術(shù)提供參考。第8章 時(shí)間序列分析和基于Web的挖掘。介紹如何使用神經(jīng)網(wǎng)絡(luò)技術(shù)和線性回歸方法建立預(yù)測(cè)模型,解決時(shí)間序列預(yù)測(cè)問題,使用數(shù)據(jù)挖掘?qū)eb站點(diǎn)進(jìn)行自動(dòng)化評(píng)估和提供個(gè)性化服務(wù),并就Web站點(diǎn)的自適應(yīng)調(diào)整和改善進(jìn)行了簡(jiǎn)單闡述,同時(shí)針對(duì)多模型應(yīng)用中的兩種著名方法裝袋和推進(jìn)進(jìn)行了簡(jiǎn)單介紹。
數(shù)據(jù)專題
第3章 數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)。介紹了知識(shí)發(fā)現(xiàn)的基本概念、基本過程和典型模型,重點(diǎn)剖析知識(shí)發(fā)現(xiàn)過程中的每個(gè)步驟的任務(wù)和方法,并通過一個(gè)案例說明知識(shí)發(fā)現(xiàn)的整個(gè)過程。第4章 數(shù)據(jù)倉庫。概括性地闡述了數(shù)據(jù)庫和數(shù)據(jù)倉庫的基本概念和特點(diǎn),介紹了數(shù)據(jù)倉庫模型的設(shè)計(jì),重點(diǎn)討論最常用的星型模型、雪花模型和星座模型的設(shè)計(jì),并解釋了數(shù)據(jù)集市和決策支持系統(tǒng)的基本概念。通過一個(gè)實(shí)驗(yàn),描述了從決策支持的角度,對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維分析的方法。最后介紹了利用MS Excel數(shù)據(jù)透視表和數(shù)據(jù)透視圖建立多維數(shù)據(jù)分析模型的方法。
評(píng)估專題
第5章 評(píng)估技術(shù)。概述了數(shù)據(jù)挖掘過程中評(píng)估的內(nèi)容和工具,介紹了具有分類輸出的有指導(dǎo)學(xué)習(xí)模型的最基本評(píng)估工具——檢驗(yàn)集分類正確率和混淆矩陣、數(shù)值型輸出模型的評(píng)估、檢驗(yàn)置信區(qū)間的計(jì)算以及無指導(dǎo)聚類技術(shù)對(duì)于有指導(dǎo)學(xué)習(xí)模型的評(píng)估作用、有指導(dǎo)學(xué)習(xí)模型的比較方法,重點(diǎn)討論了利用Lift和假設(shè)檢驗(yàn)對(duì)兩個(gè)有指導(dǎo)學(xué)習(xí)模型的性能進(jìn)行比較。同時(shí),討論了屬性評(píng)估,使用MS Excel的函數(shù)和散點(diǎn)圖進(jìn)行屬性相關(guān)性分析,以及在屬性選擇中,如何通過應(yīng)用經(jīng)典的假設(shè)檢驗(yàn)?zāi)P蛠泶_定數(shù)值屬性的重要性。本章最后給出了兩種無指導(dǎo)聚類模型的評(píng)估方法。
附錄 本書有兩個(gè)附錄:附錄A為詞匯表,包含了各章以及Weka軟件中出現(xiàn)的主要詞匯和關(guān)鍵術(shù)語;附錄B為本書各章實(shí)例、實(shí)驗(yàn)、章后習(xí)題中涉及的數(shù)據(jù)集的相關(guān)描述,有來自UCI的網(wǎng)絡(luò)共享數(shù)據(jù)集,也有假想的數(shù)據(jù)集。
第1章 認(rèn)識(shí)數(shù)據(jù)挖掘 1
1.1 數(shù)據(jù)挖掘的定義 1
1.2 機(jī)器學(xué)習(xí) 2
1.2.1 概念學(xué)習(xí) 2
1.2.2 歸納學(xué)習(xí) 3
1.2.3 有指導(dǎo)的學(xué)習(xí) 4
1.2.4 無指導(dǎo)的聚類 7
1.3 數(shù)據(jù)查詢 8
1.4 專家系統(tǒng) 8
1.5 數(shù)據(jù)挖掘的過程 9
1.5.1 準(zhǔn)備數(shù)據(jù) 10
1.5.2 挖掘數(shù)據(jù) 10
1.5.3 解釋和評(píng)估數(shù)據(jù) 10
1.5.4 模型應(yīng)用 11
1.6 數(shù)據(jù)挖掘的作用 11
1.6.1 分類 11
1.6.2 估計(jì) 12
1.6.3 預(yù)測(cè) 12
1.6.4 無指導(dǎo)聚類 12
1.6.5 關(guān)聯(lián)關(guān)系分析 13
1.7 數(shù)據(jù)挖掘技術(shù) 13
1.7.1 神經(jīng)網(wǎng)絡(luò) 14
1.7.2 回歸分析 14
1.7.3 關(guān)聯(lián)分析 15
1.7.4 聚類技術(shù) 16
1.8 數(shù)據(jù)挖掘的應(yīng)用 16
1.8.1 應(yīng)用領(lǐng)域 16
1.8.2 成功案例 18
1.9 Weka數(shù)據(jù)挖掘軟件 19
1.9.1 Weka簡(jiǎn)介 19
1.9.2 使用Weka建立決策樹模型 22
1.9.3 使用Weka進(jìn)行聚類 25
1.9.4 使用Weka進(jìn)行關(guān)聯(lián)分析 26
本章小結(jié) 27
習(xí)題 28
第2章 基本數(shù)據(jù)挖掘技術(shù) 30
2.1 決策樹 30
2.1.1 決策樹算法的一般過程 31
2.1.2 決策樹算法的關(guān)鍵技術(shù) 32
2.1.3 決策樹規(guī)則 40
2.1.4 其他決策樹算法 41
2.1.5 決策樹小結(jié) 41
2.2 關(guān)聯(lián)規(guī)則 42
2.2.1 關(guān)聯(lián)規(guī)則概述 42
2.2.2 關(guān)聯(lián)分析 43
2.2.3 關(guān)聯(lián)規(guī)則小結(jié) 46
2.3 聚類分析技術(shù) 47
2.3.1 K-means算法 48
2.3.2 K-means算法小結(jié) 51
2.4 數(shù)據(jù)挖掘技術(shù)的選擇 51
本章小結(jié) 52
習(xí)題 53
第3章 數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn) 55
3.1 知識(shí)發(fā)現(xiàn)的基本過程 55
3.1.1 KDD過程模型 55
3.1.2 知識(shí)發(fā)現(xiàn)軟件 57
3.1.3 KDD過程的參與者 58
3.2 KDD過程模型的應(yīng)用 58
3.2.1 步驟1:商業(yè)理解 58
3.2.2 步驟2:數(shù)據(jù)理解 59
3.2.3 步驟3:數(shù)據(jù)準(zhǔn)備 60
3.2.4 步驟4:建模 65
3.2.5 評(píng)估 66
3.2.6 部署和采取行動(dòng) 66
3.3 實(shí)驗(yàn):KDD案例 66
本章小結(jié) 72
習(xí)題 73
第4章 數(shù)據(jù)倉庫 74
4.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫 74
4.1.1 數(shù)據(jù)(庫)模型 75
4.1.2 規(guī)范化與反向規(guī)范化 77
4.2 設(shè)計(jì)數(shù)據(jù)倉庫 79
4.2.1 數(shù)據(jù)抽取、清洗、變換和加載 79
4.2.2 數(shù)據(jù)倉庫模型 82
4.2.3 數(shù)據(jù)集市 85
4.2.4 決策支持系統(tǒng) 86
4.3 聯(lián)機(jī)分析處理 87
4.3.1 概述 87
4.3.2 實(shí)驗(yàn):使用OLAP輔助駕駛員行為分析 90
4.4 使用Excel數(shù)據(jù)透視表和數(shù)據(jù)透視圖分析數(shù)據(jù) 93
4.4.1 創(chuàng)建簡(jiǎn)單數(shù)據(jù)透視表和透視圖 93
4.4.2 創(chuàng)建多維透視表和透視圖 97
本章小結(jié) 100
習(xí)題 100
第5章 評(píng)估技術(shù) 102
5.1 數(shù)據(jù)挖掘評(píng)估概述 102
5.1.1 評(píng)估內(nèi)容 102
5.1.2 評(píng)估工具 103
5.2 評(píng)估有指導(dǎo)學(xué)習(xí)模型 108
5.2.1 評(píng)估分類類型輸出模型 108
5.2.2 評(píng)估數(shù)值型輸出模型 109
5.2.3 計(jì)算檢驗(yàn)集置信區(qū)間 111
5.2.4 無指導(dǎo)聚類技術(shù)的評(píng)估作用 112
5.3 比較有指導(dǎo)學(xué)習(xí)模型 112
5.3.1 使用Lift比較模型 112
5.3.2 通過假設(shè)檢驗(yàn)比較模型 114
5.4 屬性評(píng)估 115
5.4.1 數(shù)值型屬性的冗余檢查 115
5.4.2 數(shù)值屬性顯著性的假設(shè)檢驗(yàn) 117
5.5 評(píng)估無指導(dǎo)聚類模型 118
本章小結(jié) 118
習(xí)題 119
第6章 神經(jīng)網(wǎng)絡(luò)技術(shù) 120
6.1 神經(jīng)網(wǎng)絡(luò)概述 120
6.1.1 神經(jīng)網(wǎng)絡(luò)模型 120
6.1.2 神經(jīng)網(wǎng)絡(luò)的輸入和輸出數(shù)據(jù)格式 121
6.1.3 激勵(lì)函數(shù) 123
6.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練 124
6.2.1 反向傳播學(xué)習(xí) 124
6.2.2 自組織映射的無指導(dǎo)聚類 127
6.2.3 實(shí)驗(yàn):應(yīng)用BP算法建立前饋神經(jīng)網(wǎng)絡(luò) 130
6.3 神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì)和缺點(diǎn) 138
本章小結(jié) 138
習(xí)題 139
第7章 統(tǒng)計(jì)技術(shù) 141
7.1 回歸分析 141
7.1.1 線性回歸分析 142
7.1.2 非線性回歸 149
7.1.3 樹回歸 151
7.2 貝葉斯分析 152
7.3 聚類技術(shù) 156
7.3.1 分層聚類 156
7.3.2 基于模型的聚類 163
7.4 數(shù)據(jù)挖掘中的統(tǒng)計(jì)技術(shù)與機(jī)器學(xué)習(xí)技術(shù) 165
本章小結(jié) 165
習(xí)題 167
第8章 時(shí)間序列和基于Web的數(shù)據(jù)挖掘 169
8.1 時(shí)間序列分析 169
8.1.1 概述 169
8.1.2 線性回歸分析解決時(shí)間序列問題 173
8.1.3 神經(jīng)網(wǎng)絡(luò)技術(shù)解決時(shí)間序列問題 175
8.2 基于Web的數(shù)據(jù)挖掘 176
8.2.1 概述 176
8.2.2 Web文本挖掘 178
8.2.3 Web使用挖掘 179
8.3 多模型分類技術(shù) 185
8.3.1 裝袋技術(shù) 185
8.3.2 推進(jìn)技術(shù) 185
本章小結(jié) 186
習(xí)題 187
附錄A 詞匯表 188
附錄B 數(shù)據(jù)挖掘數(shù)據(jù)集 201
參考文獻(xiàn)