第1章緒論
1.1數(shù)據(jù)倉(cāng)庫(kù)概述
1.1.1數(shù)據(jù)倉(cāng)庫(kù)的定義及特點(diǎn)
1.1.2數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)的關(guān)系
1.1.3數(shù)據(jù)倉(cāng)庫(kù)的組成
1.1.4數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用
1.1.5基于Hadoop/Spark的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)
1.2數(shù)據(jù)挖掘概述
1.2.1數(shù)據(jù)挖掘的概念
1.2.2數(shù)據(jù)挖掘的主要任務(wù)
1.2.3數(shù)據(jù)挖掘的數(shù)據(jù)源
1.2.4數(shù)據(jù)挖掘使用的技術(shù)
1.2.5數(shù)據(jù)挖掘存在的主要問題
1.2.6數(shù)據(jù)挖掘建模的常用工具
1.2.7Python數(shù)據(jù)挖掘常用庫(kù)
1.3數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系
1.3.1數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的區(qū)別
1.3.2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的聯(lián)系
1.4小結(jié)
習(xí)題1
第2章認(rèn)識(shí)數(shù)據(jù)
2.1屬性及其類型
2.1.1屬性
2.1.2屬性類型
2.2數(shù)據(jù)的基本統(tǒng)計(jì)描述
2.2.1中心趨勢(shì)度量
2.2.2數(shù)據(jù)散布度量
2.3數(shù)據(jù)可視化
2.3.1基于像素的可視化技術(shù)
2.3.2幾何投影可視化技術(shù)
2.3.3基于圖符的可視化技術(shù)
2.3.4層次可視化技術(shù)
2.3.5可視化復(fù)雜對(duì)象和關(guān)系
2.3.6高維數(shù)據(jù)可視化
2.3.7Python數(shù)據(jù)可視化
2.4數(shù)據(jù)對(duì)象的相似性度量
2.4.1數(shù)據(jù)矩陣和相異性矩陣
2.4.2標(biāo)稱屬性的相似性度量
2.4.3二元屬性的相似性度量
2.4.4數(shù)值屬性的相似性度量
2.4.5序數(shù)屬性的相似性度量
2.4.6混合類型屬性的相似性
2.4.7余弦相似性
2.4.8距離度量的Python實(shí)現(xiàn)
2.5小結(jié)
習(xí)題2
第3章數(shù)據(jù)預(yù)處理
3.1數(shù)據(jù)預(yù)處理的必要性
3.1.1原始數(shù)據(jù)中存在的問題
3.1.2數(shù)據(jù)質(zhì)量要求
3.2數(shù)據(jù)清洗
3.2.1數(shù)據(jù)清洗方法
3.2.2利用Pandas進(jìn)行數(shù)據(jù)清洗
3.3數(shù)據(jù)集成
3.3.1數(shù)據(jù)集成過程中的關(guān)鍵問題
3.3.2利用Pandas合并數(shù)據(jù)
3.4數(shù)據(jù)標(biāo)準(zhǔn)化
3.4.1離差標(biāo)準(zhǔn)化數(shù)據(jù)
3.4.2標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)
3.5數(shù)據(jù)歸約
3.5.1維歸約
3.5.2數(shù)量歸約
3.5.3數(shù)據(jù)壓縮
3.6數(shù)據(jù)變換與數(shù)據(jù)離散化
3.6.1數(shù)據(jù)變換的策略
3.6.2Python數(shù)據(jù)變換與離散化
3.7利用sklearn進(jìn)行數(shù)據(jù)預(yù)處理
3.8小結(jié)
習(xí)題3
第4章數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理
4.1數(shù)據(jù)倉(cāng)庫(kù)的體系
4.1.1數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)
4.1.2數(shù)據(jù)ETL
4.1.3數(shù)據(jù)集市
4.1.4元數(shù)據(jù)
4.2多維數(shù)據(jù)模型與OLAP
4.2.1多維數(shù)據(jù)模型的相關(guān)概念
4.2.2OLAP的基本分析操作
4.2.3多維數(shù)據(jù)模型的實(shí)現(xiàn)
4.3數(shù)據(jù)倉(cāng)庫(kù)的維度建模
4.3.1數(shù)據(jù)倉(cāng)庫(kù)維度建模概述
4.3.2星形模型
4.3.3雪花模型
4.4數(shù)據(jù)倉(cāng)庫(kù)發(fā)展
4.4.1動(dòng)態(tài)數(shù)據(jù)倉(cāng)庫(kù)
4.4.2數(shù)據(jù)中心
4.4.3數(shù)據(jù)中臺(tái)
4.5小結(jié)
習(xí)題4
第5章數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與開發(fā)
5.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)概述
5.1.1數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的特點(diǎn)
5.1.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)與業(yè)務(wù)系統(tǒng)模型設(shè)計(jì)的區(qū)別
5.1.3數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建模式
5.1.4數(shù)據(jù)倉(cāng)庫(kù)建立框架
5.2數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)
5.2.1數(shù)據(jù)倉(cāng)庫(kù)規(guī)劃、需求分析及概念設(shè)計(jì)
5.2.2數(shù)據(jù)倉(cāng)庫(kù)邏輯模型設(shè)計(jì)
5.2.3數(shù)據(jù)倉(cāng)庫(kù)物理模型設(shè)計(jì)
5.2.4數(shù)據(jù)倉(cāng)庫(kù)部署與維護(hù)
5.3基于Hive的數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)
5.3.1Hadoop/Hive簡(jiǎn)介
5.3.2Hive數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)比較
5.3.3Hive常用數(shù)據(jù)操作
5.3.4利用Hive建立數(shù)據(jù)倉(cāng)庫(kù)
5.4小結(jié)
習(xí)題5
第6章回歸分析
6.1回歸分析概述
6.1.1回歸分析的定義與分類
6.1.2回歸分析的過程
6.2一元線性回歸分析
6.2.1一元線性回歸方法
6.2.2一元線性回歸模型的參數(shù)估計(jì)
6.2.3一元線性回歸模型的誤差方差估計(jì)
6.2.4一元線性回歸模型的主要統(tǒng)計(jì)檢驗(yàn)
6.2.5一元線性回歸的Python實(shí)現(xiàn)
6.3多元線性回歸
6.3.1多元線性回歸模型
6.3.2多元線性回歸模型的參數(shù)估計(jì)
6.3.3多元線性回歸的假設(shè)檢驗(yàn)及其評(píng)價(jià)
6.3.4多元線性回歸的Python實(shí)現(xiàn)
6.4邏輯回歸
6.4.1邏輯回歸模型
6.4.2邏輯回歸的Python實(shí)現(xiàn)
6.5其他回歸分析
6.5.1多項(xiàng)式回歸
6.5.2嶺回歸
6.5.3Lasso回歸
6.5.4彈性回歸
6.5.5逐步回歸
6.6小結(jié)
習(xí)題6
第7章關(guān)聯(lián)規(guī)則挖掘
7.1關(guān)聯(lián)規(guī)則挖掘概述
7.2頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)則
7.3頻繁項(xiàng)集挖掘方法
7.3.1Apriori算法
7.3.2由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則
7.3.3提高Apriori算法的效率
7.3.4頻繁模式增長(zhǎng)算法
7.3.5使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集
7.4關(guān)聯(lián)模式評(píng)估方法
7.5Apriori算法應(yīng)用
7.6小結(jié)
習(xí)題7
第8章分類
8.1分類概述
8.2決策樹歸納
8.2.1決策樹原理
8.2.2ID3算法
8.2.3C4.5算法
8.2.4CART算法
8.2.5樹剪枝
8.2.6決策樹應(yīng)用
8.3K近鄰算法
8.3.1算法原理
8.3.2Python算法實(shí)現(xiàn)
8.4支持向量機(jī)
8.4.1算法原理
8.4.2Python算法實(shí)現(xiàn)
8.5樸素貝葉斯分類
8.5.1算法原理
8.5.2高斯樸素貝葉斯分類
8.5.3多項(xiàng)式樸素貝葉斯分類
8.5.4樸素貝葉斯分類應(yīng)用
8.6模型評(píng)估與選擇
8.6.1分類器性能的度量
8.6.2模型選擇
8.7組合分類
8.7.1組合分類方法簡(jiǎn)介
8.7.2袋裝
8.7.3提升和AdaBoost
8.7.4隨機(jī)森林
8.8小結(jié)
習(xí)題8
第9章聚類
9.1聚類分析概述
9.1.1聚類分析的概念
9.1.2聚類算法分類
9.2KMeans聚類
9.2.1算法原理
9.2.2算法改進(jìn)
9.2.3KMeans算法實(shí)現(xiàn)
9.3層次聚類
9.3.1算法原理
9.3.2簇間的距離度量
9.3.3分裂層次聚類
9.3.4凝聚層次聚類
9.3.5層次聚類應(yīng)用
9.4基于密度的聚類
9.4.1算法原理
9.4.2算法改進(jìn)
9.4.3DBSCAN算法實(shí)現(xiàn)
9.5其他聚類方法
9.5.1STING聚類
9.5.2概念聚類
9.5.3模糊聚類
9.6聚類評(píng)估
9.6.1聚類趨勢(shì)的估計(jì)
9.6.2聚類簇?cái)?shù)的確定
9.6.3聚類質(zhì)量的測(cè)定
9.7小結(jié)
習(xí)題9
第10章神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
10.1神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
10.1.1神經(jīng)元模型
10.1.2感知機(jī)與多層網(wǎng)絡(luò)
10.2BP神經(jīng)網(wǎng)絡(luò)
10.2.1多層前饋神經(jīng)網(wǎng)絡(luò)
10.2.2后向傳播算法
10.2.3BP神經(jīng)網(wǎng)絡(luò)應(yīng)用
10.3深度學(xué)習(xí)
10.3.1深度學(xué)習(xí)概述
10.3.2常用的深度學(xué)習(xí)算法
10.4小結(jié)
習(xí)題10
第11章離群點(diǎn)檢測(cè)
11.1離群點(diǎn)概述
11.1.1離群點(diǎn)的概念
11.1.2離群點(diǎn)的類型
11.1.3離群點(diǎn)檢測(cè)的挑戰(zhàn)
11.2離群點(diǎn)的檢測(cè)
11.2.1基于統(tǒng)計(jì)學(xué)的離群點(diǎn)檢測(cè)
11.2.2基于鄰近性的離群點(diǎn)檢測(cè)
11.2.3基于聚類的離群點(diǎn)檢測(cè)
11.2.4基于分類的離群點(diǎn)檢測(cè)
11.3sklearn中的異常檢測(cè)方法
11.4小結(jié)
習(xí)題11
第12章文本和時(shí)序數(shù)據(jù)挖掘
12.1文本數(shù)據(jù)挖掘
12.1.1文本挖掘概述
12.1.2文本挖掘的過程與任務(wù)
12.2文本分析與挖掘的主要方法
12.2.1詞語分詞
12.2.2詞性標(biāo)注與停用詞過濾
12.2.3文本表征
12.2.4文本分類
12.2.5文本聚類
12.2.6文本可視化
12.3時(shí)序數(shù)據(jù)挖掘
12.3.1時(shí)間序列和時(shí)間序列分析
12.3.2時(shí)間序列平穩(wěn)性和隨機(jī)性判定
12.3.3自回歸滑動(dòng)平均模型
12.3.4差分整合移動(dòng)平均自回歸模型
12.3.5季節(jié)性差分自回歸移動(dòng)平均模型
12.4小結(jié)
習(xí)題12
第13章數(shù)據(jù)挖掘案例
13.1良性/惡性乳腺腫瘤預(yù)測(cè)
13.2泰坦尼克號(hào)乘客生還預(yù)測(cè)
13.3圖像的聚類分割
13.4小結(jié)
參考文獻(xiàn)