大數(shù)據(jù)分析實用教程——基于Python實現(xiàn)
定 價:69 元
叢書名:面向新工科高等院校大數(shù)據(jù)專業(yè)系列教材
當前圖書已被 28 所學校薦購過!
查看明細
- 作者:唐四薪 趙輝煌 唐瓊
- 出版時間:2021/6/1
- ISBN:9787111682509
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:238
- 紙張:
- 版次:
- 開本:16開
本書對大數(shù)據(jù)分析的原理與Python程序實現(xiàn)進行了系統(tǒng)的介紹,每種算法都采用sklearn和Matplotlib分別進行程序實現(xiàn)及數(shù)據(jù)可視化。本書共8章,內容包括大數(shù)據(jù)分析概述、Python數(shù)據(jù)分析與可視化基礎、關聯(lián)規(guī)則與推薦算法、聚類算法及其應用、分類算法及其應用、回歸與邏輯回歸、人工神經(jīng)網(wǎng)絡、支持向量機等。
本書在理論上突出可讀性,在實踐上強調可操作性,實踐案例豐富,實用性強。隨書提供微課視頻(正文對應處掃碼可觀看)、教學課件、習題答案、教學大綱等教學資源。
本書可作為高等院校相關專業(yè)大數(shù)據(jù)分析或大數(shù)據(jù)概論等課程的教材。也可供從事大數(shù)據(jù)分析、機器學習的人員作為參考書。
目錄
出版說明
前言
第1章 大數(shù)據(jù)分析概述1
1.1 大數(shù)據(jù)概述1
1.1.1 大數(shù)據(jù)的定義和特征1
1.1.2 大數(shù)據(jù)處理的過程2
1.1.3 大數(shù)據(jù)的職業(yè)崗位4
1.2 云計算—大數(shù)據(jù)的處理架構4
1.2.1 云計算的定義和特點4
1.2.2 云計算的體系結構6
1.2.3 云計算的分類7
1.2.4 虛擬化技術9
1.3 Hadoop大數(shù)據(jù)處理平臺11
1.3.1 Hadoop的發(fā)展歷史及版本11
1.3.2 HDFS的組成13
1.3.3 HDFS讀取和寫入文件15
1.3.4 MapReduce并行編程框架16
1.3.5 YARN資源管理器19
1.3.6 Hadoop生態(tài)系統(tǒng)及其安裝22
1.4 NoSQL數(shù)據(jù)庫24
1.5 大數(shù)據(jù)分析技術26
1.5.1 大數(shù)據(jù)分析的方法26
1.5.2 大數(shù)據(jù)分析的種類27
1.5.3 大數(shù)據(jù)分析的層次28
1.5.4 大數(shù)據(jù)分析的工具29
1.5.5 大數(shù)據(jù)分析面臨的挑戰(zhàn)29
1.5.6 大數(shù)據(jù)分析的數(shù)據(jù)類型30
習題與實驗31
第2章 Python數(shù)據(jù)分析與可視化基礎34
2.1 Python程序入門34
2.1.1 一些簡單的Python程序34
2.1.2 序列數(shù)據(jù)結構36
2.1.3 序列處理函數(shù)37
2.1.4 函數(shù)和類38
2.2 Python數(shù)據(jù)分析工具41
2.2.1 Anaconda的使用41
2.2.2 Spyder集成開發(fā)環(huán)境42
2.2.3 numpy庫42
2.3 數(shù)據(jù)可視化—基于Matplotlib庫45
2.3.1 繪制曲線圖46
2.3.2 繪制散點圖等其他圖形50
2.4 SciPy庫54
2.5 sklearn庫56
2.5.1 機器學習的概念和方法56
2.5.2 樣本及樣本的劃分58
2.5.3 導入或創(chuàng)建數(shù)據(jù)集62
2.5.4 數(shù)據(jù)預處理65
2.5.5 數(shù)據(jù)的降維68
2.5.6 調用機器學習模型70
習題與實驗71
第3章 關聯(lián)規(guī)則與推薦算法73
3.1 關聯(lián)規(guī)則挖掘73
3.1.1 基本概念73
3.1.2 Apriori算法75
3.1.3 Apriori算法的程序實現(xiàn)79
3.1.4 FP-Growth算法80
3.2 推薦系統(tǒng)及算法83
3.2.1 協(xié)同過濾推薦算法84
3.2.2 協(xié)同過濾推薦算法應用實例86
3.2.3 推薦算法的MapReduce實現(xiàn)89
3.2.4 協(xié)同過濾算法的sklearn實現(xiàn)91
習題與實驗94
第4章 聚類算法及其應用96
4.1 聚類的原理與實現(xiàn)96
4.1.1 聚類的概念和類型96
4.1.2 如何度量距離96
4.1.3 聚類的基本步驟99
4.2 層次聚類算法103
4.2.1 層次聚類法舉例103
4.2.2 層次聚類法sklearn實現(xiàn)104
4.3 K-means聚類算法108
4.3.1 K-means聚類算法原理和實例108
4.3.2 K-means聚類算法的sklearn
實現(xiàn)114
4.4 K-medoids聚類算法115
4.4.1 K-medoids聚類算法原理和實例115
4.4.2 K-medoids聚類算法的sklearn
實現(xiàn)120
4.5 DBSCAN聚類算法121
4.5.1 DBSCAN聚類算法原理和實例121
4.5.2 DBSCAN聚類算法的sklearn
實現(xiàn)125
習題與實驗126
第5章 分類算法及其應用128
5.1 分類的基本原理128
5.1.1 分類與聚類的區(qū)別128
5.1.2 分類的步驟129
5.1.3 分類模型預測結果的評估131
5.1.4 sklearn庫的常用分類算法132
5.2 K-近鄰分類算法133
5.2.1 K-近鄰分類算法原理和實例133
5.2.2 sklearn中分類模型的編程步驟136
5.2.3 K-近鄰分類算法的sklearn實現(xiàn)138
5.2.4 繪制分類邊界圖139
5.2.5 確定最優(yōu)的k值141
5.3 樸素貝葉斯分類算法142
5.3.1 樸素貝葉斯原理與實例143
5.3.2 樸素貝葉斯分類的常見問題146
5.3.3 樸素貝葉斯分類算法的sklearn
實現(xiàn)147
5.4 決策樹分類算法149
5.4.1 信息論基礎150
5.4.2 ID3算法153
5.4.3 C4.5算法157
5.4.4 CART算法160
5.4.5 決策樹分類算法的sklearn程序
實現(xiàn)162
5.5 隨機森林分類算法163
5.5.1 集成學習理論163
5.5.2 隨機森林分類的理論與實例165
5.5.3 隨機森林分類算法的sklearn
實現(xiàn)169
習題與實驗172
第6章 回歸與邏輯回歸174
6.1 線性回歸174
6.1.1 相關與回歸174
6.1.2 線性回歸分析175
6.1.3 線性回歸方程參數(shù)的求法177
6.1.4 線性回歸模型的sklearn實現(xiàn)181
6.2 邏輯回歸185
6.2.1 線性分類模型的原理185
6.2.2 邏輯回歸模型及實例187
6.2.3 邏輯回歸模型的sklearn實現(xiàn)190
習題與實驗195
第7章 人工神經(jīng)網(wǎng)絡196
7.1 神經(jīng)元與感知機196
7.1.1 人工神經(jīng)元與邏輯回歸模型197
7.1.2 感知機模型197
7.1.3 感知機模型的Python實現(xiàn)199
7.1.4 多層感知機模型201
7.2 人工神經(jīng)網(wǎng)絡的核心要素203
7.2.1 神經(jīng)元的激活函數(shù)203
7.2.2 損失函數(shù)205
7.2.3 網(wǎng)絡結構206
7.2.4 反向傳播207
7.2.5 人工神經(jīng)網(wǎng)絡的sklearn實現(xiàn)209
7.3 深度學習與深度神經(jīng)網(wǎng)絡213
7.3.1 深度學習的概念和原理213
7.3.2 TensorFlow概述214
7.3.3 卷積神經(jīng)網(wǎng)絡215
習題與實驗217
第8章 支持向量機219
8.1 支持向量機的理論基礎219
8.1.1 支持向量的超平面220
8.1.2 支持向量機間隔及損失函數(shù)221
8.1.3 非線性支持向量機與核函數(shù)226
8.1.4 支持向量機分類的步驟227
8.2 支持向量機的sklearn實現(xiàn)228
8.2.1 繪制決策邊界229
8.2.2 繪制支持向量機的分類界面230
8.2.3 支持向量機參數(shù)對性能的影響231
習題與實驗236
參考文獻238