數(shù)據(jù)分析算法及應用實踐.基于Python 3.x(富媒體)
定 價:59 元
叢書名:高等院校特色規(guī)劃教材
- 作者: 劉建軍,董少群,崔學慧 著
- 出版時間:2020/9/1
- ISBN:9787518341511
- 出 版 社:石油工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:372
- 紙張:膠版紙
- 版次:1
- 開本:16開
《數(shù)據(jù)分析算法及應用實踐.基于Python 3.x(富媒體)》基于Python 3.x平臺,介紹了數(shù)據(jù)分析方法和應用實踐。內(nèi)容涉及數(shù)據(jù)分析中的有監(jiān)督和無監(jiān)督方法,包括關聯(lián)規(guī)則、聚類和分類三類基本方法。重點介紹數(shù)據(jù)分析方法中的算法思想及算法詳細實現(xiàn)過程,并結合簡單實例進行說明,以達到深入淺出、通俗易懂的目標。對于一些重要定理和結論,適當增加了數(shù)學證明或公式推導等內(nèi)容,以加強學習者對算法理論的深入理解。書末附有數(shù)據(jù)分析實驗與應用實踐,給出了基于Python的項目解決方案和過程。
《數(shù)據(jù)分析算法及應用實踐.基于Python 3.x(富媒體)》的適用對象主要是高等院校的統(tǒng)計專業(yè)、大數(shù)據(jù)專業(yè)等高年級本科生和理工類學科的碩士研究生,也適用于有關領域中需要數(shù)據(jù)分析處理的廣大工作者。
數(shù)據(jù)分析方法與Python軟件相結合是本書的特點,隨著大數(shù)據(jù)與人工智能的快速發(fā)展,優(yōu)秀的數(shù)據(jù)處理軟件Python被廣大科技工作者公認為數(shù)據(jù)處理的開源軟件之一。為使數(shù)據(jù)分析算法與Python更好地結合,以Python 3.x為平臺編寫了本教材,這也是數(shù)據(jù)處理方法教材發(fā)展進步的必然結果。
本書主要介紹了數(shù)據(jù)分析中的有監(jiān)督和無監(jiān)督方法,包括關聯(lián)規(guī)則、聚類和分類三類基本方法。對關聯(lián)規(guī)則、聚類和分類各部分內(nèi)容的編排上,注重方法發(fā)展的遞進性。對書中所有的算法都給出了Python參考程序,并在Anaconda 3中的Spyder下測試通過,同時每章末都配有一定量的習題,以方便自學之用。附錄數(shù)據(jù)分析實驗與應用實踐部分包含8個項目,并給出了基于Python的項目解決方案和過程。
建議用64學時學完本書所有內(nèi)容,同時要求學生課下自由上機實踐16學時;本書的關聯(lián)規(guī)則方法、聚類方法、分類方法和高級數(shù)據(jù)分析方法基本相互獨立,因此教師也可以根據(jù)學時要求,適當選擇內(nèi)容進行教學。
本書由中國石油大學(北京)劉建軍、董少群、崔學慧編著。編寫分工如下:劉建軍編寫書中緒論、第1~14章,董少群編寫第16章和附錄中的前4個實驗項目及各章中的Python算法實現(xiàn)程序,崔學慧編寫第15章和附錄中的后4個實驗。劉建軍進行統(tǒng)稿。
本書編寫過程中參考了國內(nèi)已出版的相關書籍和算法的原始論文及大量在線資料,對這些作者致以誠摯的謝意。中國石油大學(北京)許香敏老師對部分章節(jié)作了認真審閱,翟瑞、李文亮、王炳哲、黃麗媛、林秋婷、尹彤、孫萌萌和董靖等研究生幫助整理和校讀了部分書稿,對他們的熱忱幫助表示感謝。
由于編著者水平所限,盡管做了很大努力,書中仍可能存在一些缺點和錯誤,望廣大讀者給予批評指正。
緒論
0.1 大數(shù)據(jù)背景下的數(shù)據(jù)分析
0.2 大數(shù)據(jù)分析與傳統(tǒng)數(shù)據(jù)分析的區(qū)別
0.3 數(shù)據(jù)分析的基本過程及數(shù)據(jù)的預處理
0.4 數(shù)據(jù)分析方法分類
0.5 本書主要內(nèi)容
第1篇 關聯(lián)規(guī)則方法
第1章 關聯(lián)分析算法
1.1 Apriori算法
1.2 AprioriTID算法
習題
第2章 FP-Growth、ECLAT和RElim算法
2.1 FP-Growth算法
2.2 ECLAT算法
2.3 RElim算法
習題
第2篇 聚類方法
第3章 聚類問題基礎知識
3.1 聚類分析概述
3.2 數(shù)據(jù)變換處理方法
3.3 聚類算法中的距離計算
3.4 聚類算法評價
習題
第4章 基于劃分的聚類方法
4.1 K-Means聚類算法
4.2 K-Means的改進算法
4.3 AP聚類算法
習題
第5章 基于層次的聚類方法
5.1 基于層次的聚類方法思想
5.2 BIRCH算法
5.3 CURE算法
5.4 ROCK算法
習題
第6章 基于密度的聚類方法
6.1 DBSCAN聚類方法
6.2 OPTICS聚類方法
6.3 均值遷移聚類方法
6.4 密度峰值聚類方法
習題
第7章 基于網(wǎng)格的聚類方法
7.1 STING算法
7.2 WaveCluster算法
7.3 CLIQUE算法
習題
第8章 基于圖的聚類方法
8.1 圖的基本概念
8.2 Chameleon算法
8.3 譜聚類算法
習題
第9章 基于模型的聚類方法
9.1 EM算法
9.2 混合高斯模型(GMM)算法
習題
第3篇 分類方法
第10章 分類方法概述
10.1 分類概述
10.2 分類模型的評估
第11章 k-近鄰算法與k-d樹
11.1 k-近鄰算法
11.2 k-d樹
習題
第12章 決策樹與隨機森林
12.1 決策樹
12.2 隨機森林
12.3 決策樹與隨機森林分類算法的Python實現(xiàn)
習題
第13章 自適應提升和梯度提升算法
13.1 Boosting算法
13.2 自適應提升算法
13.3 梯度提升決策樹算法
13.4 XGBoost算法
習題
第14章 樸素貝葉斯分類算法
14.1 貝葉斯基礎知識
14.2 樸素貝葉斯算法原理
14.3 樸素貝葉斯分類算法的參數(shù)估計
14.4 樸素貝葉斯算法的Python實現(xiàn)
習題
第4篇 高級數(shù)據(jù)分析方法
第15章 基于神經(jīng)網(wǎng)絡的數(shù)據(jù)處理方法
15.1 人工神經(jīng)網(wǎng)絡簡介
15.2 感知器分類算法
15.3 BP神經(jīng)網(wǎng)絡實現(xiàn)分類
15.4 SOM聚類法
習題
第16章 支持向量機分類算法
16.1 線性支持向量機
16.2 軟間隔線性支持向量機
16.3 非線性支持向量機
16.4 序列最小優(yōu)化算法
16.5 SVM實現(xiàn)多分類
16.6 SVM的特點及SVM分類的Python實現(xiàn)
習題
參考文獻
附錄 數(shù)據(jù)分析實驗與應用實踐
附錄A 數(shù)據(jù)文件操作基礎
A.1 導入導出txt文件
A.2 導入導出csv文件
A.3 應用pandas包讀寫數(shù)據(jù)文件
附錄B 零售市場數(shù)據(jù)關聯(lián)分析
B.1 項目背景
B.2 導入數(shù)據(jù)
B.3 數(shù)據(jù)描述性分析
B.4 數(shù)據(jù)預處理
B.5 尋找關聯(lián)規(guī)則
B.6 小結
附錄C 用K-Means聚類進行客戶細分
C.1 項目背景
C.2 導入數(shù)據(jù)
C.3 數(shù)據(jù)分析
C.4 小結
附錄D 應用GMM識別語音人物
D.1 項目任務
D.2 數(shù)據(jù)準備
D.3 GMM建模
D.4 結果與結論
附錄E 基于K-近鄰算法的手寫數(shù)字識別
E.1 項目背景
E.2 手寫數(shù)字識別模型原理
E.3 數(shù)據(jù)及數(shù)據(jù)前期處理
E.4 構建KNN算法并測試算法
E.5 小結
附錄F 應用樸素貝葉斯分類器過濾垃圾郵件
F.1 項目背景
F.2 收集并準備數(shù)據(jù)
F.3 構造分類函數(shù)
F.4 訓練算法
F.5 測試算法
F.6 小結
附錄G 基于隨機森林和GBDT的心血管疾病診斷
G.1 項目背景
G.2 數(shù)據(jù)說明與預處理
G.3 探索性分析
G.4 分類建模
G.5 小結
附錄H 基于SVM的圖像分類
H.1 項目任務
H.2 SVM圖像分類的基本流程
H.3 實際數(shù)據(jù)處理
H.4 結果與小結