本書包括兩部分內(nèi)容,第壹部分重點介紹了與Python語言相關的數(shù)據(jù)分析
工具,包括NumPy、Matplotlib、Pandas、Scipy、Seaborn和Sklearn。第二部分介紹數(shù)據(jù)處理、特征工程、評價指標、線性模型、支持向量機、K近鄰算法、樸素貝葉斯、決策樹、K-Means算法和文本分析實例。附錄提供了課程教學大綱和
部分課后習題答案。
本書內(nèi)容精練、文字簡潔、結構合理、實訓題目經(jīng)典實用、綜合性強、定位明確,面向初、中級讀者,由“入門”起步,側重“提高”。特別適合作為高等院校相關專業(yè)數(shù)據(jù)分析與機器學習課程的入門教材或教學參考書,也可以供從事計算機應用開發(fā)的各類技術人員參考。
前言
第1章Python與數(shù)據(jù)分析
11概述
111引例
112數(shù)據(jù)分析與數(shù)據(jù)挖掘
12Python簡介
121Python特點
122Python應用場合
13數(shù)據(jù)分析流程
131明確目標
132獲取數(shù)據(jù)
133清洗數(shù)據(jù)
134特征工程
135構建模型
136模型評估
14數(shù)據(jù)分析庫
141NumPy
142Matplotlib
143Pandas
144Seaborn
145Scipy
146Sklearn
15Python解釋器
151Ubuntu下安裝Python
152Windows下安裝Python
16Python編輯器
161IDLE
162VScode
163PyCharm
164Anaconda
165Jupyter
17習題
第2章NumPy——數(shù)據(jù)分析基礎
工具
21安裝NumPy
22ndarray對象
221認識ndarray對象
222ndarray對象屬性
23創(chuàng)建ndarray對象
231zeros
232ones
233diag
234arange
235linspace
236logspace
24數(shù)組變換
241維度變換
242數(shù)組拼接
243數(shù)組分割
244數(shù)組復制
25索引和切片
26線性代數(shù)
261矩陣運算
262矩陣轉置
263特征根和特征向量
27統(tǒng)計量
271平均值
272最值
273中位數(shù)
274極差
275方差
276協(xié)方差
277皮爾森相關系數(shù)
28習題
第3章Matplotlib——數(shù)據(jù)可視化
工具
31安裝Matplotlib
32繪圖步驟
321創(chuàng)建畫布
322繪圖函數(shù)
323繪圖屬性
33子圖基本操作
331pltsubplot
332figureadd_subplot
333pltsubplots
34繪圖
341折線圖
342氣泡圖
343餅圖
344直方圖
345條形圖
35概率分布
351泊松分布
352正態(tài)分布
353均勻分布
354二項分布
36習題
第4章Pandas——數(shù)據(jù)處理工具
41認識Pandas
42Series
421創(chuàng)建Series
422 Series屬性
423訪問Series數(shù)據(jù)
43操作Series
431更新Series
432插入Series
433刪除Series
44DataFrame
441創(chuàng)建DataFrame
442DataFrame屬性
443選取行列數(shù)據(jù)
45操作DataFrame
451更新DataFrame
452插入DataFrame
453刪除DataFrame
46Index
461創(chuàng)建Index
462常用屬性
463常用方法
464重建Index
47可視化
471線形圖
472條形圖
473餅狀圖
474直方圖與密度圖
48數(shù)據(jù)轉換
481數(shù)據(jù)值替換
482數(shù)據(jù)映射
483數(shù)據(jù)值合并
484數(shù)據(jù)值補充
485數(shù)據(jù)離散化
49數(shù)據(jù)分組與聚合
491數(shù)據(jù)分組
492數(shù)據(jù)聚合
410讀取外部數(shù)據(jù)
4101操作Excel
4102操作文本文件
4103操作數(shù)據(jù)庫
411習題
第5章Scipy——數(shù)據(jù)統(tǒng)計工具
51認識Scipy
52稀疏矩陣
53線性代數(shù)
531矩陣運算
532線性方程組求解
54數(shù)據(jù)優(yōu)化
541非線性方程組求解
542函數(shù)最值
543最小二乘法
55數(shù)據(jù)分布
551泊松分布
552正態(tài)分布
553均勻分布
554二項分布
555指數(shù)分布
56統(tǒng)計量
561眾數(shù)
562皮爾森相關系數(shù)
57圖像處理
571旋轉圖像
572圖像濾波
573邊緣檢測
58習題
第6章Seaborn——數(shù)據(jù)可視化
工具
61認識Seaborn
611繪圖特色
612圖表分類
613數(shù)據(jù)集
62繪圖設置
621繪圖元素
622主題
623調色板
63繪圖
631直方圖
632核密度圖
633小提琴圖
634分類散點圖
635條形圖
636熱力圖
637點圖
64習題
第7章Sklearn——機器學習工具
71Sklearn簡介
72安裝Sklearn
73數(shù)據(jù)集
731小數(shù)據(jù)集
732大數(shù)據(jù)集
733生成數(shù)據(jù)集
74機器學習流程
741數(shù)據(jù)清洗
742劃分數(shù)據(jù)集
743特征工程
744機器算法
745模型評估
75習題
第8章數(shù)據(jù)處理
81認識數(shù)據(jù)處理
82數(shù)據(jù)清洗
821處理缺失值
822處理異常值
823處理重復值
83特征處理
831規(guī)范化
832標準化
833魯棒化
84數(shù)據(jù)分析可視庫
841missingno庫
842詞云
85案例——學生信息清洗
86習題
第9章特征工程
91認識特征工程
92獨熱編碼
93特征提取
931DictVectorizer
932CountVectorizer
933TfidfVectorizer
94中文分詞
941Jieba分詞庫
942停用詞表
95案例——中文特征提取
96習題
第10章評價指標
101欠擬合和過擬合
1011欠擬合
1012過擬合
102曲線擬合
1021polyfit方法
1022Curve_fit方法
103分類評價指標
1031混淆矩陣
1032準確率
1033精確率
1034召回率
1035F1 Score
1036ROC曲線
1037AUC面積
1038分類評估報告
104回歸評價指標
1041均方誤差
1042相關系數(shù)或者R2
105案例——手寫數(shù)字數(shù)據(jù)集評價
指標
106習題
第11章線性模型
111回歸模型
1111線性回歸
1112邏輯回歸
112兩種求解方法
1121最小二乘法
1122梯度下降法
113嶺回歸
1131認識嶺回歸
1132參數(shù)alpha
114案例
1141線性回歸預測披薩價格
1142線性回歸與嶺回歸識別糖
尿病
115習題
第12章支持向量機
121初識向量機
1211超平面線性方程
1212SVM算法庫
122核函數(shù)
1221線性核函數(shù)
1222多項式核函數(shù)
1223高斯核函數(shù)
123參數(shù)調優(yōu)
1231gamma參數(shù)
1232懲罰系數(shù)C
124回歸問題
125案例
1251支持向量機識別鳶尾花
1252支持向量機預測波士頓
房價
126習題
第13章K近鄰算法
131初識K近鄰算法
1311算法思想
1312算法描述
132選擇K值
133距離度量
134分類問題
135回歸問題
136案例
1361KNN區(qū)分電影類型
1362KNN識別鳶尾花
137習題
第14章樸素貝葉斯
141初識樸素貝葉斯
142貝葉斯定理
143流程
144分類
1441高斯分布
1442多項式分布
1443伯努利分布
145案例
1451樸素貝葉斯識別鳶尾花
1452樸素貝葉斯分類新聞
146習題
第15章決策樹
151初識決策樹
152信息論
1521信息熵
1522條件熵
1523信息增益
1524互信息
1525基尼系數(shù)
153決策樹算法
1531ID3算法
1532C45算法
1533CART算法
154分類與回歸
1541分類問題
1542回歸問題
1543調優(yōu)max_depth參數(shù)
155集成分類模型
1551隨機森林
1552梯度提升決策樹
156graphviz與DOT
1561graphviz
1562DOT語言
157案例
1571決策樹決定是否賴床
1572決策樹預測波士頓房價
158習題
第16章K-Means算法
161初識K-Means
162實現(xiàn)K-Means聚類
1621理論實現(xiàn)K-Means聚類
1622Python實現(xiàn)K-Means聚類
1623Sklearn實現(xiàn)K-Means聚類
163K-Means評估指標
1631調整蘭德系數(shù)
1632輪廓系數(shù)
164案例
1641K-Means聚類鳶尾花
1642K-Means標記質心
165習題
第17章文本分析示例
171正則表達式
1711基本語法
1712re模塊
1713提取電影信息
172LDA
1721LDA原理
1722Gensim庫
173距離算法
1731余弦相似度
1732編輯距離
174SimHash算法
1741算法思想
1742實現(xiàn)步驟
175文本情感分析
1751情感分析
1752SnowNLP
176案例——電影影評情感
分析
177習題
附錄
附錄A課程教學大綱
附錄B部分課后習題答案
參考文獻