Python數(shù)據(jù)分析全流程實(shí)操指南
本書主要圍繞整個(gè)數(shù)據(jù)分析方法論的常規(guī)流程,介紹了Python常用的工具包,包括科學(xué)計(jì)算庫(kù)Numpy、數(shù)據(jù)分析庫(kù)Pandas、數(shù)據(jù)挖掘庫(kù)Scikit-Learn,以及數(shù)據(jù)可視化庫(kù)Matplotlib和Seaborn的基本知識(shí),并從數(shù)據(jù)分析挖掘的實(shí)際業(yè)務(wù)應(yīng)用出發(fā),講解了互聯(lián)網(wǎng)、金融及零售等行業(yè)的真實(shí)案例,比如客戶分群、產(chǎn)品精準(zhǔn)營(yíng)銷、房?jī)r(jià)預(yù)測(cè)、特征降維等,深入淺出、循序漸進(jìn)地介紹了Python數(shù)據(jù)分析的全過(guò)程。
本書內(nèi)容精煉、重點(diǎn)突出、案例豐富,適合在企業(yè)中從事數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等工作的人員學(xué)習(xí)使用,同樣適合想從事數(shù)據(jù)分析挖掘工作的各大中專院校的學(xué)生與教師,以及其他對(duì)數(shù)據(jù)分析挖掘技術(shù)領(lǐng)域有興趣愛好的各類人員。
尚濤,畢業(yè)于上海交通大學(xué)數(shù)學(xué)系,擁有數(shù)學(xué)碩士學(xué)位,研究方向?yàn)閿?shù)據(jù)挖掘及機(jī)器學(xué)習(xí)領(lǐng)域,曾任職于支付寶、平安科技、易方達(dá)基金。現(xiàn)任職于南方基金,專注于信用風(fēng)險(xiǎn)評(píng)分、精準(zhǔn)營(yíng)銷、推薦系統(tǒng)等領(lǐng)域的數(shù)據(jù)挖掘項(xiàng)目的研發(fā)工作,擁有超過(guò)10年的數(shù)據(jù)挖掘和優(yōu)化建模經(jīng)驗(yàn),以及多年使用Python、SAS、R等軟件的經(jīng)驗(yàn)。在從業(yè)經(jīng)歷中,為所在公司的業(yè)務(wù)方成功實(shí)施了眾多深受好評(píng)的數(shù)據(jù)挖掘項(xiàng)目,取得了較好的業(yè)務(wù)價(jià)值。
第一章 數(shù)據(jù)分析方法
11.1 什么是數(shù)據(jù)分析2
1.2 數(shù)據(jù)分析標(biāo)準(zhǔn)流程2
1.3 數(shù)據(jù)清洗7
1.4 數(shù)據(jù)探索8
1.5 模型開發(fā)10
1.6 模型應(yīng)用11
第二章 初識(shí)Python12
2.1 Python基本概述13
2.2 Python編程語(yǔ)法基礎(chǔ)14
2.3 數(shù)據(jù)分析常用Python庫(kù)22
2.4 第三方Python庫(kù)介紹23
第三章 NumPy數(shù)組與矩陣25
3.1 Ndarray對(duì)象26
3.2 數(shù)據(jù)類型27
3.3 數(shù)組屬性28
3.4 創(chuàng)建數(shù)組30
3.5 數(shù)據(jù)索引與切片34
3.6 數(shù)組操作37
3.7 數(shù)組排序51
3.8 函數(shù)54
3.9 矩陣62
第四章 Pandas數(shù)據(jù)分析65
4.1 系列(Series)66
4.2 數(shù)據(jù)幀(DataFrame)68
4.3 基本功能介紹70
4.4 讀取和寫入數(shù)據(jù)78
4.5 索引和選擇數(shù)據(jù)84
4.6 數(shù)據(jù)合并87
4.7 累計(jì)與分組91
4.8 時(shí)間序列處理96
4.9 缺失數(shù)據(jù)處理101
4.10 函數(shù)107
4.11 描述性統(tǒng)計(jì)115
4.12 繪制圖形118
第五章 Scikit-Learn數(shù)據(jù)挖掘126
5.1 機(jī)器學(xué)習(xí)問(wèn)題127
5.2 機(jī)器學(xué)習(xí)的基本流程127
5.3 數(shù)據(jù)處理128
5.4 特征選擇131
5.5 模型調(diào)用135
5.6 模型參數(shù)說(shuō)明138
5.7 交叉驗(yàn)證148
5.8 模型部署151
第六章 數(shù)據(jù)可視化153
6.1 Matplotlib繪制圖形154
6.2 Seaborn繪制圖形163
6.3 重要類型圖形的繪制184
第七章 數(shù)據(jù)導(dǎo)入與導(dǎo)出192
7.1 連接數(shù)據(jù)庫(kù)193
7.2 讀取外部數(shù)據(jù)194
7.3 導(dǎo)出數(shù)據(jù)201
第八章 數(shù)據(jù)預(yù)處理203
8.1 數(shù)據(jù)去重204
8.2 缺失值處理205
8.3 變量操作210
8.4 樣本選擇217
8.5 數(shù)據(jù)集操作220
第九章 數(shù)據(jù)探索226
9.1 集中趨勢(shì)227
9.2 離散程度230
9.3 分布狀態(tài)234
9.4 相關(guān)分析236
第十章 線性回歸分析241
10.1 線性回歸模型242
10.2 最小二乘估計(jì)243
10.3 顯著性檢驗(yàn)244
10.4 預(yù)測(cè)245
10.5 相關(guān)性246
10.6 共線性247
10.7 案例分析——波士頓地區(qū)房?jī)r(jià)預(yù)測(cè)247
第十一章 Logistic回歸分析260
11.1 邏輯回歸模型介紹261
11.2 案例分析——泰坦尼克生存預(yù)測(cè)262
第十二章 決策樹275
12.1 決策樹介紹276
12.2 案例分析——金融產(chǎn)品推薦277
第十三章 主成分分析292
13.1 主成分分析的數(shù)學(xué)模型293
13.2 PCA函數(shù)說(shuō)明294
13.3 案例分析——數(shù)據(jù)降維295
第十四章 聚類分析304
14.1 距離305
14.2 聚類方法306
14.3 確定聚類數(shù)309
14.4 聚類的分析步驟311
14.5 案例分析——客戶群聚類分析312
第十五章 時(shí)間序列分析323
15.1 時(shí)間序列的組成部分324
15.2 確定性的時(shí)間序列模型325
15.3 隨機(jī)時(shí)間序列模型325
15.4 ARMA模型的識(shí)別327
15.5 時(shí)間序列的分析步驟329
15.6 模型參數(shù)的估計(jì)329
15.7 案例分析——大氣二氧化碳濃度預(yù)測(cè)331