Python大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)商業(yè)案例實戰(zhàn)
定 價:99.8 元
- 作者:王宇韜 錢妍竹 等
- 出版時間:2020/5/1
- ISBN:9787111654711
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP311.561
- 頁碼:0
- 紙張:
- 版次:1
- 開本:16K
大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)已成為各行各業(yè)實現(xiàn)數(shù)字化變革的關(guān)鍵驅(qū)動力。本書以功能強(qiáng)大且較易上手的Python語言為編程環(huán)境,全面講解了大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)的商業(yè)應(yīng)用實戰(zhàn)。
全書共16章,講解了線性回歸模型、邏輯回歸模型、決策樹模型、樸素貝葉斯模型、K近鄰算法模型、隨機(jī)森林模型、AdaBoost與GBDT模型、XGBoost與LightGBM模型、PCA(主成分分析)模型、聚類與分群模型(KMeans與DBSCAN算法)、協(xié)同過濾算法模型、Apriori關(guān)聯(lián)分析模型、神經(jīng)網(wǎng)絡(luò)模型等十余種機(jī)器學(xué)習(xí)模型的原理和代碼實現(xiàn),每種模型都配有一到兩個典型案例,涵蓋金融、營銷、醫(yī)療、社會科學(xué)、企業(yè)辦公與管理等多個領(lǐng)域。
本書適合具備一定數(shù)學(xué)知識和編程基礎(chǔ)、希望快速在工作中應(yīng)用大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)的讀者閱讀,也適合Python編程愛好者或?qū)Υ髷?shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)感興趣的讀者參考。
前言
如何獲取學(xué)習(xí)資源
第1章 Python與數(shù)據(jù)科學(xué)
1.1 大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)概述13
1.1.1 大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)的應(yīng)用領(lǐng)域13
1.1.2 機(jī)器學(xué)習(xí)的基本概念14
1.1.3 Python在數(shù)據(jù)科學(xué)中的作用16
1.2 Python編程環(huán)境部署與基本操作16
1.2.1 Python的安裝16
1.2.2 Pycharm的安裝與設(shè)置18
1.2.3 Jupyter Notebook的使用22
1.3 Python基礎(chǔ)知識概要28
第2章 數(shù)據(jù)分析利器:NumPy、pandas與Matplotlib庫
2.1 NumPy庫基礎(chǔ)29
2.1.1 NumPy庫與數(shù)組29
2.1.2 數(shù)組與列表的區(qū)別30
2.1.3 創(chuàng)建數(shù)組的幾種方式31
2.2 pandas庫基礎(chǔ)33
2.2.1 二維數(shù)據(jù)表格DataFrame的創(chuàng)建33
2.2.2 Excel工作簿等文件的讀取和寫入38
2.2.3 數(shù)據(jù)的選取與處理41
2.2.4 數(shù)據(jù)表拼接47
2.3 Matplotlib庫基礎(chǔ)51
2.3.1 基本圖表繪制51
2.3.2 數(shù)據(jù)可視化常用技巧56
2.4 案例實戰(zhàn):股票數(shù)據(jù)讀取與K線圖繪制61
2.4.1 初步嘗試:股票數(shù)據(jù)讀取與可視化62
2.4.2 進(jìn)階實戰(zhàn):股票K線圖繪制65
第3章 線性回歸模型
3.1 一元線性回歸73
3.1.1 一元線性回歸的數(shù)學(xué)原理73
3.1.2 一元線性回歸的代碼實現(xiàn)75
3.1.3 案例實戰(zhàn):不同行業(yè)工齡與薪水的線性回歸模型77
3.2 線性回歸模型評估83
3.2.1 模型評估的編程實現(xiàn)83
3.2.2 模型評估的數(shù)學(xué)原理84
3.3 多元線性回歸87
3.3.1 多元線性回歸的數(shù)學(xué)原理和代碼實現(xiàn)87
3.3.2 案例實戰(zhàn):客戶價值預(yù)測模型88
第4章 邏輯回歸模型
4.1 邏輯回歸模型的算法原理92
4.1.1 邏輯回歸模型的數(shù)學(xué)原理92
4.1.2 邏輯回歸模型的代碼實現(xiàn)94
4.1.3 邏輯回歸模型的深入理解95
4.2 案例實戰(zhàn):客戶流失預(yù)警模型98
4.2.1 案例背景98
4.2.2 數(shù)據(jù)讀取與變量劃分98
4.2.3 模型的搭建與使用99
4.3 模型評估方法:ROC曲線與KS曲線104
4.3.1 ROC曲線的基本原理105
4.3.2 案例實戰(zhàn):用ROC曲線評估客戶流失預(yù)警模型108
4.3.3 KS曲線的基本原理111
4.3.4 案例實戰(zhàn):用KS曲線評估客戶流失預(yù)警模型112
第5章 決策樹模型
5.1 決策樹模型的基本原理115
5.1.1 決策樹模型簡介115
5.1.2 決策樹模型的建樹依據(jù)116
5.1.3 決策樹模型的代碼實現(xiàn)119
5.2 案例實戰(zhàn):員工離職預(yù)測模型123
5.2.1 模型搭建123
5.2.2 模型預(yù)測及評估126
5.2.3 決策樹模型可視化呈現(xiàn)及決策樹要點(diǎn)理解131
5.3 參數(shù)調(diào)優(yōu):K折交叉驗證與GridSearch網(wǎng)格搜索138
5.3.1 K折交叉驗證138
5.3.2 GridSearch網(wǎng)格搜索139
第6章 樸素貝葉斯模型
6.1 樸素貝葉斯模型的算法原理145
6.1.1 一維特征變量下的貝葉斯模型145
6.1.2 二維特征變量下的貝葉斯模型146
6.1.3 n維特征變量下的貝葉斯模型147
6.1.4 樸素貝葉斯模型的簡單代碼實現(xiàn)147
6.2 案例實戰(zhàn):腫瘤預(yù)測模型148
6.2.1 案例背景148
6.2.2 數(shù)據(jù)讀取與劃分148
6.2.3 模型的搭建與使用149
第7章 K近鄰算法
7.1 K近鄰算法的原理和代碼實現(xiàn)152
7.1.1 K近鄰算法的基本原理152
7.1.2 K近鄰算法的計算步驟153
7.1.3 K近鄰算法的代碼實現(xiàn)155
7.2 案例實戰(zhàn):手寫數(shù)字識別模型157
7.2.1 案例背景157
7.2.2 手寫數(shù)字識別的原理157
7.2.3 手寫數(shù)字識別的代碼實現(xiàn)159
7.3 圖像識別原理詳解162
第8章 隨機(jī)森林模型
8.1 隨機(jī)森林模型的原理和代碼實現(xiàn)166
8.1.1 集成模型簡介166
8.1.2 隨機(jī)森林模型的基本原理167
8.1.3 隨機(jī)森林模型的代碼實現(xiàn)168
8.2 案例實戰(zhàn):股票漲跌預(yù)測模型170
8.2.1 股票基本數(shù)據(jù)獲取170
8.2.2 股票衍生變量生成173
8.2.3 多因子模型搭建181
8.2.4 模型使用與評估184
8.2.5 參數(shù)調(diào)優(yōu)186
8.2.6 收益回測曲線繪制188
第9章 AdaBoost與GBDT模型
9.1 AdaBoost算法原理190
9.1.1 AdaBoost算法的核心思想190
9.1.2 AdaBoost算法的數(shù)學(xué)原理概述191
9.1.3 AdaBoost算法的數(shù)學(xué)原理舉例194
9.1.4 AdaBoost算法的簡單代碼實現(xiàn)200
9.2 AdaBoost算法案例實戰(zhàn):信用卡精準(zhǔn)營銷模型201
9.2.1 案例背景201
9.2.2 模型搭建201
9.2.3 模型預(yù)測及評估202
9.2.4 模型參數(shù)介紹205
9.3 GBDT算法原理206
9.3.1 GBDT算法的核心思想206
9.3.2 GBDT算法的數(shù)學(xué)原理概述208
9.3.3 GBDT算法的數(shù)學(xué)原理舉例208
9.3.4 GBDT算法的簡單代碼實現(xiàn)213
9.4 GBDT算法案例實戰(zhàn):產(chǎn)品定價模型214
9.4.1 案例背景214
9.4.2 模型搭建214
9.4.3 模型預(yù)測及評估217
9.4.4 模型參數(shù)介紹219
第10章 機(jī)器學(xué)習(xí)神器:XGBoost與LightGBM算法
10.1 XGBoost算法原理223
10.1.1 XGBoost算法的核心思想224
10.1.2 XGBoost算法的數(shù)學(xué)原理概述224
10.1.3 XGBoost算法的簡單代碼實現(xiàn)225
10.2 XGBoost算法案例實戰(zhàn)1:金融反欺詐模型226
10.2.1 案例背景226
10.2.2 模型搭建226
10.2.3 模型預(yù)測及評估228
10.2.4 模型參數(shù)調(diào)優(yōu)230
10.3 XGBoost算法案例實戰(zhàn)2:信用評分卡模型233
10.3.1 案例背景233
10.3.2 多元線性回歸模型234
10.3.3 GBDT回歸模型235
10.3.4 XGBoost回歸模型237
10.4 LightGBM算法原理241
10.4.1 LightGBM算法的核心思想241
10.4.2 LightGBM算法的數(shù)學(xué)原理概述241
10.4.3 LightGBM算法的簡單代碼實現(xiàn)244
10.5 LightGBM算法案例實戰(zhàn)1:客戶違約預(yù)測模型245
10.5.1 案例背景245
10.5.2 模型搭建245
10.5.3 模型預(yù)測及評估247
10.5.4 模型參數(shù)調(diào)優(yōu)249
10.6 LightGBM算法案例實戰(zhàn)2:廣告收益回歸預(yù)測模型251
10.6.1 案例背景251
10.6.2 模型搭建251
10.6.3 模型預(yù)測及評估253
10.6.4 模型參數(shù)調(diào)優(yōu)254
第11章 特征工程之?dāng)?shù)據(jù)預(yù)處理
11.1 非數(shù)值類型數(shù)據(jù)處理256
11.1.1 Get_dummies啞變量處理256
11.1.2 Label Encoding編號處理259
11.2 重復(fù)值、缺失值及異常值處理261
11.2.1 重復(fù)值處理261
11.2.2 缺失值處理262
11.2.3 異常值處理265
11.3 數(shù)據(jù)標(biāo)準(zhǔn)化268
11.3.1 min-max標(biāo)準(zhǔn)化268
11.3.2 Z-score標(biāo)準(zhǔn)化269
11.4 數(shù)據(jù)分箱270
11.5 特征篩選:WOE值與IV值272
11.5.1 WOE值的定義與計算272
11.5.2 IV值的定義與計算275
11.5.3 WOE值與IV值的代碼實現(xiàn)276
11.5.4 案例實戰(zhàn):客戶流失預(yù)警模型的IV值計算281
11.6 多重共線性的分析與處理283
11.6.1 多重共線性的定義283
11.6.2 多重共線性的分析與檢驗284
11.7 過采樣和欠采樣287
11.7.1 過采樣287
11.7.2 欠采樣290
第12章 數(shù)據(jù)降維之PCA
12.1 數(shù)據(jù)降維292
12.1.1 PCA的基本原理292
12.1.2 PCA的代碼實現(xiàn)295
12.2 案例實戰(zhàn):人臉識別模型299
12.2.1 案例背景299
12.2.2 人臉數(shù)據(jù)讀取、處理與變量提取299
12.2.3 數(shù)據(jù)劃分與降維304
12.2.4 模型的搭建與使用306
12.3 人臉識別外部接口調(diào)用308
12.3.1 baidu-aip庫安裝308
12.3.2 調(diào)用接口進(jìn)行人臉識別和打分308
第13章 數(shù)據(jù)聚類與分群分析
13.1 KMeans算法314
13.1.1 KMeans算法的基本原理314
13.1.2 KMeans算法的代碼實現(xiàn)315
13.1.3 案例實戰(zhàn):銀行客戶分群模型318
13.2 DBSCAN算法321
13.2.1 DBSCAN算法的基本原理322
13.2.2 DBSCAN算法的代碼實現(xiàn)323
13.2.3 KMeans算法與DBSCAN算法的對比326
13.3 案例實戰(zhàn):新聞聚類分群模型327
13.3.1 案例背景327
13.3.2 文本數(shù)據(jù)的讀取與處理327
13.3.3 模型的搭建與使用335
13.3.4 模型優(yōu)化337
第14章 智能推薦系統(tǒng)
14.1 智能推薦系統(tǒng)的基本原理348
14.1.1 智能推薦系統(tǒng)的應(yīng)用場景348
14.1.2 智能推薦系統(tǒng)的基礎(chǔ):協(xié)同過濾算法348
14.2 計算相似度的常用方法349
14.2.1 歐氏距離350
14.2.2 余弦相似度351
14.2.3 皮爾遜相關(guān)系數(shù)352
14.3 案例實戰(zhàn):電影智能推薦系統(tǒng)354
14.3.1 案例背景354
14.3.2 數(shù)據(jù)讀取與處理354
14.3.3 系統(tǒng)搭建358
第15章 關(guān)聯(lián)分析:Apriori算法
15.1 關(guān)聯(lián)分析的基本概念和Apriori算法363
15.1.1 關(guān)聯(lián)分析的基本概念363
15.1.2 Apriori算法的數(shù)學(xué)演示364
15.1.3 Apriori算法的代碼實現(xiàn)368
15.2 案例實戰(zhàn):病癥關(guān)聯(lián)規(guī)則分析374
15.2.1 案例背景374
15.2.2 數(shù)據(jù)讀取與處理374
15.2.3 關(guān)聯(lián)規(guī)則分析376
第16章 深度學(xué)習(xí)初窺之神經(jīng)網(wǎng)絡(luò)模型
16.1 深度學(xué)習(xí)基礎(chǔ):神經(jīng)網(wǎng)絡(luò)模型380
16.1.1 神經(jīng)網(wǎng)絡(luò)模型的基本原理380
16.1.2 神經(jīng)網(wǎng)絡(luò)模型的簡單代碼實現(xiàn)383
16.2 案例實戰(zhàn):用戶評論情感分析模型385
16.2.1 案例背景385
16.2.2 數(shù)據(jù)讀取、中文分詞、文本向量化385
16.2.3 神經(jīng)網(wǎng)絡(luò)模型的搭建與使用389