數(shù)據(jù)科學(xué)實(shí)戰(zhàn)手冊(cè) 第2版
定 價(jià):69 元
- 作者:[印度]普拉罕·塔塔(Prabhanjan Tattar) [美]托尼·奧赫達(dá)(Tony Ojeda) 肖恩·帕特里克·墨菲(Sean Patrick Murphy)
- 出版時(shí)間:2019/1/1
- ISBN:9787115499257
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.56-62
- 頁(yè)碼:304
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書對(duì)想學(xué)習(xí)數(shù)據(jù)分析的人來(lái)說(shuō)是一本非常實(shí)用的參考書,書中有多個(gè)真實(shí)的數(shù)據(jù)分析案例,幾乎是以手把手的方式教你一步一步地完成從數(shù)據(jù)分析的準(zhǔn)備到分析結(jié)果報(bào)告的整個(gè)流程。無(wú)論是數(shù)據(jù)分析工作的從業(yè)者,還是有志于未來(lái)從事數(shù)據(jù)分析工作的在校大學(xué)生,都能從本書中獲取一些新知識(shí)、新思想。
同時(shí),本書也是一本學(xué)習(xí)和提高R及Python編程的參考書。很多人有這樣的感觸,單純地學(xué)習(xí)編程語(yǔ)言是很枯燥的過(guò)程,但利用本書學(xué)習(xí)R和Python語(yǔ)言可以很好地解決這個(gè)問(wèn)題,生動(dòng)實(shí)用的數(shù)據(jù)集以及非常有意思的分析結(jié)果會(huì)極大地激發(fā)讀者學(xué)習(xí)的興趣。
本書案例包括汽車數(shù)據(jù)分析、稅收數(shù)據(jù)分析、就業(yè)數(shù)據(jù)分析、股市數(shù)據(jù)分析、社交網(wǎng)絡(luò)分析、大規(guī)模電影推薦、Twitter數(shù)據(jù)分析、新西蘭海外游客預(yù)測(cè)分析以及德國(guó)信用數(shù)據(jù)分析等。
面對(duì)著每年都在快速增長(zhǎng)的數(shù)據(jù)量,我們對(duì)數(shù)據(jù)進(jìn)行分析和處理的需求變得比以往更加迫切。那些懂得如何利用數(shù)據(jù)的公司比不懂的公司更具有競(jìng)爭(zhēng)優(yōu)勢(shì),這使得那些具有豐富知識(shí)儲(chǔ)備且有能力的數(shù)據(jù)人才變得更加搶手。
本書的主要內(nèi)容:
學(xué)會(huì)并理解在不同平臺(tái)下安裝R和Python的流程和所需環(huán)境;
在R和Python環(huán)境下實(shí)現(xiàn)數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)整理,完成數(shù)據(jù)分析的準(zhǔn)備工作;
建立預(yù)測(cè)模型和探索分析模型;
分析模型結(jié)果并創(chuàng)建數(shù)據(jù)報(bào)告;
嘗試多種基于樹的方法,建立隨機(jī)森林;
在R中實(shí)現(xiàn)初步的數(shù)據(jù)科學(xué)概念;
學(xué)習(xí)探索性數(shù)據(jù)分析的應(yīng)用方法,基于樹的方法以及隨機(jī)森林方法等。
作者簡(jiǎn)介
Prabhanjan Tattar有9年的統(tǒng)計(jì)分析工作經(jīng)驗(yàn)。他的精力集中在通過(guò)簡(jiǎn)潔優(yōu)美的程序解釋統(tǒng)計(jì)和機(jī)器學(xué)習(xí)技術(shù)上。他已經(jīng)寫作了兩本關(guān)于R的書,并在維護(hù)幾個(gè)R包:gpk、RSADBE和ACSWR。
Tony Ojeda是一位經(jīng)驗(yàn)豐富的數(shù)據(jù)科學(xué)家和企業(yè)家,在商業(yè)流程的zui優(yōu)化方面非常專業(yè),他是華盛頓特區(qū)數(shù)據(jù)實(shí)驗(yàn)室的創(chuàng)始人,致力于數(shù)據(jù)科學(xué)的教育事業(yè)和活動(dòng)組織。
Sean Patrick Murphy在約翰? 霍普金斯大學(xué)的應(yīng)用物理實(shí)驗(yàn)室做了15年的高級(jí)科研人員,他專注于機(jī)器學(xué)習(xí)、信號(hào)處理以及高性能計(jì)算等。他是MD數(shù)據(jù)科學(xué)見(jiàn)面會(huì)的聯(lián)合創(chuàng)始人。
Benjamin Bengfort是一位非常有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家和Python開(kāi)發(fā)者。他曾在業(yè)界和學(xué)術(shù)界工作過(guò)8年。他現(xiàn)在在馬里蘭大學(xué)派克學(xué)院攻讀計(jì)算機(jī)博士學(xué)位
Abhijit Dasgupta有多年的生物制藥行業(yè)咨詢、商業(yè)分析、生物信息以及生物工程咨詢方面的經(jīng)驗(yàn)。他擁有華盛頓大學(xué)生物統(tǒng)計(jì)專業(yè)的博士學(xué)位,是華盛頓特區(qū)統(tǒng)計(jì)編程社群的創(chuàng)始人和聯(lián)合組織者。
譯者簡(jiǎn)介
劉旭華,現(xiàn)為中國(guó)農(nóng)業(yè)大學(xué)理學(xué)院應(yīng)用數(shù)學(xué)系副教授,北京理工大學(xué)博士,美國(guó)北卡萊羅納大學(xué)教堂山分校訪問(wèn)學(xué)者,主要從事數(shù)理統(tǒng)計(jì)、數(shù)據(jù)科學(xué)、數(shù)學(xué)與統(tǒng)計(jì)軟件等領(lǐng)域的教學(xué)與科研工作,主持及參與過(guò)多項(xiàng)國(guó)家自然科學(xué)基金、北京市自然科學(xué)基金等項(xiàng)目。
李晗,2015年畢業(yè)于廣州華南理工大學(xué),碩士期間主要從事信號(hào)處理、數(shù)據(jù)分析方面的研究。目前就職于中興通訊,主要從事數(shù)據(jù)庫(kù)、數(shù)據(jù)分析、容器化微服務(wù)方面的開(kāi)發(fā)與運(yùn)維工作。
閆晗:中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院碩士,“統(tǒng)計(jì)之都”編輯部“搬磚工”。
第 1章 準(zhǔn)備數(shù)據(jù)科學(xué)環(huán)境 1
1.1 理解數(shù)據(jù)科學(xué)管道 2
1.1.1 操作流程 2
1.1.2 工作原理 3
1.2 在Windows、Mac OS X和Linux上安裝R 4
1.2.1 準(zhǔn)備工作 4
1.2.2 操作流程 4
1.2.3 工作原理 6
1.3 在R和RStudio中安裝擴(kuò)展包 6
1.3.1 準(zhǔn)備工作 6
1.3.2 操作流程 6
1.3.3 工作原理 8
1.3.4 更多內(nèi)容 8
1.4 在Linux和Mac OS X上安裝Python 9
1.4.1 準(zhǔn)備工作 9
1.4.2 操作流程 9
1.4.3 工作原理 9
1.5 在Windows上安裝Python 10
1.5.1 操作流程 10
1.5.2 工作原理 11
1.6 在Mac OS X和Linux上安裝Python數(shù)據(jù)庫(kù) 11
1.6.1 準(zhǔn)備工作 11
1.6.2 操作流程 12
1.6.3 工作原理 12
1.6.4 更多內(nèi)容 13
1.7 安裝更多Python包 13
1.7.1 準(zhǔn)備工作 14
1.7.2 操作流程 14
1.7.3 工作原理 15
1.7.4 更多內(nèi)容 15
1.8 安裝和使用virtualenv 15
1.8.1 準(zhǔn)備工作 16
1.8.2 操作流程 16
1.8.3 工作原理 18
1.8.4 更多內(nèi)容 18
第 2章 基于R的汽車數(shù)據(jù)可視化分析 19
2.1 簡(jiǎn)介 19
2.2 獲取汽車燃料效率數(shù)據(jù) 20
2.2.1 準(zhǔn)備工作 20
2.2.2 操作流程 20
2.2.3 工作原理 21
2.3 為你的第 一個(gè)分析項(xiàng)目準(zhǔn)備好R 21
2.3.1 準(zhǔn)備工作 21
2.3.2 操作流程 21
2.3.3 更多內(nèi)容 22
2.4 將汽車燃料效率數(shù)據(jù)導(dǎo)入R 22
2.4.1 準(zhǔn)備工作 22
2.4.2 操作流程 22
2.4.3 工作原理 24
2.4.4 更多內(nèi)容 24
2.5 探索并描述燃料效率數(shù)據(jù) 25
2.5.1 準(zhǔn)備工作 25
2.5.2 操作流程 25
2.5.3 工作原理 27
2.5.4 更多內(nèi)容 28
2.6 分析汽車燃料效率數(shù)據(jù)隨時(shí)間的變化情況 29
2.6.1 準(zhǔn)備工作 29
2.6.2 操作流程 29
2.6.3 工作原理 37
2.6.4 更多內(nèi)容 38
2.7 研究汽車的品牌和型號(hào) 38
2.7.1 準(zhǔn)備工作 39
2.7.2 操作流程 39
2.7.3 工作原理 41
2.7.4 更多內(nèi)容 41
第3章 基于Python的稅收數(shù)據(jù)應(yīng)用導(dǎo)向分析 42
3.1 簡(jiǎn)介 42
3.2 高收入數(shù)據(jù)分析的準(zhǔn)備工作 44
3.2.1 準(zhǔn)備工作 44
3.2.2 操作流程 44
3.2.3 工作原理 45
3.3 導(dǎo)入并探索性地分析世界高收入數(shù)據(jù)集 45
3.3.1 準(zhǔn)備工作 45
3.3.2 操作流程 45
3.3.3 工作原理 51
3.3.4 更多內(nèi)容 52
3.4 分析并可視化美國(guó)高收入數(shù)據(jù) 53
3.4.1 準(zhǔn)備工作 53
3.4.2 操作流程 53
3.4.3 工作原理 59
3.5 進(jìn)一步分析美國(guó)高收入群體 60
3.5.1 準(zhǔn)備工作 60
3.5.2 操作流程 60
3.5.3 工作原理 64
3.6 使用Jinja2匯報(bào)結(jié)果 64
3.6.1 準(zhǔn)備工作 64
3.6.2 操作流程 64
3.6.3 工作原理 69
3.6.4 更多內(nèi)容 69
3.7 基于R的數(shù)據(jù)分析再實(shí)現(xiàn) 70
3.7.1 準(zhǔn)備工作 70
3.7.2 操作流程 70
3.7.3 更多內(nèi)容 74
第4章 股市數(shù)據(jù)建模 75
4.1 簡(jiǎn)介 75
4.2 獲取股市數(shù)據(jù) 76
4.3 描述數(shù)據(jù) 78
4.3.1 準(zhǔn)備工作 78
4.3.2 操作流程 78
4.3.3 工作原理 79
4.3.4 更多內(nèi)容 79
4.4 清洗并探索性地分析數(shù)據(jù) 80
4.4.1 準(zhǔn)備工作 80
4.4.2 操作流程 80
4.4.3 工作原理 85
4.5 生成相對(duì)估值 85
4.5.1 準(zhǔn)備工作 86
4.5.2 操作流程 86
4.5.3 工作原理 89
4.6 篩選股票并分析歷史價(jià)格 90
4.6.1 準(zhǔn)備工作 90
4.6.2 操作流程 90
4.6.3 工作原理 95
第5章 就業(yè)數(shù)據(jù)可視化探索 96
5.1 簡(jiǎn)介 96
5.2 分析前的準(zhǔn)備工作 97
5.2.1 準(zhǔn)備工作 97
5.2.2 操作流程 97
5.2.3 工作原理 98
5.3 將就業(yè)數(shù)據(jù)導(dǎo)入R 99
5.3.1 準(zhǔn)備工作 99
5.3.2 操作流程 99
5.3.3 工作原理 99
5.3.4 更多內(nèi)容 100
5.4 探索就業(yè)數(shù)據(jù) 101
5.4.1 準(zhǔn)備工作 101
5.4.2 操作流程 101
5.4.3 工作原理 102
5.5 獲取、合并附加數(shù)據(jù) 103
5.5.1 準(zhǔn)備工作 103
5.5.2 操作流程 103
5.5.3 工作原理 105
5.6 添加地理信息 105
5.6.1 準(zhǔn)備工作 106
5.6.2 操作流程 106
5.6.3 工作原理 108
5.7 提取州和縣級(jí)水平的薪資及就業(yè)信息 109
5.7.1 準(zhǔn)備工作 109
5.7.2 操作流程 110
5.7.3 工作原理 111
5.8 可視化薪資的地理分布 112
5.8.1 準(zhǔn)備工作 112
5.8.2 操作流程 113
5.8.3 工作原理 115
5.9 分行業(yè)探索就業(yè)機(jī)會(huì)的地理分布 115
5.9.1 操作流程 116
5.9.2 工作原理 117
5.9.3 更多內(nèi)容 117
5.10 繪制地理時(shí)間序列的動(dòng)畫地圖 118
5.10.1 準(zhǔn)備工作 118
5.10.2 操作流程 118
5.10.3 工作原理 122
5.10.4 更多內(nèi)容 122
5.11 函數(shù)基本性能測(cè)試 122
5.11.1 準(zhǔn)備工作 123
5.11.2 操作流程 123
5.11.3 工作原理 125
5.11.4 更多內(nèi)容 125
第6章 汽車數(shù)據(jù)可視化(基于Python) 126
6.1 簡(jiǎn)介 126
6.2 IPython入門 127
6.2.1 準(zhǔn)備工作 127
6.2.2 操作流程 127
6.2.3 工作原理 130
6.3 熟悉Jupyter Notebook 130
6.3.1 準(zhǔn)備工作 130
6.3.2 操作流程 130
6.3.3 工作原理 132
6.3.4 更多內(nèi)容 132
6.4 為分析汽車燃料效率做好準(zhǔn)備 133
6.4.1 準(zhǔn)備工作 133
6.4.2 操作流程 133
6.4.3 工作原理 134
6.4.4 更多內(nèi)容 134
6.5 用Python探索并描述汽車燃料效率數(shù)據(jù) 135
6.5.1 準(zhǔn)備工作 135
6.5.2 操作流程 135
6.5.3 工作原理 138
6.5.4 更多內(nèi)容 138
6.6 用Python分析汽車燃料效率隨時(shí)間變化的情況 139
6.6.1 準(zhǔn)備工作 139
6.6.2 操作流程 139
6.6.3 工作原理 144
6.6.4 更多內(nèi)容 145
6.7 用Python研究汽車的品牌和型號(hào) 146
6.7.1 準(zhǔn)備工作 146
6.7.2 操作流程 146
6.7.3 工作原理 149
第7章 社交網(wǎng)絡(luò)分析(基于Python) 151
7.1 簡(jiǎn)介 151
7.2 準(zhǔn)備用Python進(jìn)行社交網(wǎng)絡(luò)的分析工作 153
7.2.1 準(zhǔn)備工作 153
7.2.2 操作流程 154
7.2.3 工作原理 154
7.2.4 更多內(nèi)容 154
7.3 導(dǎo)入網(wǎng)絡(luò) 155
7.3.1 準(zhǔn)備工作 155
7.3.2 操作流程 155
7.3.3 工作原理 156
7.4 探索英雄網(wǎng)絡(luò)的子圖 157
7.4.1 準(zhǔn)備工作 157
7.4.2 操作流程 158
7.4.3 工作原理 160
7.4.4 更多內(nèi)容 160
7.5 找出強(qiáng)關(guān)聯(lián) 160
7.5.1 準(zhǔn)備工作 161
7.5.2 操作流程 161
7.5.3 工作原理 163
7.5.4 更多內(nèi)容 164
7.6 找出關(guān)鍵人物 164
7.6.1 準(zhǔn)備工作 164
7.6.2 操作流程 164
7.6.3 工作原理 168
7.6.4 更多內(nèi)容 168
7.7 探索全網(wǎng)特征 174
7.7.1 準(zhǔn)備工作 174
7.7.2 操作流程 174
7.7.3 工作原理 175
7.8 社交網(wǎng)絡(luò)中的聚類和社群發(fā)現(xiàn) 175
7.8.1 準(zhǔn)備工作 176
7.8.2 操作流程 176
7.8.3 工作原理 179
7.8.4 更多內(nèi)容 179
7.9 可視化圖 180
7.9.1 準(zhǔn)備工作 180
7.9.2 操作流程 180
7.9.3 工作原理 181
7.10 R中的社交網(wǎng)絡(luò)分析 182
7.10.1 準(zhǔn)備工作 182
7.10.2 操作流程 183
7.10.3 工作原理 188
第8章 大規(guī)模電影推薦(基于Python) 189
8.1 簡(jiǎn)介 189
8.2 對(duì)偏好建模 191
8.2.1 操作流程 191
8.2.2 工作原理 191
8.3 理解數(shù)據(jù) 192
8.3.1 準(zhǔn)備工作 192
8.3.2 操作流程 193
8.3.3 工作原理 194
8.3.4 更多內(nèi)容 194
8.4 提取電影評(píng)分?jǐn)?shù)據(jù) 195
8.4.1 準(zhǔn)備工作 195
8.4.2 操作流程 195
8.4.3 工作原理 197
8.5 尋找高評(píng)分電影 199
8.5.1 準(zhǔn)備工作 199
8.5.2 操作流程 199
8.5.3 工作原理 200
8.5.4 更多內(nèi)容 201
8.6 改善電影評(píng)分系統(tǒng) 201
8.6.1 準(zhǔn)備工作 201
8.6.2 操作流程 201
8.6.3 工作原理 202
8.6.4 更多內(nèi)容 203
8.7 計(jì)算用戶在偏好空間中的距離 203
8.7.1 準(zhǔn)備工作 204
8.7.2 操作流程 204
8.7.3 工作原理 205
8.7.4 更多內(nèi)容 206
8.8 計(jì)算用戶之間的相關(guān)性 206
8.8.1 準(zhǔn)備工作 206
8.8.2 操作流程 207
8.8.3 工作原理 208
8.8.4 更多內(nèi)容 208
8.9 為用戶尋找最佳影評(píng)人 208
8.9.1 準(zhǔn)備工作 209
8.9.2 操作流程 209
8.9.3 工作原理 210
8.10 預(yù)測(cè)用戶電影評(píng)分 211
8.10.1 準(zhǔn)備工作 211
8.10.2 操作流程 211
8.10.3 工作原理 212
8.11 基于物品的協(xié)同過(guò)濾 213
8.11.1 準(zhǔn)備工作 214
8.11.2 操作流程 214
8.11.3 工作原理 215
8.12 建立非負(fù)矩陣分解模型 216
8.12.1 操作流程 217
8.12.2 工作原理 217
8.13 將數(shù)據(jù)集載入內(nèi)存 219
8.13.1 準(zhǔn)備工作 219
8.13.2 操作流程 219
8.13.3 工作原理 220
8.13.4 更多內(nèi)容 221
8.14 導(dǎo)出SVD模型到硬盤 221
8.14.1 操作流程 222
8.14.2 工作原理 223
8.15 訓(xùn)練SVD模型 223
8.15.1 操作流程 223
8.15.2 工作原理 225
8.15.3 更多內(nèi)容 225
8.16 測(cè)試SVD模型 226
8.16.1 操作流程 226
8.16.2 工作原理 226
8.16.3 更多內(nèi)容 227
第9章 獲取和定位Twitter數(shù)據(jù)(基于Python) 228
9.1 簡(jiǎn)介 228
9.2 創(chuàng)建Twitter應(yīng)用 229
9.2.1 準(zhǔn)備工作 229
9.2.2 操作流程 230
9.2.3 工作原理 232
9.3 了解Twitter API v1.1 232
9.3.1 準(zhǔn)備工作 233
9.3.2 操作流程 233
9.3.3 工作原理 234
9.3.4 更多內(nèi)容 235
9.4 獲取粉絲和好友信息 236
9.4.1 準(zhǔn)備工作 236
9.4.2 操作流程 236
9.4.3 工作原理 238
9.4.4 更多內(nèi)容 238
9.5 獲取Twitter用戶信息 239
9.5.1 準(zhǔn)備工作 239
9.5.2 操作流程 239
9.5.3 工作原理 240
9.5.4 更多內(nèi)容 240
9.6 避免Twitter速度限制 241
9.6.1 準(zhǔn)備工作 241
9.6.2 操作流程 241
9.6.3 工作原理 242
9.7 存儲(chǔ)JSON數(shù)據(jù)至硬盤 242
9.7.1 準(zhǔn)備工作 242
9.7.2 操作流程 242
9.7.3 工作原理 243
9.8 搭建MongoDB存儲(chǔ)Twitter數(shù)據(jù) 243
9.8.1 準(zhǔn)備工作 244
9.8.2 操作流程 244
9.8.3 工作原理 245
9.8.4 更多內(nèi)容 245
9.9 利用PyMongo存儲(chǔ)用戶信息到MongoDB 246
9.9.1 準(zhǔn)備工作 246
9.9.2 操作流程 246
9.9.3 工作原理 247
9.10 探索用戶地理信息 247
9.10.1 準(zhǔn)備工作 248
9.10.2 操作流程 248
9.10.3 工作原理 249
9.10.4 更多內(nèi)容 250
9.11 利用Python繪制地理分布圖 250
9.11.1 準(zhǔn)備工作 250
9.11.2 操作流程 250
9.11.3 工作原理 251
9.11.4 更多內(nèi)容 252
第 10章 預(yù)測(cè)新西蘭的海外游客 254
10.1 簡(jiǎn)介 254
10.2 時(shí)間序列(ts)對(duì)象 255
10.2.1 準(zhǔn)備工作 256
10.2.2 操作流程 256
10.2.3 工作原理 257
10.3 可視化時(shí)間序列數(shù)據(jù) 257
10.3.1 準(zhǔn)備工作 258
10.3.2 操作流程 258
10.3.3 工作原理 260
10.4 簡(jiǎn)單的線性回歸模型 261
10.4.1 準(zhǔn)備工作 261
10.4.2 操作流程 261
10.4.3 工作原理 265
10.5 ACF和PACF 265
10.5.1 準(zhǔn)備工作 266
10.5.2 操作流程 266
10.5.3 工作原理 267
10.6 ARIMA模型 267
10.6.1 準(zhǔn)備工作 268
10.6.2 操作流程 268
10.6.3 工作原理 275
10.7 精確性評(píng)估 275
10.7.1 準(zhǔn)備工作 276
10.7.2 操作流程 276
10.7.3 工作原理 276
10.8 擬合季節(jié)性ARIMA模型 277
10.8.1 準(zhǔn)備工作 277
10.8.2 操作流程 277
10.8.3 工作原理 279
10.8.4 更多內(nèi)容 279
第 11章 德國(guó)信用數(shù)據(jù)分析 280
11.1 簡(jiǎn)介 280
11.2 簡(jiǎn)單數(shù)據(jù)轉(zhuǎn)換 281
11.2.1 準(zhǔn)備工作 281
11.2.2 操作流程 281
11.2.3 工作原理 283
11.2.4 更多內(nèi)容 283
11.3 可視化分類數(shù)據(jù) 283
11.3.1 準(zhǔn)備工作 284
11.3.2 操作流程 284
11.3.3 工作原理 286
11.4 判別分析 286
11.4.1 準(zhǔn)備工作 287
11.4.2 操作流程 287
11.4.3 工作原理 290
11.5 劃分?jǐn)?shù)據(jù)和ROC 290
11.5.1 準(zhǔn)備工作 292
11.5.2 操作流程 292
11.6 擬合邏輯回歸模型 293
11.6.1 準(zhǔn)備工作 293
11.6.2 操作流程 293
11.6.3 工作原理 297
11.7 決策樹和決策規(guī)則 298
11.7.1 準(zhǔn)備工作 298
11.7.2 操作流程 298
11.7.3 工作原理 301
11.8 德國(guó)信用數(shù)據(jù)決策樹 301
11.8.1 準(zhǔn)備工作 301
11.8.2 操作流程 301
11.8.3 工作原理 304