數(shù)據(jù)預(yù)處理從入門到實戰(zhàn) 基于SQL、R、Python
定 價:89 元
- 作者:[日]本橋智光
- 出版時間:2021/2/1
- ISBN:9787115552327
- 出 版 社:人民郵電出版社
- 中圖法分類:TP312
- 頁碼:253
- 紙張:
- 版次:01
- 開本:16開
在大數(shù)據(jù)、人工智能時代,數(shù)據(jù)分析必不可少。本書以數(shù)據(jù)分析中至關(guān)重要的數(shù)據(jù)預(yù)處理為主題,通過54道例題具體介紹了基于SQL、R、Python的處理方法和相關(guān)技巧。全書共4個部分:第1部分介紹預(yù)處理的基礎(chǔ)知識;第2部分介紹以數(shù)據(jù)結(jié)構(gòu)為對象的預(yù)處理,包括數(shù)據(jù)提取、數(shù)據(jù)聚合、數(shù)據(jù)連接、數(shù)據(jù)拆分、數(shù)據(jù)生成和數(shù)據(jù)擴(kuò)展;第3部分介紹以數(shù)據(jù)內(nèi)容為對象的預(yù)處理,涉及數(shù)值型、分類型、日期時間型、字符型和位置信息型;第4部分為預(yù)處理實戰(zhàn),介紹與實際業(yè)務(wù)相同的預(yù)處理流程。
本書適合新手?jǐn)?shù)據(jù)科學(xué)家、系統(tǒng)工程師、具備編程及數(shù)理基礎(chǔ)的技術(shù)人才,以及對數(shù)據(jù)挖掘和數(shù)據(jù)分析等感興趣的人閱讀。
一本書掌握大數(shù)據(jù)、人工智能時代需要的數(shù)據(jù)預(yù)處理技術(shù)
·KDD CUP 2015亞軍得主多行業(yè)實戰(zhàn)經(jīng)驗總結(jié);
·54道例題,涵蓋常見數(shù)據(jù)預(yù)處理技術(shù);
·3個實戰(zhàn)案例,快速提升應(yīng)用能力;
·3種語言實現(xiàn)對比,代碼優(yōu)化關(guān)鍵點一目了然;
·配套數(shù)據(jù)+源碼可下載;
·SQL的版本為Redshift,Pyhton的版本為3.6,R的版本的3.4;
·雙色印刷。
數(shù)據(jù)提取/數(shù)據(jù)聚合/數(shù)據(jù)連接/數(shù)據(jù)拆分/數(shù)據(jù)生成/數(shù)據(jù)擴(kuò)展
數(shù)值型/分類型/日期時間型/字符型/位置信息型
1.習(xí)題式結(jié)構(gòu),帶著問題思考、學(xué)習(xí),效果更好
本書采用問題驅(qū)動式,先拋出常見預(yù)處理任務(wù),引導(dǎo)讀者思考如何實現(xiàn)。像這樣帶著問題學(xué)習(xí),可以大大提高學(xué)習(xí)效果,讓理解更深入。
2.對比3種不同語言的實現(xiàn),把握每種語言的特長
用SQL、R、Python對比解決相同的案例問題,可以讓讀者了解各語言在處理各種預(yù)處理問題時有哪些優(yōu)缺點,從而根據(jù)情況選擇合適的語言,提升預(yù)處理效率。
3.同時給出一般代碼與理想代碼,優(yōu)化處理的關(guān)鍵一目了然
對于每道例題,都同時給出一般代碼與理想代碼,讀者不僅可以邊閱讀邊思考如何修改一般代碼,還可以通過與理想代碼的對比明白如何優(yōu)化代碼。
本橋智光(作者)
先后在系統(tǒng)開發(fā)公司擔(dān)任研究員,在互聯(lián)網(wǎng)企業(yè)擔(dān)任數(shù)據(jù)科學(xué)家,目前在數(shù)字醫(yī)療初創(chuàng)公司SUSMED株式會社擔(dān)任CTO,同時就職于HOXO-M株式會社,并以自由職業(yè)者的身份從事量子退火計算機(jī)的驗證工作,擁有制造業(yè)、零售業(yè)、金融業(yè)、運輸業(yè)、休閑業(yè)和互聯(lián)網(wǎng)等多個行業(yè)的數(shù)據(jù)分析經(jīng)驗。曾在KDD CUP 2015中贏得亞軍。愛好是開發(fā)馬里奧AI。
Twitter:@tomomoto_LV3
陳濤(譯者)
運籌學(xué)碩士畢業(yè),主要從事數(shù)據(jù)庫、數(shù)據(jù)分析工作,對機(jī)器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域相關(guān)的理論和技術(shù)較為熟悉。因興趣自學(xué)日語,一直致力于追求興趣和工作的完美結(jié)合。
郵箱:victory123_456@163.com
第 1部分 預(yù)處理入門 1
第 1章 什么是預(yù)處理 2
1-1 數(shù)據(jù) 2
記錄數(shù)據(jù) 2
數(shù)據(jù)類型 3
1-2 預(yù)處理的作用 3
機(jī)器學(xué)習(xí) 4
無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí) 4
用于數(shù)據(jù)分析的3種預(yù)處理 5
1-3 預(yù)處理的流程 6
對數(shù)據(jù)結(jié)構(gòu)的預(yù)處理 7
對數(shù)據(jù)內(nèi)容的預(yù)處理 7
預(yù)處理的步驟 7
1-4 3種編程語言 9
正確使用編程語言 9
1-5 包和庫 10
用于數(shù)據(jù)分析的包和庫 10
1-6 數(shù)據(jù)集 11
酒店預(yù)訂記錄 12
工廠產(chǎn)品記錄 13
月度指標(biāo)記錄 14
文本數(shù)據(jù)集 14
1-7 讀取數(shù)據(jù) 14
第 2部分 對數(shù)據(jù)結(jié)構(gòu)的預(yù)處理 19
第 2章 數(shù)據(jù)提取 20
2-1 提取指定的列 20
Q 提取列 21
2-2 按指定條件提取 26
Q 按條件提取數(shù)據(jù)行 28
Q 間接利用索引提取數(shù)據(jù)行 33
2-3 不基于數(shù)據(jù)值的采樣 35
Q 隨機(jī)采樣 35
2-4 基于聚合ID的采樣 38
Q 按ID采樣 39
第3章 數(shù)據(jù)聚合 43
3-1 計算數(shù)據(jù)條數(shù)和類型數(shù) 43
Q 計數(shù)和唯一值計數(shù) 44
3-2 計算合計值 48
Q 合計值 48
3-3 計算最值、代表值 50
Q 代表值 51
3-4 計算離散程度 54
Q 方差和標(biāo)準(zhǔn)差 54
3-5 計算眾數(shù) 57
Q 眾數(shù) 58
3-6 排序 61
排序函數(shù) 61
Q 為時序數(shù)據(jù)添加編號 62
Q 排序 66
第4章 數(shù)據(jù)連接 69
4-1 主表的連接 69
Q 主表的連接 70
4-2 切換按條件連接的表 77
Q 切換按條件連接的主表 77
4-3 連接歷史數(shù)據(jù) 84
Q 獲取往前數(shù)第n條記錄的數(shù)據(jù) 85
Q 前n條記錄的合計值 88
Q 前n條記錄的平均值 92
Q 過去n天的合計值 95
4-4 交叉連接 99
Q 交叉連接處理 99
第5章 數(shù)據(jù)拆分 105
5-1 記錄數(shù)據(jù)中模型驗證數(shù)據(jù)的拆分 105
Q 交叉驗證 107
5-2 時序數(shù)據(jù)中模型驗證數(shù)據(jù)的拆分 111
Q 準(zhǔn)備時序數(shù)據(jù)中的訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù) 113
第6章 數(shù)據(jù)生成 117
6-1 通過欠采樣調(diào)整不平衡數(shù)據(jù) 118
6-2 通過過采樣調(diào)整不平衡數(shù)據(jù) 119
Q 過采樣 120
第7章 數(shù)據(jù)擴(kuò)展 124
7-1 轉(zhuǎn)換為橫向顯示 124
Q 轉(zhuǎn)換為橫向顯示 125
7-2 轉(zhuǎn)換為稀疏矩陣 128
Q 稀疏矩陣 128
第3部分 對數(shù)據(jù)內(nèi)容的預(yù)處理 131
第8章 數(shù)值型 132
8-1 轉(zhuǎn)換為數(shù)值型 132
Q 各種數(shù)據(jù)類型的轉(zhuǎn)換 132
8-2 通過對數(shù)化實現(xiàn)非線性變換 135
Q 對數(shù)化 137
8-3 通過分類化實現(xiàn)非線性變換 139
Q 數(shù)值型的分類化 140
8-4 歸一化 142
Q 歸一化 143
8-5 刪除異常值 146
Q 根據(jù)標(biāo)準(zhǔn)差刪除異常值 146
8-6 用主成分分析實現(xiàn)降維 148
Q 用主成分分析實現(xiàn)降維 149
8-7 數(shù)值填充 152
Q 刪除缺失記錄 153
Q 用常數(shù)填充 155
Q 均值填充 157
Q 用PMM實現(xiàn)多重插補(bǔ) 160
第9章 分類型 164
9-1 轉(zhuǎn)換為分類型 164
Q 分類型的轉(zhuǎn)換 165
9-2 啞變量化 168
Q 啞變量化 169
9-3 分類值的聚合 171
Q 分類值的聚合 172
9-4 分類值的組合 175
Q 分類值的組合 175
9-5 分類型的數(shù)值化 177
Q 分類型的數(shù)值化 178
9-6 分類型的填充 181
Q 用KNN填充 182
第 10章 日期時間型 185
10-1 轉(zhuǎn)換為日期時間型、日期型 185
Q 日期時間型、日期型的轉(zhuǎn)換 185
10-2 轉(zhuǎn)換為年、月、日、時、分、秒、星期 189
Q 獲取各日期時間元素 190
10-3 轉(zhuǎn)換為日期時間差 194
Q 計算日期時間差 195
10-4 日期時間型的增減 200
Q 日期時間的增減處理 200
10-5 轉(zhuǎn)換為季節(jié) 203
Q 轉(zhuǎn)換為季節(jié) 204
10-6 轉(zhuǎn)換為時間段 208
10-7 轉(zhuǎn)換為工作日、休息日 209
Q 添加休息日標(biāo)志 209
第 11章 字符型 212
11-1 通過形態(tài)分析進(jìn)行分解 213
Q 提取名詞和動詞 213
11-2 轉(zhuǎn)換為單詞的集合數(shù)據(jù) 215
Q 創(chuàng)建詞袋 216
11-3 用TF-IDF調(diào)整單詞權(quán)重 220
Q 創(chuàng)建使用TF-IDF的詞袋 221
第 12章 位置信息型 224
12-1 從日本坐標(biāo)系到世界坐標(biāo)系的轉(zhuǎn)換以及從度、分、秒到度的轉(zhuǎn)換 224
Q 從日本坐標(biāo)系轉(zhuǎn)換為世界坐標(biāo)系 224
12-2 兩點間距離、方向的計算 228
Q 計算距離 228
第4部分 預(yù)處理實戰(zhàn) 233
第 13章 實戰(zhàn)練習(xí) 234
13-1 聚合分析的預(yù)處理 234
Q 聚合分析的準(zhǔn)備工作 234
13-2 用于推薦的預(yù)處理 238
Q 生成推薦矩陣 238
13-3 預(yù)測建模的預(yù)處理 243
Q 用于預(yù)測建模的預(yù)處理 243
結(jié)語 254
參考文獻(xiàn) 255