Python數(shù)據(jù)科學(xué)實(shí)戰(zhàn)
定 價(jià):69.8 元
- 作者:[俄]尤利·瓦西列夫(Yuli Vasiliev)
- 出版時(shí)間:2024/1/1
- ISBN:9787115620675
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:180
- 紙張:
- 版次:01
- 開本:16開
本書主要從實(shí)戰(zhàn)角度講述了如何處理、分析和可視化數(shù)據(jù),如何用數(shù)據(jù)建立各種統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)模型。本書首先介紹如何使用Python代碼獲取、轉(zhuǎn)換和分析數(shù)據(jù);接著講述如何使用Python中的數(shù)據(jù)結(jié)構(gòu)和第三方庫(kù);然后展示如何以各種格式加載數(shù)據(jù),如何對(duì)數(shù)據(jù)進(jìn)行分組與匯總,如何創(chuàng)建圖表和可視化數(shù)據(jù);最后討論如何解決實(shí)際的問(wèn)題。
本書適合希望使用Python處理和分析數(shù)據(jù)的開發(fā)人員閱讀,也可供計(jì)算機(jī)相關(guān)專業(yè)的師生參考。
1.實(shí)戰(zhàn)經(jīng)驗(yàn)豐富:本書提供了大量真實(shí)案例和項(xiàng)目經(jīng)驗(yàn),展示了 Python 在獲取、轉(zhuǎn)換和分析數(shù)據(jù)方面的功能,幫助讀者深入了解Python數(shù)據(jù)科學(xué)的應(yīng)用場(chǎng)景和實(shí)際操作。
2.覆蓋多個(gè)領(lǐng)域:本書旨在展示如何充分利用Python實(shí)現(xiàn)快速的數(shù)據(jù)處理,不僅涵蓋了數(shù)據(jù)處理、分析和可視化,還涉及統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域,為讀者提供了一個(gè)全面的數(shù)據(jù)科學(xué)知識(shí)體系。
3.深入淺出:作者通過(guò)生動(dòng)的語(yǔ)言和詳細(xì)的解釋,將復(fù)雜的數(shù)據(jù)科學(xué)概念和算法簡(jiǎn)單化,讓讀者輕松上手,快速掌握Python數(shù)據(jù)科學(xué)的核心技能。
4.通過(guò)本書,你不僅會(huì)深入理解 Python 數(shù)據(jù)結(jié)構(gòu)及其強(qiáng)大的第三方庫(kù),還會(huì)掌握如何聚合、合并、可視化和分析數(shù)據(jù)等。在企業(yè)管理、市場(chǎng)營(yíng)銷和金融等領(lǐng)域中,基于Python可以實(shí)現(xiàn)快速的數(shù)據(jù)處理。
尤里·瓦西列夫(Yuli Vasiliev)是一名程序員、作家,精通開源開發(fā)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)后端開發(fā)。他是 Natural Language Processing with Python and spaCy一書的作者。
目 錄
第 1章 數(shù)據(jù)的基礎(chǔ)知識(shí) 1
1.1 數(shù)據(jù)類別 1
1.1.1 非結(jié)構(gòu)化數(shù)據(jù) 1
1.1.2 結(jié)構(gòu)化數(shù)據(jù) 2
1.1.3 半結(jié)構(gòu)化數(shù)據(jù) 3
1.1.4 時(shí)間序列數(shù)據(jù) 4
1.2 數(shù)據(jù)來(lái)源 5
1.2.1 API 6
1.2.2 網(wǎng)頁(yè) 7
1.2.3 數(shù)據(jù)框 7
1.2.4 文件 8
1.3 數(shù)據(jù)處理流程 8
1.3.1 數(shù)據(jù)獲取 9
1.3.2 數(shù)據(jù)清洗 9
1.3.3 數(shù)據(jù)變換 10
1.3.4 數(shù)據(jù)分析 10
1.3.5 數(shù)據(jù)存儲(chǔ) 11
1.4 Python特有的方式 11
1.5 總結(jié) 12
第 2章 Python數(shù)據(jù)結(jié)構(gòu) 13
2.1 列表 13
2.1.1 創(chuàng)建列表 14
2.1.2 使用常見列表對(duì)象方法 14
2.1.3 使用切片符號(hào) 15
2.1.4 用列表實(shí)現(xiàn)隊(duì)列 16
2.1.5 用列表實(shí)現(xiàn)棧 18
2.1.6 用列表和棧進(jìn)行自然語(yǔ)言處理 18
2.1.7 使用列表推導(dǎo)式改進(jìn)算法 20
2.2 元組 24
2.2.1 元組列表 24
2.2.2 不變性 25
2.3 字典 26
2.3.1 字典列表 26
2.3.2 使用setdefault()在字典中添加元素 26
2.3.3 將JSON文件加載到字典中 28
2.4 集合 29
2.4.1 從序列中刪除重復(fù)項(xiàng) 29
2.4.2 實(shí)現(xiàn)常見集合運(yùn)算 30
2.5 總結(jié) 32
第3章 Python第三方庫(kù) 33
3.1 NumPy庫(kù) 33
3.1.1 安裝NumPy庫(kù) 34
3.1.2 創(chuàng)建NumPy數(shù)組 34
3.1.3 逐點(diǎn)運(yùn)算 34
3.1.4 使用NumPy統(tǒng)計(jì)函數(shù) 35
3.2 pandas庫(kù) 36
3.2.1 安裝pandas庫(kù) 36
3.2.2 序列 36
3.2.3 數(shù)據(jù)框 39
3.3 scikit-learn庫(kù) 47
3.3.1 安裝scikit-learn庫(kù) 47
3.3.2 獲得樣本數(shù)據(jù) 48
3.3.3 把樣本數(shù)據(jù)載入數(shù)據(jù)框 48
3.3.4 把數(shù)據(jù)分成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集 48
3.3.5 把文本轉(zhuǎn)化為數(shù)值特征向量 49
3.3.6 訓(xùn)練和評(píng)估模型 50
3.3.7 在新數(shù)據(jù)中做預(yù)測(cè) 50
3.4 總結(jié) 51
第4章 從文件和API訪問(wèn)數(shù)據(jù) 52
4.1 使用Python函數(shù)open()導(dǎo)入數(shù)據(jù) 52
4.1.1 文本文件 52
4.1.2 表格數(shù)據(jù)文件 54
4.1.3 二進(jìn)制文件 56
4.2 將數(shù)據(jù)導(dǎo)出到文件 57
4.3 訪問(wèn)遠(yuǎn)程文件和API 58
4.3.1 HTTP請(qǐng)求的工作原理 58
4.3.2 urllib3庫(kù) 59
4.3.3 Requests庫(kù) 61
4.4 將數(shù)據(jù)移入或移出數(shù)據(jù)框 62
4.4.1 導(dǎo)入嵌套的JSON結(jié)構(gòu) 62
4.4.2 將數(shù)據(jù)框轉(zhuǎn)換為JSON文檔 63
4.4.3 使用pandas-datareader庫(kù)將在線數(shù)據(jù)加載到數(shù)據(jù)框中 65
4.5 總結(jié) 66
第5章 使用數(shù)據(jù)庫(kù) 67
5.1 關(guān)系數(shù)據(jù)庫(kù) 67
5.1.1 了解SQL語(yǔ)句 68
5.1.2 MySQL入門 69
5.1.3 定義數(shù)據(jù)庫(kù)結(jié)構(gòu) 69
5.1.4 將數(shù)據(jù)插入數(shù)據(jù)庫(kù)中 72
5.1.5 查詢數(shù)據(jù)庫(kù)數(shù)據(jù) 73
5.1.6 使用數(shù)據(jù)庫(kù)分析工具 75
5.2 NoSQL數(shù)據(jù)庫(kù) 81
5.2.1 Redis數(shù)據(jù)庫(kù) 81
5.2.2 MongoDB數(shù)據(jù)庫(kù) 83
5.3 總結(jié) 85
第6章 聚合數(shù)據(jù) 86
6.1 要聚合的數(shù)據(jù) 86
6.2 合并數(shù)據(jù)框 88
6.3 分組和聚合數(shù)據(jù) 90
6.3.1 按多索引查看特定值 91
6.3.2 通過(guò)切片獲得一系列值 93
6.3.3 多索引多層次切片 93
6.3.4 添加總計(jì) 94
6.3.5 添加小計(jì) 95
6.4 選擇組中的所有行 96
6.5 總結(jié) 97
第7章 合并數(shù)據(jù) 98
7.1 合并Python數(shù)據(jù)結(jié)構(gòu) 98
7.1.1 使用“+”合并列表和元組 98
7.1.2 使用“**”合并字典 100
7.1.3 合并兩個(gè)結(jié)構(gòu)的對(duì)應(yīng)行 100
7.1.4 列表的多種合并方式 102
7.2 合并NumPy數(shù)組 104
7.3 合并pandas數(shù)據(jù)結(jié)構(gòu) 106
7.3.1 連接數(shù)據(jù)框 106
7.3.2 合并兩個(gè)數(shù)據(jù)框 110
7.4 總結(jié) 114
第8章 數(shù)據(jù)可視化 115
8.1 常見可視化形式 115
8.1.1 折線圖 115
8.1.2 柱狀圖 116
8.1.3 餅狀圖 117
8.1.4 直方圖 118
8.2 使用Matplotlib庫(kù)繪制圖 118
8.2.1 安裝Matplotlib庫(kù) 118
8.2.2 使用matplotlib.pyplot 119
8.2.3 使用Figure和Axes對(duì)象 120
8.3 總結(jié) 124
第9章 分析空間數(shù)據(jù) 125
9.1 獲取空間數(shù)據(jù) 125
9.1.1 將人可讀的地址轉(zhuǎn)換為地理坐標(biāo) 125
9.1.2 獲取移動(dòng)對(duì)象的地理坐標(biāo) 126
9.2 基于geopy庫(kù)和Shapely庫(kù)的空間數(shù)據(jù)分析 129
9.2.1 查找最近的對(duì)象 129
9.2.2 在特定區(qū)域中查找對(duì)象 131
9.2.3 結(jié)合兩種方法 133
9.3 結(jié)合空間數(shù)據(jù)和非空間數(shù)據(jù) 134
9.3.1 提取非空間屬性 134
9.3.2 合并空間數(shù)據(jù)集和非空間數(shù)據(jù)集 136
9.4 總結(jié) 137
第 10章 分析時(shí)間序列數(shù)據(jù) 139
10.1 規(guī)則時(shí)間序列與不規(guī)則時(shí)間序列 139
10.2 常見的時(shí)間序列分析技術(shù) 141
10.2.1 計(jì)算百分比變化 142
10.2.2 滾動(dòng)窗口計(jì)算 143
10.2.3 計(jì)算滾動(dòng)平均值的百分比變化 144
10.3 多元時(shí)間序列 144
10.3.1 處理多元時(shí)間序列 145
10.3.2 分析變量之間的依賴性 146
10.4 總結(jié) 150
第 11章 從數(shù)據(jù)中挖掘信息 151
11.1 關(guān)聯(lián)法則 151
11.1.1 支持度 152
11.1.2 置信度 152
11.1.3 提升度 153
11.2 Apriori算法 153
11.2.1 創(chuàng)建交易數(shù)據(jù)集 154
11.2.2 識(shí)別頻繁項(xiàng)集 155
11.2.3 生成關(guān)聯(lián)規(guī)則 156
11.3 可視化關(guān)聯(lián)規(guī)則 157
11.4 從關(guān)聯(lián)規(guī)則獲得可操作信息 160
11.4.1 生成推薦信息 160
11.4.2 基于關(guān)聯(lián)規(guī)則的折扣規(guī)劃 161
11.5 總結(jié) 163
第 12章 數(shù)據(jù)分析的機(jī)器學(xué)習(xí) 164
12.1 為什么選擇機(jī)器學(xué)習(xí) 164
12.2 機(jī)器學(xué)習(xí)的類型 165
12.2.1 有監(jiān)督學(xué)習(xí) 165
12.2.2 無(wú)監(jiān)督學(xué)習(xí) 166
12.3 機(jī)器學(xué)習(xí)的工作原理 166
12.3.1 訓(xùn)練數(shù)據(jù) 166
12.3.2 統(tǒng)計(jì)模型 167
12.3.3 預(yù)測(cè)數(shù)據(jù) 167
12.4 情感分析示例:產(chǎn)品評(píng)論分類 168
12.4.1 獲取產(chǎn)品評(píng)論 168
12.4.2 清理數(shù)據(jù) 169
12.4.3 拆分和轉(zhuǎn)換數(shù)據(jù) 171
12.4.4 訓(xùn)練模型 173
12.4.5 評(píng)估模型 173
12.5 預(yù)測(cè)股票走勢(shì) 175
12.5.1 獲取數(shù)據(jù) 176
12.5.2 從連續(xù)數(shù)據(jù)中提取特征 177
12.5.3 生成輸出變量 178
12.5.4 訓(xùn)練和評(píng)估模型 179
12.6 總結(jié) 180