Python數(shù)據(jù)預(yù)處理(微課版)
定 價(jià):49.8 元
- 作者:汪靜 鄭婷婷
- 出版時(shí)間:2023/3/1
- ISBN:9787115596222
- 出 版 社:人民郵電出版社
- 中圖法分類:TP311.561
- 頁(yè)碼:180
- 紙張:
- 版次:01
- 開本:16開
本書的設(shè)計(jì)和編寫目標(biāo)是培養(yǎng)讀者的數(shù)據(jù)思維能力和數(shù)據(jù)預(yù)處理能力,內(nèi)容具有典型性和實(shí)用性,全面介紹基于Python的數(shù)據(jù)預(yù)處理的流程和技術(shù)。
全書共8個(gè)單元,單元1介紹數(shù)據(jù)預(yù)處理的基礎(chǔ)知識(shí),單元2介紹Python數(shù)據(jù)預(yù)處理的庫(kù)pandas的用法及主要數(shù)據(jù)對(duì)象的用法,單元3~單元7依次介紹數(shù)據(jù)預(yù)處理流程中數(shù)據(jù)獲取、數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)描述等相關(guān)知識(shí)和技術(shù)。
為突出培養(yǎng)讀者的動(dòng)手能力,本書單元2~單元7都配套了任務(wù)實(shí)踐和拓展實(shí)訓(xùn),除單元8,每個(gè)單元還配套了課后習(xí)題。單元8為綜合案例,通過(guò)網(wǎng)易云音樂(lè)相關(guān)數(shù)據(jù)集展示數(shù)據(jù)預(yù)處理的完整流程,幫助讀者綜合掌握全書相關(guān)知識(shí)和技術(shù)。
本書適合作為高等教育本、專科院校大數(shù)據(jù)技術(shù)和人工智能技術(shù)應(yīng)用等相關(guān)專業(yè)的教材,也可作為數(shù)據(jù)分析培訓(xùn)班和“1+X”數(shù)據(jù)處理相關(guān)職業(yè)技能等級(jí)證書的教材。
1.Python技術(shù)應(yīng)用系列教材,難度適當(dāng),易學(xué)好教;
2.配套教學(xué)PPT、教學(xué)視頻、源代碼、教案、課后習(xí)題及答案等豐富資源。
3.本書旨在幫助讀者了解數(shù)據(jù)預(yù)處理的重要性,掌握數(shù)據(jù)預(yù)處理的基本流程,掌握pandas完成數(shù)據(jù)預(yù)處理的基礎(chǔ)知識(shí)和技術(shù),熟悉Jupyter Lab工具的使用,并通過(guò)一個(gè)完整的項(xiàng)目案例帶領(lǐng)讀者掌握對(duì)數(shù)據(jù)預(yù)處理的綜合運(yùn)用,為下一步學(xué)習(xí)奠定基礎(chǔ)。
汪靜,中山大學(xué)計(jì)算機(jī)軟件與理論專業(yè)博士,計(jì)算機(jī)軟件副教授,廣東省南粵優(yōu)秀教師,計(jì)算機(jī)學(xué)會(huì)會(huì)員,大數(shù)據(jù)分析師(高級(jí)),人工智能算法工程師(高級(jí))。從事高等教育教學(xué)工作16年,現(xiàn)任廣東開放大學(xué)(廣東理工職業(yè)學(xué)院)人工智能技術(shù)服務(wù)專業(yè)負(fù)責(zé)人。主持和參加各級(jí)教科研項(xiàng)目10多項(xiàng),發(fā)表高水平論文共20多篇,擁有軟件著作權(quán)2項(xiàng),專利3項(xiàng)。研究領(lǐng)域包括數(shù)據(jù)分析,個(gè)性化推薦等。
目錄 CONTENTS
單元1 數(shù)據(jù)預(yù)處理基礎(chǔ) 1
1.1 數(shù)據(jù)預(yù)處理簡(jiǎn)介 1
1.1.1 數(shù)據(jù)與數(shù)據(jù)預(yù)處理 1
1.1.2 數(shù)據(jù)預(yù)處理的重要性 2
1.1.3 數(shù)據(jù)預(yù)處理的過(guò)程 2
1.2 搭建Python開發(fā)環(huán)境 3
1.2.1 Python概述 3
1.2.2 安裝Anaconda 5
1.2.3 創(chuàng)建Python虛擬環(huán)境 9
1.2.4 認(rèn)識(shí)JupyterLab 10
1.2.5 輸出“Hello World!” 12
1.3 總結(jié) 13
課后習(xí)題 13
單元2 pandas入門 15
2.1 pandas概述 15
2.2 pandas的安裝和導(dǎo)入 16
2.3 Series對(duì)象 17
2.3.1 Series對(duì)象的特點(diǎn) 17
2.3.2 Series對(duì)象的創(chuàng)建 17
2.3.3 Series對(duì)象的索引 21
2.3.4 Series對(duì)象的操作 22
任務(wù)實(shí)踐2-1:小明成績(jī)表的操作 27
2.4 DataFrame對(duì)象 30
2.4.1 DataFrame對(duì)象的特點(diǎn) 30
2.4.2 DataFrame對(duì)象的創(chuàng)建 30
2.4.3 DataFrame對(duì)象的索引 35
2.4.4 DataFrame對(duì)象的操作 37
任務(wù)實(shí)踐2-2:小明宿舍所有同學(xué)成績(jī)表的操作 51
2.5 總結(jié) 54
拓展實(shí)訓(xùn):處理網(wǎng)上招聘數(shù)據(jù) 55
課后習(xí)題 55
單元3 數(shù)據(jù)獲取 57
3.1 數(shù)據(jù)爬取 57
3.1.1 網(wǎng)絡(luò)爬蟲原理概述 57
3.1.2 簡(jiǎn)易網(wǎng)絡(luò)爬蟲示例 61
3.2 數(shù)據(jù)讀寫 64
3.2.1 讀寫XLS文件或XLSX文件 64
3.2.2 讀寫CSV文件 67
3.2.3 讀寫TXT文件 69
3.2.4 讀寫JSON文件 71
3.2.5 讀寫MySQL數(shù)據(jù) 73
任務(wù)實(shí)踐3:讀寫商品類別文件 75
3.3 總結(jié) 76
拓展實(shí)訓(xùn):讀寫廣州市郵政編碼數(shù)據(jù) 77
課后習(xí)題 77
單元4 數(shù)據(jù)合并 79
4.1 堆疊合并數(shù)據(jù) 79
4.1.1 橫向堆疊合并 80
4.1.2 縱向堆疊合并 81
4.1.3 交叉堆疊合并 83
任務(wù)實(shí)踐4-1:合并商品銷售數(shù)據(jù) 84
4.2 主鍵合并數(shù)據(jù) 86
4.2.1 左連接 87
4.2.2 右連接 88
4.2.3 內(nèi)連接 89
4.2.4 外連接 90
任務(wù)實(shí)踐4-2:合并成績(jī)表 91
4.3 重疊合并數(shù)據(jù) 94
任務(wù)實(shí)踐4-3:修補(bǔ)統(tǒng)計(jì)數(shù)據(jù) 95
4.4 總結(jié) 96
拓展實(shí)訓(xùn):合并網(wǎng)易云音樂(lè)愛國(guó)歌曲數(shù)據(jù) 97
課后習(xí)題 98
單元5 數(shù)據(jù)清洗 100
5.1 缺失值處理 100
5.1.1 查看缺失值 100
5.1.2 處理缺失值 101
任務(wù)實(shí)踐5-1:網(wǎng)上招聘數(shù)據(jù)缺失值處理 105
5.2 重復(fù)值處理 106
5.2.1 查看重復(fù)值 106
5.2.2 處理重復(fù)值 108
任務(wù)實(shí)踐5-2:網(wǎng)上招聘數(shù)據(jù)重復(fù)值處理 109
5.3 異常值處理 110
5.3.1 檢測(cè)異常值 110
5.3.2 處理異常值 113
任務(wù)實(shí)踐5-3:網(wǎng)上招聘數(shù)據(jù)異常值處理 114
5.4 格式不一致數(shù)據(jù)處理 116
5.4.1 姓名格式不一致的處理 116
5.4.2 日期格式不一致的處理 117
任務(wù)實(shí)踐5-4:網(wǎng)上招聘數(shù)據(jù)中不一致數(shù)據(jù)的處理 119
5.5 總結(jié) 121
拓展實(shí)訓(xùn):清洗超市銷售數(shù)據(jù) 121
課后習(xí)題 122
單元6 數(shù)據(jù)變換 123
6.1 數(shù)據(jù)類型變換 123
6.1.1 用astype()方法進(jìn)行強(qiáng)制類型變換 123
6.1.2 用to_numeric()方法將數(shù)據(jù)的類型變換為數(shù)值類型 126
任務(wù)實(shí)踐6-1:電影數(shù)據(jù)類型變換 127
6.2 數(shù)據(jù)格式變換 129
6.2.1 設(shè)置小數(shù)位數(shù) 129
6.2.2 設(shè)置百分比 130
6.2.3 設(shè)置千位分隔符 131
任務(wù)實(shí)踐6-2:銷售數(shù)據(jù)格式變換 132
6.3 數(shù)據(jù)映射 133
6.3.1 用映射替換數(shù)據(jù) 134
6.3.2 用映射變換數(shù)據(jù) 136
任務(wù)實(shí)踐6-3:分?jǐn)?shù)變換為等級(jí) 138
6.4 總結(jié) 139
拓展實(shí)訓(xùn):天氣數(shù)據(jù)變換 139
課后習(xí)題 140
單元7 數(shù)據(jù)描述 142
7.1 數(shù)據(jù)的統(tǒng)計(jì)計(jì)算 142
7.1.1 統(tǒng)計(jì)數(shù)據(jù)的和 142
7.1.2 統(tǒng)計(jì)數(shù)據(jù)的均值 144
7.1.3 統(tǒng)計(jì)數(shù)據(jù)的最大值/最小值 145
7.1.4 統(tǒng)計(jì)數(shù)據(jù)的中位數(shù) 146
7.1.5 統(tǒng)計(jì)數(shù)據(jù)的眾數(shù) 147
7.1.6 統(tǒng)計(jì)數(shù)據(jù)的方差和標(biāo)準(zhǔn)差 148
7.1.7 統(tǒng)計(jì)數(shù)據(jù)的分位數(shù) 149
任務(wù)實(shí)踐7-1:成績(jī)表數(shù)據(jù)的統(tǒng)計(jì)計(jì)算 150
7.2 數(shù)據(jù)的分組和聚合 152
7.2.1 數(shù)據(jù)的分組 152
7.2.2 數(shù)據(jù)的聚合 153
任務(wù)實(shí)踐7-2:學(xué)生成績(jī)數(shù)據(jù)的分組與聚合 155
7.3 數(shù)據(jù)的可視化 156
7.3.1 繪制折線圖 158
7.3.2 繪制條形圖 159
7.3.3 繪制餅圖 161
任務(wù)實(shí)踐7-3:學(xué)生期末考試成績(jī)的可視化 163
7.4 總結(jié) 166
拓展實(shí)訓(xùn):用戶職業(yè)數(shù)據(jù)描述 166
課后習(xí)題 167
單元8 綜合案例:網(wǎng)易云音樂(lè)數(shù)據(jù)預(yù)處理 169
8.1 數(shù)據(jù)讀取 170
8.2 數(shù)據(jù)合并 171
8.3 數(shù)據(jù)清洗 172
8.4 數(shù)據(jù)變換 174
8.5 數(shù)據(jù)描述 175
8.6 總結(jié) 180