隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,在新經(jīng)濟的大時代背景下,各行各業(yè)都催生出眾多的全新業(yè)態(tài)。伴隨大數(shù)據(jù)、人工智能、區(qū)塊鏈等技術(shù)的加持,這些業(yè)態(tài)劃分也越來越精細,社會活動的整體效率也越來越高。然而,這一切都不開數(shù)據(jù),特別是高質(zhì)量的數(shù)據(jù)。本書圍繞智能數(shù)據(jù)分析與應(yīng)用處理業(yè)務(wù)背景及相關(guān)技術(shù),以學習情境的方式介紹了:數(shù)據(jù)分析工具Beautiful Soup與XPath和數(shù)據(jù)采集工具Requests;根據(jù)數(shù)據(jù)規(guī)模大小和格式,可采用Excel、Tabula或Kettle進行數(shù)據(jù)處理;數(shù)據(jù)分析工具NumPy、Pandas和可視化工具Matplotlib,通過Matplotlib進行數(shù)據(jù)可視化,使得NumPy、Pandas的處理結(jié)果更容易觀察、識別。通過基于機器學習算法模型的推薦系統(tǒng)的構(gòu)建過程,介紹了主流的數(shù)據(jù)分析框架Spark;通過基于深度學習技術(shù)的人臉識別系統(tǒng)的構(gòu)建過程,介紹了圖像數(shù)據(jù)的采集、處理、分析,并應(yīng)用到神經(jīng)網(wǎng)絡(luò)的整個過程,即從數(shù)據(jù)采集到應(yīng)用的一個閉環(huán)過程。本書理論分析相對較少,側(cè)重于動手實踐,適用于應(yīng)用型本科、高職高專大數(shù)據(jù)專業(yè)學生和希望快速進入大數(shù)據(jù)、機器學習、人工智能領(lǐng)域的讀者。
唐春玲,1981年2月出生,女,吉林省汪清人,工學碩士,現(xiàn)為重慶工商職業(yè)學院電子信息工程學院副教授,國家"雙高計劃”高水平專業(yè)群建設(shè)小組核心成員,校專業(yè)帶頭人。主要從事軟件技術(shù),數(shù)字信號處理,大數(shù)據(jù)及人工智能算法等方向研究。曾獲重慶市教學成果獎兩項,主持市教委科研項目兩項、出版3本教材,主持兩門校網(wǎng)絡(luò)課程資源建設(shè),發(fā)表論文10余篇。
導 言 1
單元1 采集網(wǎng)絡(luò)數(shù)據(jù) 6
學習情境1.1 使用Beautiful Soup庫與XPath語法解析網(wǎng)頁 6
學習情境描述 6
學習目標 7
任務(wù)書 7
獲取信息 7
工作計劃 7
進行決策 8
知識準備 9
相關(guān)案例 12
工作實施 14
評價反饋 14
拓展思考 15
學習情境1.2 使用Requests采集網(wǎng)絡(luò)數(shù)據(jù) 16
學習情境描述 16
學習目標 16
任務(wù)書 16
獲取信息 16
工作計劃 17
進行決策 18
知識準備 18
相關(guān)案例 22
工作實施 24
評價反饋 24
拓展思考 25
單元2 對數(shù)據(jù)進行處理 26
學習情境2.1 使用Excel處理數(shù)據(jù) 26
學習情境描述 26
學習目標 27
任務(wù)書 27
獲取信息 27
工作計劃 27
進行決策 28
知識準備 29
相關(guān)案例 32
工作實施 33
評價反饋 33
拓展思考 34
學習情境2.2 使用Tabula處理數(shù)據(jù) 35
學習情境描述 35
學習目標 35
任務(wù)書 35
獲取信息 35
工作計劃 36
進行決策 37
知識準備 37
相關(guān)案例 38
工作實施 39
評價反饋 40
拓展思考 41
學習情境2.3 使用Kettle處理數(shù)據(jù) 41
學習情境描述 41
學習目標 42
任務(wù)書 42
獲取信息 42
工作計劃 43
進行決策 44
知識準備 44
相關(guān)案例 60
工作實施 64
評價反饋 65
拓展思考 66
單元3 對數(shù)值數(shù)據(jù)進行分析 67
學習情境3.1 使用NumPy創(chuàng)建與索引復雜數(shù)據(jù)對象 67
學習情境描述 67
學習目標 68
任務(wù)書 68
獲取信息 68
工作計劃 68
進行決策 69
知識準備 70
相關(guān)案例 73
工作實施 74
評價反饋 75
拓展思考 76
學習情境3.2 對招聘數(shù)據(jù)的數(shù)組進行形態(tài)變換 76
學習情境描述 76
學習目標 77
任務(wù)書 77
獲取信息 77
工作計劃 77
進行決策 78
知識準備 79
相關(guān)案例 81
工作實施 82
評價反饋 83
拓展思考 84
學習情境3.3 讀寫招聘信息數(shù)據(jù)集 84
學習情境描述 84
學習目標 84
任務(wù)書 85
獲取信息 85
工作計劃 85
進行決策 86
知識準備 86
相關(guān)案例 88
工作實施 89
評價反饋 89
拓展思考 90
單元4 對數(shù)據(jù)進行統(tǒng)計及對相關(guān)性進行分析 91
學習情境4.1 使用Pandas訪問不同的數(shù)據(jù)源 91
學習情境描述 91
學習目標 92
任務(wù)書 92
獲取信息 92
工作計劃 92
進行決策 93
知識準備 94
相關(guān)案例 96
工作實施 97
評價反饋 97
拓展思考 99
學習情境4.2 使用Pandas進行數(shù)據(jù)處理 99
學習情境描述 99
學習目標 99
任務(wù)書 99
獲取信息 99
工作計劃 100
進行決策 101
知識準備 101
相關(guān)案例 104
工作實施 105
評價反饋 105
拓展思考 106
學習情境4.3 使用Pandas分析招聘數(shù)據(jù) 107
學習情境描述 107
學習目標 107
任務(wù)書 107
獲取信息 107
工作計劃 108
進行決策 109
知識準備 109
相關(guān)案例 112
工作實施 114
評價反饋 114
拓展思考 115
單元5 數(shù)據(jù)可視化 116
學習情境5.1 掌握Matplotlib的基本應(yīng)用 116
學習情境描述 116
學習目標 117
任務(wù)書 117
獲取信息 117
工作計劃 117
進行決策 118
知識準備 118
相關(guān)案例 127
工作實施 128
評價反饋 128
拓展思考 130
學習情境5.2 使用Matplotlib對招聘數(shù)據(jù)進行可視化分析 130
學習情境描述 130
學習目標 130
任務(wù)書 130
獲取信息 131
工作計劃 131
進行決策 132
知識準備 132
相關(guān)案例 136
工作實施 138
評價反饋 138
拓展思考 140
學習情境5.3 使用Seaborn對招聘數(shù)據(jù)進行進一步分析 140
學習情境描述 140
學習目標 140
任務(wù)書 141
獲取信息 141
工作計劃 141
進行決策 142
知識準備 143
相關(guān)案例 146
工作實施 148
評價反饋 148
拓展思考 149
單元6 使用機器學習算法模型構(gòu)建推薦系統(tǒng) 150
學習情境6.1 了解機器學習的基本原理 150
學習情境描述 150
學習目標 151
任務(wù)書 151
獲取信息 151
工作計劃 152
進行決策 153
知識準備 153
相關(guān)案例 156
工作實施 159
評價反饋 160
拓展思考 161
學習情境6.2 使用Spark API進行數(shù)據(jù)分析 161
學習情境描述 161
學習目標 162
任務(wù)書 162
獲取信息 162
工作計劃 163
進行決策 164
知識準備 164
相關(guān)案例 171
工作實施 172
評價反饋 173
拓展思考 174
學習情境6.3 使用SparkMLib構(gòu)建推薦系統(tǒng) 174
學習情境描述 174
學習目標 175
任務(wù)書 175
獲取信息 175
工作計劃 176
進行決策 177
知識準備 177
相關(guān)案例 181
工作實施 183
評價反饋 183
拓展思考 185
單元7 使用深度學習技術(shù)構(gòu)建人臉識別系統(tǒng) 186
學習情境7.1 使用Keras構(gòu)建神經(jīng)網(wǎng)絡(luò) 186
學習情境描述 186
學習目標 187
任務(wù)書 187
獲取信息 187
工作計劃 188
進行決策 189
知識準備 189
相關(guān)案例 192
工作實施 202
評價反饋 202
拓展思考 204
學習情境7.2 使用神經(jīng)網(wǎng)絡(luò)構(gòu)建人臉識別系統(tǒng) 204
學習情境描述 204
學習目標 205
任務(wù)書 205
獲取信息 205
工作計劃 206
進行決策 207
知識準備 207
相關(guān)案例 218
工作實施 219
評價反饋 220
拓展思考 221