本書內(nèi)容分為八章,基本涵蓋了目前較為常用的數(shù)據(jù)科學(xué)建模方法,包括現(xiàn)在熱門的深度學(xué)習(xí)。書中不僅介紹模型的理論基礎(chǔ),還以大量案例結(jié)合現(xiàn)實數(shù)據(jù)為讀者展示了數(shù)據(jù)分析中常見任務(wù)的處理流程,如分類、回歸、聚類、推薦、圖片識別等,幫助讀者應(yīng)用這些模型和方法解決實際問題。
第1章首先對數(shù)據(jù)科學(xué)的任務(wù)和重要性進(jìn)行了概述,接著介紹數(shù)據(jù)科學(xué)的建模流程以及Python語言開發(fā)環(huán)境與常用庫;
第二章介紹了回歸模型,包括線性回歸和邏輯回歸模型;
第三章介紹了聚類模型,包括k-means算法、DBSCAN算法和DIANA算法;
第四章介紹了關(guān)聯(lián)規(guī)則分析,包括Apriori算法和FP-Growth算法;
第五章介紹了決策樹模型,包括ID3、C4.5和CART算法及樹的剪枝方法;
第六章介紹了支持向量機,包括線性和非線性支持向量機以及向量機的求解與多分類問題;
第七章介紹了貝葉斯網(wǎng)絡(luò),包括樸素貝葉斯、TAN貝葉斯和無約束貝葉斯;
第八章介紹了深度學(xué)習(xí),包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。材,整理編撰了本實驗指導(dǎo)教材,以供嵌入式系統(tǒng)課程的實驗教學(xué)之用。
目前的嵌入式系統(tǒng)主要分為跑操作系統(tǒng)和不跑操作系統(tǒng)兩種類型,本實驗指導(dǎo)教材側(cè)重于第1種類型,全書以Linux為操作系統(tǒng),重點講述了Linux基本命令、Linux下的程序開發(fā)、Linux下字符型驅(qū)動程序開發(fā)、Linux按鍵中斷程序、Linux網(wǎng)絡(luò)應(yīng)用開發(fā)以及Linux內(nèi)核定制等相關(guān)內(nèi)容,為學(xué)生動手實踐嵌入式Linux系統(tǒng)開發(fā)提供指導(dǎo)和幫助,力求把學(xué)生學(xué)習(xí)時的挫折感降至低。
《數(shù)據(jù)科學(xué)與數(shù)學(xué)建模》從大數(shù)據(jù)挖掘中提煉出了科學(xué)的、可教學(xué)的、有模型的內(nèi)容,本教材從立足于理論聯(lián)系案例,從學(xué)習(xí)者的角度出發(fā),漸進(jìn)式地把數(shù)據(jù)挖掘的技術(shù)和方法展示出來。本教材除了介紹算法的理論,還為每一類算法配備了具有代表性的、貼近實際應(yīng)用的典型案例,以大程度地幫助學(xué)生做到學(xué)以致用。
大數(shù)據(jù)作為一個熱詞,數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)作為一個熱門專業(yè),近年來引起相關(guān)高等學(xué)校的關(guān)注,不少高校紛紛設(shè)立此專業(yè)。例如,2018年新申報的數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)的高校,全國有220所,遠(yuǎn)遠(yuǎn)超過其他專業(yè);而這個專業(yè)2016年第1批才獲批了3所高校(北京大學(xué)、對外經(jīng)濟貿(mào)易大學(xué)和中南大學(xué)),2017年3月第二批獲批高校32所,包括編著者所在的佛山科學(xué)技術(shù)學(xué)院,2018年又獲批了248所,這樣,到2019年將出現(xiàn)近500所高校在開這個新專業(yè)。在2018年,教育部又設(shè)置了一個大數(shù)據(jù)管理與應(yīng)用的新專業(yè)?梢灶A(yù)計,隨著大數(shù)據(jù)與人工智能相關(guān)專業(yè)建設(shè)的需要,數(shù)據(jù)科學(xué)課程的教學(xué)改革面臨著諸多新的問題。注意到教育部2018年發(fā)布的《普通高等學(xué)校本科專業(yè)類教學(xué)質(zhì)量國家標(biāo)準(zhǔn)》,對以數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)為代表的新工科專業(yè)人才培養(yǎng)方案提出了挑戰(zhàn)。編著者曾出版《數(shù)據(jù)挖掘與數(shù)學(xué)建!方滩模⒃谌A南理工大學(xué)應(yīng)用數(shù)學(xué)專業(yè)(應(yīng)用軟件方向)、信息管理與信息系統(tǒng)專業(yè)的本科生教學(xué)中使用了近十年,也曾作為中國移動通訊廣東分公司的管理層培訓(xùn)材料,受到了廣泛的歡迎,尤其是結(jié)合具體的案例,從學(xué)習(xí)者的角度,漸進(jìn)式地把數(shù)據(jù)挖掘的技術(shù)和方法如畫卷式地展示出來,使學(xué)習(xí)者大有躍躍欲試的激情。因此,探索大數(shù)據(jù)挖掘與數(shù)學(xué)建模的教學(xué)改革成了順勢而為研究方向。不過,大數(shù)據(jù)的挖掘所呈現(xiàn)出的不確定性,使得建模的價值,包括數(shù)學(xué)方法建模(簡稱數(shù)學(xué)建模)的價值,有些折扣。故而,本課程則從大數(shù)據(jù)的挖掘中,提煉出科學(xué)的、可教學(xué)的、有模型的內(nèi)容,作為一門數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的基礎(chǔ)課,呈現(xiàn)出來。這門課程教材,就是《數(shù)據(jù)科學(xué)與數(shù)學(xué)建模》。
第一章 緒論 6
1.1數(shù)據(jù)科學(xué)概述 6
1.2 數(shù)據(jù)科學(xué)的建模流程 8
1.3 Python語言開發(fā)環(huán)境與庫入門 12
1.3.1 開發(fā)環(huán)境 12
1.3.2 Python基本語法 15
1.3.3 Python常用庫和功能 16
1.4本書內(nèi)容介紹 19
第二章 回歸模型 21
2.1概述 21
2.2線性回歸 22
2.2.1 一元線性回歸 22
2.2.2 多元線性回歸 25
2.3線性回歸案例 28
2.3.1兒童體表面積預(yù)測 28
2.3.2波士頓房價因素分析 32
附錄:scikit-learn庫中的LinearRegression 34
2.4邏輯回歸 35
2.4.1 邏輯回歸模型 35
2.4.2 邏輯回歸方程中回歸系數(shù)的估計及含義 37
2.4.3 邏輯回歸方程的統(tǒng)計檢驗 38
2.5邏輯回歸案例 40
2.5.1考試成績預(yù)測 40
2.5.2鳶尾花分類 42
附錄:scikit-learn庫中的LogisticsRegression 44
第三章 聚類模型 46
3.1概述 46
3.1.1聚類分析概述 46
3.1.2基于距離的聚類相似度 49
3.2 K-means聚類 50
3.2.1 K-means聚類算法 50
3.2.2 K-means聚類實例 51
3.2.3 K-means聚類的優(yōu)缺點 56
3.3 密度聚類 56
3.3.1 DBSCAN密度定義 56
3.3.2 DBSCAN聚類算法 56
3.3.3 DBSCAN聚類的優(yōu)缺點 57
3.4 層次聚類 57
3.4.1系統(tǒng)聚類 58
3.4.2 DIANA算法 64
3.4.3 層次聚類算法的優(yōu)缺點 67
3.5 案例 67
3.5.1 一個二維數(shù)據(jù)集聚類 67
3.5.2一個居民家庭情況案例 69
3.5.3一個醫(yī)療建設(shè)評價案例 75
附錄:scikit-learn庫中的KMeans 77
第四章 關(guān)聯(lián)規(guī)則 80
4.1 概述 80
4.1.1 問題概述 80
4.1.2 關(guān)聯(lián)規(guī)則概述 80
4.1.3 關(guān)聯(lián)分析的基本概念 81
4.2 Apriori算法 84
4.3 基于Apriori算法的改進(jìn)算法 88
4.4 FP-Growth算法 90
4.5 關(guān)聯(lián)規(guī)則案例 94
4.5.1一個銷售記錄的關(guān)聯(lián)分析案例 94
4.5.2商品購買記錄分析 98
4.5.3電影推薦 100
第五章 決策樹 104
5.1概述 104
5.1.1 決策樹基本算法 104
5.1.2 CLS算法 105
5.1.3 信息熵 106
5.2 ID3算法 107
5.2.1基本思想 107
5.2.2 ID3算法應(yīng)用實例 109
5.3 C4.5算法 112
5.3.1 基本思想 112
5.3.2 基于信息增益率建模的決策樹 113
5.4 CART算法 114
5.4.1 基本思想 114
5.4.2 基于CART算法建模的決策樹 115
5.5 決策樹的剪枝 117
5.6 案例 121
5.6.1泰坦尼克號乘客幸存預(yù)測 121
5.6.2乳腺癌診斷 125
附錄:scikit-learn庫中的DecisionTreeClassifier 129
第六章 支持向量機 132
6.1概述 132
6.2線性支持向量機 132
6.2.1 硬間隔線性支持向量機 133
6.2.2 軟間隔線性支持向量機 135
6.3非線性支持向量機 138
6.3.1特征空間硬間隔支持向量機 140
6.3.2特征空間軟間隔支持向量機 141
6.4 支持向量機的求解和多分類問題 142
6.4.1 支持向量機的求解 142
6.4.2 多分類問題 142
6.5新聞文本分類案例 144
附錄:scikit-learn庫中的SVM 147
第七章 貝葉斯網(wǎng)絡(luò) 150
7.1概述 150
7.1.1 貝葉斯網(wǎng)絡(luò)定義 150
7.1.2 貝葉斯網(wǎng)絡(luò)的知識推理模式 151
7.1.3 貝葉斯網(wǎng)絡(luò)建立的主要步驟 151
7.1.4貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí) 152
7.1.5 貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí) 153
7.1.6 主要貝葉斯網(wǎng)絡(luò)模型 156
7.2 樸素貝葉斯網(wǎng)絡(luò) 156
7.3 TAN貝葉斯網(wǎng)絡(luò) 162
7.4 無約束貝葉斯網(wǎng)絡(luò) 167
7.5 樸素貝葉斯進(jìn)行垃圾郵件過濾 170
附錄 scikit-learn庫中的Naive-Bayes分類 174
第八章 深度學(xué)習(xí) 176
8.1概述 176
8.1.1 深度學(xué)習(xí)的發(fā)展歷史 176
8.1.2 神經(jīng)網(wǎng)絡(luò)的基本模型 176
8.2多層感知機 180
8.2.1感知機 180
8.2.2多層感知機 184
8.3卷積神經(jīng)網(wǎng)絡(luò) 190
8.3.1基本網(wǎng)絡(luò)結(jié)構(gòu) 191
8.3.2反向傳播訓(xùn)練算法 192
8.3.3 AlexNet網(wǎng)絡(luò)結(jié)構(gòu) 193
8.4循環(huán)神經(jīng)網(wǎng)絡(luò) 194
8.4.1基本網(wǎng)絡(luò)結(jié)構(gòu) 195
8.4.2反向傳播訓(xùn)練算法 195
8.4.3長短時間記憶單元 196
8.5 構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型對CIFAR圖片數(shù)據(jù)集分類 197
附錄:TensorFlow基本用法 203
參考文獻(xiàn) 207