本書主要內(nèi)容包括:數(shù)據(jù)分析與挖掘簡介、爬蟲、Scrapy爬蟲框架、Numpy、Pandas、Matplotlib、線性回歸、Logistic回歸、決策樹與隨機森林、KNN模型、樸素貝葉斯模型、SVM模型等。本書以案例為導向,循序漸進,適合初學者。本書從初學者的角度進行編寫,在編寫過程中,注重基礎(chǔ)知識和案例應(yīng)用相結(jié)合,主要內(nèi)容包括:數(shù)據(jù)分析與挖掘簡介、爬蟲、Scrapy爬蟲框架、Numpy、Pandas、Matplotlib、線性回歸、Logistic回歸、決策樹與隨機森林、KNN模型、樸素貝葉斯模型、SVM模型等常用算法,后總結(jié)了一些項目的綜合實戰(zhàn)案例。本書的代碼全部使用Python語言實現(xiàn),適合大數(shù)據(jù)、人工智能等相關(guān)專業(yè)選用。
本書系統(tǒng)介紹了數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎(chǔ)知識、典型的機器學習模型及利用Python實現(xiàn)數(shù)據(jù)挖掘與機器學習的過程。本書將基礎(chǔ)理論、模型應(yīng)用以及項目實踐充分結(jié)合,有利于加深讀者對所學內(nèi)容的掌握與應(yīng)用。本書目標明確,就是為初學者量身定做的入門教程,內(nèi)容系統(tǒng)全面,各章節(jié)相互獨立,讀者可以根據(jù)自己的需求選擇使用。本書面向應(yīng)用型人才培養(yǎng)編寫,將原理的敘述進行精簡,易于理解,輔以Python代碼實踐與應(yīng)用,使讀者通過實例更好地去理解和掌握知識點。
隨著大數(shù)據(jù)時代的到來,對挖掘到的數(shù)據(jù)要求變得越來越嚴格。數(shù)據(jù)挖掘(Data Mining, DM)是一門新興的、匯聚多個學科的交叉性學科,也是從海量的數(shù)據(jù)中將未知、隱含及具備潛在價值的信息進行提取的過程。數(shù)據(jù)挖掘?qū)⒏咝阅苡嬎恪C器學習、人工智能、模式識別、統(tǒng)計學、數(shù)據(jù)可視化、數(shù)據(jù)庫技術(shù)和專家系統(tǒng)等多個范疇的理論和技術(shù)融合在一起。各行各業(yè)通過對海量數(shù)據(jù)的分析與挖掘,建立適當?shù)捏w系,不斷地優(yōu)化,提高了決策的準確性,從而更利于掌握并順應(yīng)市場的變化。
本書系統(tǒng)地介紹了數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎(chǔ)知識、典型的機器學習模型及利用Python實現(xiàn)數(shù)據(jù)挖掘與機器學習的過程。本書將基礎(chǔ)理論、模型應(yīng)用以及項目實踐充分結(jié)合,有利于讀者充分掌握與應(yīng)用所學內(nèi)容。
本書主要內(nèi)容
全書共分為兩大部分,共有19章。
第一部分數(shù)據(jù)分析與挖掘,包括第1~15章。第1章數(shù)據(jù)分析與挖掘簡介,包括Python數(shù)據(jù)分析和挖掘任務(wù)中重要的庫與工具、Anaconda安裝、Jupyter Notebook。第2章爬蟲,包括爬蟲的基本流程、HTTP、安裝PyCharm、應(yīng)用舉例。第3章Scrapy爬蟲框架,包括基本原理、應(yīng)用舉例。第4章NumPy基本用法,包括NumPy創(chuàng)建數(shù)組、NumPy查看數(shù)組屬性、數(shù)組的基本操作、NumPy運算、排序。第5章Pandas基本用法,包括Series、DataFrame、應(yīng)用舉例。第6章Matplotlib基本用法,包括線型圖、散點圖、直方圖、條形圖、餅圖、Seaborn、Pandas中的繪圖函數(shù)。第7章線性回歸、嶺回歸、Lasso回歸,包括原理、應(yīng)用舉例。第8章Logistic回歸分類模型,包括原理、應(yīng)用舉例。第9章決策樹與隨機森林,包括原理、應(yīng)用舉例。第10章KNN模型,包括原理、應(yīng)用舉例。第11章樸素貝葉斯模型,包括原理、應(yīng)用舉例。第12章SVM模型,包括原理、應(yīng)用舉例。第13章Kmeans聚類,包括原理、應(yīng)用舉例。第14章關(guān)聯(lián)規(guī)則Apriori算法,包括原理、應(yīng)用舉例。第15章數(shù)據(jù)分析與挖掘項目實戰(zhàn),包括貸款預(yù)測問題、客戶流失率問題。
第二部分機器學習,包括第16~19章。第16章主成分分析法,包括原理、應(yīng)用舉例。第17章集成學習,包括原理、應(yīng)用舉例。第18章模型評估,包括分類評估、回歸評估、聚類評估、Scikitlearn中的評估函數(shù)。第19章初識深度學習框架Keras,包括關(guān)于Keras、神經(jīng)網(wǎng)絡(luò)簡介、Keras神經(jīng)網(wǎng)絡(luò)模型、用Keras實現(xiàn)線性回歸模型、用Keras實現(xiàn)鳶尾花分類、Keras目標函數(shù)、性能評估函數(shù)、激活函數(shù)說明。
本書特色
(1) 本書目標明確,是為初學者量身定做的入門教程,內(nèi)容系統(tǒng)全面,各章節(jié)相互獨立,讀者可以根據(jù)自己的需求選擇使用。
(2) 本書面向應(yīng)用型人才培養(yǎng)編寫,將原理的敘述進行精簡,易于理解,輔以Python代碼進行實踐與應(yīng)用,使讀者通過實例更好地理解和掌握知識點。
配套資源
為便于教與學,本書配有150分鐘微課視頻、源代碼、數(shù)據(jù)集、教學課件、教學大綱、教學日歷。
(1) 獲取微課視頻方式: 讀者可以先掃描本書封底的文泉云盤防盜碼,再掃描書中相應(yīng)的視頻二維碼,觀看教學視頻。
(2) 獲取源代碼、數(shù)據(jù)集、全書網(wǎng)址和需要彩色展示的圖片
方式: 先掃描本書封底的文泉云盤防盜碼,再掃描下方二維碼,即可獲取。
源代碼、數(shù)據(jù)集
全書網(wǎng)址
彩色圖片
(3) 其他配套資源可以掃描本書封底的書圈二維碼,關(guān)注后輸入書號,即可下載。
讀者對象
本書是一本針對愛好數(shù)據(jù)分析與挖掘、機器學習等相關(guān)知識的讀者而編寫的基礎(chǔ)教程,尤其適用于全國高等學校的教師、在讀學生及相關(guān)領(lǐng)域的愛好者。
本書的編寫參考了同類書籍和相關(guān)資料,在此向有關(guān)作者表示衷心的感謝。
由于編者水平有限,書中難免存在疏漏之處,懇請廣大讀者予以批評指正。
編者
2022年2月
第一部分數(shù)據(jù)分析與挖掘
第1章數(shù)據(jù)分析與挖掘簡介
1.1Python數(shù)據(jù)分析和挖掘任務(wù)中重要的庫與工具
1.1.1NumPy
1.1.2SciPy
1.1.3Pandas
1.1.4Matplotlib
1.1.5Jupyter Notebook
1.1.6Scikitlearn
1.2Anaconda 安裝
1.3Jupyter Notebook
第2章爬蟲
2.1爬蟲的基本流程
2.2HTTP
2.3安裝PyCharm
2.4應(yīng)用舉例
習題
第3章Scrapy爬蟲框架
3.1基本原理
3.2應(yīng)用舉例
習題
第4章NumPy基本用法
4.1NumPy創(chuàng)建數(shù)組
4.1.1使用np.array()由Python列表創(chuàng)建
4.1.2使用np的方法創(chuàng)建
4.2NumPy查看數(shù)組屬性
4.3數(shù)組的基本操作
4.4NumPy運算
4.5排序
習題
第5章Pandas基本用法
5.1Series
5.2DataFrame
5.2.1創(chuàng)建DataFrame對象
5.2.2查看DataFrame對象
5.2.3DataFrame對象的索引與切片
5.3應(yīng)用舉例
5.3.1數(shù)據(jù)讀取
5.3.2數(shù)據(jù)清洗
5.3.3數(shù)據(jù)規(guī)整
習題
第6章Matplotlib基本用法
6.1線型圖
6.2散點圖
6.3直方圖
6.4條形圖
6.5餅圖
6.6Seaborn
6.6.1Seaborn基本操作
6.6.2Seaborn繪制的圖
6.6.3Seaborn用法示例
6.7Pandas中的繪圖函數(shù)
習題
第7章線性回歸、嶺回歸、Lasso回歸
7.1原理
7.1.1普通線性回歸
7.1.2嶺回歸
7.1.3Lasso回歸
7.2應(yīng)用舉例
習題
第8章Logistic回歸分類模型
8.1原理
8.1.1模型簡介
8.1.2ROC曲線和AUC
8.1.3梯度下降法
8.1.4Scikitlearn中predict()與predict_proba()用法區(qū)別
8.2應(yīng)用舉例
習題
第9章決策樹與隨機森林
9.1原理
9.1.1決策樹
9.1.2隨機森林
9.2應(yīng)用舉例
習題
第10章KNN模型
10.1原理
10.2應(yīng)用舉例
習題
第11章樸素貝葉斯模型
11.1原理
11.1.1貝葉斯定理
11.1.2樸素貝葉斯
11.1.3Scikitlearn中三種不同類型的樸素貝葉斯模型
11.2應(yīng)用舉例
習題
第12章SVM模型
12.1原理
12.2應(yīng)用舉例
習題
第13章Kmeans聚類
13.1原理
13.2應(yīng)用舉例
習題
第14章關(guān)聯(lián)規(guī)則Apriori算法
14.1原理
14.2應(yīng)用舉例
習題
第15章數(shù)據(jù)分析與挖掘項目實戰(zhàn)
15.1貸款預(yù)測問題
15.1.1數(shù)據(jù)導入及查看
15.1.2數(shù)據(jù)預(yù)處理
15.1.3建立預(yù)測模型
15.2客戶流失率問題
15.2.1數(shù)據(jù)導入及查看
15.2.2數(shù)據(jù)預(yù)處理
15.2.3建立預(yù)測模型
習題
第二部分機 器 學 習
第16章主成分分析法
16.1原理
16.2應(yīng)用舉例
習題
第17章集成學習
17.1原理
17.2應(yīng)用舉例
習題
第18章模型評估
18.1分類評估
18.2回歸評估
18.3聚類評估
18.4Scikitlearn中的評估函數(shù)
第19章初識深度學習框架Keras
19.1關(guān)于Keras
19.2神經(jīng)網(wǎng)絡(luò)簡介
19.3Keras神經(jīng)網(wǎng)絡(luò)模型
19.4用Keras實現(xiàn)線性回歸模型
19.5用Keras實現(xiàn)鳶尾花分類
19.6Keras目標函數(shù)、性能評估函數(shù)、激活函數(shù)說明
習題
參考文獻