機器學習實踐:基于Python進行數(shù)據(jù)分析
定 價:139 元
叢書名:智能系統(tǒng)與技術叢書
當前圖書已被 48 所學校薦購過!
查看明細
- 作者:[沙]阿卜杜勒哈密特·蘇巴西(Abdulhamit Subasi)
- 出版時間:2022/1/1
- ISBN:9787111698180
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書是一本創(chuàng)建真實世界智能系統(tǒng)的問題解決指南。提供了一種包含概念、實踐、實際示例和代碼示例的綜合方法,教給讀者理解和解決機器學習不同問題所需的重要技能。通過介紹Python機器學習生態(tài)系統(tǒng)中的真實案例研究,教授成為一個成功的實踐者所必需的機器學習技術。本書還側重于機器學習的基礎知識,以解決不同領域的真實世界案例,包括生物醫(yī)學信號分析、醫(yī)療保健、安全、經(jīng)濟和金融。此外,它涵蓋了廣泛的機器學習模型,包括回歸、分類和預測。
機器學習解決方案的飛速發(fā)展及其在工業(yè)界的廣泛應用極大地推動了其從不同領域中觀察(學習)數(shù)據(jù),從而學習到復雜模型解決實際問題的能力。通常,創(chuàng)造出高效的學習模型并且得到可靠的結果需要付出大量的時間和成本。掌握項目的主要概念一般可以通過以下方式完成:構建可靠的數(shù)據(jù)流程管道,通過特征提取及選擇進行數(shù)據(jù)分析和可視化,建模。因此,對于一個可靠的機器學習解決方案而言,不僅包括機器學習模型開發(fā)框架本身,還包括成功的預處理模塊、可視化、系統(tǒng)集成以及健全的運行時部署和維護設定。Python是一種具有多種功能的創(chuàng)新編程語言,其簡單的實現(xiàn)和集成、活躍的開發(fā)者社區(qū)以及不斷成長的機器學習生態(tài)系統(tǒng),對于機器學習的發(fā)展及廣泛應用做出了極大的貢獻。
技術的不斷進步使得智能組織以及數(shù)據(jù)驅動的企業(yè)成為現(xiàn)實。如今,當數(shù)據(jù)成了重中之重,市場對于機器學習以及數(shù)據(jù)科學從業(yè)人員的需求十分龐大。實際上,我們正面臨著數(shù)據(jù)科學家以及機器學習專家的短缺。從事21世紀熱門的職業(yè)毫無疑問要在這個領域有專家級的經(jīng)驗。
機器學習技術是一系列計算機算法,包括人工神經(jīng)網(wǎng)絡、k近鄰算法、支持向量機、決策樹算法以及深度學習。機器學習當前應用于許多領域,尤其是經(jīng)濟學、安全、醫(yī)療保健、生物醫(yī)學以及生物醫(yī)學工程。本書介紹如何使用機器學習技術來分析這些領域的數(shù)據(jù)。
本書作者有很多使用Python及其機器學習生態(tài)系統(tǒng)來解決實際問題的經(jīng)驗。本書旨在提升讀者的技能水平,使大家能夠創(chuàng)建實際的機器學習解決方案。同時,本書亦是一本構建實際智能系統(tǒng)的問題解決指南,它提供了一個包括原則、過程、實際案例以及代碼的系統(tǒng)框架。同時,本書也包括讀者在理解和解決不同的機器學習問題時所需的重要技能。
對于正在進行機器學習開發(fā)的讀者而言,本書是一本絕佳的參考,因為書中包含了眾多使用Python機器學習環(huán)境進行開發(fā)的實際案例。本書旨在為讀者使用機器學習知識解決不同領域的實際問題打下堅實基礎,這些實際問題涉及生物醫(yī)學信號分析、醫(yī)療保健、安全、經(jīng)濟以及金融領域。此外,本書還介紹了一系列機器學習模型,包括回歸、分類、聚類以及預測等方向。
本書共七章。第1章主要介紹基于機器學習的數(shù)據(jù)分析。第2章概述一些數(shù)據(jù)預處理技術,例如特征提取、轉換、特征選擇以及降維。第3章概述一些常見的用于預報、預測和分類的機器學習技術,例如樸素貝葉斯、k近鄰、人工神經(jīng)網(wǎng)絡、支持向量機、決策樹、隨機森林、裝袋、提升、堆疊、投票、深度神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡。第4章主要呈現(xiàn)一些醫(yī)療保健領域中的分類案例,包括常用于生物醫(yī)學信號分析和識別的技術,例如心電圖(ECG)、腦電圖(EEG)和肌電圖(EMG)信號處理。此外,第4章還會介紹一些醫(yī)療數(shù)據(jù)分類案例,例如人體行為識別,基于微陣列基因表達的癌癥、乳腺癌、糖尿病和心臟病檢測等。第5章主要介紹一些實際應用,包括入侵檢測、釣魚網(wǎng)站檢測、垃圾郵件檢測、信用評分、信用卡欺詐檢測、手寫數(shù)字識別、圖像分類和文本分類。第6章主要介紹一些回歸技術的案例,例如股市分析、經(jīng)濟變量預測、電力負荷預測、風速預測、旅游需求預測以及房價預測。第7章包括一些無監(jiān)督學習技術的案例(聚類)。
本書主要目的是幫助包括IT專業(yè)人員、分析師、開發(fā)人員、數(shù)據(jù)科學家和工程師在內的廣大讀者掌握解決實際問題的能力。此外,本書也可作為數(shù)據(jù)科學和機器學習領域的研究生教材。同時,本書還能幫助研究人員建立起使用機器學習技術進行數(shù)據(jù)分析的基礎。另外,本書還將幫助包括研究人員、專業(yè)人士、學者和一系列學科的研究生在內的廣大讀者,尤其是那些剛開始尋求在生物醫(yī)學信號分析、醫(yī)療數(shù)據(jù)分析、金融和經(jīng)濟數(shù)據(jù)預測以及計算機安全等領域應用機器學習技術的讀者。
執(zhí)行本書所提供的代碼示例需要在macOS、Linux或Microsoft Windows上安裝Python 3.x或更高版本。本書中的代碼示例經(jīng)常使用Python的基本庫,例如SciPy、NumPy、scikit-learn、matplotlib、pandas、OpenCV、TensorFlow和Keras。
譯者序
前言
致謝
第1章 簡介1
1.1 什么是機器學習1
1.1.1 為什么需要使用機器學習2
1.1.2 做出數(shù)據(jù)驅動決策3
1.1.3 定義以及關鍵術語4
1.1.4 機器學習的關鍵任務6
1.1.5 機器學習技術6
1.2 機器學習框架6
1.2.1 數(shù)據(jù)收集7
1.2.2 數(shù)據(jù)描述7
1.2.3 探索性數(shù)據(jù)分析7
1.2.4 數(shù)據(jù)質量分析8
1.2.5 數(shù)據(jù)準備8
1.2.6 數(shù)據(jù)集成8
1.2.7 數(shù)據(jù)整理8
1.2.8 特征縮放和特征提取9
1.2.9 特征選擇及降維9
1.2.10 建模9
1.2.11 選擇建模技術9
1.2.12 構建模型10
1.2.13 模型評估及調優(yōu)10
1.2.14 實現(xiàn)以及檢驗已經(jīng)創(chuàng)建的模型10
1.2.15 監(jiān)督學習框架11
1.2.16 無監(jiān)督學習框架11
1.3 性能評估12
1.3.1 混淆矩陣13
1.3.2 F值分析14
1.3.3 ROC分析15
1.3.4 Kappa統(tǒng)計量15
1.3.5 度量了什么16
1.3.6 如何度量17
1.3.7 如何解釋估計17
1.3.8 scikit-learn中的k折交叉驗證18
1.3.9 如何選擇正確的算法18
1.4 Python機器學習環(huán)境18
1.4.1 缺陷20
1.4.2 缺點20
1.4.3 NumPy庫20
1.4.4 Pandas20
1.5 本章小結21
1.6 參考文獻22
第2章 數(shù)據(jù)預處理23
2.1 簡介23
2.2 特征提取和轉換24
2.2.1 特征類型24
2.2.2 統(tǒng)計特征25
2.2.3 結構化特征27
2.2.4 特征轉換28
2.2.5 閾值化和離散化28
2.2.6 數(shù)據(jù)操作28
2.2.7 標準化29
2.2.8 歸一化和校準33
2.2.9 不完整的特征34
2.2.10 特征提取的方法36
2.2.11 使用小波變換進行特征提取38
2.3 降維45
2.3.1 特征構造和選擇47
2.3.2 單變量特征選擇48
2.3.3 遞歸式特征消除51
2.3.4 從模型選擇特征52
2.3.5 主成分分析53
2.3.6 增量PCA57
2.3.7 核PCA58
2.3.8 鄰近成分分析59
2.3.9 獨立成分分析61
2.3.10 線性判別分析65
2.3.11 熵67
2.4 基于聚類的特征提取和降維68
2.5 參考文獻75
第3章 機器學習技術77
3.1 簡介77
3.2 什么是機器學習78
3.2.1 理解機器學習78
3.2.2 如何讓機器學習78
3.2.3 多學科領域79
3.2.4 機器學習問題80
3.2.5 機器學習的目標80
3.2.6 機器學習的挑戰(zhàn)81
3.3 Python庫81
3.3.1 scikit-learn81
3.3.2 TensorFlow83
3.3.3 Keras84
3.3.4 使用Keras構建模型84
3.3.5 自然語言工具包85
3.4 學習場景87
3.5 監(jiān)督學習算法88
3.5.1 分類89
3.5.2 預報、預測和回歸90
3.5.3 線性模型90
3.5.4 感知機98
3.5.5 邏輯回歸100
3.5.6 線性判別分析102
3.5.7 人工神經(jīng)網(wǎng)絡105
3.5.8 k近鄰109
3.5.9 支持向量機113
3.5.10 決策樹分類器118
3.5.11 樸素貝葉斯123
3.5.12 集成學習126
3.5.13 bagging算法127
3.5.14 隨機森林131
3.5.15 boosting算法136
3.5.16 其他集成方法146
3.5.17 深度學習151
3.5.18 深度神經(jīng)網(wǎng)絡152
3.5.19 循環(huán)神經(jīng)網(wǎng)絡155
3.5.20 自編碼器157
3.5.21 長短期記憶網(wǎng)絡157
3.5.22 卷積神經(jīng)網(wǎng)絡160
3.6 無監(jiān)督學習162
3.6.1 k均值算法163
3.6.2 輪廓系數(shù)165
3.6.3 異常檢測167
3.6.4 關聯(lián)規(guī)則挖掘170
3.7 強化學習170
3.8 基于實例的學習171
3.9 本章小結171
3.10 參考文獻172
第4章 醫(yī)療保健分類示例174
4.1 簡介174
4.2 腦電圖信號分析175
4.2.1 癲癇癥的預測和檢測176
4.2.2 情緒識別194
4.2.3 局灶性和非局灶性癲癇EEG信號的分類201
4.2.4 偏頭痛檢測212
4.3 EMG信號分析217
4.3.1 神經(jīng)肌肉疾病的診斷218
4.3.2 假體控制中的EMG信號225
4.3.3 康復機器人中的EMG信號232
4.4 心電圖信號分析238
4.5 人類活動識別247
4.5.1 基于傳感器的人類活動識別248
4.5.2 基于智能手機的人類活動識別250
4.6 用于癌癥檢測的微陣列基因表達數(shù)據(jù)分類256
4.7 乳腺癌檢測257
4.8 預測胎兒風險的心電圖數(shù)據(jù)分類260
4.9 糖尿病檢測263
4.10 心臟病檢測267
4.11 慢性腎臟病的診斷270
4.12 本章小結273
4.13 參考文獻273
第5章 其他分類示例277
5.1 入侵檢測277
5.2 釣魚網(wǎng)站檢測280
5.3 垃圾郵件檢測283
5.4 信用評分287
5.5 信用卡欺詐檢測290
5.6 使用CNN進行手寫數(shù)字識別297
5.7 使用CNN進行Fashion-MNIST圖像分類306
5.8 使用CNN進行CIFAR圖像分類313
5.9 文本分類321
5.10 本章小結334
5.11 參考文獻334
第6章 回歸示例337
6.1 簡介337
6.2 股票市場價格指數(shù)收益預測338
6.3 通貨膨脹預測356
6.4 電力負荷預測358
6.5 風速預測365
6.6 旅游需求預測370
6.7 房價預測380
6.8 單車使用情況預測395
6.9 本章小結399
6.10 參考文獻400
第7章 聚類示例402
7.1 簡介402
7.2 聚類403
7.2.1 評估聚類輸出404
7.2.2 聚類分析的應用404
7.2.3 可能的聚類數(shù)405
7.2.4 聚類算法種類405
7.3 k均值聚類算法406
7.4 k中心點聚類算法408
7.5 層次聚類409
7.5.1 聚集聚類算法409
7.5.2 分裂聚類算法412
7.6 模糊c均值聚類算法416
7.7 基于密度的聚類算法418
7.7.1 DBSCAN算法418
7.7.2 OPTICS聚類算法420
7.8 基于期望化的混合高斯模型聚類算法423
7.9 貝葉斯聚類426
7.10 輪廓分析428
7.11 基于聚類的圖像分割430
7.12 基于聚類的特征提取433
7.13 基于聚類的分類439
7.14 本章小結442
7.15 參考文獻442