機(jī)器學(xué)習(xí)方法及應(yīng)用
定 價:48 元
叢書名:全國高等院校人工智能系列“十三五”規(guī)劃教材
- 作者:袁景凌,賁可榮,魏娜 著
- 出版時間:2020/5/1
- ISBN:9787113268183
- 出 版 社:中國鐵道出版社
- 中圖法分類:TP181
- 頁碼:236
- 紙張:膠版紙
- 版次:1
- 開本:16開
數(shù)據(jù)是載體,智能是目標(biāo),而機(jī)器學(xué)習(xí)則是從數(shù)據(jù)通往智能的技術(shù)途徑。機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心,是現(xiàn)代人工智能的本質(zhì)。本書內(nèi)容包括機(jī)器學(xué)習(xí)概述、決策樹學(xué)習(xí)、多層感知器、維度約簡、支持向量機(jī)、無監(jiān)督學(xué)習(xí)、概率圖模型、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)。本書除介紹常用的機(jī)器學(xué)習(xí)方法外,還綜述各主要方法的應(yīng)用現(xiàn)狀。通過各章案例的詳細(xì)描述,讀者可以系統(tǒng)地掌握機(jī)器學(xué)習(xí)方法。本書應(yīng)用案例采用Python語言編寫,并提供下載網(wǎng)址。
本書適合作為高等院校人工智能、數(shù)據(jù)科學(xué)與大數(shù)據(jù)、計算機(jī)科學(xué)與技術(shù)、軟件工程等計算機(jī)類專業(yè)的本科生及研究生“機(jī)器學(xué)習(xí)”課程教材,也適合作為機(jī)器學(xué)習(xí)愛好者的參考讀物。
基礎(chǔ)性:注重基礎(chǔ)理論,運(yùn)用基本方法;
應(yīng)用性:剖析典型案例,給出應(yīng)用全景;
啟發(fā)性:推薦資源平臺,激發(fā)學(xué)習(xí)興趣。
機(jī)器學(xué)習(xí)方法分類
機(jī)器學(xué)習(xí)(Machine Learning)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。
1按照有無監(jiān)督分類
有監(jiān)督學(xué)習(xí)(Supervised Learning):從給定的有標(biāo)注的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個函數(shù)(模型參數(shù)),當(dāng)新的數(shù)據(jù)到來時可以根據(jù)這個函數(shù)預(yù)測結(jié)果。常見任務(wù)包括分類與回歸。
無監(jiān)督學(xué)習(xí)(Unsupervised Learning):沒有標(biāo)注的訓(xùn)練數(shù)據(jù)集,需要根據(jù)樣本間的統(tǒng)計規(guī)律對樣本集進(jìn)行分析,常見任務(wù)如聚類等。
半監(jiān)督學(xué)習(xí)(Semisupervised Learning):結(jié)合(少量的)標(biāo)注訓(xùn)練數(shù)據(jù)和(大量的)未標(biāo)注數(shù)據(jù)來進(jìn)行數(shù)據(jù)的分類學(xué)習(xí)。
增強(qiáng)學(xué)習(xí)(Reinforcement Learning):外部環(huán)境對輸出只給出評價信息而非正確答案,學(xué)習(xí)機(jī)通過強(qiáng)化受獎勵的動作來改善自身的性能。
多任務(wù)學(xué)習(xí)(Multitask Learning):把多個相關(guān)(Related)的任務(wù)放在一起同時學(xué)習(xí)。
2按照解決問題分類
按照解決問題可分為:分類問題、回歸問題、聚類問題和其他問題。
隱馬爾可夫模型是一個關(guān)于時序的概率模型,描述由隱馬爾可夫鏈隨機(jī)生成觀測序列的過程,屬于生成模型。隱馬爾可夫模型在語音識別、自然語言處理、生物信息等領(lǐng)域有著廣泛的應(yīng)用。
條件隨機(jī)場是一個序列標(biāo)注模型,其優(yōu)點在于為一個位置進(jìn)行標(biāo)注的過程中可以利用豐富的內(nèi)部及上下文特征信息。
LDA主題模型是一種文檔主題生成模型,是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)。通過模擬文檔生成過程,可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。
機(jī)器學(xué)習(xí)面臨的難題與挑戰(zhàn)
(1)數(shù)據(jù)稀疏性:訓(xùn)練一個模型,需要大量(標(biāo)注)數(shù)據(jù),但是數(shù)據(jù)往往比較稀疏。例如:想訓(xùn)練一個模型表征某人“購物興趣”,但是這個人在網(wǎng)站上瀏覽行為很少,購物歷史很少,很難訓(xùn)練出一個“有意義模型”來預(yù)測應(yīng)該給這個人推薦什么商品等。
(2)高數(shù)量和高質(zhì)量標(biāo)注數(shù)據(jù)需求:獲取標(biāo)定數(shù)據(jù)需要耗費(fèi)大量人力和財力。而且,人會出錯,有主觀性。如何獲取高數(shù)量和高質(zhì)量標(biāo)定數(shù)據(jù),或者用機(jī)器學(xué)習(xí)方法只標(biāo)注“關(guān)鍵”數(shù)據(jù)(主動學(xué)習(xí))值得深入研究。
(3)冷啟動問題:一個好互聯(lián)網(wǎng)產(chǎn)品,用的人越多,得到的數(shù)據(jù)越多;得到的數(shù)據(jù)越多,模型訓(xùn)練得越好,產(chǎn)品會變得更好用,用的人就會更多……進(jìn)入良性循環(huán)(漣漪效益)。對于一個新產(chǎn)品,在初期要面臨數(shù)據(jù)不足的冷啟動問題。
(4)泛化能力問題:訓(xùn)練數(shù)據(jù)不能全面、均衡地代表真實數(shù)據(jù)。
(5)模型抽象困難:總結(jié)歸納實際問題中的數(shù)學(xué)表示非常困難。
(6)模型評估困難:在很多實際問題中,很難形式化地、定量地評估一個模型的結(jié)果是好還是不好。
(7)尋找最優(yōu)解困難:要解決的實際問題非常復(fù)雜,將其形式化后的目標(biāo)函數(shù)也非常復(fù)雜,往往在目前還不存在一個有效的算法能找到目標(biāo)函數(shù)的最優(yōu)值。
(8)可擴(kuò)展性是互聯(lián)網(wǎng)的核心問題之一。搜索引擎索引的重要網(wǎng)頁超過100億:如果1臺機(jī)器每秒處理1 000個網(wǎng)頁,需要至少100天。所以出現(xiàn)了MapReduce、MPI、Spark、Pegasus、Pregel、Hama等分布式計算構(gòu)架。選擇什么樣的計算平臺,與算法設(shè)計緊密相關(guān)。
(9)速度是互聯(lián)網(wǎng)核心的用戶體驗。線下模型訓(xùn)練可以花費(fèi)很長時間,如Google某個模型更新一次需要幾千臺機(jī)器,大約訓(xùn)練半年時間。但是,線上使用模型時要求一定要“快,并且實時”。
(10)在線學(xué)習(xí):互聯(lián)網(wǎng)每時每刻都在產(chǎn)生大量新數(shù)據(jù),要求模型隨之不停更新,所以在線學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個重要研究方向。
機(jī)器學(xué)習(xí)發(fā)展的啟示
“機(jī)器學(xué)習(xí)”在其十年的黃金發(fā)展期,機(jī)器學(xué)習(xí)界并沒有過多地炒作“智能”或者“認(rèn)知”,而是關(guān)注于引入統(tǒng)計學(xué)等來建立學(xué)科的理論基礎(chǔ),面向數(shù)據(jù)分析與處理,以無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)為兩大主要的研究問題,提出和開發(fā)了一系列模型、方法和計算算法等,切實地解決了工業(yè)界所面臨的一些實際問題。因為大數(shù)據(jù)的驅(qū)動和計算能力的極大提升,一批面向機(jī)器學(xué)習(xí)的底層架構(gòu)先后被開發(fā)出來。神經(jīng)網(wǎng)絡(luò)其實在20世紀(jì)80年代末或90年代初就被廣泛研究,但后來沉寂了。而基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)強(qiáng)勢崛起,給工業(yè)界帶來了深刻的變革和機(jī)遇。深度學(xué)習(xí)的成功不是源自腦科學(xué)或認(rèn)知科學(xué)的進(jìn)展,而是因為大數(shù)據(jù)的驅(qū)動和計算能力的極大提升。
機(jī)器學(xué)習(xí)的發(fā)展詮釋了多學(xué)科交叉的重要性和必要性。然而這種交叉不是簡單地彼此知道幾個名詞或概念就可以的,是需要真正融會貫通。統(tǒng)計學(xué)家弗萊德曼早期從事物理學(xué)研究,他是優(yōu)化算法大師,而且他的編程能力同樣令人贊嘆。喬丹教授既是一流的計算機(jī)學(xué)家,又是一流的統(tǒng)計學(xué)家,而他的博士專業(yè)為心理學(xué),他能夠承擔(dān)起建立統(tǒng)計機(jī)器學(xué)習(xí)的重任。辛頓教授是世界最著名的認(rèn)知心理學(xué)家和計算機(jī)科學(xué)家。雖然他很早就成就斐然,在學(xué)術(shù)界久負(fù)盛名,但他依然始終活躍在一線,自己寫代碼。他提出的許多想法簡單、可行又非常有效,被稱為偉大的思想家。正是由于他的睿智和身體力行,深度學(xué)習(xí)技術(shù)迎來了革命性的突破。這些學(xué)者非常務(wù)實,從不提那些空洞無物的概念和框架。他們遵循自下而上的方式,從具體問題、模型、方法、算法等著手,一步一步實現(xiàn)系統(tǒng)化。
可以說機(jī)器學(xué)習(xí)是由學(xué)術(shù)界、工業(yè)界、創(chuàng)業(yè)界(或競賽界)等合力造就的。學(xué)術(shù)界是引擎,工業(yè)界是驅(qū)動,創(chuàng)業(yè)界是活力和未來。學(xué)術(shù)界和工業(yè)界應(yīng)該有各自的職責(zé)和分工。學(xué)術(shù)界的職責(zé)在于建立和發(fā)展機(jī)器學(xué)習(xí)學(xué)科,培養(yǎng)機(jī)器學(xué)習(xí)領(lǐng)域的專門人才;而大項目、大工程更應(yīng)該由市場來驅(qū)動,由工業(yè)界來實施和完成。
本書內(nèi)容包括機(jī)器學(xué)習(xí)概述、決策樹學(xué)習(xí)、多層感知器、維度約簡、支持向量機(jī)、無監(jiān)督學(xué)習(xí)、概率圖模型、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)。除包括基本概念、基本知識外,每章均包括相關(guān)技術(shù)的應(yīng)用概述及典型應(yīng)用案例。
本書適合作為高等院校人工智能、數(shù)據(jù)科學(xué)與大數(shù)據(jù)、計算機(jī)科學(xué)與技術(shù)、軟件工程等計算機(jī)類專業(yè)的本科生及研究生“機(jī)器學(xué)習(xí)”課程的教材,也可作為機(jī)器學(xué)習(xí)各類培訓(xùn)用書和愛好者的參考書。
賁可榮、魏娜撰寫第1、2、3、5、9章及第66節(jié),張獻(xiàn)參與第9章的撰寫。其余章節(jié)(含第25節(jié))由袁景凌老師撰寫,董建升、丁遠(yuǎn)遠(yuǎn)、曹陽、肖嵩參加了部分案例編寫。賁可榮組織了本書編寫,并撰寫前言。南京大學(xué)徐潔磐教授審閱了全書,并提出寶貴意見,特此致謝。最后感謝參考文獻(xiàn)的所有作者。
由于時間倉促及編者水平所限,必定存在許多不足,懇請讀者批評指正,將不勝感謝。
編者2019年11月
袁景凌:武漢理工大學(xué)教授,博士/博士生導(dǎo)師。中國計算機(jī)學(xué)會高級會員,湖北省計算機(jī)學(xué)會理事。獲得湖北省自然科學(xué)二等獎,湖北省科技進(jìn)步二等獎/三等獎,湖北省技術(shù)發(fā)明三等獎,湖北省教學(xué)成果一等獎。
編寫《智能方法及應(yīng)用》、《離散數(shù)學(xué)》、《軟件工程》等專著及教材。
賁可榮:海軍工程大學(xué)教授、博士生導(dǎo)師。主編《人工智能》入選普通高等教育“十二五”國家級規(guī)劃教材。CCF理論計算機(jī)科學(xué)專委副主任、《計算機(jī)科學(xué)與探索》執(zhí)行編委,《海軍新軍事變革叢書》編委會常務(wù)副主任。軍隊人工智能專家組成員,海軍人工智能專業(yè)組副組長。評為教育部骨干教師、首屆湖北省優(yōu)秀研究生導(dǎo)師、海軍名師工作室領(lǐng)銜名師、第三屆大學(xué)教學(xué)名師,獲軍隊院校育才獎金獎。
目錄
第1章機(jī)器學(xué)習(xí)概述1
1.1學(xué)習(xí)中的元素2
1.2目標(biāo)函數(shù)的表示4
1.3機(jī)器學(xué)習(xí)系統(tǒng)的基本結(jié)構(gòu)6
1.4學(xué)習(xí)任務(wù)的類型7
1.5機(jī)器學(xué)習(xí)的定義和發(fā)展史9
1.6機(jī)器學(xué)習(xí)可完成的事11
1.7機(jī)器學(xué)習(xí)的成功案例13
習(xí)題16
第2章決策樹學(xué)習(xí)17
2.1決策樹的組成及分類17
2.2決策樹的構(gòu)造算法CLS18
2.3基本的決策樹算法ID320
2.4信息熵和信息增益及其案例21
2.5隨機(jī)森林及其應(yīng)用案例24
2.5.1隨機(jī)森林概述24
2.5.2隨機(jī)森林應(yīng)用案例27
2.6決策樹和隨機(jī)森林應(yīng)用概述29
2.6.1決策樹的應(yīng)用概述29
2.6.2隨機(jī)森林的應(yīng)用概述30
小結(jié)32
習(xí)題32
第3章多層感知器34
3.1神經(jīng)元模型34
3.2感知器及其學(xué)習(xí)規(guī)則35
3.3多層感知器38
3.4反向傳播算法39
目錄3.5反向傳播網(wǎng)絡(luò)的應(yīng)用概述45
3.6案例:基于反向傳播網(wǎng)絡(luò)擬合曲線46
小結(jié)52
習(xí)題53
第4章維度約簡55
4.1主成分分析55
4.2獨(dú)立成分分析58
4.3線性判別分析59
4.4局部線性嵌入62
4.5維度約簡算法應(yīng)用概述65
4.6案例分析66
4.6.1利用PCA對半導(dǎo)體制造數(shù)據(jù)降維66
4.6.2LDA降維——應(yīng)用于Wine葡萄酒數(shù)據(jù)集67
小結(jié)69
習(xí)題69
第5章支持向量機(jī)71
5.1線性可分模式的最優(yōu)超平面71
5.2不可分離模式的最優(yōu)超平面75
5.3用于模式識別的支持向量機(jī)的潛在思想78
5.4使用核方法的支持向量機(jī)78
5.5支持向量機(jī)的設(shè)計80
5.6支持向量機(jī)的應(yīng)用概述81
5.7支持向量機(jī)的示例83
小結(jié)86
習(xí)題87
第6章無監(jiān)督學(xué)習(xí)89
6.1聚類概述89
6.2Kmeans算法90
6.3DBSCAN算法92
6.4EM算法94
6.5關(guān)聯(lián)分析97
6.6競爭網(wǎng)絡(luò)99
6.6.1Hamming網(wǎng)絡(luò)100
6.6.2競爭學(xué)習(xí)及案例101
6.6.3自組織特征圖104
6.6.4學(xué)習(xí)向量量化107
6.7無監(jiān)督學(xué)習(xí)應(yīng)用概述109
6.8案例分析111
6.8.1使用K-means算法對用戶購物行為聚類和推薦111
6.8.2使用DBSCAN清洗GPS軌跡數(shù)據(jù)111
6.8.3高斯混合模型的EM聚類113
6.8.4學(xué)習(xí)向量量化解決分類問題114
小結(jié)116
習(xí)題116
第7章概率圖模型118
7.1貝葉斯網(wǎng)絡(luò)118
7.1.1貝葉斯基本公式119
7.1.2樸素貝葉斯分類器120
7.1.3貝葉斯網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)121
7.1.4條件獨(dú)立性假設(shè)121
7.1.5先驗概率的確定和網(wǎng)絡(luò)推理算法122
7.2馬爾可夫隨機(jī)場124
7.2.1馬爾可夫隨機(jī)場概念125
7.2.2馬爾可夫隨機(jī)場的因式分解126
7.3隱馬爾可夫模型128
7.4馬爾可夫鏈蒙特卡羅131
7.4.1蒙特卡羅積分131
7.4.2馬爾可夫鏈132
7.4.3馬爾可夫鏈蒙特卡羅132
7.5LDA主題提取模型136
7.6概率圖模型應(yīng)用概述138
7.7案例分析141
7.7.1樸素貝葉斯進(jìn)行垃圾郵件過濾141
7.7.2前向后向算法求觀測序列概率142
7.7.3馬爾可夫鏈蒙特卡羅方法預(yù)測睡眠質(zhì)量144
7.7.4利用LDA對文本進(jìn)行主題提取148
小結(jié)149
習(xí)題150
第8章強(qiáng)化學(xué)習(xí)151
8.1強(qiáng)化學(xué)習(xí)過程151
8.2馬爾可夫決策過程152
8.3Q-Learning156
8.4強(qiáng)化學(xué)習(xí)應(yīng)用概述159
8.5案例分析161
8.5.1使用馬爾可夫決策過程求解最優(yōu)策略162
8.5.2尋寶游戲163
小結(jié)164
習(xí)題165
第9章深度學(xué)習(xí)166
9.1深度學(xué)習(xí)概述166
9.2卷積神經(jīng)網(wǎng)絡(luò)169
9.2.1卷積層169
9.2.2池化層171
9.2.3卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)172
9.3循環(huán)神經(jīng)網(wǎng)絡(luò)172
9.3.1給網(wǎng)絡(luò)增加記憶能力173
9.3.2簡單循環(huán)網(wǎng)絡(luò)174
9.3.3應(yīng)用到機(jī)器學(xué)習(xí)175
9.3.4參數(shù)學(xué)習(xí)177
9.3.5基于門控的循環(huán)神經(jīng)網(wǎng)絡(luò)179
9.4深度信念網(wǎng)絡(luò)181
9.4.1玻爾茲曼機(jī)181
9.4.2受限玻爾茲曼機(jī)182
9.4.3深度信念網(wǎng)絡(luò)183
9.5深度生成模型185
9.5.1概率生成模型185
9.5.2變分自編碼器186
9.5.3生成對抗網(wǎng)絡(luò)188
9.5.4生成對抗網(wǎng)絡(luò)的應(yīng)用190
9.6深度學(xué)習(xí)應(yīng)用概述193
9.6.1文本194
9.6.2語音195
9.6.3計算機(jī)視覺196
9.7機(jī)器學(xué)習(xí)系統(tǒng)199
9.7.1主流機(jī)器學(xué)習(xí)系統(tǒng)的分類與介紹200
9.7.2主流深度學(xué)習(xí)框架系統(tǒng)介紹201
9.7.3新興機(jī)器學(xué)習(xí)系統(tǒng)203
9.8案例:深度學(xué)習(xí)在計算機(jī)視覺中的應(yīng)用204
小結(jié)210
習(xí)題210
附錄機(jī)器學(xué)習(xí)工具及資源推薦212
參考文獻(xiàn)217