神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
定 價:149 元
叢書名:智能科學(xué)與技術(shù)叢書
- 作者:[美]查魯·C. 阿加沃爾(Charu C. Aggarwal)
- 出版時間:2021/8/1
- ISBN:9787111686859
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP183
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書涵蓋了經(jīng)典和現(xiàn)代的深度學(xué)習(xí)模型。章節(jié)分為三類:第1部分為神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。許多傳統(tǒng)的機器學(xué)習(xí)模型可以理解為神經(jīng)網(wǎng)絡(luò)的特殊情況。前兩章的重點是理解傳統(tǒng)機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)之間的關(guān)系。支持向量機、線性/邏輯回歸、奇異值分解、矩陣分解和推薦系統(tǒng)都是神經(jīng)網(wǎng)絡(luò)的特例。本書將這些方法與特征工程方法如word2vec一起進行了研究。第2部分是神經(jīng)網(wǎng)絡(luò)的基本原理。訓(xùn)練和正則化的詳細討論在第3章和第4章提供。第5章和第6章介紹了徑向基函數(shù)(RBF)網(wǎng)絡(luò)和受限的玻爾茲曼機。第3部分是神經(jīng)網(wǎng)絡(luò)的高級主題:第7章和第8章討論了循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。第9章和第10章介紹了幾個高級主題,如深度強化學(xué)習(xí)、神經(jīng)圖像機、Kohonen自組織映射和生成對抗網(wǎng)絡(luò)。這本書是為研究生、研究人員和實踐者編寫的。大量的練習(xí)和一個解決方案手冊,以幫助在課堂教學(xué)。在可能的情況下,突出顯示以應(yīng)用程序為中心的視圖,以便提供對每一類技術(shù)的實際用途的理解。
任何能通過圖靈測試的人工智能都知道不應(yīng)該通過這個測試。
Ian McDonald
神經(jīng)網(wǎng)絡(luò)是通過以類似人類神經(jīng)元的方式處理學(xué)習(xí)模型中的計算單元來模擬人類神經(jīng)系統(tǒng)以完成機器學(xué)習(xí)任務(wù)。神經(jīng)網(wǎng)絡(luò)的宏偉愿景是通過構(gòu)建一些模擬人類神經(jīng)系統(tǒng)計算架構(gòu)的機器來創(chuàng)造人工智能,由于當(dāng)今快的計算機的計算能力也無法企及人腦計算能力,所以這顯然不是一項簡單的任務(wù)。神經(jīng)網(wǎng)絡(luò)在20世紀(jì)五六十年代計算機出現(xiàn)后不久得到了迅速發(fā)展,Rosenblatt 的感知機算法被視作神經(jīng)網(wǎng)絡(luò)的基石,這引起了人們對人工智能前景的早期關(guān)注和興奮。然而在這種早期的興奮過后,神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的渴求和計算過于密集的特性成為其大展宏圖的障礙,它度過了一段令人失望的時期。終,在世紀(jì)之交,海量的可用數(shù)據(jù)以及不斷增長的計算能力使得神經(jīng)網(wǎng)絡(luò)重振雄風(fēng),并在人們視線中以新的名稱深度學(xué)習(xí)出現(xiàn)。雖然人工智能匹敵人類智能的那一天離我們還很遙遠,但在圖像識別、自動駕駛和博弈等特定領(lǐng)域,人工智能已經(jīng)比肩甚至超過了人類智能。我們也很難預(yù)測人工智能將來的上限是什么。例如,二十多年前,很少有計算機視覺專家會想到會有自動化系統(tǒng)能夠比人類更準(zhǔn)確地執(zhí)行圖像分類這種直觀的任務(wù)。
理論上,神經(jīng)網(wǎng)絡(luò)能夠通過足夠的訓(xùn)練數(shù)據(jù)學(xué)習(xí)任何數(shù)學(xué)函數(shù),現(xiàn)在已知一些變體(如循環(huán)神經(jīng)網(wǎng)絡(luò))是圖靈完備的。圖靈完備是指在給定足夠的訓(xùn)練數(shù)據(jù)的情況下,神經(jīng)網(wǎng)絡(luò)可以擬合任何學(xué)習(xí)算法。其不足之處在于,即使是對于簡單的任務(wù),往往也需要大量的訓(xùn)練數(shù)據(jù),這導(dǎo)致相應(yīng)的訓(xùn)練時間也增加了(如果我們首先假設(shè)有足夠的訓(xùn)練數(shù)據(jù))。例如,圖像識別對人類來說是一項簡單的任務(wù),但即使在高性能系統(tǒng)中,其訓(xùn)練時間也可能長達幾周。此外,還有與神經(jīng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性相關(guān)的實際問題,這些問題甚至在如今都還沒有解決。然而,考慮到計算機的計算速度會隨著時間的推移而迅速提高,而且從根本上來說,更強大的計算范式(如量子計算)也即將出現(xiàn),計算問題終可能不會像想象的那樣難以解決。
雖然神經(jīng)網(wǎng)絡(luò)的生物學(xué)類比是令人驚奇的,并且引發(fā)了與科幻小說的比較,但相比之下對神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)理解則更平凡。神經(jīng)網(wǎng)絡(luò)的抽象化可以被視為一種模塊化的方法,使基于輸入和輸出之間依賴關(guān)系的計算圖上的連續(xù)優(yōu)化的學(xué)習(xí)算法成為可能。平心而論,這和控制理論中的傳統(tǒng)工作沒有太大區(qū)別事實上,控制理論中的一些用于優(yōu)化的方法與神經(jīng)網(wǎng)絡(luò)中基本的算法驚人地相似(歷史上也是如此)。然而,近年來大量的可用數(shù)據(jù)以及計算能力的提升,使得能夠?qū)@些計算圖進行比以前有著更深的架構(gòu)的實驗。由此帶來的成功改變了人們對深度學(xué)習(xí)潛力的廣泛認識。
本書的章節(jié)結(jié)構(gòu)如下:
1. 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識:第1章討論神經(jīng)網(wǎng)絡(luò)設(shè)計的基礎(chǔ)知識。許多傳統(tǒng)的機器學(xué)習(xí)模型可以理解為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特殊情況。理解傳統(tǒng)機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)之間的關(guān)系是理解后者的步。第2章用神經(jīng)網(wǎng)絡(luò)對各種機器學(xué)習(xí)模型進行了模擬,旨在讓分析者了解神經(jīng)網(wǎng)絡(luò)是如何挑戰(zhàn)傳統(tǒng)機器學(xué)習(xí)算法的極限的。
2. 神經(jīng)網(wǎng)絡(luò)的基本原理:第3章和第4章提供對訓(xùn)練挑戰(zhàn)的更詳細的敘述。第5章和第6章介紹徑向基函數(shù)(RBF)網(wǎng)絡(luò)和受限玻爾茲曼機。
3. 神經(jīng)網(wǎng)絡(luò)的進階主題:深度學(xué)習(xí)近的很多成功是各種領(lǐng)域的特定架構(gòu)的結(jié)果,例如循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。第7章和第8章分別討論循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。第9章和第10章討論一些進階主題,如深度強化學(xué)習(xí)、神經(jīng)圖靈機和生成對抗網(wǎng)絡(luò)。
我們所關(guān)注的內(nèi)容中包含一些被遺忘的架構(gòu),如徑向基函數(shù)網(wǎng)絡(luò)和Kohonen自組織映射,因為它們在許多應(yīng)用中具有潛力。本書是為研究生、研究人員和從業(yè)者寫的。許多練習(xí)和解決方案手冊都有助于課堂教學(xué)。在可能的情況下,本書突出以應(yīng)用程序為中心的視角,以便讓讀者對該技術(shù)有所了解。
在本書中,向量或多維數(shù)據(jù)點都通過在字母上方加一條橫線來表示,如X或y。向量點積用居中的點表示,比如X·Y。矩陣用不帶橫線的斜體大寫字母表示,比如R。在本書中,對應(yīng)整個訓(xùn)練數(shù)據(jù)集的nd矩陣代表n個d維數(shù)據(jù),該矩陣用D表示。因此,D中的各個數(shù)據(jù)點是d維行向量。另外,每個分量代表一個數(shù)據(jù)點的向量通常是n維列向量,例如具有n個數(shù)據(jù)點作為類變量的n維列向量y。觀測值yi與預(yù)測值yi的區(qū)別在于變量頂部的揚抑符。
Charu C. Aggarwal
美國紐約州約克敦海茨
譯者序
前言
致謝
作者簡介
第1章神經(jīng)網(wǎng)絡(luò)概論111簡介1
1.2神經(jīng)網(wǎng)絡(luò)的基本架構(gòu)3
1.2.1單層計算網(wǎng)絡(luò):感知機3
1.2.2多層神經(jīng)網(wǎng)絡(luò)13
1.2.3多層網(wǎng)絡(luò)即計算圖15
1.3利用反向傳播訓(xùn)練神經(jīng)網(wǎng)絡(luò)16
1.4神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的實際問題19
1.4.1過擬合問題19
1.4.2梯度消失與梯度爆炸問題22
1.4.3收斂問題22
1.4.4局部和偽22
1.4.5計算上的挑戰(zhàn)23
1.5復(fù)合函數(shù)的能力之謎23
1.5.1非線性激活函數(shù)的重要性25
1.5.2利用深度以減少參數(shù)26
1.5.3非常規(guī)網(wǎng)絡(luò)架構(gòu)27
1.6常見網(wǎng)絡(luò)架構(gòu)28
1.6.1淺層模型模擬基礎(chǔ)機器學(xué)習(xí)方法28
1.6.2徑向基函數(shù)網(wǎng)絡(luò)29
1.6.3受限玻爾茲曼機29
1.6.4循環(huán)神經(jīng)網(wǎng)絡(luò)30
1.6.5卷積神經(jīng)網(wǎng)絡(luò)31
1.6.6層次特征工程與預(yù)訓(xùn)練模型32
1.7高級主題34
1.7.1強化學(xué)習(xí)34
1.7.2分離數(shù)據(jù)存儲和計算34
1.7.3生成對抗網(wǎng)絡(luò)35
1.8兩個基準(zhǔn)35
1.8.1MNIST手寫數(shù)字數(shù)據(jù)庫35
1.8.2ImageNet數(shù)據(jù)庫36
1.9總結(jié)37
1.10參考資料說明37
1.101視頻講座38
1.102軟件資源39
1.11練習(xí)39
第2章基于淺層神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)41
2.1簡介41
2.2二分類模型的神經(jīng)架構(gòu)42
2.2.1復(fù)習(xí)感知機42
2.2.2小二乘回歸44
2.2.3邏輯回歸47
2.2.4支持向量機49
2.3多分類模型的神經(jīng)架構(gòu)50
2.3.1多分類感知機51
2.3.2WestonWatkins支持向量機52
2.3.3多重邏輯回歸(softmax分類器)53
2.3.4應(yīng)用于多分類的分層softmax54
2.4反向傳播可以用于特征選擇和神經(jīng)網(wǎng)絡(luò)的可解釋性54
2.5使用自編碼器進行矩陣分解55
2.5.1自編碼器的基本原則55
2.5.2非線性激活函數(shù)59
2.5.3深度自編碼器60
2.5.4應(yīng)用于離群點檢測62
2.5.5當(dāng)隱藏層比輸入層維數(shù)高時63
2.5.6其他應(yīng)用63
2.5.7推薦系統(tǒng):行索引到行值的預(yù)測65
2.5.8討論67
2.6word2vec:簡單神經(jīng)架構(gòu)的應(yīng)用67
2.6.1連續(xù)詞袋的神經(jīng)嵌入68
2.6.2skipgram模型的神經(jīng)嵌入70
2.6.3word2vec(SGNS)是邏輯矩陣分解74
2.6.4原始skipgram模型是多項式矩陣分解76
2.7圖嵌入的簡單神經(jīng)架構(gòu)76
2.7.1處理任意數(shù)量的邊78
2.7.2多項式模型78
2.7.3與DeepWalk和node2vec的聯(lián)系78
2.8總結(jié)78
2.9參考資料說明79
2.10練習(xí)80
第3章深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練823.1簡介82
3.2反向傳播的詳細討論83
3.2.1計算圖抽象中的反向傳播83
3.2.2前來拯救的動態(tài)規(guī)劃87
3.2.3使用激活后變量的反向傳播88
3.2.4使用激活前變量的反向傳播89
3.2.5不同激活函數(shù)的更新示例91
3.2.6以向量為中心的反向傳播的解耦視圖92
3.2.7多輸出節(jié)點及隱藏節(jié)點下的損失函數(shù)94
3.2.8小批量隨機梯度下降95
3.2.9用于解決共享權(quán)重的反向傳播技巧96
3.2.10檢查梯度計算的正確性97
3.3設(shè)置和初始化問題98
3.3.1調(diào)整超參數(shù)98
3.3.2特征預(yù)處理99
3.3.3初始化100
3.4梯度消失和梯度爆炸問題101
3.4.1對梯度比例影響的幾何理解102
3.4.2部分解決:激活函數(shù)的選擇103
3.4.3死亡神經(jīng)元和腦損傷104
3.5梯度下降策略105
3.5.1學(xué)習(xí)率衰減105
3.5.2基于動量的學(xué)習(xí)106
3.5.3參數(shù)特異的學(xué)習(xí)率108
3.5.4懸崖和高階不穩(wěn)定性111
3.5.5梯度截斷112
3.5.6二階導(dǎo)數(shù)112
3.5.7Polyak平均118
3.5.8局部極小值和偽極小值119
3.6批歸一化120
3.7加速與壓縮的實用技巧123
3.7.1GPU加速123
3.7.2并行和分布式實現(xiàn)125
3.7.3模型壓縮的算法技巧126
3.8總結(jié)128
3.9參考資料說明128
3.10練習(xí)130
第4章讓深度學(xué)習(xí)器學(xué)會泛化132
4.1簡介132
4.2偏差方差權(quán)衡135
4.3模型調(diào)優(yōu)和評估中的泛化問題138
4.3.1用留出法和交叉驗證法進行評估139
4.3.2大規(guī)模訓(xùn)練中的問題140
4.3.3如何檢測需要收集更多的數(shù)據(jù)141
4.4基于懲罰的正則化141
4.4.1與注入噪聲的聯(lián)系142
4.4.2L1正則化143
4.4.3選擇L1正則化還是L2正則化143
4.4.4對隱藏單元進行懲罰:學(xué)習(xí)稀疏表示144
4.5集成方法145
4.5.1裝袋和下采樣145
4.5.2參數(shù)模型選擇和平均146
4.5.3隨機連接刪除146
4.5.4Dropout147
4.5.5數(shù)據(jù)擾動集成149
4.6早停149
4.7無監(jiān)督預(yù)訓(xùn)練150
4.7.1無監(jiān)督預(yù)訓(xùn)練的變體153
4.7.2如何進行監(jiān)督預(yù)訓(xùn)練154
4.8繼續(xù)學(xué)習(xí)與課程學(xué)習(xí)154
4.8.1繼續(xù)學(xué)習(xí)155
4.8.2課程學(xué)習(xí)156
4.9共享參數(shù)156
4.10無監(jiān)督應(yīng)用中的正則化157
4.101基于值的懲罰:稀疏自編碼器157
4.102噪聲注入:去噪自編碼器157
4.103基于梯度的懲罰:收縮自編碼器158
4.104隱藏層概率結(jié)構(gòu):變分自編碼器161
4.11總結(jié)166
4.12參考資料說明166
4.13練習(xí)168
第5章徑向基函數(shù)網(wǎng)絡(luò)169
5.1簡介169
5.2RBF網(wǎng)絡(luò)的訓(xùn)練171
5.2.1訓(xùn)練隱藏層171