(1)作者經(jīng)驗豐富:作者曾在奇虎360人工智能研究院、陌陌深度學習實驗室等工作多年,負責月活10億級的產(chǎn)品。
(2)作者知名度高:作者創(chuàng)辦有三AI社區(qū),有超過10萬學員;著有5本深度學習方面的暢銷書,發(fā)表原創(chuàng)技術(shù)文章200余萬字。
(3)理論體系完善:系統(tǒng)講解GAN的理論、各種模型和常見問題,其中GAN的目標優(yōu)化、訓練、評估等內(nèi)容同類書中極少提及。
(4)實戰(zhàn)案例豐富:9個綜合案例,覆蓋視覺和語音方面的8大應(yīng)用場景,提供解決方案、案例代碼、實驗數(shù)據(jù)和實驗結(jié)果對比分析。
(5)閱讀體驗極佳:內(nèi)容循序漸進、深入淺出,包含大量原創(chuàng)插圖,極大程度降低閱讀難度。
作者簡介
言有三(本名:龍鵬)
資深人工智能技術(shù)專家,有非常深厚的積累;
曾就職于奇虎360人工智能研究院和陌陌科技深度學習實驗室;
現(xiàn)為有三教育科技有限公司創(chuàng)始人;
擅長深度學習與計算機視覺,尤其是深度學習模型的設(shè)計與優(yōu)化、生成對抗網(wǎng)絡(luò)、人臉圖像算法、攝影圖像算法等;
阿里云MVP,華為云MVP,負責阿里云深度學習課程搭建,在數(shù)十所高校進行技術(shù)分享與課程建設(shè);
技術(shù)社區(qū)有三AI的創(chuàng)始人,撰寫了超過200萬字的原創(chuàng)技術(shù)文章;
樂于分享,善于總結(jié),獨自出版過5本深度學習領(lǐng)域的前沿著作。
郭曉洲(筆名:小米粥)
博士研究生,畢業(yè)于中國科學院半導體研究所,主要研究方向為生成模型、語音信號處理,具有扎實的理論基礎(chǔ)和豐富的算法落地經(jīng)驗,發(fā)表多篇SCI、EI相關(guān)論文。技術(shù)社區(qū)有三AI專欄作者,負責GAN的優(yōu)化、生成模型、語音信號處理等專欄的硬核技術(shù)輸出。
CONTENTS目 錄
前言第1章 生成模型1 1.1 無監(jiān)督學習與生成模型1
1.1.1 監(jiān)督學習與無監(jiān)督學習1
1.1.2 判別模型與生成模型3
1.1.3 無監(jiān)督生成模型4
1.2 顯式與隱式生成模型5
1.2.1 極大似然估計法6
1.2.2 完全可見置信網(wǎng)絡(luò)8
1.2.3 流模型13
1.2.4 變分自編碼器18
1.2.5 玻爾茲曼機24
1.2.6 隱式生成模型27
參考文獻28第2章 目標函數(shù)優(yōu)化29 2.1 GAN29
2.1.1 GAN概述30
2.1.2 GAN模型30
2.1.3 GAN的本質(zhì)33
2.2 LSGAN35
2.3 EBGAN40
2.4 f GAN42
2.5 WGAN45
2.5.1 分布度量45
2.5.2 WGAN目標函數(shù)48
2.6 Loss-sensitive GAN51
2.7 WGAN-GP53
2.8 IPM54
2.8.1 IPM概念55
2.8.2 基于IPM的GAN55
2.8.3 IPM與f散度57
2.9 其他目標函數(shù)57
2.9.1 RGAN57
2.9.2 BEGAN58
參考文獻59第3章 訓練技巧61 3.1 GAN訓練的3個問題61
3.1.1 梯度消失61
3.1.2 目標函數(shù)不穩(wěn)定性63
3.1.3 模式崩潰64
3.2 退火噪聲65
3.3 譜正則化66
3.3.1 特征值與奇異值67
3.3.2 譜范數(shù)與1-Lipschitz
限制68
3.4 一致優(yōu)化71
3.4.1 歐拉法71
3.4.2 GAN動力學系統(tǒng)73
3.4.3 一致優(yōu)化算法76
3.5 GAN訓練技巧77
3.5.1 特征匹配77
3.5.2 歷史均值78
3.5.3 單側(cè)標簽平滑78
3.5.4 虛擬批正則化79
3.5.5 TTUR79
3.5.6 0中心梯度80
3.5.7 其他建議80
3.6 模式崩潰解決方案80
3.6.1 unrolledGAN82
3.6.2 DRAGAN85
3.6.3 Minibatch判別器與
PGGAN86
3.6.4 MADGAN與
MADGAN-Sim87
3.6.5 VVEGAN89
參考文獻91第4章 評價指標與可視化93 4.1 評價指標93
4.1.1 評價指標的要求93
4.1.2 IS系列94
4.1.3 FID96
4.1.4 MMD97
4.1.5 Wasserstein距離98
4.1.6 最近鄰分類器98
4.1.7 GANtrain與GANtest99
4.1.8 NRDS100
4.1.9 圖像質(zhì)量度量101
4.1.10 平均似然值102
4.2 GAN可視化103
4.2.1 設(shè)置模型103
4.2.2 訓練模型105
4.2.3 可視化數(shù)據(jù)107
4.2.4 樣例演示109
參考文獻110第5章 圖像生成111 5.1 圖像生成應(yīng)用111
5.1.1 訓練數(shù)據(jù)擴充111
5.1.2 數(shù)據(jù)質(zhì)量提升112
5.1.3 內(nèi)容創(chuàng)作112
5.2 深度卷積GAN113
5.2.1 DCGAN原理114
5.2.2 DCGAN的思考115
5.3 條件GAN117
5.3.1 有監(jiān)督條件GAN117
5.3.2 無監(jiān)督條件GAN118
5.3.3 半監(jiān)督條件GAN119
5.3.4 復雜形式的條件輸入119
5.4 多尺度GAN121
5.4.1 LAPGAN121
5.4.2 Progressive GAN123
5.5 屬性GAN124
5.5.1 顯式屬性GAN124
5.5.2 隱式屬性GAN125
5.6 多判別器與生成器GAN133
5.6.1 多判別器GAN133
5.6.2 多生成器GAN134
5.7 數(shù)據(jù)增強與仿真GAN135
5.7.1 數(shù)據(jù)增強GAN135
5.7.2 數(shù)據(jù)仿真GAN136
5.8 DCGAN圖像生成實踐137
5.8.1 項目解讀137
5.8.2 實驗結(jié)果144
5.9 StyleGAN人臉圖像生成實踐147
5.9.1 項目簡介147
5.9.2 模型解讀147
5.9.3 預訓練模型的使用157
5.9.4 小結(jié)161
參考文獻161第6章 圖像翻譯163 6.1 圖像翻譯基礎(chǔ)163
6.1.1 什么是圖像翻譯163
6.1.2 圖像翻譯任務(wù)的類型164
6.2 有監(jiān)督圖像翻譯模型166
6.2.1 Pix2Pix166
6.2.2 Pix2PixHD167
6.2.3 Vid2Vid168
6.3 無監(jiān)督圖像翻譯模型168
6.3.1 基于域遷移與域?qū)R的
無監(jiān)督模型168
6.3.2 基于循環(huán)一致性約束的
無監(jiān)督模型172
6.4 圖像翻譯模型的關(guān)鍵改進175
6.4.1 多領(lǐng)域轉(zhuǎn)換網(wǎng)絡(luò)
StarGAN175
6.4.2 豐富圖像翻譯模型的
生成模式177
6.4.3 給模型添加監(jiān)督信息179
6.5 基于Pix2Pix模型的圖像上色
實踐180
6.5.1 數(shù)據(jù)處理180
6.5.2 模型代碼解讀181
6.5.3 模型訓練與測試189
6.5.4 小結(jié)193
參考文獻194第7章 人臉圖像編輯195 7.1 人臉表情編輯195
7.1.1 表情編輯問題195
7.1.2 關(guān)鍵點控制的表情編輯
模型196
7.2 人臉年齡編輯197
7.2.1 年齡編輯問題197
7.2.2 基于潛在空間的條件對抗
自編碼模型197
7.3 人臉姿態(tài)編輯198
7.3.1 姿態(tài)編輯問題198
7.3.2 基于3DMM的姿態(tài)編輯
模型199
7.4 人臉風格編輯200
7.4.1 風格編輯問題201
7.4.2 基于注意力機制的風格化
模型201
7.5 人臉妝造編輯203
7.5.1 妝造編輯問題204
7.5.2 基于GAN的妝造遷移
算法204
7.6 人臉換臉編輯206
7.6.1 身份編輯問題206
7.6.2 基于編解碼器的Deepfakes
換臉算法206
7.7 通用的人臉屬性編輯207
7.7.1 StyleGAN人臉編輯的
關(guān)鍵問題207
7.7.2 潛在編碼向量的求解208
7.8 基于StyleGAN模型的人臉屬性
編輯實踐209
7.8.1 人臉重建209
7.8.2 人臉屬性混合與插值219
7.8.3 人臉屬性編輯221
7.8.4 小結(jié)228
參考文獻228第8章 圖像質(zhì)量增強230 8.1 圖像降噪230
8.1.1 圖像降噪問題230
8.1.2 基于GAN的圖像去噪
框架231
8.2 圖像去模糊232
8.2.1 圖像去模糊問題232
8.2.2 基于GAN的圖像去模糊
框架233
8.3 圖像色調(diào)映射234
8.3.1 圖像色調(diào)映射問題235
8.3.2 圖像色調(diào)映射數(shù)據(jù)集236
8.3.3 基于GAN的圖像色調(diào)
映射框架236
8.4 圖像超分辨239
8.4.1 圖像超分辨問題240
8.4.2 基于GAN的圖像超分辨
框架240
8.5 圖像修復243
8.5.1 圖像修復基礎(chǔ)243
8.5.2 基于GAN的圖像修復
框架244
8.6 基于SRGAN的人臉超分重建
實踐247
8.6.1 項目解讀247
8.6.2 模型訓練254
8.6.3 模型測試258
8.6.4 小結(jié)260
參考文獻260第9章 三維圖像與視頻生成262 9.1 三維圖像與視頻生成應(yīng)用262
9.1.1 三維圖像生成應(yīng)用262
9.1.2 視頻生成與預測應(yīng)用263
9.2 三維圖像生成框架264
9.2.1 一般三維圖像生成
框架264
9.2.2 二維圖到三維圖的預測
框架265
9.3 視頻生成與預測框架266
9.3.1 基本的Video-GAN266
9.3.2 多階段的MD-GAN267
9.3.3 內(nèi)容動作分離的
MoCoGAN268
參考文獻270第10章 通用圖像編輯271 10.1 圖像深度編輯271
10.1.1 深度與景深271
10.1.2 圖像景深編輯框架274
10.2 圖像融合276
10.2.1 圖像融合問題276
10.2.2 基于GAN的圖像融合
框架277
10.3 交互式圖像編輯278
10.3.1 交互式圖像編輯
框架278
10.3.2 基于GAN的交互式
圖像編輯框架279
10.4 展望280
參考文獻280第11章 對抗攻擊282 11.1 對抗攻擊及防御算法282
11.1.1 對抗攻擊概述282
11.1.2 常用攻擊算法284
11.1.3 常用防御算法287
11.2 基于GAN的對抗樣本生成289
11.2.1 Perceptual-Sensitive
GAN289
11.2.2 Natural GAN292
11.2.3 AdvGAN294
11.3 基于GAN的對抗攻擊防御296
11.3.1 APEGAN296
11.3.2 DefenseGAN297
11.4 對抗攻擊工具包AdvBox297
11.4.1 對分類器的攻擊297
11.4.2 高斯噪聲對抗防御301
11.4.3 其他示例程序301
參考文獻305第12章 語音信號處理306 12.1 基于GAN的語音增強306
12.1.1 項目簡介306
12.1.2 SEGAN模型307
12.1.3 SEGAN訓練和
測試313
12.2 基于GAN的語音轉(zhuǎn)換315
12.2.1 項目簡介315
12.2.2 WORLD語音合成
工具316
12.2.3 CycleGAN-VC2
模型317
12.2.4 CycleGAN-VC2
訓練322
12.2.5 CycleGAN-VC2
測試325
12.3 基于GAN的語音生成325
12.3.1 項目簡介326
12.3.2 WaveGAN模型326
12.3.3 WaveGAN訓練和
測試332
參考文獻333