三維視覺新范式:深度解析NeRF與3DGS技術(shù)
定 價(jià):109 元
叢書名:通用智能與大模型叢書
- 作者:楊繼珩
- 出版時(shí)間:2024/8/1
- ISBN:9787121484650
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP302.7
- 頁碼:380
- 紙張:
- 版次:01
- 開本:16開
本書系統(tǒng)地闡述了計(jì)算機(jī)視覺中NeRF(神經(jīng)輻射場(chǎng))技術(shù)與 3DGS(三維高斯噴濺)技術(shù)的背景、原理與細(xì)節(jié)。為了深入解讀這兩種技術(shù)如何在速度優(yōu)化、質(zhì)量?jī)?yōu)化、動(dòng)態(tài)場(chǎng)景生成、弱條件生成等方面實(shí)現(xiàn)技術(shù)創(chuàng)新,本書對(duì)它們的核心技術(shù)問題與解決方案進(jìn)行了分類講解。另外,針對(duì)NeRF與3DGS在實(shí)際應(yīng)用過程中可能遇到的挑戰(zhàn)進(jìn)行了深入的分析與討論。本書旨在幫助讀者全方位地理解與認(rèn)識(shí)這兩種正在快速發(fā)展的技術(shù),并為其進(jìn)一步的學(xué)習(xí)、研究以及三維視覺應(yīng)用的實(shí)踐提供堅(jiān)實(shí)的基礎(chǔ)。
中國(guó)科學(xué)技術(shù)大學(xué)特聘研究員,北京北斗星在線教育科技有限公司創(chuàng)始人,NeRF/3DGS & Beyond社區(qū)發(fā)起者。曾擔(dān)任滬江集團(tuán)技術(shù)副總裁兼CCtalk聯(lián)合創(chuàng)始人和CTO、盛大創(chuàng)新院多媒體院技術(shù)負(fù)責(zé)人、Thomson Corporate Research高級(jí)研究員等職務(wù),在計(jì)算視覺、圖形學(xué)、多媒體音視頻技術(shù)等領(lǐng)域,擁有多年研究與研發(fā)經(jīng)驗(yàn),所負(fù)責(zé)業(yè)務(wù)均達(dá)到年10億元以上營(yíng)收規(guī)模。成功申請(qǐng)十余項(xiàng)國(guó)內(nèi)、國(guó)外專利,在國(guó)際知名學(xué)術(shù)會(huì)議和期刊上發(fā)表數(shù)篇論文。
第一部分 NeRF入門
1 NeRF簡(jiǎn)介 2
1.1 何謂NeRF 2
1.1.1 光柵化渲染與可微渲染 3
1.1.2 人工建模與自動(dòng)建模 4
1.1.3 離散表示法與連續(xù)表示法 5
1.2 三維表達(dá)方式演化史與對(duì)比 7
1.2.1 點(diǎn)云 7
1.2.2 三維網(wǎng)格 8
1.2.3 體素網(wǎng)格 9
1.2.4 占據(jù)網(wǎng)絡(luò) 10
1.2.5 NeRF 11
1.3 NeRF的行業(yè)現(xiàn)狀和推動(dòng)者 12
1.3.1 國(guó)外主要實(shí)驗(yàn)室 12
1.3.2 國(guó)內(nèi)主要實(shí)驗(yàn)室 14
1.4 如何閱讀本書 15
1.4.1 本書的結(jié)構(gòu) 15
1.4.2 本書面向的讀者 16
1.4.3 代碼要求 16
1.4.4 寫作風(fēng)格 17
2 NeRF基礎(chǔ)知識(shí) 18
2.1 三維空間基礎(chǔ) 18
2.1.1 坐標(biāo)系、點(diǎn)與向量 18
2.1.2 剛體運(yùn)動(dòng)的歐氏變換 22
2.1.3 變換矩陣與齊次坐標(biāo) 24
2.1.4 四元數(shù) 25
2.1.5 小結(jié) 26
2.2 三維視覺與圖形學(xué)基礎(chǔ) 27
2.2.1 相機(jī)模型 27
2.2.2 輻射測(cè)量基礎(chǔ) 31
2.2.3 光源 33
2.2.4 簡(jiǎn)單材質(zhì)建模與著色 34
2.2.5 復(fù)雜材質(zhì)建模與著色 38
2.2.6 光線追蹤 40
2.3 深度學(xué)習(xí)基礎(chǔ) 42
2.3.1 神經(jīng)網(wǎng)絡(luò)基礎(chǔ) 44
2.3.2 基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的核心 45
2.3.3 小結(jié) 50
2.4 質(zhì)量評(píng)價(jià)方法基礎(chǔ) 50
2.4.1 二維平面空間質(zhì)量評(píng)價(jià) 50
2.4.2 三維立體空間質(zhì)量評(píng)價(jià) 52
2.5 總結(jié) 53
3 NeRF的技術(shù)細(xì)節(jié) 54
3.1 NeRF解決的問題 54
3.1.1 輻射場(chǎng) 55
3.1.2 神經(jīng)輻射場(chǎng) 55
3.2 小試牛刀:NeRF原理介紹與代碼實(shí)現(xiàn) 57
3.2.1 數(shù)據(jù)準(zhǔn)備 57
3.2.2 環(huán)境準(zhǔn)備 58
3.2.3 數(shù)據(jù)加載 60
3.2.4 生成射線 64
3.2.5 位置編碼 66
3.2.6 MLP的結(jié)構(gòu) 68
3.2.7 分層采樣 72
3.2.8 體渲染技術(shù) 76
3.2.9 射線渲染 78
3.2.10 訓(xùn)練過程 81
3.2.11 模型渲染過程 85
3.2.12 小結(jié) 86
3.3 NeRF的開源項(xiàng)目:nerfstudio 87
3.3.1 nerfstudio的安裝 88
3.3.2 nerfstudio的架構(gòu) 90
3.3.3 nerfstudio的運(yùn)行方法 92
3.3.4 nerfstudio的調(diào)試方法 96
3.3.5 整合自定義的算法模型 99
3.3.6 小結(jié) 103
3.4 NeRF常用的數(shù)據(jù)集 104
3.4.1公開的數(shù)據(jù)集 104
3.4.2構(gòu)造自定義的數(shù)據(jù)集 113
3.5總結(jié) 113
第二部分 NeRF進(jìn)階探索
4優(yōu)化NeRF的生成與渲染速度 115
4.1基于多MLP的加速方法 116
4.1.1 kiloNeRF的架構(gòu) 116
4.1.2采樣優(yōu)化方法加速訓(xùn)練和推理 117
4.1.3蒸餾方法提升重建質(zhì)量 118
4.2取代神經(jīng)網(wǎng)絡(luò)的方法 119
4.2.1 PlenOctrees 119
4.2.2 Plenoxels 124
4.3體素網(wǎng)格與MLP混合表達(dá)的方法 126
4.3.1 DVGO場(chǎng)景表達(dá)方法 126
4.3.2 DVGO快速優(yōu)化方法 128
4.4基于多分辨率網(wǎng)格的速度提升方法 130
4.4.1多分辨率網(wǎng)格表達(dá)方法 130
4.4.2哈希存儲(chǔ) 131
4.4.3 Instant-NGP的實(shí)現(xiàn) 132
4.5基于張量分解的速度提升方法 133
4.5.1張量分解方法 133
4.5.2基于張量分解方法的神經(jīng)場(chǎng)TensoRF 135
4.5.3 TensoRF的實(shí)現(xiàn) 136
4.6基于烘焙方法的超實(shí)時(shí)渲染方法 136
4.6.1開山之作:SNeRG 137
4.6.2進(jìn)一步優(yōu)化的MERF 141
4.6.3支持超高速渲染的MobileNeRF 143
4.7 NeRF結(jié)合點(diǎn)云的速度提升方法 148
4.7.1 Point-NeRF場(chǎng)景表達(dá)方法 149
4.7.2 Point-NeRF神經(jīng)點(diǎn)云的重建方法 149
4.7.3非Point-NeRF生成點(diǎn)云的優(yōu)化方法 150
4.8基于硬件的NeRF加速的方法 151
4.8.1當(dāng)前NeRF訓(xùn)練算法的性能分析 152
4.8.2 Instant-3D算法的設(shè)計(jì) 153
4.8.3 Instant-3D硬件加速器的設(shè)計(jì) 154
4.8.4性能結(jié)果 155
4.9總結(jié) 155
5提升NeRF的生成與渲染質(zhì)量 157
5.1反走樣類提升方法 157
5.1.1反走樣的開山之作Mip-NeRF 158
5.1.2應(yīng)對(duì)無界場(chǎng)景鋸齒效應(yīng)的Mip-NeRF360 167
5.1.3快速反走樣算法Zip-NeRF 171
5.1.4基于三平面的反走樣算法Tri-MipRF 174
5.2提升幾何重建質(zhì)量的方法 177
5.2.1神經(jīng)隱式曲面生成算法 178
5.2.2 NeuS2:NeuS的加速與動(dòng)態(tài)支持升級(jí) 184
5.2.3重建質(zhì)量再次升級(jí)的Neuralangelo 187
5.3飄浮物去除方法 189
5.3.1 NeRFBuster:消除場(chǎng)景中的鬼影 190
5.3.2 Bayes’Rays:不確定性即飄浮物 192
5.4總結(jié) 195
6動(dòng)態(tài)場(chǎng)景NeRF的探索和進(jìn)展 196
6.1基于變形場(chǎng)的方法 197
6.1.1早期基于變形場(chǎng)的動(dòng)態(tài)方法D-NeRF 197
6.1.2動(dòng)態(tài)自拍場(chǎng)景的方法Nerfies 199
6.1.3基于超空間的動(dòng)態(tài)場(chǎng)景重建方法HyperNeRF 202
6.2基于動(dòng)靜分離建模的方法 204
6.2.1動(dòng)態(tài)場(chǎng)景解耦方法D2NeRF 204
6.2.2更通用的動(dòng)靜分離方法NeRFPlayer 208
6.3基于三平面的方法 210
6.3.1四維空間建模方法Hex-Plane 210
6.3.2更通用的多維平面建模方法K-Planes 213
6.4基于流式動(dòng)態(tài)建模的方法 216
6.4.1 OD-NeRF的框架 217
6.4.2基于投影顏色引導(dǎo)的動(dòng)態(tài)NeRF 218
6.4.3占據(jù)網(wǎng)絡(luò)的轉(zhuǎn)移與更新 218
6.5總結(jié) 219
7弱條件NeRF生成 220
7.1稀疏視角的NeRF重建方法 220
7.1.1基于策略優(yōu)化與正則化的生成方法 221
7.1.2基于圖像特征提取的生成方法 224
7.1.3基于幾何監(jiān)督的生成方法 235
7.2無相機(jī)位姿的NeRF重建方法 242
7.2.1靜態(tài)無相機(jī)位姿重建方法 242
7.2.2動(dòng)態(tài)場(chǎng)景弱相機(jī)位姿重建方法RoDynRF 245
7.3弱圖像采集條件NeRF重建方法 250
7.3.1采集圖像偏暗的重建方法 250
7.3.2采集圖像模糊的重建方法 255
7.4總結(jié) 257
第三部分 NeRF實(shí)踐
8 NeRF的其他關(guān)鍵技術(shù) 259
8.1將NeRF導(dǎo)出為三維網(wǎng)格的方法 259
8.1.1傳統(tǒng)導(dǎo)出三維網(wǎng)格模型的方法 260
8.1.2基于NeRF的三維網(wǎng)格導(dǎo)出方法NeRF2Mesh 261
8.2 NeRF的逆渲染與重照明技術(shù) 264
8.2.1經(jīng)典的基于NeRF的逆渲染方法Nerfactor 265
8.2.2 TensoIR等后續(xù)逆渲染方法 268
8.3 基于文本的NeRF交互式搜索、編輯與風(fēng)格化 269
8.3.1 使用文本風(fēng)格化的NeRF-Art 269
8.3.2 基于反饋式學(xué)習(xí)的InstructNeRF2NeRF 272
8.3.3 使用文本語義搜索三維場(chǎng)景的LERF 273
8.4 NeRF 物體分割、去除、修復(fù)、操控和合成方法 274
8.4.1 基于少量交互的編輯方法SPIn-NeRF 274
8.4.2 將二維分割提升至三維的方法Panoptic–Lifting 276
8.5 基于NeRF 的動(dòng)畫方法 279
8.5.1 基于籠體控制的動(dòng)畫方法CageNeRF 280
8.5.2 基于物理規(guī)則的 NeRF 動(dòng)畫方法 282
8.6 NeRF 壓縮與傳輸方法 284
8.6.1 ReRF 的設(shè)計(jì)框架和思路 284
8.6.2 運(yùn)動(dòng)估計(jì)與殘差估計(jì) 286
8.6.3 壓縮算法的設(shè)計(jì)與常用表達(dá)技巧 286
8.7 NeRF 其他方向的一些技術(shù) 288
8.7.1 NeRF 用于開放曲面建模的技術(shù) 288
8.7.2 使用特殊場(chǎng)景線索引導(dǎo)NeRF 重建的技術(shù) 290
8.7.3 其他相關(guān)工作 291
8.8 總結(jié) 291
9 NeRF 的落地與應(yīng)用場(chǎng)景探索 292
9.1 NeRF 在基于拍攝的三維生成中的落地 293
9.2 NeRF 在文本生成三維模型中的應(yīng)用 294
9.2.1 文本生成三維模型的一些關(guān)鍵技術(shù) 294
9.2.2 文本生成三維模型的部分產(chǎn)品 298
9.3 NeRF 在數(shù)字人中的應(yīng)用 302
9.3.1 NeRF 生成數(shù)字人的主要技術(shù) 303
9.3.2 NeRF 生成數(shù)字人的應(yīng)用說明 307
9.4 NeRF 在大規(guī)模場(chǎng)景中的應(yīng)用 307
9.4.1 大規(guī)模場(chǎng)景 NeRF 的建模技術(shù) 308
9.4.2 大規(guī)模場(chǎng)景 NeRF 建模技術(shù)的商業(yè)產(chǎn)品 314
9.5 NeRF 在自動(dòng)駕駛場(chǎng)景中的應(yīng)用 315
9.5.1 自動(dòng)駕駛閉環(huán)仿真方案UniSim 316
9.5.2 開源的高度模塊化的自動(dòng)駕駛仿真框架MARS 320
9.5.3 自動(dòng)動(dòng)靜分離的自動(dòng)駕駛方案EmerNeRF 323
9.5.4 NeRF在自動(dòng)駕駛中的現(xiàn)狀和未來 324
9.6 NeRF在SLAM中的應(yīng)用 324
9.6.1 NICE-SLAM的總體架構(gòu) 325
9.6.2 NICE-SLAM的場(chǎng)景表示方法 326
9.6.3 NICE-SLAM的場(chǎng)景渲染方法 327
9.6.4 NICE-SLAM的地圖構(gòu)建與軌跡跟蹤方法 327
9.6.5 另一種SLAM思路NerfBridge 328
9.7 NeRF在電商場(chǎng)景中的應(yīng)用 329
9.7.1物品展示類的應(yīng)用 329
9.7.2基于NeRF的虛擬試衣應(yīng)用 330
9.8 NeRF在游戲中的應(yīng)用 331
9.9 NeRF在其他領(lǐng)域的應(yīng)用 332
9.9.1 NeRF在衛(wèi)星圖像中的應(yīng)用 332
9.9.2 NeRF在醫(yī)療中的應(yīng)用 334
9.9.3 NeRF在動(dòng)物與植物建模中的應(yīng)用 336
9.9.4 NeRF在工業(yè)監(jiān)控中的應(yīng)用 337
9.9.5 NeRF與地理信息系統(tǒng)的結(jié)合應(yīng)用 338
9.10總結(jié) 338
10 NeRF面臨的問題和突破點(diǎn) 340
10.1硬件資源消耗的問題 341
10.2隱式表達(dá)的格式標(biāo)準(zhǔn)化 341
10.3與現(xiàn)有圖形管線整合的問題 342
10.4上下游工具鏈的問題 343
10.5 NeRF導(dǎo)出幾何的質(zhì)量問題 343
10.6總結(jié) 344
第四部分 3DGS技術(shù)
11三維高斯噴濺,開啟新紀(jì)元 346
11.1 3DGS原理與方法 347
11.1.1 3DGS的建模原理 347
11.1.2 3DGS流程的數(shù)學(xué)表達(dá) 347
11.1.3 3DGS的算法流程 349
11.2 3DGS在重建效果和效率上的提升 351
11.2.1 3DGS混疊效應(yīng)優(yōu)化 351
11.2.2視角適應(yīng)的渲染方法 354
11.3 3DGS在動(dòng)態(tài)場(chǎng)景中的方法 355
11.3.1動(dòng)態(tài)3DGS 356
11.3.2可支持運(yùn)動(dòng)編輯的動(dòng)態(tài)稀疏控制高斯噴濺方法 357
11.4 3DGS在弱條件下的重建方法 358
11.4.1聯(lián)合學(xué)習(xí)位姿的CF-3DGS 358
11.4.2實(shí)時(shí)的稀疏視角3DGS合成FSGS 359
11.5 3DGS在應(yīng)用層的進(jìn)展 360
11.5.1 3DGS在大規(guī)模場(chǎng)景和自動(dòng)駕駛中的進(jìn)展 360
11.5.2 3DGS在數(shù)字人重建方向上的進(jìn)展 361
11.5.3 3DGS在文本生成三維模型上的進(jìn)展 362
11.5.4 3DGS后期編輯 364
11.5.5 3DGS在游戲中的應(yīng)用 365
11.6 總結(jié) 365
后記 367