前言
我們站在一個(gè)美麗新世界的入口。這是一個(gè)令人興奮的,同時(shí)充滿了不確定性的世界,而你們是先行者。
—霍金
每一次技術(shù)革新帶來的沖擊都是令人震撼的。還記得上一次人工智能讓人們驚嘆的時(shí)刻,是AlphaGo(谷歌的人工智能程序)出現(xiàn)的時(shí)候。之后,人們堅(jiān)信人工智能一定會爆發(fā)。但究竟會在哪一天爆發(fā),以怎樣的形式爆發(fā),人們無法預(yù)測。隨著時(shí)間的流逝,人們對人工智能爆發(fā)的預(yù)期已經(jīng)逐漸淡漠了。時(shí)光荏苒,轉(zhuǎn)機(jī)出現(xiàn)在2022年。Stable Diffusion 模型與ChatGPT的橫空出世,猶如驚雷炸響在人工智能領(lǐng)域。
2022年8月,英國開源人工智能公司(Stability AI)發(fā)布了 Stable Diffusion 模型。該模型可以根據(jù)用戶輸入的文字描述自動生成圖像,生成的效果可達(dá)到專業(yè)畫師水平。AI 繪畫領(lǐng)域的“戰(zhàn)爭”一觸即發(fā)。
2022年11月, 美國人工智能研究實(shí)驗(yàn)室(OpenAI)推出了其最新作品—ChatGPT。它是一款A(yù)I驅(qū)動的自然語言處理工具,能夠通過學(xué)習(xí)和理解人類的語言與人進(jìn)行對話,還能根據(jù)聊天的上下文與人進(jìn)行互動,像人類一樣聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、代碼等任務(wù)。ChatGPT的出現(xiàn)為AIGC這股熱潮又添了一把新柴。
AI繪畫與自然語言處理都屬于人工智能領(lǐng)域的AIGC范疇。AIGC是Artificial Intelligence Generated Content 的縮寫,即人工智能生成內(nèi)容。它包含了利用人工智能生成內(nèi)容的所有技術(shù)。AIGC被認(rèn)為是繼PGC (Professionally Generated Content,專業(yè)生成內(nèi)容)和UGC (User Generated Content,用戶生成內(nèi)容)之后的新型內(nèi)容生產(chǎn)方式。AIGC在2022年取得了驚人的進(jìn)步,其迭代速度大大加快。特別是由ChatGPT掀起的蝴蝶效應(yīng),正在AIGC領(lǐng)域引發(fā)顛覆性變革。我們認(rèn)為這是以下多種因素綜合導(dǎo)致的:
第一,互聯(lián)網(wǎng)的不斷發(fā)展使信息量呈現(xiàn)爆炸式增長,社交媒體的崛起劇烈地挑戰(zhàn)著傳統(tǒng)的內(nèi)容創(chuàng)作方式。越來越多的內(nèi)容創(chuàng)作者意識到,通過AIGC的方式來提高工作效率已經(jīng)成為大勢所趨。
第二,在短視頻行業(yè)中,內(nèi)容創(chuàng)作者因效率、成本等問題,無法一直滿足用戶娛樂及消費(fèi)的需求。他們渴望生產(chǎn)出大量優(yōu)質(zhì)的視頻,以便在碎片化時(shí)間中為用戶帶來更多的樂趣或者知識。
第三,在現(xiàn)代商業(yè)模式中,驅(qū)動力是產(chǎn)品本身及流量。以短視頻為例,優(yōu)秀的內(nèi)容創(chuàng)作者可以吸引更多的流量,為用戶提供更好的互動體驗(yàn),從而實(shí)現(xiàn)盈利。
第四,AI技術(shù)一直致力于解放人的生產(chǎn)力,因此,人們呼吁將AI技術(shù)與內(nèi)容創(chuàng)作相結(jié)合。盡管AI技術(shù)在生成內(nèi)容上有所進(jìn)步,但無法完全解決內(nèi)容創(chuàng)作者創(chuàng)作效率低等問題。為了突破技術(shù)瓶頸,滿足各行各業(yè)大量生成內(nèi)容的需求,大量資本涌入內(nèi)容生成行業(yè)。隨著算力的提高和人力資源的增加,AI技術(shù)在生成內(nèi)容方面取得了革命性的進(jìn)步,為內(nèi)容創(chuàng)作者提高效率和進(jìn)行商業(yè)化落地提供了巨大機(jī)遇。
AIGC展現(xiàn)了兩方面的優(yōu)勢:一方面,它可以快速生成大量高質(zhì)量的內(nèi)容,有效地解決內(nèi)容創(chuàng)作的效率問題;另一方面,它可以生成富有創(chuàng)造性的內(nèi)容,為藝術(shù)家們提供靈感。在這一背景下,眾多從業(yè)者紛紛表示:AIGC將是AI的下一波浪潮。第一代AI更多應(yīng)用在分析、識別領(lǐng)域,而AIGC實(shí)現(xiàn)了重大突破,它讓AI有創(chuàng)造內(nèi)容的能力,是對AI進(jìn)行的一次全新的革命,將創(chuàng)造巨大的經(jīng)濟(jì)效益。通俗地說,AI開始具備聯(lián)想及創(chuàng)作等能力,進(jìn)一步擬人化。2023 年,AI從學(xué)術(shù)研究逐漸走向產(chǎn)業(yè)化,其與商業(yè)的融合形成互為支點(diǎn)的發(fā)展格局,進(jìn)入產(chǎn)業(yè)規(guī)模商用期。AI技術(shù)將不斷地對 AI 數(shù)字商業(yè)的各個(gè)領(lǐng)域進(jìn)行滲透。量子位預(yù)測,AIGC將在 2~5 年內(nèi)實(shí)現(xiàn)規(guī);瘧(yīng)用,2030 年 AIGC 市場規(guī)模有望超過萬億元。 AIGC 將促進(jìn)資產(chǎn)服務(wù)快速跟進(jìn),通過對生成內(nèi)容合規(guī)評估、資產(chǎn)管理、產(chǎn)權(quán)保護(hù)、交易服務(wù)等,構(gòu)成 AIGC 完整生態(tài)鏈,并進(jìn)行價(jià)值重塑,充分釋放其商業(yè)潛力。根據(jù)《中國AI數(shù)字商業(yè)產(chǎn)業(yè)展望2021—2025》中的數(shù)據(jù)可知,到 2025 年,中國生成式 AI 商業(yè)應(yīng)用規(guī)模可達(dá)2070 億元。
在AI發(fā)展的歷程中,讓機(jī)器學(xué)會創(chuàng)作一直難以被攻克!皠(chuàng)造力”也因此被視為人類與機(jī)器最本質(zhì)的區(qū)別之一。然而,隨著深度學(xué)習(xí)模型的不斷完善、開源模式的廣泛應(yīng)用以及大模型商業(yè)化的可能性加大,AIGC會把人類的創(chuàng)造力賦予機(jī)器,從而將世界帶入智能創(chuàng)作的新時(shí)代。
在這個(gè)時(shí)代高速發(fā)展的當(dāng)口,及時(shí)準(zhǔn)確地給科技工作者及社會大眾介紹和普及AIGC技術(shù),就顯得非常重要。本書結(jié)合有趣的案例與深入淺出的技術(shù)講解,向關(guān)注未來科技的從業(yè)者、創(chuàng)業(yè)者、投資人以及其他從事與AIGC相關(guān)的工作者介紹AIGC的底層技術(shù)、行業(yè)應(yīng)用案例及商業(yè)落地場景,讓大家都能夠享受技術(shù)進(jìn)步帶來的紅利,并在各自崗位上取得更多、更好的成績。
第1章 AIGC的由來及發(fā)展歷程
1.1 人工智能發(fā)展的歷程 // 003
1.2 什么是AIGC // 009
1.3 AIGC的發(fā)展歷程 // 011
1.4 AIGC涉及的技術(shù) // 012
1.5 AIGC技術(shù)的優(yōu)點(diǎn) // 013
1.6 AIGC技術(shù)的應(yīng)用 // 014
第2章 硅之手——圖像視頻生成
2.1 圖像生成方向 // 020
2.1.1 發(fā)揮創(chuàng)造力 // 021
2.1.2 激發(fā)靈感 // 026
2.1.3 可控創(chuàng)作 // 032
2.1.4 編輯圖像 // 040
2.1.5 微調(diào)模型 // 046
2.2 視頻生成方向 // 049
2.2.1 AI換臉 // 049
2.2.2 構(gòu)建數(shù)字人 // 052
2.2.3 用文本生成視頻 // 053
2.2.4 可控編輯現(xiàn)有視頻 // 054
2.2.5 視頻超分 // 056
2.3 3D模型方向 // 058
2.3.1 文本生成人體模型 // 058
2.3.2 文本生成3D模型 // 060
2.3.3 圖像生成3D模型 // 061
2.3.4 草圖生成3D模型 // 062
2.3.5 文本生成人體動作 // 063
第3章 硅之身——短視頻、數(shù)字人時(shí)代
3.1 揭示短視頻走紅的原因 // 068
3.2 探究短視頻的商業(yè)價(jià)值 // 070
3.2.1 沉浸式的廣告呈現(xiàn) // 071
3.2.2 靈活隱式的內(nèi)容植入 // 072
3.2.3 爆發(fā)增長的內(nèi)容帶貨 // 072
3.2.4 異軍突起的網(wǎng)紅 // 073
3.2.5 繁榮發(fā)展的短視頻生態(tài) // 074
3.3 內(nèi)容生產(chǎn)者的困境 // 075
3.3.1 需求與供給的矛盾 // 075
3.3.2 門檻阻礙了內(nèi)容生產(chǎn)與創(chuàng)新 // 077
3.4 數(shù)字人產(chǎn)業(yè) // 078
3.4.1 通過數(shù)字人實(shí)現(xiàn)AIGC // 079
3.4.2 數(shù)字人助力AIGC,將開拓更大的商業(yè)空間 // 081
3.4.3 AI互動,數(shù)字人24小時(shí)直播 // 082
3.4.4 為創(chuàng)作者定制的基于數(shù)字人的AI短視頻生成
平臺 // 082
第4章 硅之腦——大語言模型時(shí)代
4.1 自然語言處理技術(shù)的歷史沿革 // 088
4.1.1 詞袋模型 // 088
4.1.2 詞嵌入 // 090
4.2 生成式預(yù)訓(xùn)練模型 // 095
4.2.1 什么是生成模型 // 095
4.2.2 什么是預(yù)訓(xùn)練模型 // 096
4.2.3 從ELMo模型到Transformer模型 // 098
4.2.4 后Transformer模型時(shí)代 // 105
4.2.5 基于 Transformer 的預(yù)訓(xùn)練語言模型 // 107
4.3 GPT系列比較 // 122
4.3.1 三代GPT對比 // 124
4.3.2 提示詞學(xué)習(xí) // 131
4.4 ChatGPT的由來 // 139
4.4.1 從GPT-3到ChatGPT的發(fā)展歷程 // 139
4.4.2 思維鏈提示—引出復(fù)雜推理能力 // 141
4.4.3 InstructGPT—與人類對齊,引出ChatGPT // 142
4.4.4 ChatGPT的出現(xiàn) // 147
4.5 注釋 // 147
第5章 硅之聲——語音合成、克隆與變換
5.1 語音合成系統(tǒng)與模型 // 153
5.1.1 聲學(xué)模型 // 155
5.1.2 聲碼器 // 158
5.2 語音合成相關(guān)技術(shù) // 159
5.2.1 聲音克隆 // 160
5.2.2 聲音變換 // 166
5.3 注釋 // 168
第6章 底層核心技術(shù)
6.1 擴(kuò)散模型 // 173
6.1.1 去噪擴(kuò)散概率模型 // 175
6.1.2 擴(kuò)散模型改進(jìn) // 184
6.1.3 擴(kuò)散模型應(yīng)用 // 200
6.2 生成對抗網(wǎng)絡(luò) // 214
6.2.1 什么是GAN // 215
6.2.2 GAN的發(fā)展及應(yīng)用 // 217
6.2.3 GAN訓(xùn)練 // 226
6.3 注釋 // 231
第7章 經(jīng)典商業(yè)案例
7.1 AIGC+影視傳媒:拓展空間,提升質(zhì)量 // 237
7.1.1 新聞采集 // 238
7.1.2 新聞生成 // 238
7.1.3 視頻編輯 // 238
7.1.4 劇本生成 // 239
7.1.5 擴(kuò)展影視角色和場景的創(chuàng)作空間 // 240
7.1.6 賦能影視剪輯 // 241
7.2 AIGC+電商:智能化電商,改變購物模式 // 242
7.2.1 商品3D建模 // 243
7.2.2 天貓家裝城3D版 // 244
7.2.3 鹿班 // 245
7.2.4 虛擬主播 // 245
7.3 AIGC+教育:賦能教育,引領(lǐng)教育變革 // 246
7.3.1 個(gè)性化學(xué)習(xí) // 246
7.3.2 智能化評估 // 247
7.3.3 教學(xué)輔助工具 // 247
7.4 AIGC+醫(yī)療:智能醫(yī)療,診療新勢 // 248
7.4.1 疾病診斷和治療 // 249
7.4.2 藥物研發(fā) // 249
7.4.3 精準(zhǔn)醫(yī)療 // 250
7.5 AIGC+金融:大數(shù)據(jù)與人工智能革新 // 251
7.5.1 風(fēng)險(xiǎn)評估 // 252
7.5.2 投資組合管理 // 253
7.5.3 反欺詐 // 253
7.5.4 市場預(yù)測 // 254
7.6 AIGC+農(nóng)業(yè):革新農(nóng)業(yè),未來可期 // 255
7.6.1 農(nóng)作物種植和管理 // 255
7.6.2 農(nóng)業(yè)物流和供應(yīng)鏈管理 // 256
7.6.3 農(nóng)業(yè)機(jī)器人和自動化 // 256
7.7 OpenAI // 257
7.7.1 概述 // 257
7.7.2 技術(shù)與研究 // 258
7.7.3 商業(yè)應(yīng)用 // 262
7.7.4 OpenAI的影響 // 263
7.8 注釋 // 264
第8章 AIGC的風(fēng)險(xiǎn)與展望
8.1 AIGC的風(fēng)險(xiǎn)與不足 // 268
8.1.1 關(guān)鍵技術(shù)仍然不夠成熟 // 268
8.1.2 監(jiān)管難度加大 // 269
8.1.3 AIGC的其他負(fù)面影響 // 270
8.2 對AIGC的展望 // 271
8.2.1 AI技術(shù)的持續(xù)發(fā)展 // 271
8.2.2 AIGC產(chǎn)品的不斷豐富 // 272
8.2.3 AIGC生態(tài)的逐步完善 // 273