這是一本能讓讀者快速?gòu)牧汩_始構(gòu)建工業(yè)級(jí)知識(shí)圖譜的著作。作者是知識(shí)圖譜和自然語(yǔ)言處理領(lǐng)域的專家,本書得到了OpenKG聯(lián)合創(chuàng)始人王昊奮、清華大學(xué)教授李涓子、東南大學(xué)教授漆桂林、美團(tuán)知識(shí)圖譜團(tuán)隊(duì)負(fù)責(zé)人張富崢、文因互聯(lián)創(chuàng)始人鮑捷等學(xué)界和業(yè)界知識(shí)圖譜扛旗人的一致好評(píng)和推薦。
本書不僅詳細(xì)講解了知識(shí)圖譜的技術(shù)原理和構(gòu)建工具,而且還循序漸進(jìn)地講解了知識(shí)圖譜的構(gòu)建方法、步驟和行業(yè)應(yīng)用。配有大量實(shí)戰(zhàn)案例,并且開放了源代碼,確保讀者能學(xué)會(huì)并落地。
全書一共8章:
第1章介紹了知識(shí)圖譜的概念、模式、應(yīng)用場(chǎng)景和技術(shù)架構(gòu);
第2章圍繞知識(shí)圖譜的技術(shù)體系,詳細(xì)闡述了知識(shí)的表示與建模、抽取與挖掘、存儲(chǔ)與融合,以及檢索與推理;
第3章通過具體的實(shí)例介紹了各種知識(shí)圖譜工具的使用;
第4章和第5章從工業(yè)實(shí)踐的角度講解了從0到1構(gòu)建通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜的步驟和方法,并配備詳細(xì)的代碼解讀;
第6~7章講解了知識(shí)圖譜的具體應(yīng)用和一個(gè)綜合性的知識(shí)圖譜案例問答系統(tǒng),進(jìn)一步指導(dǎo)讀者實(shí)踐;
第8章對(duì)知識(shí)圖譜的未來(lái)發(fā)展進(jìn)行了總結(jié)和展望。
(1)作者資深:作者是知識(shí)圖譜、自然語(yǔ)言處理等領(lǐng)域的資深A(yù)I技術(shù)專家和算法專家,實(shí)戰(zhàn)經(jīng)驗(yàn)豐富。
(2)維度全面:從知識(shí)圖譜技術(shù)原理、構(gòu)建工具、構(gòu)建方法、應(yīng)用案例等多個(gè)維度全面展開講解,理論與實(shí)踐相結(jié)合。
(3)實(shí)操性強(qiáng):手把手教讀者從0到1構(gòu)建工程級(jí)知識(shí)圖譜的步驟和方法,配備源代碼。
(4)專家力薦:知識(shí)圖譜和自然語(yǔ)言處理領(lǐng)域?qū)<易珜,王昊奮、李涓子、漆桂林、張富崢、鮑捷等學(xué)術(shù)界和企業(yè)界的專家一致推薦。
為什么寫這本書
知識(shí)圖譜,是近年來(lái)火熱的研究方向之一,被認(rèn)為是實(shí)現(xiàn)認(rèn)知智能的核心基礎(chǔ)技術(shù)。知識(shí)圖譜以圖的形式表現(xiàn)客觀世界中的實(shí)體、概念及其之間的關(guān)系,致力于解決認(rèn)知智能中的復(fù)雜推理問題。
隨著大數(shù)據(jù)時(shí)代的紅利逐漸消失,以深度學(xué)習(xí)為基礎(chǔ)的感知智能逐步觸碰到天花板,理論突破也越來(lái)越難。而在認(rèn)知智能的前進(jìn)道路上,基于統(tǒng)計(jì)概率的深度學(xué)習(xí)模型仍然無(wú)法真正實(shí)現(xiàn)和人類相同的推理和理解能力。
充分有效地利用人類社會(huì)中海量的知識(shí)是可行的解決路徑之一。而知識(shí)圖譜將人類知識(shí)表示為圖的形式,可以讓機(jī)器更好地利用知識(shí),實(shí)現(xiàn)一定程度的智能化。然而,雖然知識(shí)圖譜被寄予厚望,可以實(shí)現(xiàn)人工智能從感知到認(rèn)知的跨越,但通用知識(shí)圖譜的建立和完善是一個(gè)漫長(zhǎng)的過程。在現(xiàn)階段,知識(shí)圖譜還是大量應(yīng)用在簡(jiǎn)單場(chǎng)景和垂直場(chǎng)景上,例如搜索引擎、智能問答、語(yǔ)義理解、決策分析、智慧物聯(lián)等。
構(gòu)建知識(shí)圖譜是一個(gè)系統(tǒng)工程,涉及知識(shí)的表示、獲取、存儲(chǔ)、應(yīng)用以及自然語(yǔ)言處理等各項(xiàng)技術(shù),如何全面掌握知識(shí)圖譜的構(gòu)建,成為很多同學(xué)和從業(yè)者為關(guān)注的問題?v觀目前市場(chǎng)上的知識(shí)圖譜書籍,我們發(fā)現(xiàn),大多數(shù)的書都是以理論介紹為主,雖然內(nèi)容充分翔實(shí),但缺乏應(yīng)用性的梳理和闡述。
寫這本書的初衷,就是希望將我們?cè)趯?shí)踐中構(gòu)建知識(shí)圖譜的經(jīng)驗(yàn),包括踩坑的教訓(xùn),以文字的形式做出總結(jié),同時(shí)分享給各位奮戰(zhàn)在一線的知識(shí)圖譜從業(yè)人員。書中不僅對(duì)知識(shí)圖譜的概念和理論做了詳細(xì)介紹,同時(shí)用開源代碼的形式闡述了落地細(xì)節(jié)。書中代碼資源下載地址為https://github.com/zhangkai-ai/build-kg-from-scratch。
本書一共分為8章。第1章給出了知識(shí)圖譜的概覽,第2章圍繞知識(shí)圖譜的整體技術(shù)體系,詳細(xì)闡述了知識(shí)的表示與建模、抽取與挖掘、存儲(chǔ)與融合,以及檢索與推理。第3章以具體的實(shí)例介紹了各種知識(shí)圖譜工具的使用。第4章和第5章從實(shí)戰(zhàn)的角度帶領(lǐng)讀者從零到一構(gòu)建通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,并配以詳細(xì)的代碼解讀。第6章給出了知識(shí)圖譜的具體應(yīng)用。第7章也是從實(shí)戰(zhàn)的角度對(duì)知識(shí)圖譜的問答系統(tǒng)做了詳盡闡述。后第8章給出了知識(shí)圖譜的總結(jié)和展望。
知識(shí)圖譜領(lǐng)域仍然有很多問題需要解決,需要各位同人一起努力。希望本書能夠?yàn)樽x者解決問題提供些許幫助。
由于種種原因,本書成稿過程頗有波折。我們要特別感謝編輯楊福川和李藝,他們對(duì)本書出版提供了大力支持。
邵浩
資深人工智能技術(shù)專家,復(fù)星集團(tuán)CEO助理,集團(tuán)AI業(yè)務(wù)負(fù)責(zé)人。曾任vivo人工智能研究院算法專家、技術(shù)總監(jiān),曾任狗尾草智能科技AI研究院院長(zhǎng),帶領(lǐng)團(tuán)隊(duì)打造了虛擬生命產(chǎn)品的交互引擎。上海市靜安區(qū)首屆優(yōu)秀人才,上海市人才發(fā)展基金獲得者,杭州市高層次人才。中國(guó)中文信息學(xué)會(huì)青年工作委員會(huì)委員,語(yǔ)言與知識(shí)計(jì)算專委會(huì)委員,中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話與聽覺專委會(huì)委員,自然語(yǔ)言處理專委會(huì)委員。
日本國(guó)立九州大學(xué)工學(xué)博士,亞利桑那州立大學(xué)訪問學(xué)者,曾任上海對(duì)外經(jīng)貿(mào)大學(xué)副教授,碩士生導(dǎo)師。共發(fā)表論文 50余篇,專利十余項(xiàng),在國(guó)內(nèi)率先出版了聊天機(jī)器人和預(yù)訓(xùn)練語(yǔ)言模型相關(guān)的著作,主持多項(xiàng)和省部級(jí)課題。
張凱
資深A(yù)I算法工程師,主要研究方向包括知識(shí)圖譜、對(duì)話系統(tǒng)、推薦系統(tǒng)、機(jī)器翻譯等,擁有多年算法落地經(jīng)驗(yàn)。主導(dǎo)構(gòu)建了開放通用知識(shí)圖譜七律,參與了《知識(shí)圖譜評(píng)測(cè)標(biāo)準(zhǔn)》和《知識(shí)圖譜白皮書》的編寫。聊天機(jī)器人專業(yè)書籍作者之一。
李方圓
資深A(yù)I算法工程師,主要研究方向包括機(jī)器翻譯、知識(shí)圖譜和問答系統(tǒng),具有多年實(shí)戰(zhàn)項(xiàng)目經(jīng)驗(yàn),現(xiàn)任vivo機(jī)器翻譯團(tuán)隊(duì)負(fù)責(zé)人,主導(dǎo)從零構(gòu)建機(jī)器翻譯能力。
張?jiān)瓶?/strong>
資深A(yù)I算法工程師,中文信息學(xué)會(huì)會(huì)員,碩士畢業(yè)于加拿大Queens University,曾任職于奇虎360。主要研究方向包括自然語(yǔ)言處理與知識(shí)圖譜,曾于領(lǐng)域內(nèi)知名會(huì)議發(fā)表相關(guān)論文,擁有豐富的算法落地經(jīng)驗(yàn)。
戴錫強(qiáng)
資深A(yù)I算法工程師,主要研究方向?yàn)橹R(shí)圖譜、對(duì)話系統(tǒng)等,參與構(gòu)建了百科知識(shí)圖譜,醫(yī)藥領(lǐng)域知識(shí)圖譜,基于知識(shí)圖譜的問答系統(tǒng)等,具有豐富的知識(shí)圖譜落地經(jīng)驗(yàn)。
推薦序
前言
第1章 知識(shí)圖譜概覽 1
1.1 知識(shí)圖譜序言 1
1.2 知識(shí)圖譜基本概念 3
1.2.1 知識(shí)圖譜背景 3
1.2.2 知識(shí)圖譜的定義 5
1.2.3 典型知識(shí)圖譜示例 7
1.3 知識(shí)圖譜的模式 10
1.4 為什么需要知識(shí)圖譜 13
1.5 知識(shí)圖譜的典型應(yīng)用 15
1.6 知識(shí)圖譜的技術(shù)架構(gòu) 17
參考文獻(xiàn) 18
第2章 知識(shí)圖譜技術(shù)體系 19
2.1 知識(shí)表示與知識(shí)建模 19
2.1.1 知識(shí)表示 19
2.1.2 知識(shí)建模 26
2.2 知識(shí)抽取與知識(shí)挖掘 29
2.2.1 知識(shí)抽取 29
2.2.2 知識(shí)挖掘 38
2.3 知識(shí)存儲(chǔ)與知識(shí)融合 42
2.3.1 知識(shí)存儲(chǔ) 42
2.3.2 知識(shí)融合 47
2.4 知識(shí)檢索與知識(shí)推理 52
2.4.1 知識(shí)檢索 53
2.4.2 知識(shí)推理 58
參考文獻(xiàn) 61
第3章 知識(shí)圖譜工具 63
3.1 知識(shí)建模工具 63
3.1.1 Protégé 64
3.1.2 其他本體建模工具 79
3.1.3 本體建模工具的選擇 83
3.2 知識(shí)抽取工具 84
3.2.1 DeepDive 84
3.2.2 其他知識(shí)抽取工具 102
3.2.3 知識(shí)抽取工具對(duì)比 106
3.3 知識(shí)存儲(chǔ)工具 107
3.3.1 Neo4j 108
3.3.2 Neo4j安裝與部署 109
3.3.3 可視化 113
3.3.4 圖模型 115
3.3.5 其他圖數(shù)據(jù)庫(kù) 120
參考文獻(xiàn) 122
第4章 從零構(gòu)建通用知識(shí)圖譜 123
4.1 通用知識(shí)表示與抽取 123
4.1.1 通用知識(shí)數(shù)據(jù)來(lái)源 123
4.1.2 實(shí)體層構(gòu)建 126
4.1.3 表述層構(gòu)建 131
4.1.4 概念層構(gòu)建 134
4.2 知識(shí)增強(qiáng) 135
4.2.1 實(shí)體層知識(shí)增強(qiáng) 135
4.2.2 模式完善 139
4.2.3 實(shí)體鏈接:表述層與實(shí)體層之間的映射 144
4.2.4 實(shí)體分類:實(shí)體層與概念層之間的映射 146
4.3 百科知識(shí)存儲(chǔ)與更新 153
4.3.1 屬性圖存儲(chǔ)模型 154
4.3.2 知識(shí)存儲(chǔ) 156
4.3.3 知識(shí)更新 168
第5章 領(lǐng)域知識(shí)圖譜構(gòu)建 172
5.1 領(lǐng)域知識(shí)圖譜概覽 172
5.2 醫(yī)藥領(lǐng)域知識(shí)圖譜 173
5.2.1 領(lǐng)域模式構(gòu)建 174
5.2.2 領(lǐng)域知識(shí)抽取 176
5.2.3 領(lǐng)域圖譜構(gòu)建 178
5.2.4 圖譜展示 182
5.3 用戶畫像圖譜 183
5.3.1 用戶畫像知識(shí)表示 183
5.3.2 知識(shí)抽取和挖掘 185
5.3.3 抽取案例 194
參考文獻(xiàn) 207
第6章 知識(shí)圖譜應(yīng)用 208
6.1 知識(shí)可視化 208
6.1.1 D3 208
6.1.2 ECharts 213
6.1.3 其他工具介紹 220
6.1.4 小結(jié) 225
6.2 實(shí)體鏈接 225
6.2.1 實(shí)體鏈接的定義 225
6.2.2 實(shí)體鏈接的步驟 226
6.2.3 實(shí)體鏈接工具 232
6.2.4 實(shí)體鏈接的應(yīng)用 242
6.3 知識(shí)問答 245
6.3.1 知識(shí)問答系統(tǒng)概述 245
6.3.2 知識(shí)問答系統(tǒng)的主要流程 247
6.3.3 主流知識(shí)問答系統(tǒng)介紹 252
6.3.4 問答系統(tǒng)實(shí)戰(zhàn) 260
6.4 聯(lián)想 277
6.4.1 聯(lián)想整體流程 278
6.4.2 話題識(shí)別 279
6.4.3 候選話題生成 280
6.4.4 候選話題排序 282
6.4.5 聯(lián)想回復(fù)生成 290
參考文獻(xiàn) 292
第7章 基于知識(shí)圖譜的問答系統(tǒng) 297
7.1 簡(jiǎn)介 297
7.2 自然語(yǔ)言理解 300
7.2.1 概述 300
7.2.2 基礎(chǔ)NLU 301
7.2.3 意圖理解 309
7.2.4 實(shí)體識(shí)別與鏈接 317
7.2.5 文本相似度與向量化 317
7.3 對(duì)話管理 322
7.3.1 概述 322
7.3.2 知識(shí)問答 327
7.3.3 閑聊 331
7.4 自然語(yǔ)言生成 332
7.5 服務(wù)化 333
參考文獻(xiàn) 335
第8章 總結(jié)與展望 336
參考文獻(xiàn) 338