自然語言處理技術(shù)——文本信息抽取及應(yīng)用研究
定 價:108 元
叢書名:前沿科技·人工智能系列
- 作者:黃河燕
- 出版時間:2022/6/1
- ISBN:9787121437694
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP391
- 頁碼:276
- 紙張:
- 版次:01
- 開本:16開
信息抽取的目的是從海量互聯(lián)網(wǎng)文本信息中抽取結(jié)構(gòu)化知識,是知識圖譜自動化構(gòu)建、更新的基礎(chǔ),為信息檢索、推薦系統(tǒng)、智能問答等諸多研究領(lǐng)域提供底層知識推理支撐并取得了重大突破,是推動人工智能技術(shù)由感知走向認(rèn)知的關(guān)鍵要素,具有重要的研究意義和實用價值。本書梳理了命名實體識別、關(guān)系抽取、事件抽取等相關(guān)研究方向的知識資源、基礎(chǔ)理論和實踐應(yīng)用,詳細(xì)介紹了實體關(guān)系聯(lián)合抽取、弱監(jiān)督關(guān)系抽取、基于遷移學(xué)習(xí)的關(guān)系抽取、多實例聯(lián)合事件抽取、基于因變量的事件模板推導(dǎo)等前沿理論研究,并以領(lǐng)域知識圖譜、事理圖譜等為例,詳細(xì)介紹了信息抽取在圖譜構(gòu)建中的應(yīng)用。最后本書對信息抽取進(jìn)行了總結(jié)和未來研究方向展望。
1963年10月生,籍貫湖南。1986年1月加入中國共產(chǎn)黨,1989年3月參加工作。1983年畢業(yè)于武漢測繪科技大學(xué)計算機(jī)系獲學(xué)士學(xué)位,1986年畢業(yè)于國防科技大學(xué)計算機(jī)系獲碩士學(xué)位,1989年畢業(yè)于中國科學(xué)院計算技術(shù)研究所獲博士學(xué)位,后留所工作,先后任助理研究員、副研究員、研究員;1997年至2009年在中科院計算機(jī)語言信息工程研究中心任副主任、研究員并先后兼任中科院華建集團(tuán)黨委委員、副書記,2009年至今任北京理工大學(xué)計算機(jī)學(xué)院院長、教授,兼北京市海量語言信息處理與云計算應(yīng)用工程技術(shù)研究中心主任及中-德語言信息處理聯(lián)合實驗室主任;現(xiàn)為國家"863計劃”主題專家組成員、中國人工智能學(xué)會及中國中文信息學(xué)會副理事長、教育部計算機(jī)教學(xué)指導(dǎo)委員會委員、北京市學(xué)位委員會委員。主持承擔(dān)了國家自科基金重點項目、"973計劃”課題、"863計劃”項目等20多項國家級科研攻關(guān)項目,獲得了國家科技進(jìn)步一等獎等8項國家級和省部級獎勵,1997年享受國務(wù)院政府特殊津貼,2014年當(dāng)選全國優(yōu)秀科技工作者。
第1章 緒論 1
1.1 研究背景及意義 1
1.2 基本定義及問題描述 3
1.2.1 概念 3
1.2.2 命名實體識別 3
1.2.3 關(guān)系抽取 4
1.2.4 事件抽取 4
1.2.5 資源受限 6
1.2.6 信息抽取應(yīng)用 7
1.3 基本研究方法與代表性系統(tǒng) 9
1.3.1 基于規(guī)則的方法 9
1.3.2 基于統(tǒng)計模型的方法 10
1.3.3 基于深度學(xué)習(xí)的方法 10
1.3.4 基于文本挖掘的方法 10
1.4 本書章節(jié)組織架構(gòu) 11
第2章 基礎(chǔ)理論 13
2.1 詞匯語義表示 13
2.1.1 基于矩陣分解的方法 13
2.1.2 基于預(yù)測任務(wù)的方法 15
2.2 序列標(biāo)注 16
2.3 條件隨機(jī)場 18
2.3.1 線性鏈條件隨機(jī)場 18
2.3.2 Viterbi算法 19
2.4 循環(huán)神經(jīng)網(wǎng)絡(luò) 20
2.4.1 樸素循環(huán)神經(jīng)網(wǎng)絡(luò) 21
2.4.2 長短期記憶網(wǎng)絡(luò) 22
2.4.3 門控循環(huán)單元 22
2.4.4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò) 23
2.5 卷積神經(jīng)網(wǎng)絡(luò) 24
2.5.1 文本上的卷積 25
2.5.2 卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點 25
2.6 圖卷積神經(jīng)網(wǎng)絡(luò) 26
2.7 多任務(wù)學(xué)習(xí) 28
2.7.1 多任務(wù)學(xué)習(xí)模式 28
2.7.2 多任務(wù)學(xué)習(xí)有效性分析 29
2.8 遠(yuǎn)程監(jiān)督 30
2.9 遷移學(xué)習(xí) 30
2.9.1 基于實例的遷移學(xué)習(xí) 31
2.9.2 基于特征的遷移學(xué)習(xí) 31
2.9.3 基于共享參數(shù)的遷移學(xué)習(xí) 31
參考文獻(xiàn) 32
第3章 信息抽取相關(guān)評測和標(biāo)注資源 35
3.1 MUC系列評測會議 35
3.2 ACE系列評測會議 37
3.3 TAC-KBP系列評測會議 40
3.4 其他研究活動 43
3.5 信息抽取標(biāo)注資源 43
參考文獻(xiàn) 45
第4章 聯(lián)合實體識別的關(guān)系抽取 48
4.1 引言 48
4.2 問題描述 51
4.3 基于序列建模的實體識別 51
4.3.1 基于BERT的句子編碼 51
4.3.2 頭實體識別 52
4.3.3 尾實體識別 53
4.4 基于生成的實體關(guān)系聯(lián)合抽取 53
4.4.1 句子編碼 55
4.4.2 基于集合預(yù)測的解碼過程 56
4.5 基于翻譯的實體關(guān)系聯(lián)合抽取 57
4.5.1 輸入編碼 57
4.5.2 實體識別 58
4.5.3 關(guān)系預(yù)測 58
4.5.4 基于翻譯的實體關(guān)系聯(lián)合抽取案例 61
4.6 實驗驗證 62
4.6.1 數(shù)據(jù)集和評價指標(biāo) 63
4.6.2 對比算法 63
4.6.3 實驗結(jié)果 64
4.6.4 問題與思考 65
4.7 本章小結(jié) 66
參考文獻(xiàn) 67
第5章 弱監(jiān)督的關(guān)系抽取 69
5.1 引言 69
5.2 問題分析 70
5.3 基于注意力機(jī)制的弱監(jiān)督關(guān)系抽取 73
5.3.1 基于切分卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取 73
5.3.2 基于句子級別的注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取 76
5.3.3 基于實體描述的句子級別的注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取 77
5.3.4 基于非獨立同分布的遠(yuǎn)程監(jiān)督關(guān)系抽取 80
5.4 基于圖卷積的遠(yuǎn)程監(jiān)督關(guān)系抽取 82
5.4.1 基于依存樹的圖卷積關(guān)系抽取 82
5.4.2 基于注意力機(jī)制引導(dǎo)的圖卷積神經(jīng)網(wǎng)絡(luò)關(guān)系抽取 85
5.5 基于篇章級別的遠(yuǎn)程監(jiān)督關(guān)系抽取 87
5.6 實驗驗證 91
5.7 本章小結(jié) 95
參考文獻(xiàn) 96
第6章 基于知識遷移的關(guān)系抽取 101
6.1 引言 101
6.2 同類別遷移的關(guān)系抽取 102
6.2.1 引言 102
6.2.2 相關(guān)工作 104
6.2.3 基于領(lǐng)域分離映射的領(lǐng)域自適應(yīng)關(guān)系抽取框架 106
6.2.4 實驗部分 111
6.2.5 總結(jié)與分析 117
6.3 跨類別遷移的關(guān)系抽取 118
6.3.1 引 言 118
6.3.2 相關(guān)工作 120
6.3.3 基于任務(wù)感知的小實例關(guān)系抽取模型 122
6.3.4 實驗部分 129
6.3.5 總結(jié)與分析 134
6.4 不均衡模型訓(xùn)練方法 135
6.4.1 引 言 135
6.4.2 相關(guān)工作 137
6.4.3 基于多分布選擇的不均衡數(shù)據(jù)分類方法 140
6.4.4 實驗部分 144
6.4.5 總結(jié)與分析 149
6.5 本章小結(jié) 149
參考文獻(xiàn) 150