古籍文本信息抽取與挖掘的重要性在于保護(hù)和傳承人類的文化遺產(chǎn),以及促進(jìn)學(xué)術(shù)研究和歷史探索。古籍文本是記錄了古代知識(shí)、思想、文化和歷史的寶貴資源。通過(guò)對(duì)古籍文本進(jìn)行信息抽取,可以從大量的文字資料中提取出有用的信息,為人們的研究和了解相關(guān)題材提供重要的線索和指引。
本書全面介紹文本信息抽取與知識(shí)挖掘的基本概念、原理和方法,包括文本預(yù)處理、特征提取、命名實(shí)體識(shí)別(NER)、信息抽取、語(yǔ)義分析、知識(shí)表示等關(guān)鍵技術(shù)。讀者可了解每種實(shí)施方法及其執(zhí)行流程。
本書中提供一系列實(shí)用的方法和工具,指導(dǎo)讀者在實(shí)際應(yīng)用中進(jìn)行文本信息抽取和知識(shí)挖掘。這些方法和工具包括基于規(guī)則的抽取、統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)等。讀者可以通過(guò)實(shí)例和案例學(xué)習(xí)如何選擇適當(dāng)?shù)姆椒ê凸ぞ撸⑵鋺?yīng)用于自己的項(xiàng)目實(shí)踐中。
本書以文本信息抽取的基礎(chǔ)知識(shí)為基點(diǎn),通過(guò)理論與實(shí)踐相結(jié)合,重點(diǎn)介紹實(shí)體抽取與關(guān)系抽取(RE)的技術(shù)方法,及其在中國(guó)少數(shù)民族古籍總目提要數(shù)據(jù)集上的實(shí)際應(yīng)用; 針對(duì)NER,介紹基于Transformer模型的方法和基于提示學(xué)習(xí)的方法; 針對(duì)RE,介紹基于遠(yuǎn)程監(jiān)督的方法和基于遷移學(xué)習(xí)的方法; 針對(duì)事件抽取(EE),介紹聯(lián)合模型的EE和篇章級(jí)的EE。
全書共9章。第1章為緒論,介紹古籍文本信息抽取的研究背景與意義,以及信息抽取的相關(guān)定義和基本方法。第2章詳細(xì)介紹信息抽取的概念和基礎(chǔ)理論,并淺析古籍文本信息抽取的應(yīng)用領(lǐng)域。第3、4章介紹NER的核心方法,分別是基于Transformer模型的方法和基于提示學(xué)習(xí)的方法。第5、6章介紹實(shí)體RE的核心方法,分別是基于遠(yuǎn)程監(jiān)督的方法和基于遷移學(xué)習(xí)的方法。第7、8章介紹EE的核心方法,分別是聯(lián)合模型的EE和篇章級(jí)的EE方法。在第3~8章中,每一個(gè)方法都提供了相應(yīng)的實(shí)驗(yàn)及對(duì)實(shí)驗(yàn)結(jié)果的分析。第9章為總結(jié)與展望,主要內(nèi)容是對(duì)當(dāng)前在實(shí)體RE領(lǐng)域相關(guān)技術(shù)的總結(jié)及對(duì)于此領(lǐng)域內(nèi)技術(shù)未來(lái)發(fā)展方向的展望。
本書可以作為計(jì)算機(jī)、軟件工程及相關(guān)專業(yè)學(xué)生實(shí)體抽取文本信息抽取信息挖掘等課程的參考書,同時(shí)也可作為計(jì)算機(jī)從業(yè)人員實(shí)體RE、EE、文本信息挖掘相關(guān)知識(shí)的入門學(xué)習(xí)資料。讀者最好在學(xué)習(xí)過(guò)人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)等相關(guān)課程后再學(xué)習(xí)本書及自然語(yǔ)言處理的相應(yīng)課程。
本書在編寫過(guò)程中得到中央民族大學(xué)信息工程學(xué)院的研究生穆日亙、毛寧?kù)o、丁福森、李蕊、王文涵、張小苗、儀超、金明哲的大力支持,在此表示衷心的感謝。同時(shí),還需感謝本書后參考文獻(xiàn)的作者,感謝他們的資料對(duì)本書的指導(dǎo)。感謝清華大學(xué)出版社編輯們對(duì)本書的出版給予的寶貴建議。
在本書的撰寫和相關(guān)技術(shù)的研究中,由于編者受知識(shí)水平所限及時(shí)間倉(cāng)促,書中錯(cuò)誤與疏漏之處在所難免,敬請(qǐng)廣大讀者批評(píng)指正。
盧勇
2024年8月
第1章緒論
1.1研究背景與意義
1.1.1古籍文本信息抽取的重要性
1.1.2古籍文本信息抽取的應(yīng)用領(lǐng)域
1.1.3古籍文本信息抽取的目的
1.2信息抽取與知識(shí)挖掘的基本概念
1.2.1NER
1.2.2RE
1.2.3EE
1.3NER技術(shù)
1.3.1基于規(guī)則方法的NER技術(shù)
1.3.2基于統(tǒng)計(jì)模型的NER技術(shù)
1.3.3基于深度學(xué)習(xí)方法的NER技術(shù)
第2章古籍文本信息抽取概述與基礎(chǔ)理論
2.1古籍文本信息抽取的挑戰(zhàn)與難點(diǎn)
2.1.1信息抽取
2.1.2古籍文本中的信息抽取
2.2古籍文本信息抽取的任務(wù)
2.3古籍文本信息抽取相關(guān)技術(shù)
2.3.1詞匯語(yǔ)義表示
2.3.2CRF模型
2.3.3CNN信息抽取模型
2.3.4RNN信息抽取
2.3.5圖卷積信息抽取模型
2.3.6遷移學(xué)習(xí)信息抽取模型
2.4古籍文本信息抽取的應(yīng)用領(lǐng)域
2.4.1古籍?dāng)?shù)字化
2.4.2古籍文本分析
2.4.3文化遺產(chǎn)保護(hù)
2.4.4古籍知識(shí)圖譜構(gòu)建
第3章基于Transformer模型的NER
3.1引言
3.2問(wèn)題引入
3.3基于分層Transformer模型的NER
3.3.1引言
3.3.2實(shí)現(xiàn)原理與步驟
3.3.3基本結(jié)構(gòu)與訓(xùn)練方法
3.3.4示例
3.3.5實(shí)驗(yàn)分析
3.4基于BERTCRF的NER
3.4.1引言
3.4.2問(wèn)題引入
3.4.3相關(guān)工作
3.4.4模型結(jié)構(gòu)
3.4.5實(shí)驗(yàn)結(jié)果
3.5基于遷移學(xué)習(xí)的細(xì)粒度BERT的NER
3.5.1引言
3.5.2問(wèn)題引入
3.5.3實(shí)驗(yàn)過(guò)程
3.5.4實(shí)驗(yàn)結(jié)果
第4章基于提示學(xué)習(xí)的NER
4.1引言
4.2問(wèn)題引入
4.3基于模板的提示學(xué)習(xí)NER
4.3.1引言
4.3.2相關(guān)工作
4.3.3使用BART基于模板的NER
4.3.4實(shí)驗(yàn)結(jié)果
4.4融合注意力層的提示學(xué)習(xí)NER
4.4.1引言
4.4.2低資源NER實(shí)驗(yàn)過(guò)程
4.4.3實(shí)驗(yàn)結(jié)果
4.5基于問(wèn)答的提示學(xué)習(xí)NER
4.5.1引言
4.5.2相關(guān)工作
4.5.3方法
4.5.4實(shí)驗(yàn)結(jié)果
第5章基于遠(yuǎn)程監(jiān)督的RE
5.1引言
5.2問(wèn)題引入
5.3基于對(duì)抗學(xué)習(xí)的遠(yuǎn)程監(jiān)督RE
5.3.1引言
5.3.2相關(guān)工作
5.3.3方法
5.3.4實(shí)驗(yàn)設(shè)置
5.4基于深度強(qiáng)化學(xué)習(xí)的遠(yuǎn)程監(jiān)督RE
5.4.1引言
5.4.2相關(guān)工作
5.4.3實(shí)驗(yàn)過(guò)程
5.5基于句子級(jí)別注意力機(jī)制的遠(yuǎn)程監(jiān)督RE
5.5.1引言
5.5.2相關(guān)工作
5.5.3方法
5.5.4實(shí)驗(yàn)結(jié)果
5.5.5比較
5.6基于實(shí)體級(jí)別注意力機(jī)制的遠(yuǎn)程監(jiān)督RE
5.6.1引言
5.6.2相關(guān)工作
5.6.3融入多實(shí)例學(xué)習(xí)的基于分段CNN的RE
5.6.4實(shí)驗(yàn)結(jié)果
5.7基于圖卷積的遠(yuǎn)程監(jiān)督RE
5.7.1引言
5.7.2相關(guān)工作
5.7.3利用輔助信息進(jìn)行遠(yuǎn)程監(jiān)督神經(jīng)RE
5.7.4實(shí)驗(yàn)結(jié)果
第6章基于遷移學(xué)習(xí)的實(shí)體RE
6.1引言
6.2問(wèn)題引入
6.3基于樣本遷移的實(shí)體RE
6.3.1引言
6.3.2問(wèn)題引入
6.3.3實(shí)驗(yàn)分析
6.3.4實(shí)驗(yàn)結(jié)果
6.4基于特征遷移的實(shí)體RE
6.4.1引言
6.4.2相關(guān)工作
6.4.3學(xué)習(xí)深度簡(jiǎn)約表示
6.4.4基于聚類的正則化方法應(yīng)用于實(shí)體RE
6.5基于關(guān)系遷移的實(shí)體RE
6.5.1基于關(guān)系遷移的實(shí)體RE的概念
6.5.2基于關(guān)系遷移的實(shí)體RE的步驟
6.5.3基于關(guān)系遷移的實(shí)體RE的模型結(jié)構(gòu)
6.5.4基于關(guān)系遷移的實(shí)體RE的相關(guān)工作
6.5.5實(shí)驗(yàn)分析
第7章聯(lián)合模型的EE
7.1引言
7.2問(wèn)題引入
7.3級(jí)聯(lián)解碼聯(lián)合學(xué)習(xí)的EE方法
7.3.1引言
7.3.2問(wèn)題引入
7.3.3模型介紹
7.3.4實(shí)驗(yàn)過(guò)程
7.4共享隱藏表示方式的EE方法
7.4.1引言
7.4.2問(wèn)題引入
7.4.3模型
7.4.4模型實(shí)驗(yàn)表現(xiàn)
7.5基于轉(zhuǎn)換的神經(jīng)網(wǎng)絡(luò)的EE方法
7.5.1引言
7.5.2轉(zhuǎn)換系統(tǒng)介紹
7.5.3基于轉(zhuǎn)換的神經(jīng)網(wǎng)絡(luò)模型介紹
7.5.4實(shí)驗(yàn)結(jié)果
第8章篇章級(jí)的EE
8.1引言
8.2問(wèn)題引入
8.3中心語(yǔ)引導(dǎo)的篇章級(jí)EE
8.3.1引言
8.3.2相關(guān)工作
8.3.3方法
8.3.4實(shí)驗(yàn)結(jié)果
8.3.5比較
8.4跨句論元抽取的篇章級(jí)EE
8.4.1引言
8.4.2相關(guān)工作
8.4.3角色填充實(shí)體提取任務(wù)和評(píng)估指標(biāo)
8.4.4將REE作為序列生成任務(wù)
8.4.5GRIT模型
8.4.6實(shí)驗(yàn)設(shè)置及結(jié)果
8.5多粒度閱讀的篇章級(jí)EE
8.5.1引言
8.5.2相關(guān)工作
8.5.3實(shí)驗(yàn)方法
8.5.4實(shí)驗(yàn)結(jié)果
第9章總結(jié)與展望
9.1總結(jié)
9.2展望
9.2.1NER技術(shù)未來(lái)發(fā)展展望
9.2.2RE技術(shù)未來(lái)發(fā)展展望
9.2.3EE技術(shù)未來(lái)發(fā)展展望
參考文獻(xiàn)