自然語言結(jié)構(gòu)計算 GPF結(jié)構(gòu)分析框架
自然語言在語法、語義和語用三個平面上的結(jié)構(gòu)統(tǒng)稱為語言結(jié)構(gòu),通過計算得到語言結(jié)構(gòu)是自然語言理解的核心任務。語言結(jié)構(gòu)計算可以泛化為識別語言單元和建立語言單元之間的關系、為語言單元和關系賦予屬性的過程。本書利用網(wǎng)格結(jié)構(gòu)分析語言單元和關系,通過鍵值方式對其屬性進行描述和計算,采用數(shù)據(jù)表解析不同類型的知識,借助有限狀態(tài)自動機剖析語言的具體應用場景。這種基于網(wǎng)格的自然語言結(jié)構(gòu)分析框架(Grid based Parsing Framework,GPF)具有良好的包容性,通過可編程的腳本和數(shù)據(jù)交換標準接口,融合了深度學習的參數(shù)計算和基于符號的知識計算。GPF為自然語言處理研究和應用提供了新的研究思路和計算框架。
本書適合專業(yè)為自然語言處理、計算語言學以及與語言學本體研究有關的學生當作教材,也可以作為高等院校人工智能、信息科學研究、大數(shù)據(jù)分析等相關專業(yè)的參考書。同時,本書也適合對語料庫建設與應用感興趣的人員閱讀。
“自然語言結(jié)構(gòu)計算”系列圖書
語言| 技術| 算法| 融合 |創(chuàng)新
一、整體亮點
稀缺性:
本書的內(nèi)容覆蓋了基于知識的自然語言處理理論、技術和應用。
專業(yè)性:
作者為國內(nèi)高等院校學者、北京語言大學信息科學學院院長、語言智能研究院院長。
實用性:
本書的GPF是一種靈活實用的可編程的語言分析框架,可用于自然語言處理方向的學習、研究和應用。
原創(chuàng)性:
本書是作者30多年工作、科研、學習中的新思考與新實踐的智慧結(jié)晶。
二、內(nèi)容特色
1.知識性
本書涉及自然語言如何處理的技能,涵蓋了語義結(jié)構(gòu)分析多項新技術。
2.豐富性
本書系統(tǒng)地介紹了語言分析、構(gòu)建與使用的各個環(huán)節(jié)。
3.系統(tǒng)性
本書從如何語義分析入手,涉及了語義意合圖的理論建設與使用方法。
荀恩東
教授,博士生導師,博士畢業(yè)于哈爾濱工業(yè)大學,先后在微軟亞洲研究院、香港科技大學工作,現(xiàn)任北京語言大學信息科學學院院長、語言智能研究院院長。
研究領域為自然語言處理和語言教育技術。近年來,主持多項“國家高技術研究發(fā)展計劃”(簡稱863計劃)、國家社會科學基金項目和國家自然科學基金項目,承擔多項公司合作的項目,發(fā)表文章70余篇。主要研究內(nèi)容為漢語語義計算和語言教育技術。
主持開發(fā)了北京語言大學語料庫中心( BCC)語料庫和國際中文智慧教學平臺。提出了漢語語義分析的意合圖理論和構(gòu)建方法,帶領團隊揭榜工信部人工智能重大攻關任務,在包括專利等多個領域開展?jié)h語語義理解落地應用工作。
目錄
第 1章 自然語言處理概述
1.1 自然語言處理 002
1.1.1 自然語言處理是認知智能的核心 002
1.1.2 自然語言理解的本質(zhì)是語言結(jié)構(gòu)分析 003
1.1.3 自然語言理解的挑戰(zhàn) 005
1.2 語言結(jié)構(gòu) 007
1.2.1 語言結(jié)構(gòu)的基本單元 007
1.2.2 基本單元之間的關系 008
1.3 語言結(jié)構(gòu)分析 011
1.3.1 語言結(jié)構(gòu)的形式化 012
1.3.2 語言結(jié)構(gòu)分析的內(nèi)容 012
1.3.3 語言結(jié)構(gòu)分析知識 014
1.3.4 語言結(jié)構(gòu)分析策略 017
1.4 基于網(wǎng)格的自然語言結(jié)構(gòu)分析框架——GPF 020
1.4.1 GPF的設計思想 020
1.4.2 GPF的主要應用 024
第 2章 GPF總體設計
2.1 GPF分析框架 028
2.1.1 GPF功能部件 029
2.1.2 GPF工作模式 034
2.1.3 GPF編程體系 035
2.2 GPF屬性計算 037
2.2.1 語言結(jié)構(gòu)的屬性 037
2.2.2 屬性的形式化及計算 038
2.2.3 屬性的應用 043
第3章 GPF網(wǎng)格
3.1 概述 048
3.1.1 網(wǎng)格計算結(jié)構(gòu) 048
3.1.2 主要功能 049
3.1.3 網(wǎng)格的形式結(jié)構(gòu) 050
3.1.4 網(wǎng)格與屬性 051
3.2 網(wǎng)格單元 051
3.2.1 網(wǎng)格單元的類型 051
3.2.2 網(wǎng)格單元的屬性 052
3.3 網(wǎng)格單元之間的關系 060
3.3.1 網(wǎng)格單元之間關系的類型 061
3.3.2 網(wǎng)格單元之間關系的屬性 062
第4章 GPF網(wǎng)格計算
4.1 輸入輸出 064
4.1.1 輸入 064
4.1.2 輸出 066
4.2 網(wǎng)格單元計算 078
4.2.1 添加網(wǎng)格單元 078
4.2.2 獲取網(wǎng)格單元 089
4.3 網(wǎng)格單元屬性計算 095
4.3.1 添加網(wǎng)格單元屬性 095
4.3.2 獲取網(wǎng)格單元屬性 096
4.3.3 測試網(wǎng)格單元屬性 099
4.4 網(wǎng)格單元關系計算 101
4.4.1 增加網(wǎng)格單元關系 101
4.4.2 增加關系屬性 102
4.4.3 判斷關系屬性 103
第5章 GPF數(shù)據(jù)表
5.1 概述 109
5.1.1 格式定義 109
5.1.2 術語與定義 109
5.2 數(shù)據(jù)表類型 111
5.2.1 描述型數(shù)據(jù)表 111
5.2.2 關系型數(shù)據(jù)表 114
5.3 數(shù)據(jù)表相關的API函數(shù) 116
5.3.1 字符串操作(GetPrefix和GetSuffix) 116
5.3.2 創(chuàng)建單元(Segment) 119
5.3.3 構(gòu)建關系(Relate) 122
5.3.4 提供屬性(SetLexicon) 131
5.3.5 數(shù)據(jù)表測試函數(shù)(IsTable) 133
5.3.6 數(shù)據(jù)項獲取函數(shù)(GetTableItems) 134
5.3.7 數(shù)據(jù)項屬性獲取函數(shù)(GetTableItemKVs) 135
5.4 數(shù)據(jù)表在屬性計算中的應用 137
5.4.1 數(shù)據(jù)表用于“鍵值對”中 137
5.4.2 數(shù)據(jù)表用于鍵值表達式中 139
第6章 GPF有限狀態(tài)自動機
6.1 概述 142
6.1.1 形式化定義 142
6.1.2 主要功能 144
6.2 FSA文法 144
6.2.1 FSA腳本 144
6.2.2 FSA文法規(guī)定 146
6.2.3 文法編譯 149
6.3 FSA 運行機制 150
6.3.1 配置 150
6.3.2 匹配入口節(jié)點 158
6.3.3 前后雙向匹配 160
6.3.4 執(zhí)行操作 160
6.4 FSA應用 162
6.4.1 RunFSA算法過程 162
6.4.2 FSA應用示例 163
第7章 GPF數(shù)據(jù)接口
7.1 初始語言結(jié)構(gòu)的數(shù)據(jù)源 168
7.1.1 離線形式的本地數(shù)據(jù) 168
7.1.2 在線形式的第三方服務 169
7.2 初始語言結(jié)構(gòu)類型及數(shù)據(jù)接口 170
7.2.1 初始語言結(jié)構(gòu)類型 170
7.2.2 初始語言結(jié)構(gòu)數(shù)據(jù)接口 170
7.2.3 幾種典型結(jié)構(gòu)的數(shù)據(jù)接口 172
7.3 初始語言結(jié)構(gòu)在網(wǎng)格中的表示 178
7.3.1 分詞結(jié)構(gòu) 178
7.3.2 組塊結(jié)構(gòu) 182
7.3.3 短語結(jié)構(gòu)樹 185
7.3.4 詞依存結(jié)構(gòu) 191
7.3.5 組塊依存結(jié)構(gòu) 196
7.3.6 帶有分詞的組塊依存結(jié)構(gòu) 200
第8章 GPF應用
8.1 GPF的配置 206
8.2 GPF的索引 207
8.2.1 索引數(shù)據(jù)表 207
8.2.2 索引有限狀態(tài)自動機 208
8.3 GPF的運行 209
8.3.1 本地運行 211
8.3.2 網(wǎng)絡服務 213
8.3.3 GPF輸出 214
8.4 GPF的應用 214
8.4.1 短語識別 215
8.4.2 詞義消歧 217
8.4.3 離合詞識別 220
第9章 GPF的API函數(shù)
9.1 GPF功能操作類API函數(shù) 227
9.1.1 SetText 227
9.1.2 AddStructure (JSON) 227
9.1.3 CallService 229
9.1.4 Segment 229
9.1.5 SetLexicon 230
9.1.6 Relate 230
9.1.7 GetSuffix 230
9.1.8 GetPrefix 231
9.1.9 RunFSA 231
9.1.10 GetParam 231
9.1.11 GB2UTF8 232
9.1.12 UTF82GB 232
9.1.13 cjson.decode 232
9.1.14 cjson.encode 233
9.2 GPF獲取類API函數(shù) 233
9.2.1 GetGrid 233
9.2.2 GetText 233
9.2.3 GetGridKVs 234
9.2.4 GetLog 235
9.2.5 GetUnit 235
9.2.6 GetUnits 235
9.2.7 GetUnitKVs 236
9.2.8 GetRelations 237
9.2.9 GetRelationKVs 238
9.2.10 GetTableItems 239
9.2.11 GetTableItemKVs 239
9.2.12 GetFSANode 240
9.3 GPF添加類API函數(shù) 241
9.3.1 AddUnit 241
9.3.2 Reduce 242
9.3.3 AddUnitKV 242
9.3.4 AddGridKV 242
9.3.5 AddRelation 243
9.3.6 AddRelationKV 243
9.4 GPF測試類API函數(shù) 244
9.4.1 IsUnit 244
9.4.2 IsRelation 244
9.4.3 IsTable 244
參考文獻 247