本書闡述文本數(shù)據(jù)挖掘的理論模型、實現(xiàn)算法和相關(guān)應(yīng)用,主要內(nèi)容包括:信息抽取和知識庫構(gòu)建、文本聚類、情感文本分析、熱點發(fā)現(xiàn)、生物醫(yī)學(xué)文本挖掘和多文檔自動摘要等。寫作風(fēng)格力求言簡意賅,深入淺出,通過實例說明實現(xiàn)相關(guān)任務(wù)的理論方法和技術(shù)思路,而不過多地涉及實現(xiàn)細節(jié)。本書可作為大學(xué)高年級本科生或研究生從事相關(guān)研究的入門文獻,也可作為從事相關(guān)技術(shù)研發(fā)的開發(fā)人員的參考資料。
隨著計算機網(wǎng)絡(luò)和移動通信技術(shù)的快速發(fā)展和普及,面向網(wǎng)絡(luò)或移動終端用戶的文本大數(shù)據(jù)挖掘技術(shù)越來越多地受到各個領(lǐng)域的高度關(guān)注,具有極其廣闊的應(yīng)用,同時這項研究涉及機器學(xué)習(xí)、自然語言處理和人工智能等多個領(lǐng)域和學(xué)科,開展這項研究對于推動相關(guān)學(xué)科的發(fā)展具有重要的理論意義。
本書闡述文本數(shù)據(jù)挖掘的理論模型、實現(xiàn)算法和相關(guān)應(yīng)用,通過實例從原理上對相關(guān)技術(shù)的理論方法和實現(xiàn)算法進行闡述,言簡意賅,深入淺出,使讀者能夠在充分理解基本原理的基礎(chǔ)上掌握應(yīng)用系統(tǒng)的實現(xiàn)方法。
本書列入中國科學(xué)院大學(xué)研究生教學(xué)輔導(dǎo)書系列,可作為大學(xué)高年級本科生或研究生從事相關(guān)研究的入門文獻,也可作為從事相關(guān)技術(shù)研發(fā)的開發(fā)人員的參考資料。
隨著互聯(lián)網(wǎng)和移動通信技術(shù)的快速發(fā)展和普及應(yīng)用,文本數(shù)據(jù)挖掘技術(shù)備受關(guān)注,尤其隨著云計算、大數(shù)據(jù)和深度學(xué)習(xí)等一系列新技術(shù)的廣泛使用,文本挖掘技術(shù)已經(jīng)在眾多領(lǐng)域(如輿情分析、醫(yī)療和金融數(shù)據(jù)分析等)發(fā)揮了重要作用,表現(xiàn)出廣闊的應(yīng)用前景。
雖然十多年前我就指導(dǎo)博士生開展文本分類和自動文摘等相關(guān)技術(shù)的研究,但對文本數(shù)據(jù)挖掘的整體概念并沒有一個清晰的認(rèn)識,只是將研究的單項技術(shù)視為自然語言處理的具體應(yīng)用。韓家煒教授主筆的《數(shù)據(jù)挖掘 概念與技術(shù)》和劉兵教授撰寫的Web Data Mining等專著曾讓我大獲裨益,每次聆聽他們的學(xué)術(shù)報告和與他們當(dāng)面交談也都受益匪淺。促使我萌生撰寫這部專著念頭的是中國科學(xué)院大學(xué)讓我開設(shè)的文本數(shù)據(jù)挖掘課程。 2015年底我接受中國科學(xué)院大學(xué)計算機與控制學(xué)院的邀請,開始準(zhǔn)備文本數(shù)據(jù)挖掘課程的內(nèi)容設(shè)計和課件編寫工作,我不得不靜下心來查閱大量的文獻資料,認(rèn)真思考這一術(shù)語所蘊藏的豐富內(nèi)涵和外延,經(jīng)過幾年的學(xué)習(xí)、思考和教學(xué)實踐,文本數(shù)據(jù)挖掘的概念輪廓漸漸清晰起來。
夏睿和張家俊兩位青年才俊的加盟讓我萌生的寫作計劃得以實現(xiàn)。夏睿于 2007年碩士畢業(yè),以優(yōu)異成績考入中科院自動化所跟隨我攻讀博士學(xué)位,從事情感文本分析研究,在情感分析和觀點挖掘領(lǐng)域以第一作者身份在國際一流學(xué)術(shù)期刊和會議上發(fā)表了一系列有影響力的論文,其中兩篇論文入選 ESI高被引論文,攻讀博士學(xué)位期間完成的關(guān)于情感分類特征發(fā)現(xiàn)與集成學(xué)習(xí)的論文被引 400余次。此外,他在文本分類與聚類、主題模型、話題檢測與跟蹤等多個領(lǐng)域都頗有見地。張家俊于 2006年本科畢業(yè)后被免試推薦到中科院自動化所跟隨我攻讀博士學(xué)位,主要從事機器翻譯研究,之后在多語言自動摘要、信息獲取和人機對話等多個研究方向都有出色的表現(xiàn)。自 2016年起他同我一道在中國科學(xué)院大學(xué)講授自然語言處理課程的機器翻譯、自動文摘和文本分類等部分內(nèi)容,頗受學(xué)生的歡迎。仰仗兩位弟子扎實的理論功底和敏銳的科研悟性,很多最新的技術(shù)方法和研究成果能夠得到及時的驗證和實踐,并被收入本書,使我倍感欣慰。
自 2016年初動筆,到此時收官,全書耗時兩年多,當(dāng)然大部分寫作都是在節(jié)假日、周末和其他本該休息的時間里完成的,其間進行了無數(shù)次的修改、補充和調(diào)整,所花費的時間和精力及其感受到的快樂和煩惱難以言表,正所謂痛并快樂著。在寫作過程中和初稿完成之后,得到了很多同行專家的大力支持和幫助,他們是(以姓氏拼音順序排列):韓先培、洪宇、李壽山、劉康、萬小軍、徐康、章成志、趙鑫、周玉。他們分別審閱了部分章節(jié)的內(nèi)容,提出了寶貴的修改意見和建議。另外,部分研究生和博士生也為本
文本數(shù)據(jù)挖掘
書的寫作提供了力所能及的幫助,他們是:白赫、蔡鴻杰、丁子祥、何燴燴、金曉、李俊杰、馬聰、王樂義、向露、鄭士梁、朱軍楠。他們幫助作者收集整理了部分文獻資料,繪制了書中的部分圖表,為作者節(jié)省了寶貴的時間。在此一并向他們表示衷心的感謝!
由衷地感謝韓家煒教授對本書提出的指導(dǎo)性意見和建議!他能夠在百忙之中為本書撰序,是我們的榮幸,不勝感激!本書的撰寫工作得到了中國科學(xué)院大學(xué)教材出版中心的資助和國家自然科學(xué)基金重點項目的資助(項目編號: 61333018)。另外,不得不說的是,由于作者的水平和能力所限,加之時間和精力的不足,書中一定存在疏漏或錯誤,衷心地歡迎讀者給予批評指正!
宗成慶 2018年國慶節(jié)期間
宗成慶,中國科學(xué)院自動化研究所研究員,博士生導(dǎo)師。主要從事自然語言處理、機器翻譯和文本情感分析等相關(guān)研究,主持國家科研項目10余項,發(fā)表論文150余篇,出版專著一部、譯著一部。2013年獲國務(wù)院政府特殊津貼,2014年獲錢偉長中文信息處理科學(xué)技術(shù)獎一等獎(第一獲獎人),現(xiàn)為國際計算語言學(xué)委員會(ICCL)委員,2015年擔(dān)任本領(lǐng)域國際頂級會議ACL-IJCNLP 程序委員會共同主席(PC Co-chair),是多個國際學(xué)術(shù)期刊的編委或副主編(Associate Editor)。
夏睿,南京理工大學(xué)副教授,碩士生導(dǎo)師。主要從事自然語言處理、機器學(xué)習(xí)、情感分析與觀點挖掘等方面的研究工作,在領(lǐng)域頂級期刊和會議上(如IEEE TKDE、IEEE IS、INS、IPM、IJCAI、AAAI、ACL、COLING等)發(fā)表論文20余篇,曾任多個國際頂級會議和研討會(如IJCAI、ACL、SENTIRE、WISDOM、MABSDA)的程序委員會委員和 Session Chair,并擔(dān)任多個國際期刊(如IEEE TKDE、DMKD、IEEE IS、IEEE CIM、ACM TALIP、CogCom、JCST、計算機學(xué)報、自
第 1章緒論 .1
1.1基本概念 1
1.2文本挖掘任務(wù) .2
1.3文本挖掘面臨的困難 .5
1.4方法概述與本書的內(nèi)容組織 .7
1.5進一步閱讀 .9
第 2章數(shù)據(jù)預(yù)處理和標(biāo)注 . 11
2.1數(shù)據(jù)獲取 11
2.2數(shù)據(jù)預(yù)處理 . 15
2.3數(shù)據(jù)標(biāo)注 17
2.4基本工具 19
2.4.1漢語自動分詞與詞性標(biāo)注 19
2.4.2句法分析 . 20
2.4.3 n元語法模型 . 21
2.5進一步閱讀 . 22
第 3章文本表示 . 23
3.1向量空間模型 . 23
3.1.1向量空間模型的基本概念 23
3.1.2特征項的構(gòu)造與權(quán)重 . 24
3.1.3文本長度規(guī)范化 . 25
3.1.4特征工程 . 26
3.1.5其他文本表示方法 27
3.2詞的分布式表示 29
3.2.1神經(jīng)網(wǎng)絡(luò)語言模型 29
3.2.2 C&W模型 . 32
3.2.3 CBOW與 Skip-gram模型 34
3.2.4噪聲對比估計與負(fù)采樣 . 35
3.2.5字詞混合的分布式表示方法 . 37
3.3短語的分布式表示 . 38
3.3.1基于詞袋的分布式表示 . 39
3.3.2基于自動編碼器的分布式表示 . 39
3.4句子的分布式表示 . 42
3.4.1通用的句子表示 . 42
3.4.2任務(wù)相關(guān)的句子表示 . 45
3.5文檔的分布式表示 . 48
3.5.1通用的文檔分布式表示 . 48
3.5.2任務(wù)相關(guān)的文檔分布式表示 . 49
3.6進一步閱讀 . 52
第 4章文本分類 . 53
4.1概述 . 53
4.2傳統(tǒng)文本表示 . 54
4.3特征選擇 55
4.3.1互信息法 . 55
4.3.2信息增益法 58
4.3.3卡方統(tǒng)計量法 . 59
4.3.4其他方法 . 60
4.4傳統(tǒng)分類算法 . 61
4.4.1樸素貝葉斯模型 . 61
4.4.2 Logistic回歸、 Softmax回歸與最大熵模型 . 63
4.4.3支持向量機 65
4.4.4集成學(xué)習(xí) . 67
4.5深度神經(jīng)網(wǎng)絡(luò)方法 . 68
4.5.1多層前饋神經(jīng)網(wǎng)絡(luò) 68
4.5.2卷積神經(jīng)網(wǎng)絡(luò) . 69
4.5.3循環(huán)神經(jīng)網(wǎng)絡(luò) . 71
4.6文本分類性能評估 . 78
4.7進一步閱讀 . 81
第 5章文本聚類 . 83
5.1概述 . 83
5.2文本相似性度量 83
5.2.1樣本間的相似性 . 83
5.2.2簇間的相似性 . 86
目錄 IX
5.2.3樣本與簇之間的相似性 . 87
5.3文本聚類算法 . 87
5.3.1 K-均值聚類 . 87
5.3.2單遍聚類 . 91
5.3.3層次聚類 . 92
5.3.4密度聚類 . 95
5.4性能評估 97
5.4.1外部標(biāo)準(zhǔn) . 97
5.4.2內(nèi)部標(biāo)準(zhǔn) . 99
5.5進一步閱讀 . 99
第 6章主題模型 . 101
6.1概述 . 101
6.2潛在語義分析 . 102
6.2.1奇異值分解 102
6.2.2詞項 -文檔矩陣的奇異值分解 103
6.2.3詞項和文檔的概念表示及相似度計算 . 104
6.3概率潛在語義分析 . 106
6.3.1模型假設(shè) . 106
6.3.2參數(shù)學(xué)習(xí) . 107
6.4潛在狄利克雷分布 . 108
6.4.1模型假設(shè) . 108
6.4.2詞項和主題序列的聯(lián)合概率 . 110
6.4.3模型推斷 . 112
6.4.4新文檔的推斷 . 114
6.4.5 PLSA與 LDA的聯(lián)系與區(qū)別 . 115
6.5進一步閱讀 . 115
第 7章情感分析與觀點挖掘 117
7.1概述 . 117
7.2情感分析任務(wù)類型 . 118
7.2.1按目標(biāo)形式劃分 . 118
7.2.2按分析粒度劃分 . 119
7.3文檔或句子級情感分析方法 . 121
7.3.1基于規(guī)則的無監(jiān)督情感分類 . 122
7.3.2基于傳統(tǒng)機器學(xué)習(xí)的監(jiān)督情感分類 . 123
7.3.3深度神經(jīng)網(wǎng)絡(luò)方法 126
文本數(shù)據(jù)挖掘
7.4詞語級情感分析與情感詞典構(gòu)建 . 131
7.4.1基于語義知識庫的方法 . 131
7.4.2基于語料庫的方法 131
7.4.3情感詞典性能評估 134
7.5屬性級情感分析 134
7.5.1屬性抽取 . 135
7.5.2屬性情感分類 . 138
7.5.3主題與情感的生成式建模 141
7.6情感分析中的特殊問題 143
7.6.1情感極性轉(zhuǎn)移問題 143
7.6.2領(lǐng)域適應(yīng)問題 . 145
7.7進一步閱讀 . 147
第 8章話題檢測與跟蹤 . 149
8.1概述 . 149
8.2術(shù)語與任務(wù) . 151
8.2.1術(shù)語 151
8.2.2任務(wù) 152
8.3報道或話題的表示與相似性計算 . 154
8.4話題檢測 156
8.4.1話題在線檢測 . 157
8.4.2話題回溯檢測 . 158
8.5話題跟蹤 159
8.6評估方法 160
8.7社交媒體話題檢測與跟蹤 . 161
8.7.1社交媒體話題檢測 162
8.7.2社交媒體話題跟蹤 163
8.8突發(fā)話題檢測 . 163
8.8.1突發(fā)狀態(tài)識別 . 164
8.8.2以文檔為中心的方法:先檢測話題后評估突發(fā)性 . 167
8.8.3以特征為中心的方法:先識別突發(fā)特征后生成突發(fā)話題 . 168
8.9進一步閱讀 . 169
第 9章信息抽取 . 171
9.1概述 . 171
9.2命名實體識別 . 173
9.2.1基于規(guī)則的命名實體識別方法 . 174
目錄 XI
9.2.2有監(jiān)督的命名實體識別方法 . 175
9.2.3半監(jiān)督的命名實體識別方法 . 181
9.2.4命名實體識別方法評價 . 183
9.3共指消解 184
9.3.1基于規(guī)則的共指消解方法 185
9.3.2數(shù)據(jù)驅(qū)動的共指消解方法 187
9.3.3共指消解評價 . 190
9.4實體消歧 193
9.4.1基于聚類的實體消歧方法 193
9.4.2基于鏈接的實體消歧 . 197
9.4.3實體消歧任務(wù)的評價方法 203
9.5關(guān)系抽取 204
9.5.1基于離散特征的關(guān)系分類方法 . 206
9.5.2基于分布式特征的關(guān)系分類方法 212
9.5.3基于遠程監(jiān)督的關(guān)系分類方法 . 214
9.5.4關(guān)系分類性能評價 215
9.6事件抽取 215
9.6.1事件描述模板 . 215
9.6.2事件抽取方法 . 217
9.6.3事件抽取評價 . 224
9.7進一步閱讀 . 224
第 10章文本自動摘要 227
10.1概述 . 227
10.2抽取式自動摘要 228
10.2.1句子重要性評估 229
10.2.2基于約束的摘要生成方法 . 237
10.3壓縮式自動摘要方法 238
10.3.1句子壓縮方法 238
10.3.2基于句子壓縮的自動摘要方法 242
10.4生成式自動摘要 244
10.4.1基于信息融合的生成式摘要方法 . 244
10.4.2基于編碼 -解碼的生成式摘要方法 249
10.5基于查詢的自動摘要 251
10.5.1基于語言模型的相關(guān)性計算方法 . 251
10.5.2基于關(guān)鍵詞語重合度的相關(guān)性計算方法 . 252
10.5.3基于圖模型的相關(guān)性計算方法 252
10.6跨語言和多語言自動摘要方法 253
10.6.1跨語言自動摘要 253
10.6.2多語言自動摘要 256
10.7摘要質(zhì)量評估方法和相關(guān)評測 258
10.7.1摘要質(zhì)量評估方法 . 258
10.7.2相關(guān)評測活動 262
10.8進一步閱讀 . 263
參考文獻 . 265
名詞術(shù)語索引 . 285