本書呈現(xiàn)了文本挖掘領(lǐng)域先進(jìn)的算法,同時(shí)從學(xué)術(shù)界和產(chǎn)業(yè)界的角度介紹了文本挖掘。本
書涉及的業(yè)界學(xué)者跨越多個(gè)國家,來自多個(gè)機(jī)構(gòu): 大學(xué)、企業(yè)和政府實(shí)驗(yàn)室。本書介紹了文本挖掘在多個(gè)領(lǐng)域中的自動(dòng)文本分析和挖掘計(jì)算模型,這些領(lǐng)域包括: 機(jī)器學(xué)習(xí)、知識發(fā)現(xiàn)、自然語言處理和信息檢索等。
本書適合作為人工智能、機(jī)器學(xué)習(xí)和自然語言處理等領(lǐng)域相關(guān)人員的教科書和參考書。同
時(shí),也適合研究人員和從業(yè)人員閱讀。
目 錄
譯者序
原書序
第1 章 獨(dú)立文檔的關(guān)鍵詞的自動(dòng)提取 1
1. 1 簡介 1
1. 1. 1 關(guān)鍵詞提取方法 1
1. 2 快速自動(dòng)關(guān)鍵詞提取 3
1. 2. 1 候選關(guān)鍵詞 3
1. 2. 2 關(guān)鍵詞得分 4
1. 2. 3 鄰接關(guān)鍵詞 5
1. 2. 4 提取關(guān)鍵詞 5
1. 3 基準(zhǔn)評估 6
1. 3. 1 準(zhǔn)確率和召回率評估 6
1. 3. 2 效率評估 7
1. 4 停用詞列表生成 9
1. 5 新聞消息的評估 12
1. 5. 1 MPQA 語料庫 12
1. 5. 2 從新聞消息中提取關(guān)鍵詞 12
1. 6 總結(jié) 15
參考文獻(xiàn) 16
第2 章 利用數(shù)學(xué)方法進(jìn)行多語言文檔聚類 17
2. 1 簡介 17
2. 2 背景 17
2. 3 實(shí)驗(yàn)設(shè)置 18
2. 4 多語言LSA 20
2. 5 Tucker1 方法 21
2. 6 PARAFAC2 方法 23
2. 7 詞對齊的LSA 24
2. 8 潛在形態(tài)語義分析(LMSA) 26
2. 9 詞對齊的LMSA 27
2. 10 對技術(shù)和結(jié)果的討論 27
參考文獻(xiàn) 29
第3 章 使用機(jī)器學(xué)習(xí)算法對基于內(nèi)容的垃圾郵件進(jìn)行分類 31
3. 1 簡介 31
3. 2 機(jī)器學(xué)習(xí)算法 32
3. 2. 1 樸素貝葉斯 33
3. 2. 2 LogitBoost 33
3. 2. 3 支持向量機(jī) 34
3. 2. 4 增廣的潛在語義索引空間 35
3. 2. 5 徑向基函數(shù)網(wǎng)絡(luò) 36
3. 3 數(shù)據(jù)預(yù)處理 37
3. 3. 1 特征選擇 37
3. 3. 2 信息表示 39
3. 4 郵件分類的評估 39
3. 5 實(shí)驗(yàn) 40
3. 5. 1 使用PU1 的實(shí)驗(yàn) 40
3. 5. 2 使用ZH1 的實(shí)驗(yàn) 42
3. 6 分類器特點(diǎn) 43
3. 7 結(jié)束語 45
參考文獻(xiàn) 45
第4 章 利用非負(fù)矩陣分解研究郵件分類問題 47
4. 1 簡介 47
4. 1. 1 相關(guān)工作 48
4. 1. 2 概要 49
4. 2 研究背景 49
4. 2. 1 非負(fù)矩陣分解 49
4. 2. 2 計(jì)算NMF 的算法 50
4. 2. 3 數(shù)據(jù)集 52
4. 2. 4 解釋 52
4. 3 基于特征排序的NMF 初始化 54
4. 3. 1 特征子集選擇 54
4. 3. 2 FS 初始化 55
4. 4 基于NMF 的分類方法 57
4. 4. 1 使用基礎(chǔ)特征分類 58
4. 4. 2 基于NMF 的一般化LSI 59
4. 5 結(jié)束語 65
參考文獻(xiàn) 66
第5 章 使用k ̄均值算法進(jìn)行約束聚類 68
5. 1 簡介 68
5. 2 表示法和古典k ̄均值算法 69
5. 3 具有布萊格曼散度的k ̄均值約束聚類算法 70
5. 3. 1 具有“不能鏈接” 約束關(guān)系的二次k ̄均值聚類 70
5. 3. 2 “必須鏈接” 約束關(guān)系的移除 73
5. 3. 3 使用布萊格曼散度進(jìn)行聚類 75
5. 4 smoka 類型約束聚類 77
5. 5 球形k ̄均值約束聚類 79
5. 5. 1 僅有“不能鏈接” 約束關(guān)系的球形k ̄均值聚類算法 80
5. 5. 2 具有