王蘭成編著的《網(wǎng)絡(luò)輿情分析技術(shù)(精)》以國(guó)家社科基金專(zhuān)項(xiàng)課題和全軍專(zhuān)項(xiàng)研究生課題的研究成果為背景,對(duì)互聯(lián)網(wǎng)主題輿情分析的理論、方法、技術(shù)和實(shí)現(xiàn)進(jìn)行研究。將國(guó)內(nèi)外領(lǐng)先的知識(shí)技術(shù)運(yùn)用于網(wǎng)絡(luò)輿情的采集和網(wǎng)絡(luò)輿情的分析過(guò)程,拋磚引玉促進(jìn)我國(guó)在網(wǎng)絡(luò)輿情采集、處理和服務(wù)方法與技術(shù)領(lǐng)域的深入研究,推動(dòng)軍內(nèi)外網(wǎng)絡(luò)輿情信息系統(tǒng)中新技術(shù)的研究和應(yīng)用創(chuàng)新。在網(wǎng)絡(luò)輿情智能采集方面,本書(shū)的主要工作是:研究網(wǎng)絡(luò)輿情情報(bào)規(guī)劃與獲取,研究主題網(wǎng)絡(luò)輿情的語(yǔ)義特征抽取,研究輿情網(wǎng)頁(yè)內(nèi)容相關(guān)性的判定,研究輿情網(wǎng)頁(yè)鏈接相關(guān)性的判定等。在網(wǎng)絡(luò)輿情智能處理方面,本書(shū)的主要工作是:研究主題網(wǎng)絡(luò)輿情的本體構(gòu)建,研究語(yǔ)義層的輿情信息聚類(lèi)和分類(lèi)方法,研究基于情感本體的網(wǎng)絡(luò)輿情傾向性分析等。在網(wǎng)絡(luò)輿情智能服務(wù)方面,本書(shū)的主要工作是:研究輿情事件網(wǎng)頁(yè)內(nèi)容的詞匯關(guān)聯(lián)分析,研究基于網(wǎng)絡(luò)論壇的輿情話(huà)題追蹤方法和技術(shù),研究網(wǎng)絡(luò)輿情檢索系統(tǒng)中的查詢(xún)主題分類(lèi)技術(shù)等。
第1章 導(dǎo)論
1.1 互聯(lián)網(wǎng)輿情信息
1.2 網(wǎng)絡(luò)輿情采集
1.3 網(wǎng)絡(luò)輿情處理
1.4 網(wǎng)絡(luò)輿情服務(wù)
1.5 內(nèi)容概覽
第2章 網(wǎng)絡(luò)輿情的分析
2.1 網(wǎng)絡(luò)輿情的信息采集
2.1.1 網(wǎng)絡(luò)輿情的采集方法
2.1.2 搜索引擎的研究進(jìn)展
2.1.3 網(wǎng)絡(luò)信息的分類(lèi)及其抽取
2.2 輿情話(huà)題的搜索技術(shù)
2.2.1 話(huà)題搜索的基本原理
2.2.2 話(huà)題搜索的若干技術(shù)
2.2.3 主題爬行的實(shí)現(xiàn) 第1章 導(dǎo)論
1.1 互聯(lián)網(wǎng)輿情信息
1.2 網(wǎng)絡(luò)輿情采集
1.3 網(wǎng)絡(luò)輿情處理
1.4 網(wǎng)絡(luò)輿情服務(wù)
1.5 內(nèi)容概覽
第2章 網(wǎng)絡(luò)輿情的分析
2.1 網(wǎng)絡(luò)輿情的信息采集
2.1.1 網(wǎng)絡(luò)輿情的采集方法
2.1.2 搜索引擎的研究進(jìn)展
2.1.3 網(wǎng)絡(luò)信息的分類(lèi)及其抽取
2.2 輿情話(huà)題的搜索技術(shù)
2.2.1 話(huà)題搜索的基本原理
2.2.2 話(huà)題搜索的若干技術(shù)
2.2.3 主題爬行的實(shí)現(xiàn)
2.2.4 國(guó)內(nèi)外輿情采集的研究成果
2.3 網(wǎng)絡(luò)輿情的信息處理
2.3.1 網(wǎng)絡(luò)輿情的處理方法
2.3.2 網(wǎng)絡(luò)輿情的信息內(nèi)容分析
2.4 網(wǎng)絡(luò)輿情的內(nèi)容分析與服務(wù)
2.4.1 知識(shí)技術(shù)及其應(yīng)用
2.4.2 主題輿情內(nèi)容分析框架
2.4.3 國(guó)內(nèi)外輿情分析的研究成果
2.5 基于社交網(wǎng)絡(luò)的輿情傳播動(dòng)力學(xué)性質(zhì)
2.5.1 輿情演化模型及評(píng)析
2.5.2 社交網(wǎng)絡(luò)特性與輿情傳播控制策略
2.6 本章小結(jié)
第3章 基于主題爬行的網(wǎng)絡(luò)輿情信息抽取和整理
3.1 輿情網(wǎng)頁(yè)的結(jié)構(gòu)特征與分塊處理
3.1.1 話(huà)題標(biāo)記和頁(yè)分塊
3.1.2 基于DOM樹(shù)的內(nèi)容分塊
3.1.3 基于板塊位置的布局分塊
3.1.4 基于視覺(jué)特征的結(jié)構(gòu)分塊
3.2 基于主題爬行的輿情網(wǎng)頁(yè)分塊
3.2.1 網(wǎng)頁(yè)分塊的典型應(yīng)用
3.2.2 網(wǎng)頁(yè)的預(yù)處理
3.2.3 網(wǎng)頁(yè)分塊的特征提取及其算法
3.2.4 輿情內(nèi)容塊的整合
3.3 主題網(wǎng)絡(luò)輿情的語(yǔ)義特征抽取
3.3.1 網(wǎng)絡(luò)輿情語(yǔ)義的特征
3.3.2 基于N—Gram的特征抽取及其改進(jìn)算法
3.3.3 基于DOM樹(shù)分塊的特征項(xiàng)權(quán)重計(jì)算
3.4 網(wǎng)絡(luò)輿情的情報(bào)獲取與整合
3.4.1 網(wǎng)絡(luò)輿情的情報(bào)價(jià)值與情報(bào)支援
3.4.2 網(wǎng)絡(luò)輿情情報(bào)支援系統(tǒng)
3.5 本章小結(jié)
第4章 輿情網(wǎng)頁(yè)與話(huà)題相關(guān)性的判定分析
4.1 內(nèi)容相關(guān)性的判定方法
4.1.1 元數(shù)據(jù)方法
4.1.2 鏈接標(biāo)簽數(shù)據(jù)方法
4.1.3 鏈接結(jié)構(gòu)分析方法
4.1.4 頁(yè)面語(yǔ)義信息方法
4.2 鏈接相關(guān)性的判定方法
4.2.1 鏈接錨文本標(biāo)記及其信息提取
4.2.2 基于分塊的主題鏈接上下文信息提取
4.2.3 基于鏈接標(biāo)記和錨文本的主題判定算法
4.2.4 基于語(yǔ)義相似度計(jì)算的鏈接判定
4.3 輿情網(wǎng)頁(yè)內(nèi)容相關(guān)性的分析
4.3.1 主題特征的選擇
4.3.2 待識(shí)別網(wǎng)頁(yè)模型的建立
4.3.3 話(huà)題文本識(shí)別算法的選擇
4.4 輿情網(wǎng)頁(yè)鏈接相關(guān)性的分析
4.4.1 Web超鏈接的若干分析
4.4.2 基于信息鏈接關(guān)系的分析算法
4.4.3 增加主題分析的PageRank改進(jìn)算法
4.5 本章小結(jié)
第5章 基于本體的網(wǎng)絡(luò)輿情分析
5.1 本體理論概述
5.1.1 本體概念與分類(lèi)
5.1.2 面向輿情分析的本體作用
5.1.3 通用本體構(gòu)建的幾種方法
5.2 基于本體的主題網(wǎng)絡(luò)輿情知識(shí)模型
5.2.1 輿情的本體知識(shí)源
5.2.2 本體的主題輿情構(gòu)建策略
5.2.3 知識(shí)模型中的本體庫(kù)架構(gòu)
5.3 主題網(wǎng)絡(luò)輿情SIPO本體的實(shí)現(xiàn)方案
5.3.1 本體構(gòu)建的規(guī)則
5.3.2 SIPO本體的實(shí)現(xiàn)步驟
5.3.3 一個(gè)輿情事件的本體實(shí)例
5.4 本章小結(jié)
第6章 基于SIPO的網(wǎng)絡(luò)輿情信息聚類(lèi)和分類(lèi)
6.1 語(yǔ)義特征抽取轉(zhuǎn)換
6.1.1 語(yǔ)義轉(zhuǎn)換及概念特征生成
6.1.2 概念映射匹配算法分析
6.2 網(wǎng)絡(luò)輿情信息的聚類(lèi)與分類(lèi)
6.2.1 Web文本信息的聚分類(lèi)
6.2.2 利用SIPO本體的聚分類(lèi)
6.2.3 SIPO的語(yǔ)義聚分類(lèi)分析
6.3 基于SIPO本體的語(yǔ)義相似度計(jì)算
6.3.1 SIPO概念語(yǔ)義相似度
6.3.2 增加語(yǔ)義特征的文本相似度計(jì)算
6.4 基于語(yǔ)義的主題網(wǎng)絡(luò)輿情信息聚類(lèi)
6.4.1 輿情信息聚類(lèi)流程分析
6.4.2 基于語(yǔ)義相似計(jì)算模型的凝聚層次聚類(lèi)算法
6.5 基于語(yǔ)義的主題網(wǎng)絡(luò)輿情信息分類(lèi)
6.5.1 輿情信息分類(lèi)流程分析
6.5.2 基于語(yǔ)義相似計(jì)算模型的KNN分類(lèi)算法
6.6 本章小結(jié)
第7章 網(wǎng)絡(luò)輿情采集與處理的功能實(shí)現(xiàn)及其評(píng)測(cè)
7.1 SIPO原型系統(tǒng)的功能框架
7.2 開(kāi)發(fā)工具和平臺(tái)概述
7.3 輿情采集實(shí)驗(yàn)與結(jié)果分析
7.3.1 實(shí)驗(yàn)數(shù)據(jù)選取和測(cè)試指標(biāo)
7.3.2 URL與主題相關(guān)性判定算法測(cè)試
7.3.3 輿情采集應(yīng)用分塊方法的效果測(cè)試
7.4 輿情信息聚類(lèi)實(shí)驗(yàn)與結(jié)果分析
7.4.1 實(shí)驗(yàn)數(shù)據(jù)選取和測(cè)試指標(biāo)
7.4.2 基于語(yǔ)義的聚類(lèi)分析實(shí)驗(yàn)方法
7.4.3 實(shí)驗(yàn)結(jié)果及分析
7.5 輿情信息分類(lèi)實(shí)驗(yàn)與結(jié)果分析
7.5.1 基于語(yǔ)義的輿情分類(lèi)實(shí)驗(yàn)方法
7.5.2 實(shí)驗(yàn)結(jié)果及分析
第8章 基于情感本體的網(wǎng)絡(luò)輿情傾向性分析
8.1 網(wǎng)絡(luò)輿情的傾向性分析
8.2 網(wǎng)絡(luò)輿情傾向性識(shí)別方法及比較
8.2.1 基于文本分類(lèi)的傾向性識(shí)別
8.2.2 基于語(yǔ)義規(guī)則的傾向性識(shí)別
8.2.3 基于情感詞的傾向性識(shí)別
8.3 情感本體的構(gòu)建方法
8.3.1 HowNet和領(lǐng)域語(yǔ)料的情感概念選擇
8.3.2 整合多情感概念的情感本體構(gòu)建
8.3.3 基于H0wNet和領(lǐng)域語(yǔ)料庫(kù)的本體話(huà)題構(gòu)建
8.4 基于J隋感本體的主題輿情傾向性分析
8.4.1 特征詞情感傾向度計(jì)算
8.4.2 增加程度級(jí)別的特征詞權(quán)重計(jì)算
8.4.3 基于情感本體的傾向性分析過(guò)程
8.5 網(wǎng)絡(luò)輿情傾向性分析實(shí)驗(yàn)與結(jié)果分析
8.5.1 實(shí)驗(yàn)方法
8.5.2 實(shí)驗(yàn)結(jié)果及分析
8.6 本章小結(jié)
第9章 面向知識(shí)挖掘的網(wǎng)絡(luò)輿情信息服務(wù)
9.1 基于網(wǎng)絡(luò)論壇的輿情話(huà)題追蹤
9.1.1 話(huà)題追蹤的方法與分析
9.1.2 基于文本圖的話(huà)題追蹤模型
9.1.3 文本概念圖的生成與關(guān)鍵詞識(shí)別
9.1.4 語(yǔ)義相關(guān)度的計(jì)算及追蹤話(huà)題的更新
9.1.5 輿情話(huà)題追蹤實(shí)驗(yàn)與結(jié)果分析
9.2 網(wǎng)絡(luò)輿情檢索系統(tǒng)中的查詢(xún)主題分類(lèi)
9.2.1 查詢(xún)分類(lèi)的方法與分析
9.2.2 基于語(yǔ)義知識(shí)的查詢(xún)分類(lèi)模型
9.2.3 文檔目錄圖上的查詢(xún)?cè)~擴(kuò)展
9.2.4 目錄圖上的查詢(xún)分類(lèi)識(shí)別
9.2.5 查詢(xún)主題分類(lèi)實(shí)驗(yàn)與結(jié)果分析
9.3 輿情事件網(wǎng)頁(yè)內(nèi)容的詞匯關(guān)聯(lián)分析
9.3.1 基于詞跨度的事件內(nèi)容關(guān)鍵詞獲取
9.3.2 基于共現(xiàn)次數(shù)統(tǒng)計(jì)的詞匯關(guān)聯(lián)分析
9.3.3 網(wǎng)絡(luò)輿情事件的詞匯關(guān)聯(lián)實(shí)驗(yàn)與結(jié)果分析
9.4 本章小結(jié)
參考文獻(xiàn)
后記
1)網(wǎng)頁(yè)鏈接預(yù)測(cè)
網(wǎng)頁(yè)中的鏈接是網(wǎng)絡(luò)爬蟲(chóng)持續(xù)工作的前提,然而網(wǎng)頁(yè)中既包含了主題相關(guān)的鏈接,也包含了大量與主題無(wú)關(guān)的鏈接,面向主題的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)需要對(duì)即將要下載的鏈接進(jìn)行預(yù)測(cè),以免下載到與主題無(wú)關(guān)的網(wǎng)頁(yè)。網(wǎng)頁(yè)鏈接預(yù)測(cè)就是判斷當(dāng)前已經(jīng)下載的網(wǎng)頁(yè)中的鏈接所指向的網(wǎng)頁(yè)是否與需要的主題相關(guān),這是主題爬行系統(tǒng)的關(guān)鍵所在,任何一個(gè)主題爬行系統(tǒng)都要求盡可能爬行到和主題相關(guān)的網(wǎng)頁(yè),這樣在一定程度上可以避免出現(xiàn)主題漂移現(xiàn)象,也可以以最小的帶寬資源獲得最多的主題相關(guān)網(wǎng)頁(yè)。近年來(lái),國(guó)內(nèi)外研究者們所做的工作大致歸為兩類(lèi):一類(lèi)是對(duì)整個(gè)頁(yè)面進(jìn)行綜合評(píng)價(jià),但是現(xiàn)在的網(wǎng)頁(yè)很多都是多主題的,也就是說(shuō)在一個(gè)網(wǎng)頁(yè)內(nèi)并存幾個(gè)主題,或者雖然有個(gè)比較主要的主題但是其他主題的內(nèi)容也很多。面對(duì)這樣的網(wǎng)頁(yè),頁(yè)面中的每個(gè)鏈接被賦予相同的權(quán)重,勢(shì)必會(huì)有大量的不相關(guān)的鏈接被提取出來(lái),甚至很可能造成下文所述的“隧道”問(wèn)題。第二類(lèi)是基于鏈接的判斷,即網(wǎng)頁(yè)中的每一個(gè)鏈接依據(jù)它附近的文本賦予不同的權(quán)重,有些甚至還考慮了鏈接所在各級(jí)標(biāo)題,但標(biāo)題的加入有時(shí)候反而會(huì)使得主題變模糊,基于鏈接的判斷最大的問(wèn)題是因?yàn)樗〉男畔⒘科,可能有大量的相關(guān)鏈接不能夠被提取出來(lái)。
網(wǎng)頁(yè)分塊技術(shù)能把網(wǎng)頁(yè)分成不同的內(nèi)容塊,每一個(gè)內(nèi)容塊賦予不同的權(quán)重,超過(guò)一定閾值的內(nèi)容塊可以認(rèn)為是和主題相關(guān)的。與主題相關(guān)的內(nèi)容塊里面的鏈接就假設(shè)都是和爬行主題相關(guān)的,把這些塊中的鏈接放到爬行池等待下一步爬行,而把那些和主題不相關(guān)的塊去掉,不爬行里面的鏈接。這種方法能更好地預(yù)測(cè)網(wǎng)頁(yè),既避免了針對(duì)整個(gè)網(wǎng)頁(yè)進(jìn)行評(píng)價(jià)的粒度過(guò)粗,又避免了基于鏈接判斷方法的粒度過(guò)細(xì),很大程度上能保證爬行下來(lái)的網(wǎng)頁(yè)是和主題相關(guān)的。
2)多主題和隧道問(wèn)題
隨著網(wǎng)頁(yè)制作技術(shù)和網(wǎng)站商業(yè)化進(jìn)程的推進(jìn),當(dāng)今網(wǎng)頁(yè)中的內(nèi)容和傳統(tǒng)的文本相比有更多的表示形式,網(wǎng)頁(yè)中的主題也不再單一。網(wǎng)頁(yè)中有用戶(hù)需要的主題內(nèi)容,有與主題內(nèi)容相關(guān)聯(lián)的其他主題鏈接,還有很多信息只是為了方便瀏覽,如導(dǎo)航條、廣告、版權(quán)信息等。網(wǎng)頁(yè)中包含的多主題對(duì)于用戶(hù)來(lái)說(shuō)并不是什么問(wèn)題,因?yàn)橛脩?hù)可以快速地識(shí)別出哪些是自己需要的主題信息,哪些是無(wú)關(guān)緊要的主題信息。然而這種多主題的網(wǎng)頁(yè)卻對(duì)網(wǎng)絡(luò)爬蟲(chóng)產(chǎn)生了巨大的干擾,讓機(jī)器去識(shí)別對(duì)用戶(hù)有用的主題信息則困難較大。在web中還存在著一種現(xiàn)象,就是從當(dāng)前已經(jīng)得到的頁(yè)面到目標(biāo)網(wǎng)頁(yè)有時(shí)往往需要經(jīng)過(guò)幾個(gè)不相關(guān)網(wǎng)頁(yè)才能夠達(dá)到,但是這幾個(gè)網(wǎng)頁(yè)之間都有著鏈接的聯(lián)系。這些無(wú)關(guān)的鏈接就像長(zhǎng)長(zhǎng)的隧道一樣連接著兩個(gè)主題相關(guān)頁(yè)面,因此,這種現(xiàn)象被稱(chēng)為“隧道現(xiàn)象”。
……