話題識(shí)別與追蹤作為一項(xiàng)旨在幫助人們應(yīng)對(duì)信息過載問題的研究,現(xiàn)階段主要以網(wǎng)絡(luò)新媒體中的信息流為處理對(duì)象,自動(dòng)發(fā)現(xiàn)話題并把話題相關(guān)的內(nèi)容聯(lián)系在一起,其實(shí)現(xiàn)過程涉及5個(gè)子任務(wù),分別是報(bào)道切分、首報(bào)道檢測(cè)、關(guān)聯(lián)檢測(cè)、話題追蹤和話題檢測(cè)。話題識(shí)別與追蹤技術(shù)可用來監(jiān)控各種語言信息源,在新話題出現(xiàn)時(shí)發(fā)出警告。在早期研究中,考慮到話題識(shí)別與追蹤和信息檢索的共性,研究者們嘗試將信息檢索領(lǐng)域的相關(guān)技術(shù)應(yīng)用于該領(lǐng)域。但二者之間亦存在不同,例如信息檢索一般具備背景知識(shí)和先驗(yàn)需求,而話題識(shí)別與追蹤是在對(duì)話題毫無了解的情況下進(jìn)行識(shí)別與追蹤,所以完全將信息檢索技術(shù)移植到話題識(shí)別與追蹤是不合理的,但是二者的本源性——模型構(gòu)建基本相通。
針對(duì)話題模型的前瞻性研究來自Allan等,他們借用信息檢索領(lǐng)域廣泛采納的向量空間模型描述話題的特征空間。雖然向量空間模型是目前常用的話題模型之一,但該模型的缺點(diǎn)是不能很好地融合靜態(tài)話題模型和動(dòng)態(tài)話題模型的優(yōu)點(diǎn)從而成功解決二者孰優(yōu)孰劣的問題,且在解決話題漂移問題時(shí)能力有限。信息檢索領(lǐng)域主要包括三個(gè)模型:布爾模型、向量空間模型和概率模型。向量空間模型在話題識(shí)別與追蹤領(lǐng)域中的成功應(yīng)用,從理論上驗(yàn)證了概率模型亦可應(yīng)用于話題識(shí)別與追蹤。貝葉斯網(wǎng)絡(luò)模型是重要的概率模型之一,包括推理網(wǎng)絡(luò)模型、信念網(wǎng)絡(luò)模型和BNR模型。在過去幾十年,貝葉斯網(wǎng)絡(luò)模型已成功應(yīng)用于信息檢索領(lǐng)域,但目前尚未有人將其應(yīng)用于話題識(shí)別與追蹤,本書在這方面做了相關(guān)研究,試圖為該領(lǐng)域提出新的研究方法。
本書結(jié)合信念網(wǎng)絡(luò)模型和新聞報(bào)道的特點(diǎn),給出四個(gè)基于信念網(wǎng)絡(luò)的話題模型BSTM-I、BSTM-II、BDTM-I和BDTM-II。BSTM-I包括三類節(jié)點(diǎn):新報(bào)道節(jié)點(diǎn)、術(shù)語節(jié)點(diǎn)和話題節(jié)點(diǎn),弧體現(xiàn)節(jié)點(diǎn)間的隸屬關(guān)系。BSTM-II在BSTM-I的基礎(chǔ)上加入事件節(jié)點(diǎn),弧的指向和意義不變,為體現(xiàn)核心報(bào)道、核心事件的重要性,BSTM-II對(duì)核心報(bào)道、核心事件中的術(shù)語權(quán)重進(jìn)行了兩次線性提高調(diào)整。BDTM-I屬于動(dòng)態(tài)話題模型,節(jié)點(diǎn)類型和弧的意義與上述模型相同,不同的是在話題追蹤過程中,其術(shù)語層會(huì)隨著話題的發(fā)展而不斷更新,重復(fù)出現(xiàn)的術(shù)語權(quán)重采用求和平均的方法更新,新出現(xiàn)的術(shù)語作為新的節(jié)點(diǎn)插入術(shù)語層。以上三個(gè)話題模型沿用傳統(tǒng)建模思想,具備和以往模型相同的優(yōu)缺點(diǎn)。BDTM-II打破傳統(tǒng)建模的思想,運(yùn)用信念網(wǎng)絡(luò)模型提供了一個(gè)靈活框架的優(yōu)勢(shì),將術(shù)語節(jié)點(diǎn)分為兩類:初始核心術(shù)語節(jié)點(diǎn)和更新術(shù)語節(jié)點(diǎn),并采用析取手段將它們作為兩類證據(jù)進(jìn)行歸并。依據(jù)模型的拓?fù)浣Y(jié)構(gòu)、貝葉斯概率及條件獨(dú)立性假設(shè),本書給出了上述四個(gè)模型計(jì)算新聞報(bào)道和話題相似度的概率推導(dǎo)過程,用于判斷新的新聞報(bào)道是否和話題相關(guān)。
為進(jìn)一步提高話題識(shí)別與追蹤系統(tǒng)的綜合性能,本書進(jìn)行了系統(tǒng)的優(yōu)化研究。特征選擇是話題模型構(gòu)建的基礎(chǔ),互信息是文本處理領(lǐng)域一種有效的特征選擇方法。在基本互信息的基礎(chǔ)上,將出現(xiàn)相同高頻詞的新聞報(bào)道進(jìn)行聚類,計(jì)算聚類后術(shù)語的互信息,將追蹤到的相關(guān)報(bào)道的發(fā)生時(shí)間和話題的發(fā)生時(shí)間量化為時(shí)間距離,使其反比影響互信息的動(dòng)態(tài)更新,得到基于聚類的動(dòng)態(tài)互信息計(jì)算方法,用于計(jì)算新聞報(bào)道中術(shù)語的權(quán)重。為了獲得TDT4語料中每個(gè)話題的初始特征子集規(guī)模,給出基于類內(nèi)距離最小、類間距離最大的目標(biāo)函數(shù),并采用坐標(biāo)下降法對(duì)其求解,最終完成新聞?wù)Z料的特征選擇。
動(dòng)態(tài)話題模型的典型缺點(diǎn)是誤報(bào)率較高,優(yōu)點(diǎn)是其可以體現(xiàn)話題的動(dòng)態(tài)演化過程。如果能在保持動(dòng)態(tài)話題模型優(yōu)點(diǎn)的同時(shí),降低其誤報(bào)率,將是該領(lǐng)域的一個(gè)新的突破點(diǎn)。本書通過系統(tǒng)分析動(dòng)態(tài)話題追蹤的誤報(bào)原因,提出動(dòng)態(tài)話題追蹤中的誤報(bào)檢測(cè)。該方法首先分析時(shí)間距離、相似度差值、相似話題分布及與核心內(nèi)容相似度分別如何影響誤報(bào)檢測(cè),然后通過將這四項(xiàng)內(nèi)容線性調(diào)和得到誤報(bào)檢測(cè)因子的計(jì)算方法,用于判斷追蹤到的相關(guān)報(bào)道是否屬于誤報(bào),若屬于誤報(bào),則對(duì)部分特征權(quán)重進(jìn)行衰減,并確定模型結(jié)構(gòu)是否需要調(diào)整。實(shí)驗(yàn)采用TDT4語料,結(jié)合DET曲線驗(yàn)證以上研究?jī)?nèi)容的合理性和有效性。
專著的出版受到如下項(xiàng)目經(jīng)費(fèi)支持:河北大學(xué)雙一流專項(xiàng)資金項(xiàng)目、河北大學(xué)中西部提升綜合實(shí)力專項(xiàng)資金項(xiàng)目、河北省教育廳青年基金項(xiàng)目“話題特征選擇方法研究(QN2015099)”、河北省自然科學(xué)基金項(xiàng)目“基于貝葉斯網(wǎng)絡(luò)的話題識(shí)別與追蹤方法研究(F2015201142)”、河北省社會(huì)科學(xué)基金項(xiàng)目“京津冀協(xié)同發(fā)展網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)及其應(yīng)用研究(HB15SH064)”。
感謝我的博士生導(dǎo)師徐建民先生,是他最初幫我選定了這個(gè)研究方向,并在研究工作中對(duì)我做出了悉心的指導(dǎo);感謝本書第二作者中央司法警官學(xué)院朱杰博士;感謝我的領(lǐng)導(dǎo)及同事楊會(huì)良教授、宛玲教授、楊秀丹教授、郭子雪教授,他們給我提供了進(jìn)行科研的條件及工作支持;感謝我的師弟王丹青、張猛、武曉波、粟武林、李騰飛,師妹劉暢、孫曉磊等,他們幫我搜集了部分材料并協(xié)助我完成了大量的實(shí)驗(yàn)。
由于本人水平所限,所做研究尚有不足,歡迎相關(guān)研究者批評(píng)指正。
收起全部↑