面向應(yīng)用的長(zhǎng)名詞短語(yǔ)研究
漢語(yǔ)自動(dòng)句法分析的難點(diǎn)問(wèn)題
第二節(jié)多視域下的長(zhǎng)名詞短語(yǔ)研究
第三節(jié)長(zhǎng)名詞短語(yǔ)研究的方法與資源
第四節(jié)本書(shū)的主要內(nèi)容與
第二章 名詞短語(yǔ)識(shí)別的相關(guān)研究綜述
節(jié) 名詞短語(yǔ)研究
第二節(jié)組塊分析研究
第三節(jié)搭配獲取研究
第三章理論基礎(chǔ)與長(zhǎng)名詞短語(yǔ)的界定
節(jié)漢語(yǔ)短語(yǔ)的分類(lèi)框架
第二節(jié)語(yǔ)言組塊理論
第三節(jié)長(zhǎng)名詞短語(yǔ)的界定
第四章長(zhǎng)名詞短語(yǔ)的分布調(diào)查與分析
節(jié)長(zhǎng)名詞短語(yǔ)的抽取
第二節(jié)能與外部鄰接
第三節(jié)句法結(jié)構(gòu)與內(nèi)部構(gòu)成
第四節(jié)復(fù)雜性與MNP構(gòu)造
第五節(jié)識(shí)別策略的確定
第五章 表層長(zhǎng)名詞短語(yǔ)的識(shí)別.
節(jié)統(tǒng)計(jì)機(jī)器學(xué)及其選用
第二節(jié) 基于基本名詞短語(yǔ)歸約的識(shí)別
第三節(jié) 基于分類(lèi)器集成的識(shí)別·
第六章 內(nèi)層長(zhǎng)名詞短語(yǔ)的識(shí)別·
節(jié) 層級(jí)構(gòu)造
第二節(jié) 識(shí)別難點(diǎn)分析·
第三節(jié) 識(shí)別策略的確定
第四節(jié) 多層級(jí)的iMNP識(shí)別
第五節(jié)基于規(guī)則的修正·
第七章 長(zhǎng)名詞短語(yǔ)識(shí)別工作的反思與展望
節(jié)研究工作的反思
第二節(jié)一步的研究計(jì)劃
參考文獻(xiàn)
附錄
附錄1清華漢語(yǔ)樹(shù)庫(kù)(TCT)詞類(lèi)標(biāo)記集
附錄2清華漢語(yǔ)樹(shù)庫(kù)(TCT)能標(biāo)記集
附錄3清華漢語(yǔ)樹(shù)庫(kù)(TCT)句法結(jié)構(gòu)標(biāo)記集
附錄4 CRF特征模板·
附錄5動(dòng)詞配價(jià)詞典示例
附錄6基本名詞短語(yǔ)提升規(guī)則
面向應(yīng)用的長(zhǎng)名詞短語(yǔ)研究
漢語(yǔ)自動(dòng)句法分析的難點(diǎn)問(wèn)題
自動(dòng)句法分析是中文信息處理領(lǐng)域諸多應(yīng)用技術(shù)的基礎(chǔ),如機(jī)器翻譯、人機(jī)對(duì)話系統(tǒng)等。但句法分析技術(shù)在處理大規(guī)模真實(shí)語(yǔ)料時(shí)遇到了較大的困難。按照PARSE-VAL評(píng)測(cè)體系,目前英語(yǔ)
句法分析的F值可達(dá)90%以上,漢語(yǔ)則徘徊在80%左右(李帥克等,22)。這一體系基于短行評(píng)價(jià),若按照句子的完整結(jié)構(gòu)和關(guān)行評(píng)價(jià),則又要低很多?梢哉f(shuō),在今天詞法分析已經(jīng)能夠基本達(dá)到應(yīng)用要求的情況下,句法分析技術(shù)已經(jīng)成為制約中文信息處理技術(shù)發(fā)展的瓶頸。
世紀(jì)90年代中后期,國(guó)內(nèi)英語(yǔ)淺層句法分析的思想,展開(kāi)了組塊識(shí)別與分析研究。由于底層句法歧義在很大程度上影響了句法分析的效果,淺層句法分析主張從識(shí)別句子中某些簡(jiǎn)單的組塊開(kāi)始,在充分化解底層歧義的基礎(chǔ)上,逐步完成句法分析的任務(wù)。它把一個(gè)句子的完整分析過(guò)程劃分為三個(gè)部分,即組塊識(shí)別、組塊間依存關(guān)系的識(shí)別以及組塊內(nèi)部的結(jié)構(gòu)分析,并著力于組塊的識(shí)別和內(nèi)部結(jié)構(gòu)分析。淺層句法分析的思想是句法分析技術(shù)步,適合用于分析缺乏形態(tài)變化、底層歧義較多的漢語(yǔ)句子,成為漢語(yǔ)句法分析技術(shù)的重要發(fā)展趨勢(shì)。
國(guó)際上,淺層句法分析任務(wù)經(jīng)歷了單一短語(yǔ)的識(shí)別、覆蓋較廣的組塊識(shí)別、結(jié)構(gòu)復(fù)雜的小句識(shí)別等發(fā)展階段,而國(guó)內(nèi)研究多集中在基本塊,是簡(jiǎn)單名詞短語(yǔ)的識(shí)別分析取得了較多的成果;較為復(fù)雜的語(yǔ)塊能塊、復(fù)雜名詞短語(yǔ)識(shí)別也受到了一定的關(guān)注,但分析效果還一步提升的空間。
在淺層句法分析的研究過(guò)程中,名詞短語(yǔ)引起了研究者的關(guān)注。一方面,名詞短語(yǔ)編碼了實(shí)體和概念,這些實(shí)體和概念是理解文本的基礎(chǔ);另一方面,名詞短語(yǔ)承擔(dān)著句子中的論元角色,也是語(yǔ)義關(guān)系分析的基礎(chǔ)。
自然語(yǔ)言處理研究者對(duì)名詞短行了新的分類(lèi),提出兩種具有較高處理價(jià)值的名詞短語(yǔ),一種是基本名詞短語(yǔ),一種是長(zhǎng)名詞短語(yǔ)。相比較而言,長(zhǎng)名詞短語(yǔ)的內(nèi)部結(jié)構(gòu)復(fù)雜多樣,既有較為簡(jiǎn)單的名詞短語(yǔ),含類(lèi)似英語(yǔ)定語(yǔ)從句的范疇,識(shí)別和分析的難度更大。
顯然,結(jié)構(gòu)復(fù)雜的長(zhǎng)名詞短語(yǔ)識(shí)別需要語(yǔ)言學(xué)知識(shí)的支持。然而,在本體語(yǔ)言學(xué)研究中,語(yǔ)法研究的是動(dòng)詞,名詞重在語(yǔ)義研究。因此,漢語(yǔ)動(dòng)詞短語(yǔ)的句法研究取得了豐碩的成果,名詞短語(yǔ)的相關(guān)研究卻相對(duì)較少,主要集中在靜態(tài)結(jié)構(gòu)的描寫(xiě)以及定語(yǔ)語(yǔ)序等理論研究方面,而動(dòng)態(tài)結(jié)構(gòu)構(gòu)造規(guī)律和分布狀況還沒(méi)有得到充分描寫(xiě)。譬如,“的”是漢語(yǔ)中出現(xiàn)頻率高的詞,也是語(yǔ)法研究的熱點(diǎn)問(wèn)題。幾乎所有的詞類(lèi)和句法結(jié)構(gòu)都能入含“的”名詞短語(yǔ),這些結(jié)構(gòu)是如何嵌套的,主體模式是什么,分布比例如何,本體語(yǔ)言學(xué)很少?gòu)倪@一角度展開(kāi)描寫(xiě),但是其是名詞短語(yǔ)識(shí)別的重要參考數(shù)據(jù)。