【網(wǎng)店勿用!此為申報選題所填信息,網(wǎng)店請調(diào)用*終版】
自然語言處理跨越了許多不同的學科,有時很難理解它們各自帶來的貢獻和挑戰(zhàn)。本書探討了自然語言處理與認知科學之間的關系,每章都由相關領域的專家撰寫,內(nèi)容涵蓋語言理解、語言生成、詞聯(lián)想、詞義消除歧義、詞可預測性、文本生成和作者身份識別。本書適合對自然語言處理及其跨學科特性感興趣的學生和研究人員。
本書是一本論文專輯,致力于探索自然語言處理和認知科學之間的關系,以及計算機科學對于這兩個領域的貢獻。根據(jù)Poibeau和Vasishth[POI 16]所述,對認知問題的研究興趣可能較少受到關注。因為在認知科學領域,研究者往往無力應對自然語言處理技術的復雜性;同樣,自然語言處理的研究者也沒有認識到認知科學對于他們工作的貢獻。我們相信,2004年啟動的自然語言處理和認知科學國際研討會(NLPCS)提供了一個強大的平臺,支持新的研究課題的多樣性,并且能幫助研究者建立共識。與此同時,這個平臺還認可跨學科方法的重要性,并將計算機科學家、認知學和語言學的研究者聚集到一起來推動自然語言處理研究。
本書包含10章,都是由自然語言處理和認知科學國際研討會的研究者完成的。
在第1章,Philippe Blache闡述了理解語言的過程在理論上是非常復雜的,該過程必須實時進行,且需要許多不同來源的信息。他認為對于一個語言輸入的整體解釋應該建立在基于塊的基本單元的分組之上,而這些單元構成了“盡可能解釋”原則的支柱,該原則負責推遲理解過程,直到有足夠的信息可用。
接下來的兩章討論人類關聯(lián)問題。在第2章,Korzycki、Gatkowska和Lubaszewski討論了一個有900個學生參與的自由詞關聯(lián)測試。他們利用三個算法從文本中提取出關聯(lián)列表,然后將提取的關聯(lián)列表與人類關聯(lián)列表做對比。這三個算法分別是Church-Hanks算法、潛在語義分析(LSA)和潛在狄利克雷分配(LDA)。
在第3章,Lubaszewski、Gatkowska和Godny描述了一個過程,用于在實驗中建立的人類關聯(lián)網(wǎng)絡中的單詞關聯(lián)。他們認為每個關聯(lián)都是基于兩個釋義之間的語義關系,而這種釋義之間的關聯(lián)有自己的方向,并且獨立于其他關聯(lián)的方向。此過程使用圖結構來生成語義一致的子圖。
在第4章,Rapp探索了人類語言生成是否是由關聯(lián)控制的,以及話語的下一個實詞是否可被視為該實詞表示的一種關聯(lián),而這種關聯(lián)已經(jīng)在說話人的記憶中被激活。他還介紹了反向關聯(lián)任務的概念,討論了激勵詞是否可以通過響應詞來預測。他根據(jù)反向關聯(lián)任務搜集了人類數(shù)據(jù),并將其與機器生成的結果進行了比較。
在第5章中,Vincent-Lamarre和他的同事研究了在字典中定義所有其余單詞所需的單詞及其數(shù)量。為此,他們在詞典組件Wordsmyth上使用了圖論分析。其研究結果對于理解符號基礎,以及詞義的學習和心理表征具有重要意義。他們得出的結論是,語言使用者只有掌握用于理解詞的定義的詞匯表中的單詞,才能夠從語言(口頭)定義中學習和理解單詞的含義。
第6章側重于詞義消歧。Tripodi和Pelillo根據(jù)進化博弈論方法來研究詞義消歧。要消除歧義的每個單詞都表示為玩家,每個意義都表示為策略。該算法已經(jīng)在具有不同數(shù)量標記詞的四個數(shù)據(jù)集上進行了測試。它利用關系和上下文信息來推斷目標詞的含義。實驗結果表明,該方法的性能優(yōu)于傳統(tǒng)方法,并且只需要少量標記點就能勝過有監(jiān)督系統(tǒng)。
在第7章中,Zock和Tesfaye專注于以四個任務表達的文本生成的挑戰(zhàn)性任務:構思、文本結構、表達和修訂。他們專注于文本結構,涉及消息的分組(分塊)、排序和鏈接。其目的是研究文本生成的哪些部分可以自動化,以及計算機是否可以基于用戶提供的一組輸入構建一個或多個主題樹。
著述屬性是第8章研究的重點。Boukhaled和Ganascia分析了使用虛詞的序貫規(guī)則和詞性(POS)標簽作為文本標記的有效性。該有效性不依賴于詞袋假設或原始頻率。他們的研究表明,虛詞和詞性n元組(n-gram)的頻率優(yōu)于序貫規(guī)則。
第9章討論了基頻檢測(F0),它在人類語音感知中起著重要作用。Glavitsch探索了使用人類認知原理進行的F0估計是否能夠表現(xiàn)得與最新的F0檢測算法一樣好或更好。他所提出的運行在時域的算法錯誤率較小,并且在使用有限的存儲和計算資源的情況下,其表現(xiàn)超過了傳統(tǒng)的最高水平的基于關聯(lián)的RAPT方法。在神經(jīng)認知心理學中,手動收集的完形填充概率(CCP)用于量化眼球運動控制模型中句內(nèi)上下文單詞的可預測性。由于CCP數(shù)據(jù)都是基于上百個參與者的采樣,在所有新的激勵上泛化該模型是很難的。
在第10章中,Hofmann、Biemann和Remus提出應用語言模型,這些模型可以通過在線數(shù)據(jù)庫中公開可用數(shù)據(jù)集的item級別的性能進行基準測試。先前在腦電圖(EEG)和眼球運動(EM)數(shù)據(jù)中從句內(nèi)上下文中預測單詞的神經(jīng)認知方法依賴于CCP數(shù)據(jù)。他們的研究表明,當直接計算CCP、EEG和EM數(shù)據(jù)時,n元語言模型和遞歸神經(jīng)網(wǎng)絡(RNN)的句法和短程語義過程差不多同樣好。這可以幫助將神經(jīng)認知模型推廣到所有可能的新穎單詞組合。
參考文獻
---作者簡介---
伯納黛特•夏普(Bernadette Sharp) 英國斯塔福德郡大學應用人工智能系教授。她的研究興趣包括人工智能、自然語言處理和文本挖掘。自從2004年以來,她一直擔任NLPCS的主席和審稿人。
弗洛倫斯•賽德斯(Florence Sèdes) 法國圖盧茲第三大學計算機科學系教授。她的研究領域包括信息系統(tǒng)、數(shù)據(jù)管理以及多媒體、元數(shù)據(jù)等方面的應用。
維斯拉夫•盧巴澤斯基(Wiesław Lubaszewski) 波蘭雅蓋沃大學計算語言學系教授,克拉科夫AGH科技大學計算機科學系教授。他的研究興趣包括自然語言詞典、文本理解、知識表示和信息抽取等。
---譯者簡介---
徐金安 北京交通大學計算機學院教授、博士生導師,研究方向為機器翻譯、自然語言處理、人機交互和文本情感分析等。博士畢業(yè)于北海道大學,曾任日本電氣株式會社中央研究院研究員。
譯者序
前言
作者名單
第1章延遲解釋、淺層處理和構式:“盡可能解釋”原則的基礎 1
1.1引言 1
1.2延遲處理 2
1.3工作記憶 5
1.4如何識別語塊:分詞操作 7
1.5延遲架構 10
1.5.1分段和存儲 11
1.5.2內(nèi)聚聚集 12
1.6結論 15
1.7參考文獻 16
第2章人類關聯(lián)規(guī)范能否評估機器制造的關聯(lián)列表 19
2.1引言 19
2.2人類語義關聯(lián) 20
2.2.1單詞關聯(lián)測試 20
2.2.2作者的實驗 21
2.2.3人類關聯(lián)拓撲 22
2.2.4人類關聯(lián)具有可比性 24
2.3算法效率比較 26
2.3.1語料庫 26
2.3.2LSA源關聯(lián)列表 27
2.3.3LDA源列表 28
2.3.4基于關聯(lián)比率的列表 28
2.3.5列表比較 29
2.4結論 33
2.5參考文獻 34
第3章文本詞如何在人類關聯(lián)網(wǎng)絡中選擇相關詞 37
3.1引言 37
3.2網(wǎng)絡 40
3.3基于文本的激勵驅動的網(wǎng)絡提取 42
3.3.1子圖提取算法 42
3.3.2控制流程 43
3.3.3最短路徑提取 44
3.3.4基于語料庫的子圖 46
3.4網(wǎng)絡提取流程的測試 46
3.4.1進行測試的語料庫 46
3.4.2提取子圖的評估 46
3.4.3有向和無向子圖提。簩Ρ 48
3.4.4每個激勵產(chǎn)生的結果 49
3.5對結果和相關工作的簡要討論 54
3.6參考文獻 57
第4章反向關聯(lián)任務 59
4.1引言 59
4.2計算前向關聯(lián) 63
4.2.1步驟 63
4.2.2結果和評估 65
4.3計算反向關聯(lián) 67
4.3.1問題 67
4.3.2步驟 67
4.3.3結果和評估 71
4.4人類的表現(xiàn) 73
4.4.1數(shù)據(jù)集 73
4.4.2測試流程 75
4.4.3評估 76
4.5機器性能 77
4.6討論、結果和展望 78
4.6.1人類的反向關聯(lián) 78
4.6.2機器的反向關聯(lián) 80
4.7致謝 82
4.8參考文獻 82
第5章詞匯的隱藏結構與功能 85
5.1引言 86
5.2方法 86
5.2.1詞典圖 86
5.2.2心理語言學變量 90
5.2.3數(shù)據(jù)分析 91
5.3內(nèi)核、衛(wèi)星、核心、MinSet以及詞典余下部分的心理語言學屬性 93
5.4討論 96
5.5未來工作 99
5.6參考文獻 101
第6章用于詞義消歧的直推式學習博弈 103
6.1引言 103
6.2基于圖的詞義消歧 104
6.3半監(jiān)督學習方法 107
6.3.1基于圖的半監(jiān)督學習 107
6.3.2博弈論和博弈動態(tài) 108
6.4詞義消歧博弈 110
6.4.1圖構造 110
6.4.2策略空間 111
6.4.3收益矩陣 111
6.4.4系統(tǒng)動力學 112
6.5評估 113
6.5.1實驗設置 113
6.5.2評估結果 114
6.5.3對比先進水平算法 116
6.6結論 117
6.7參考文獻 117
第7章用心學寫:生成連貫文本的問題 121
7.1問題 121
7.2次優(yōu)文本及其相關原因 123
7.2.1缺乏連貫性或凝聚力 124
7.2.2錯誤引用 125
7.2.3無動機的主題轉移 126
7.3如何解決任務的復雜性 127
7.4相關研究 128
7.5關于構建輔助寫作過程的工具的假設 130
7.6方法論 133
7.6.1句法結構的識別 135
7.6.2語義種子詞的識別 135
7.6.3單詞對齊 137
7.6.4確定對齊單詞的相似性值 137
7.6.5確定句子之間的相似性 141
7.6.6基于句子相似性值的聚類 142
7.7實驗結果和評估 142
7.8展望和總結 145
7.9參考文獻 146
第8章面向著述屬性的基于序貫規(guī)則挖掘的文體特征 149
8.1引言和研究動機 149
8.2著述屬性過程 151
8.3著述屬性的文體特征 152
8.4針對文體分析的時序數(shù)據(jù)挖掘 154
8.5實驗設置 155
8.5.1數(shù)據(jù)集 156
8.5.2分類方案 157
8.6結果和討論 158
8.7結論 162
8.8參考文獻 162
第9章一種并行的、面向認知的基頻估計算法 165
9.1引言 165
9.2語音信號分割 167
9.2.1語音和停頓段 168
9.2.2濁音和清音區(qū) 169
9.2.3穩(wěn)定和不穩(wěn)定區(qū)間 170
9.3穩(wěn)定區(qū)間的F0估計 171
9.4F0傳播 173
9.4.1控制流 174
9.4.2峰值傳播 175
9.5不穩(wěn)定的濁音區(qū)域 178
9.6并行化 178
9.7實驗和結果 179
9.8結論 180
9.9致謝 181
9.10參考文獻 182
第10章基于完形填充、腦電圖和眼球運動數(shù)據(jù)對n元語言模型、主題模型和循環(huán)神經(jīng)網(wǎng)絡的基準測試 185
10.1引言 186
10.2相關工作 187
10.3方法 188
10.3.1人類績效評估 188
10.3.2語言模型的三種風格 189
10.4實驗設置 192
10.5結果 193
10.5.1可預測性結果 193
10.5.2N400振幅結果 196
10.5.3單一注視時延結果 198
10.6討論和結論 200
10.7致謝 202
10.8參考文獻 202
術語表 207