本書英文版出版至今已近20年,但關于大腦究竟如何工作的問題至今仍無答案,而符號主義(認為大腦是類似于計算機的加工符號的機器)與聯(lián)結主義(認為大腦是并行運轉的大型神經(jīng)網(wǎng)絡)之間的爭論也從未停息。本書分析了聯(lián)結主義模型和符號加工模型在計算方面的優(yōu)勢和劣勢,關注不同聯(lián)結主義模型之間的差異以及特定模型與符號加工的特定假設之間的關系,并圍繞多層感知器展開討論。書中的觀點在今天依然頻繁成為學術討論的焦點,并為認知科學、人工智能、深度學習等領域的未來研究指明了可能的方向。
DeepMind人手一本!
屢次對戰(zhàn)深度學習三巨頭,揭秘大腦黑盒到底是神經(jīng)網(wǎng)絡機器,還是加工符號的機器
我對認知科學的興趣始于高中,當時幼稚地嘗試編寫計算機程序,希望將拉丁語翻譯成英語。這個項目終沒有完成,但我卻因此讀了一些有關人工智能的文獻,這些文獻的核心就是將大腦視作機器的隱喻。
在我上大學期間,認知科學開始發(fā)生巨大的轉變。在一本名為Parallel Distributed Processing(PDP)的兩卷本書中,David E. Rumelhart和James L. McClelland及其合作者(McClelland,Rumelhart & the PDP Research Group,1986;Rumelhart,McClelland & the PDP Research Group,1986)提出,人類的大腦并不像一臺計算機,這與我之前的理解不同。不過,研究人員偏愛他們所謂的神經(jīng)網(wǎng)絡或聯(lián)結主義模型。當我設法找到一份暑期工作來做一些類似于PDP的人類記憶建模時,我立即被它吸引住了,并且感到非常興奮。盡管我的本科論文與PDP模型無關(我的本科論文和人類推理相關),但我一直對計算模型和認知架構的問題很感興趣。
在尋找研究生項目時,我參加了Steven Pinker的一場精彩講座。他在講座中比較了PDP和符號加工對英語過去時的影響。那場講座使我確信,我需要去麻省理工學院(MIT)與Pinker合作。到MIT后不久,我和Pinker開始合作研究兒童的過度規(guī)則化錯誤(breaked、eated等)。被Pinker的熱情所感染,我開始思考英語不規(guī)則動詞的細節(jié)之處。
除此之外,我們發(fā)現(xiàn)的結果與一種特殊的神經(jīng)網(wǎng)絡模型不符。當我在講座中提出我們的成果時,我發(fā)現(xiàn)了一個溝通上的問題:不管我說什么,人們都會認為我反對各種形式的聯(lián)結主義。不管我如何強調(diào)我們的研究沒有碰到其他更復雜的網(wǎng)絡模型,人們似乎總是想著Marcus是反聯(lián)結主義者。
我不是反聯(lián)結主義者,我只是反對某些聯(lián)結主義模型的特定子集。問題在于,聯(lián)結主義這個術語已經(jīng)基本等同于一種特定的網(wǎng)絡模型,一種先天結構很少的經(jīng)驗主義模型,一種使用學習算法(如反向傳播)的模型。這不是可以建立的一類聯(lián)結主義模型,實際上,這甚至不是正在建立的一類聯(lián)結主義模型,但是由于這種網(wǎng)絡模型相當激進,因而持續(xù)吸引著大家的注意。
本書的主要目標是說服各位讀者:這類備受關注的網(wǎng)絡模型在所有可能的模型中僅是冰山一角。我認為,合適的認知模型很有可能存在于一個不同的、探索較少的領域中。無論你是否認同我的觀點,我都希望你至少看到探索更廣泛的可能模型的價值。聯(lián)結主義不僅僅需要反向傳播和經(jīng)驗主義。從更廣泛的意義上講,它可以很好地幫助我們回答以下兩個相互關聯(lián)的問題:大腦的基本構建模塊是什么,以及如何在大腦中實現(xiàn)這些構建模塊。
本書中所有的錯誤都是我造成的,而大部分做對的事情應該歸功于我的同事。在整個研究中,我感謝Steve Pinker,感謝他耐心的教導、不斷的鼓勵以及細致且發(fā)人深省的建議。還要感謝我的本科生導師Neil Stillings和Jay Garfield,在漢普郡學院的本科學習中,他們花了很多時間教我,而且他們對本書的早期草稿提出了出色的建議。
時間再往前推,我的任老師是我的父親Phil Marcus。雖然嚴格來說他并不算是我的同事,但他經(jīng)常會與我討論一些重要的理論問題,這些問題有助于我厘清自己的想法。
自從我來到紐約大學,Susan Carey一直是我的非官方導師。我對Susan Carey以及其他為本書提出建議的人深表感謝。
還有許多同事對本書的早期版本提出了非常有幫助的建議,包括Iris Berent、Paul Bloom、Luca Bonatti、Chuck Clifton、Jay Garfield、Peter Gordon、Justin Halberda、Ray Jackendoff、Ken Livingston、Art Markman、John Morton、Mike Nitabach、Michael Spivey、Arnold Trehub、Virginia Valian和Zsófia Zvolenszky。Ned Block、Tecumseh Fitch、Cristina Sorrentino、Travis Williams和Fei Xu都對某些章節(jié)給出了鞭辟入里的評審意見,感謝他們的有益建議和對我所提出疑問的耐心解答。感謝Benjamin Bly、Noam Chomsky、Harald Clahsen、Dan Dennett、Jeff Elman、Jerry Fodor、Randy Gallistel、Bob Hadley、Stephen Hanson、Todd Holmes、Keith Holyoak、John Hummel、Mark Johnson、Denis Mareschal、Brian McElree、Yuko Munakata、Mechiro Negishi、Randall OReilly、 Neal Perlmutter、Nava Rubin、Lokendra Shastri、Paul Smolensky、Liz Spelke、Ed Stein、Wendy Suzuki、Heather van der Lely和Sandy Waxman,以及我在UMass/Amherst(本項目于此開始)和紐約大學(本項目于此完成)的同事。還要感謝幫助我管理實驗室的研究助手Shoba Bandi Rao和Keith Fernandes,以及所有參加了1999年春季我的認知科學的計算模型研究生課程的學生。感謝MIT出版社,尤其是Amy Brand、Tom Stone和Deborah Cantor-Adams,他們?yōu)楸緯闹谱魈峁┝藥椭8兄xNIH Grant HD37059對本書后的準備階段提供支持。
我的母親Molly可能對不規(guī)則動詞或神經(jīng)網(wǎng)絡沒有興趣,但她一直鼓勵我探索新知。她和我的朋友們,尤其是Tim、Zach、Todd、Neal和Ed,幫助我在整個項目過程中穩(wěn)步推進。
后我希望感謝Zsófia Zvolenszky,把她放在后不僅僅是因為字母順序,而是因為從我開始寫這本書的那一刻起,她就一直在激勵和啟發(fā)我。她的建議和愛讓本書變得更好,也讓我變得更快樂。我把這本書獻給她。
作者簡介
加里·F. 馬庫斯(Gary F. Marcus)
科學家、企業(yè)家、暢銷書作家。紐約大學心理學榮休教授,在包括Science和Nature在內(nèi)的期刊上發(fā)表了大量關于神經(jīng)科學、語言學和人工智能等方面的論文。他是Robust.AI公司的創(chuàng)始人和CEO,以及Geometric Intelligence公司(于2016年被Uber收購)的創(chuàng)始人和CEO。著有Rebooting AI、Kluge和The Birth of the Mind等書。
譯者簡介
劉偉
北京郵電大學崗位教授,人機交互與認知工程實驗室主任,研究領域包括人機交互、用戶體驗、未來態(tài)勢感知模式與行為分析等。
譯者序
前言
第1章 認知架構1
1.1全書預覽2
1.2免責聲明5
第2章 多層感知器7
2.1多層感知器如何工作7
2.1.1節(jié)點7
2.1.2活性值8
2.1.3局部表示和分布式表示10
2.1.4輸入與輸出之間的關系11
2.1.5對隱藏單元的要求12
2.1.6學習16
2.1.7學習率18
2.1.8監(jiān)督18
2.1.9兩種類型的多層感知器19
2.2示例19
2.2.1家譜模型:前饋網(wǎng)絡20
2.2.2句子預測模型:簡單循環(huán)網(wǎng)絡22
2.3多層感知器是如何在認知架構的討論中出現(xiàn)的24
2.4多層感知器的吸引力25
2.4.1初步的理論思考25
2.4.2對初步思考的評價26
2.5符號、符號加工器和多層感知器29
第3章 變量之間的關系33
3.1多層感知器模型和規(guī)則之間的關系:細化問題33
3.1.1可以泛化UQOTOM嗎34
3.1.2UQOTOM的自由泛化:在可以執(zhí)行變量操作的系統(tǒng)中37
3.1.3在物理系統(tǒng)中實現(xiàn)變量操作38
3.2多層感知器和變量操作39
3.2.1為每個變量分配一個節(jié)點的模型40
3.2.2為每個變量分配一個以上節(jié)點的模型41
3.3表示變量和實例之間綁定的替代方法47
3.3.1在多層感知器中使用節(jié)點和活性值進行變量綁定48
3.3.2聯(lián)合編碼48
3.3.3張量積49
3.3.4寄存器51
3.3.5時序同步52
3.3.6討論54
3.4案例研究1:嬰兒期的人工語法55
3.4.1不包含變量操作的模型55
3.4.2包含變量操作的模型60
3.4.3總結64
3.5案例研究2:語言屈折65
3.5.1經(jīng)驗數(shù)據(jù)65
3.5.2三個標準的運用67
3.5.3討論76
第4章 結構化表示79
4.1多層感知器中的結構化知識79
4.1.1幾何構想80
4.1.2簡單循環(huán)網(wǎng)絡82
4.2對大腦為每一個主謂關系分配單獨的表示資源這一觀點的挑戰(zhàn)84
4.3關于在神經(jīng)基質中實現(xiàn)遞歸組合的提議88
4.3.1可以表示遞歸結構的外部系統(tǒng)88
4.3.2語義網(wǎng)絡89
4.3.3時序同步92
4.3.4交換網(wǎng)絡94
4.3.5將結構映射到活性值95
4.4新提議99
4.4.1treelet99
4.4.2與其他方案的比較102
4.4.3一些限制104
4.5討論106
第5章 個體107
5.1多層感知器109
5.2客體永久性115
5.2.1客體永久性的實驗證據(jù)115
5.2.2缺乏顯式表示種類和個體之間區(qū)別的客體永久性模型118
5.3明確區(qū)分個體表示與種類表示的系統(tǒng)120
5.4記錄和命題121
5.5神經(jīng)實現(xiàn)123
第6章 符號加工機制從何而來127
6.1符號加工是天生的嗎127
6.1.1一種提議127
6.1.2可學習性論點128
6.1.3嬰兒的實驗證據(jù)129
6.2符號加工是否具有自適應性130
6.2.1符號130
6.2.2規(guī)則132
6.2.3結構化表示134
6.2.4個體136
6.2.5總結138
6.3符號加工如何發(fā)展138
6.3.1將DNA作為藍圖138
6.3.2是否應該放棄天生的結構化皮質微電路140
6.3.3在獲取經(jīng)驗之前關于大腦結構組織的重要示例145
6.3.4解決一個明顯的悖論147
第7章 結論151
注釋155
參考文獻169