"序言:漢密爾頓(Alexander Hamilton),麥迪遜(James Madison),還是杰伊(John Jay)?
《聯(lián)邦黨人文集》 為美國走向民主打下基礎,其中有十二篇文章的作者未明,歷史學家們?yōu)榇藸幷摿艘话傥迨嗄。盡管這些文章在美國史的語匯中是世人皆知的標志性作品,但每一篇的作者究竟是誰卻一直是團疑云。哪一位開國元勛撰寫了這些篇章?這個問題激起了無盡的爭論,后來甚至成了歷史學家聚會時客廳里一個廣為流行的猜謎游戲。美國的治國框架建立在這些振奮人心的論述之上,可到底是誰寫下了這些文章呢?
答案隱藏在文章的詞語中,但要找到這些詞語,學者們無須精讀文本,只要細細地數(shù)一下數(shù)。他們所要看的只是數(shù)字。
疑云始于1787年末,當時紐約的報紙刊登了一系列鼓吹新憲法的文章,用的筆名是普布利烏斯(Publius,源自古羅馬執(zhí)政官Publius Valerius Publicola)。用一個具有愛國含義的筆名來隱藏自己的身份似乎有點可笑。實際上,在當時美國近四百萬居民中,只有三個人才有資格進入這場關于作者身份爭議的角逐。
漢密爾頓,麥迪遜和杰伊撰寫了這些文章這在當時是一個公開的秘密,但三個人都不想站出來承認寫過哪些特定文章。他們都有自己的政治抱負,后來分別升任財政部長、總統(tǒng)和最高法院首席大法官,所以他們有充足的理由隱藏自己的作者身份。但他們過分的謹慎留下了難以攻破的疑云,在之后的時日中,同時撩動著歷史教授和熱心的業(yè)余愛好者的神經(jīng)。
你也許會以為,當時的學者和精明政客應能確定作者是誰。畢竟只有三個潛在的候選人,每人都有自己的政治傾向,交流表述的風格也各不相同。如果放在今天,這個問題可能相當于《紐約時報》刊登了一篇匿名社論,執(zhí)筆者可能是奧巴馬、希拉里或桑德斯,也可能是小布什、麥凱恩或特朗普,我們或許可以分辨出作者來自哪個陣營(前三人是民主黨,后三人是共和黨),但肯定無法準確落實到某個人身上。
時間來到1804年,答案似乎終于浮現(xiàn)。漢密爾頓給他的朋友本森(Egbert Benson)寫了一封信,信中列出每一篇文章的作者。當時漢密爾頓正準備與美國副總統(tǒng)伯爾(Aaron Burr)決斗 ,突然意識到了《聯(lián)邦黨人文集》的重要歷史意義,也明白自己可能無法從決斗中生還。最終,他決定不讓這些答案隨他一同逝去。
疑云本應就此告終,全國上下關注此事的人沒有理由懷疑漢密爾頓的第一手信息。但十三年后,麥迪遜在結束他的第二個總統(tǒng)任期后不久列出了他的著作清單,與漢密爾頓當年所說有出入。其中,漢密爾頓認領的十二篇,麥迪遜聲稱是他的作品。
此事點燃了群眾的新一波熱情,歷史學家們?yōu)榇擞譅幊沉艘粋多世紀。1892年,洛奇(Henry Cabot Lodge,后擔任參議員)為此問題著文,贊同漢密爾頓的說法,而著名歷史學家伯恩(E. G. Bourne)則認為那十二篇文章的作者是麥迪遜。
大多數(shù)歷史學家試圖根據(jù)每篇文章的政治理念進行梳理,確定作者麥迪遜真的會用那些措辭主張設立中央銀行?漢密爾頓會如此直接地支持針對國會的限制?也許這一篇是杰伊寫的?
直到兩個世紀以后的1963年,問題才最終得以解決。兩位受人尊敬的教授哈佛大學的莫斯特勒(Frederick Mosteller)和芝加哥大學的華萊士(David Wallace)給出了明確的答案。然而,與之前試圖解決這個問題的許多教授不同,兩人并非歷史學家,不以早期美國學術研究工作聞名,甚至從未發(fā)表過一篇關于歷史人物的論文。莫斯特勒和華萊士都是統(tǒng)計學家。
莫斯特勒最為人矚目的一篇論文是關于美國職業(yè)棒球大聯(lián)盟總冠軍賽的,他在論文中提出:從統(tǒng)計學的角度來看,七場比賽是否能夠決出最好的棒球隊。在著手研究十二篇文章著作權的前幾年,華萊士也發(fā)表過一篇論文,題目是《T分布和卡方分布的正態(tài)近似界限》。聽上去很難以置信吧?有人想用概率方程解決歷史難題,1963年的歷史學教授大概會認為這是一派胡言。
莫斯特勒和華萊士所用的方法與政治或意識形態(tài)無關,他們只是首批利用詞頻和概率展開研究的統(tǒng)計學家。
他們解決問題的過程在某些方面較為復雜,比如采用了含有階乘的方程、指數(shù)、求和、對數(shù)以及T分布,但核心方法卻是驚人的簡單:
根據(jù)確定是漢密爾頓或麥迪遜所寫的文章,分別統(tǒng)計某些常用詞出現(xiàn)的頻率。
在需要進行研究的文章里統(tǒng)計相同詞匯出現(xiàn)的頻率。
通過比較上述兩個頻率,確定爭議文章的作者。
事后回頭看,即便不使用那些玄妙的概率方程,兩位統(tǒng)計學家的研究結果似乎也是顯而易見的。《聯(lián)邦黨人文集》里麥迪遜的文章中,超過一半文章使用了whilst這個詞,但從未用過while。相反,漢密爾頓大約三分之一的文章中使用了while,但從未用過whilst。
莫斯特勒和華萊士并不是只依靠一個詞的分析,從統(tǒng)計學上來講那樣做是不充分的。他們選擇了幾十個基本單詞,然后在有爭議的文章中觀察每個詞的使用頻率。許多詞沒有任何政治含義,兩位不同作者的使用率竟然出現(xiàn)明顯的不同。比如,麥迪遜用also這個詞的頻率是漢密爾頓的兩倍,而漢密爾頓使用according的頻率則比麥迪遜高很多。
莫斯特勒和華萊士采用的方法具有可證偽性 。研究結果表明,如果在已知作者身份的文章中使用相同的方法,他們可以準確無誤地識別作者。而對于那些有爭議的文章,他們得出結論:麥迪遜是十二篇文章的實際作者 。
在總結研究結果時,也許擔心惹惱一代又一代苦惱不已的歷史學家,兩位數(shù)學家的立論和措辭十分謹慎,但展示的數(shù)字卻毫不含糊,兩人對自己的統(tǒng)計方法有十足的信心。所有已知作者身份的文章的測試分析都毫無瑕疵,作者未明的文章也與其一致。由此得出最終結論,漢密爾頓所言為虛,那十二篇文章的作者并不是他。
經(jīng)過無數(shù)統(tǒng)計和非統(tǒng)計的研究后,莫斯特勒和華萊士的分析結果(麥迪遜是作者)已經(jīng)成為目前統(tǒng)計學家和歷史學家們的共識。他們超前于所處的時代,他們的研究雖然涉及一些復雜公式,但本質上還是依靠的統(tǒng)計統(tǒng)計。如果是今天,通過計算機統(tǒng)計單詞和頻率是件簡單的小事,但在1963年,情形卻并非如此。
當時統(tǒng)計單詞是靠手工完成的。比如,要找出每一篇文章中upon出現(xiàn)的次數(shù),他們得一頁頁、一個個地找出來。為了感受和理解莫斯特勒和華萊士(至少是他們的研究助理)都經(jīng)歷了什么,我打印了一本完整的《聯(lián)邦黨人文集》,開始數(shù)upon這個詞出現(xiàn)的次數(shù)。三十分鐘后,我只進展到全文的八分之一,在大約四十頁里有三十七個upon。沒過多久,我的眼皮狂跳,腦子發(fā)木Upon在哪里?這種痛苦就像在漫漫人海中尋找某張人臉。
活在1963年實在有些辛苦,最后我放棄了,轉而采用二十一世紀的技術進行計數(shù):我打開谷歌,搜索聯(lián)邦黨人文集完整文本,點進第一個搜索結果進行下載,再用Microsoft Word打開文件。兩分鐘后,我選定部分內(nèi)容,再使用菜單里查找命令,隨后發(fā)現(xiàn)Upon出現(xiàn)了四十六次。借助電腦后,不僅在速度上快了二十八分鐘,而且結果遠比疲憊的肉眼來得準確。
再找一個詞匯結果也還是一樣,一個人瀏覽一遍《聯(lián)邦黨人文集》全文的時間在四小時左右,電腦所需時間幾乎可以忽略。不管是莎士比亞文集、《圣經(jīng)》、《白鯨》,還是英語文學集,對當時的莫斯特勒和華萊士來說,進行類似的分析是無法想象的難題,F(xiàn)在情況就完全不一樣了,在電腦上統(tǒng)計某個單詞在大部頭文本里出現(xiàn)的次數(shù),絕大多數(shù)十來歲的青少年皆可輕松完成。
莫斯特勒和華萊士公布研究結果的五十年后,電腦的文本輔助功能發(fā)展迅速。谷歌在其搜索結果中運用文本分析,以此決定對哪些用戶投放哪些廣告。目前還有研究人員試圖用文本分析進行判斷,是什么原因讓一條Twitter像病毒一樣傳播。媒體也經(jīng)常對同類型的內(nèi)容進行措辭上的細微調整,以期實現(xiàn)頁面瀏覽量的最大化。但是到目前為止,這些科技公司對文本分析的應用還比較單一,它還有更大的可能性。
莫斯特勒和華萊士使用的統(tǒng)計方法雖然比較簡單,但實驗獲得的成功卻產(chǎn)生了深遠的影響。作家們確實有各自的風格,而且是可以進行預測的。事實證明,留下個人風格印記的不僅僅是十八世紀的政客,所有書籍的作者無論廣受歡迎遠近聞名,還是晦澀難懂飽受批評都在數(shù)十年的寫作中不斷重復自己的遣詞造句,這便是他們留下的印記。
莫斯泰勒和華萊士提出的問題和作出的解答雖有一定局限性,但文本分析確實可以回答各種各樣的問題,那些讓一代代作家和讀者感到疑惑的問題:相比其他作家,海明威真的更少使用副詞嗎?書籍的閱讀難易程度對其受歡迎程度有什么樣的影響?男性和女性作家的寫作方式有何不同?作家提出的創(chuàng)作建議有用嗎?他們自己會遵循那些建議嗎?除了一些明顯不同的拼法問題,還有什么原則可以用來區(qū)分美國小說家和英國小說家?從納博科夫到E.L.詹姆斯(E. L. James) ,我們喜歡的作家喜歡用的詞是什么?
雖然學術界已經(jīng)開始研究成功作家的寫作模式,但仍有許多問題有待探索。對普通讀者、主修文學的大學生以及野心勃勃的作家來說,這些問題既有趣又有用。你可能不關心泊松分布 ,也不在乎解讀語言的程序,但你也許想知道自己最喜愛的作家是如何寫作的,以及這對你來說可能意味著什么。
用數(shù)據(jù)分析來研究寫作不僅妙趣橫生,還能提供豐富的信息,有時也會非常搞笑。此外,我們也能借此了解平時閱讀的作家,思考我們自己寫作時使用的詞句,這一切正是本書要深入探討的。在這本書里,每一章都專注于一個文學新問題的研究。
這些研究并不會達到令人痛苦的復雜地步。實際上,只要具有真正價值,研究無須也不應那般復雜。關于經(jīng)典文學或現(xiàn)代暢銷書的許多有趣問題是可以通過統(tǒng)計的透視鏡來觀察的,但針對這些問題的統(tǒng)計分析尚未形成體系。本書將用一種嶄新的方法來攻克這些簡單而獨特的問題。這是一本關于文字的書,但卻是用數(shù)字寫成的。
"