適讀人群 :高等院校人工智能和計算機科學等相關(guān)專業(yè)高年級本科生和研究生,研究機器學習、因果推理的技術(shù)人員 1.世上萬事萬物,有因就有果,有果必有因。事物為什么會發(fā)生,為什么會得到某種結(jié)果?根源就在于因果關(guān)系。
2.本書是世界知名學者十年來研究因果關(guān)系的總結(jié),在因果推理和通用機器學習之間建立了牢固的聯(lián)系,使得我們和機器可以用數(shù)據(jù)更清晰地理解世界。
3.哥倫比亞大學David Blei教授、艾倫??圖靈研究所Ricardo Silva研究員傾情推薦。
4.本書提供了一個獨立且簡明的因果關(guān)系模型介紹,以及如何從數(shù)據(jù)中學習因果模型。
因果關(guān)系是一個有吸引力的研究領(lǐng)域。它的數(shù)學化才剛剛起步,許多概念問題仍然存在爭論——通常爭論比較激烈。
《因果推理:基礎(chǔ)與學習算法》總結(jié)了作者十年來分析因果關(guān)系所得到的結(jié)果,雖然有些人研究這一問題的時間比作者更長,也存在一些關(guān)于因果關(guān)系方面的圖書,包括Pearl(2009)、Spirtes等人(2000)以及Imbens和Rubin(2015)的綜述,但是作者希望本書能從兩方面補充現(xiàn)有的工作。
首先,《因果推理:基礎(chǔ)與學習算法》傾向于因果關(guān)系的子問題,認為因果關(guān)系是最基本的,也是最不現(xiàn)實的。這就是因果效應問題,在這個問題上,被分析的系統(tǒng)只包含兩個可觀測變量。在過去的十年里,作者對這個問題進行了較為詳細的研究。作者報告了這項工作的大部分內(nèi)容,并試圖將其納入作者認為對因果關(guān)系問題有選擇性但深刻理解的基礎(chǔ)背景中。雖然按照章節(jié)順序先研究二元情況可能有一定的指導意義,但也可以直接開始閱讀多變量章節(jié)。
其次,《因果推理:基礎(chǔ)與學習算法》中的方法受到機器學習和計算統(tǒng)計領(lǐng)域的激勵和影響。本書感興趣的是這些方法如何幫助推斷因果結(jié)構(gòu),更感興趣的是因果推理是否能告訴人們機器學習的方式。事實上,作者認為,如果不把概率分布描述的隨機實驗作為出發(fā)點,而是考慮概率分布背后的因果結(jié)構(gòu),那么能很好理解機器學習的一些最深刻的開放性問題。
《因果推理:基礎(chǔ)與學習算法》試圖為具有概率論、統(tǒng)計和機器學習基礎(chǔ)的讀者提供一個系統(tǒng)的主題介紹(為了完整起見,附錄A.1和A.2給出了最重要的概念)。
雖然《因果推理:基礎(chǔ)與學習算法》建立在Pearl(2009)和 Spirtes等人(2000)的工作所代表的因果關(guān)系圖解的基礎(chǔ)上,但作者的個人品味影響了主題的選擇。為了保持本書的可讀性,并將注意力集中在概念性問題上,令人遺憾的是,不得不在因果關(guān)系的一些重大問題上投入較少的篇幅,無論是對特定背景的理論見解,還是對各種具有實際重要性的方法的深入了解。作者試圖為一些明顯的遺漏引用文獻,但可能忽略了一些重要的主題。
《因果推理:基礎(chǔ)與學習算法》也有一些缺點,其中一些內(nèi)容是從該領(lǐng)域繼承而來的,例如理論結(jié)果往往局限于有無窮多的數(shù)據(jù)的情況。雖然本書提供了有限數(shù)據(jù)情況的算法和方法,但是沒有討論這些方法的統(tǒng)計性質(zhì)。此外,在一些地方,本書忽略了測度理論問題,往往假設(shè)密度的存在。作者發(fā)現(xiàn)所有這些問題都是相關(guān)的和有趣的,但作者做出了這些選擇,以保持本書的簡潔和易讀性。
再一個是免責聲明。計算因果關(guān)系的方法仍處于起步階段,只是在有限的情況下,從數(shù)據(jù)中學習因果結(jié)構(gòu)是可行的。《因果推理:基礎(chǔ)與學習算法》試圖在可能的情況下包括具體的算法,但作者清楚地意識到,因果推理的許多問題比典型的機器學習問題更困難,因此無法保證這些算法都能解決讀者的問題。請不要對這句話感到氣餒,因果學習是一個有趣的話題,作者希望閱讀本書可以說服讀者開始研究它。
如果沒有大家的支持,作者就無法完成《因果推理:基礎(chǔ)與學習算法》這本書。
作者非常感謝德國奧博沃爾法赫數(shù)學研究所對三位作者的支持,在該研究所工作期間,三位作者完成了《因果推理:基礎(chǔ)與學習算法》的大部分內(nèi)容。
感謝Michel Besserve、Peter Bühlmann、Rune Christiansen、Frederick Eberhardt、Jan Ernest、 Philipp Geiger、Niels Richard Hansen、Alain Hauser、Biwei Huang、Marek Kaluba、Hansruedi Künsch、Steffen Lauritzen、Jan Lemeire、David Lopez-Paz、Marloes Maathuis、Nicolai Meinshausen、S.ren Wengel Mogensen、Joris Mooij、Krikamol Muandet、Judea Pearl、Niklas Pfister、Thomas Richardson、Mateo Rojas-Carulla、Eleni Sgouritsa、Carl Johann Simon-Gabriel、Xiaohai Sun、Ilya Tolstikhin、Kun Zhang和 Jakob Zscheischler,在作者寫《因果推理:基礎(chǔ)與學習算法》的過程中,提供了許多有用的評論和有趣的討論。特別是Joris和Kun參與了本書介紹的大部分研究。??
感謝德國卡爾斯魯厄理工學院、瑞士蘇黎世聯(lián)邦理工學院和德國圖賓根大學多位學生對《因果推理:基礎(chǔ)與學習算法》初稿的閱讀及校對,并提出許多令人鼓舞的問題。
最后,感謝來自Westchester出版服務公司的匿名評審專家和編輯團隊的有益建議,以及麻省理工學院出版社的工作人員,特別是Marie Lufkin Lee和Christine Bridget Savage,感謝他們在整個寫作過程中提供了良好的支持。
Jonas Peters、Dominik Janzing和 Bernhard Schölkopf
哥本哈根和圖賓根
??
自從1956年首次提出“人工智能”(AI)概念,AI一直處于爭議之中。AI或被稱作人類文明耀眼未來的預言,或被當成技術(shù)瘋子的狂想扔到垃圾堆里。直到2012年之前,這兩種聲音還同時存在。2012年以后,得益于數(shù)據(jù)量的上漲、運算力的提升和深度學習的出現(xiàn),AI在理論研究及應用領(lǐng)域開始了大的爆發(fā)。
世上萬事萬物,有因就有果,有果必有因。事物為什么會發(fā)生、為什么會得到某種結(jié)果,都是通過論述事物的因果關(guān)系來完成的。然而,因果推理一直被視為機器學習理論中缺失的部分,除了執(zhí)果索因的貝葉斯定理,很少有方法能對因果關(guān)系進行建模。目前,因果關(guān)系是一個極具吸引力的研究領(lǐng)域。其理論研究和應用試探才剛剛起步,許多概念問題仍然存在爭論。
因果推理是探討利用數(shù)據(jù)確定因果關(guān)系、度量因果效應的方法。近年來,包括哲學、統(tǒng)計學、計算機科學、社會學、醫(yī)學和公共衛(wèi)生等領(lǐng)域的研究者對因果及其推理方法進行了廣泛的探討和研究。因果圖模型提供了一種用概率圖進行因果推理的框架。因為它能直觀表示因果知識,有效地對因果效應進行概率推斷,所以使得與它相關(guān)的方法成為統(tǒng)計學、機器學習、生物信息等領(lǐng)域的一個研究熱點。然而,利用數(shù)據(jù),特別是觀察數(shù)據(jù)進行因果的學習和推理的方法還不完善,大多基于實際數(shù)據(jù)的因果分析很難得到理想的效果。
《因果推理:基礎(chǔ)與學習算法》的第1章從概率論與統(tǒng)計學入手,介紹了因果模型和因果學習。第2章分析了因果推理的假設(shè),揭示這些假設(shè)所暗含的因果推理和學習的目的。第3~5章針對兩個變量的情況介紹結(jié)構(gòu)因果模型、干預和反事實等概念,然后論述了學習因果模型,以及因果模型與機器學習之間的關(guān)系。第6~8章將第3~5章的概念和理論推廣到多變量情況。第9章分析因果推理中隱藏變量的相關(guān)問題。最后,第10章討論時間序列的因果推斷。
《因果推理:基礎(chǔ)與學習算法》的翻譯出版得到了機械工業(yè)出版社的大力支持,在此特致感謝。我們的研究生在全書的初稿形成、圖表編輯等諸多方面給予了幫助,在此一并致謝。
《因果推理:基礎(chǔ)與學習算法》第1~5章以及附錄部分由盧勝男博士翻譯,第6~10章由李小和博士翻譯,程國建教授對全書進行了通稿和校對并參與了部分內(nèi)容的翻譯。在翻譯過程中,譯者力求忠實、準確地把握原著,同時保留原著風格。但由于譯者水平有限,書中難免有錯誤和不準確之處,懇請廣大讀者批評指正。
譯 者
譯者序
原書前言
符號和術(shù)語
第 1章 統(tǒng)計和因果模型
1.1 概率論與統(tǒng)計學
1.2 學習理論
1.3 因果建模和學習
1.4 兩個實例
1.4.1 模式識別
1.4.2 基因干擾
第 2章 因果推斷假設(shè)
2.1 獨立機制原則
2.2 歷史記錄
2.3 因果模型的物理結(jié)構(gòu)
2.3.1 時間的作用
2.3.2 物理定律
2.3.3 循環(huán)賦值
2.3.4 干預的可行性
2.3.5 原因和機制的獨立性以及時間的熱力學之箭
第3章 原因-效果模型
3.1 結(jié)構(gòu)因果模型
3.2 干預
3.3 反事實
3.4 結(jié)構(gòu)因果模型的標準表示
3.5 問題
第 4章 學習原因-效果模型
4.1 結(jié)構(gòu)可識別性
4.1.1 為什么需要額外的假設(shè)
4.1.2 假設(shè)類型的概述
4.1.3 非高斯加性噪聲的線性模型
4.1.4 非線性加性噪聲模型
4.1.5 離散加性噪聲模型
4.1.6 后非線性模型
4.1.7 信息-幾何因果推斷
4.1.8 Trace方法
4.1.9 以算法信息理論為可能的基礎(chǔ)
4.2 結(jié)構(gòu)識別方法
4.2.1 加性噪聲模型
4.2.2 信息幾何因果推斷
4.2.3 Trace方法
4.2.4 監(jiān)督學習方法
4.3 問題
第5章 與機器學習的聯(lián)系1
5.1 半監(jiān)督學習
5.1.1 半監(jiān)督學習和因果方向
5.1.2 關(guān)于半監(jiān)督學習在因果方向上的注釋
5.2 協(xié)變量偏移
5.3 問題
第6章 多變量因果模型…
6.1 圖的術(shù)語
6.2 結(jié)構(gòu)因果模型
6.3 干預
6.4 反事實
6.5 馬爾可夫性、忠實性和因果最小性
6.5.1 馬爾可夫性
6.5.2 因果圖模型
6.5.3 忠實性和因果最小性
6.6 通過協(xié)變量調(diào)整計算干預分布
6.7 do-calculus
6.8 因果模型的等價性和可證偽性
6.9 潛在的結(jié)果
6.9.1 定義與實例
6.9.2 潛在的結(jié)果與結(jié)構(gòu)因果模型之間的關(guān)系
6.10 單一對象的廣義結(jié)構(gòu)因果模型
6.11 條件算法獨立性
6.12 問題
第7章 學習多變量因果模型
7.1 結(jié)構(gòu)可識別性
7.1.1 忠實性
7.1.2 加性噪聲模型
7.1.3 具有等誤差方差的線性高斯模型
7.1.4 線性非高斯無環(huán)模型
7.1.5 非線性高斯加性噪聲模型
7.1.6 觀測數(shù)據(jù)和實驗數(shù)據(jù)
7.2 結(jié)構(gòu)識別方法
7.2.1 基于獨立的方法
7.2.2 基于分數(shù)的方法
7.2.3 加性噪聲模型
7.2.4 已知因果次序
7.2.5 觀測數(shù)據(jù)與實驗數(shù)據(jù)
7.3 問題
第8章 與機器學習的聯(lián)系2
8.1 半同胞回歸
8.2 因果推斷與場景強化學習
8.2.1 逆概率加權(quán)
8.2.2 場景強化學習
8.2.3 21點(Blackjack)中的狀態(tài)簡化
8.2.4 改進廣告布置的加權(quán)
8.3 域適應
8.4 問題
第9章 隱藏變量
9.1 干預充分性
9.2 Simpson悖論
9.3 工具變量
9.4 條件獨立性和圖表示
9.4.1 圖
9.4.2 快速因果推斷
9.5 條件獨立性之外的約束
9.5.1 Verma約束
9.5.2 不等式約束
9.5.3 基于協(xié)方差的約束
9.5.4 附加噪聲模型
9.5.5 檢測低復雜度混雜因子
9.5.6 不同的環(huán)境
9.6 問題
第10章 時間序列
10.1 基礎(chǔ)和術(shù)語
10.2 結(jié)構(gòu)因果模型和干預
10.2.1 下采樣
10.3 學習因果時間序列模型
10.3.1 馬爾可夫條件和忠實性
10.3.2 一些不要求忠實性的因果結(jié)論
10.3.3 Granger因果關(guān)系
10.3.4 具有受限函數(shù)類的模型
10.3.5 頻譜獨立準則
10.4 動態(tài)因果建模
10.5 問題
附錄
附錄A 一些概率與統(tǒng)計學基礎(chǔ)知識
A.1 基本定義
A.2 獨立性以及條件獨立性測試
A.3 函數(shù)類的容量
附錄B 因果次序和鄰接矩陣
附錄C 證明
C.1 定理4.2的證明
C.2 命題6.3的證明
C.3 備注6.6的證明
C.4 命題6.13的證明
C.5 命題6.14的證明
C.6 命題6.36的證明
C.7 命題6.48的證明
C.8 命題6.49的證明
C.9 命題7.1的證明
C.10 命題7.4的證明
C.11 命題8.1的證明
C.12 命題8.2的證明
C.13 命題9.3的證明
C.14 命題10.3的證明
C.15 定理10.4的證明
參考文獻