本書全面介紹了最新的因果推斷方法,并以實踐應用為輔,方便讀者理解。本書化繁為簡,層層深入地引導讀者了解因果推斷方法發(fā)展的歷程和現(xiàn)狀。通過本書,讀者可以獲得關于因果推斷方法的全局視角。本書共5章,以遞進的方式展開對因果推斷方法的介紹。第1章從廣泛熟悉的相關關系出發(fā),通過介紹相關關系與因果關系的聯(lián)系與區(qū)別過渡到對因果關系的探索。在明確因果關系概念的基礎上,第2章主要介紹洞察因果關系的金標準:隨機對照試驗。基于隨機對照試驗的原理和不同的應用場景,本書將因果推斷方法分為3類:基于設計思想的因果推斷方法、基于潛在結果框架的因果推斷方法和基于結構因果模型的因果推斷方法。第3章~第5章分別對這3類方法進一步詳細分類,并進行解析。同時,這3類方法的應用場景也呈現(xiàn)遞進的關系。本書適合有一定統(tǒng)計知識背景的讀者,特別是希望深入研究因果推斷方法并將其應用于各領域實踐的相關研究者。同時,本書也適合對因果推斷方法感興趣的在校學生和業(yè)界工作人員。
趙永賀網易原數(shù)據分析師,吉林大學博士生。主要研究方向為因果推斷算法的理論擴展和跨學科實踐應用。曾獲永洪YVP數(shù)據分析最具影響力專家獎。孫慧妍吉林大學人工智能學院研究員,博士生導師。主要研究方向為因果推斷、機器學習、系統(tǒng)生物學。任吉林省人工智能學會理事、中國生物信息學會(籌)系統(tǒng)生物學專委會常務委員、計算機學會生物信息學專委會通訊委員等。曾獲ACM SIGBIO CHINA 2022新星獎。吳思威本科畢業(yè)于大連海事大學網絡工程專業(yè),現(xiàn)于吉林大學人工智能學院計算機科學與技術專業(yè)攻讀碩士研究生,研究方向為因果推斷、生物信息學。
第1章 相關關系和因果關系1
1.1 相關關系1
1.2 因果關系3
1.3 相關關系與因果關系之間的迷霧6
1.3.1 混雜6
1.3.2 樣本的選擇性偏差7
1.4 因果推斷方法9
1.4.1 符號和表示工具9
1.4.2 本書涉及的因果推斷方法10
參考文獻12
第2章 隨機對照試驗14
2.1 隨機對照試驗的統(tǒng)計學原理14
2.1.1 基本概念14
2.1.2 隨機對照試驗的核心思想15
2.1.3 統(tǒng)計學的反證思維:假設檢驗16
2.2 總體方差未知的情況17
2.3 兩類統(tǒng)計錯誤19
2.4 隨機對照試驗流程21
2.4.1 最小樣本容量22
2.4.2 試驗結果分析24
2.5 本章小結25
參考文獻26
第3章 基于設計思想的因果推斷方法28
3.1 雙重差分法28
3.1.1 DID模型的原理29
3.1.2 DID模型的有效性檢驗30
3.1.3 DID法的注意事項32
3.1.4 DID法案例分析33
3.2 合成控制法39
3.2.1 構建潛在的合成控制組40
3.2.2 求解合成控制組的權重41
3.2.3 合成控制組的應用42
3.2.4 合成控制法的評價43
3.2.5 合成控制法案例分析44
3.3 斷點回歸法48
3.3.1 設計原理49
3.3.2 確定分組變量和斷點49
3.3.3 精確斷點與模糊斷點51
3.3.4 斷點回歸法的有效性檢驗52
3.3.5 斷點回歸法的結果分析52
3.3.6 斷點回歸法的評價53
3.3.7 斷點回歸法案例分析54
3.4 工具變量法61
3.4.1 工具變量的定義61
3.4.2 工具變量的前提假設62
3.4.3 工具變量的有效性63
3.4.4 工具變量的實踐方式64
3.4.5 工具變量法案例分析66
3.5 主分層法72
3.5.1 隨機對照試驗中的不依從問題72
3.5.2 主分層法的原理73
3.5.3 主分層法的前提假設75
3.6 本章小結76
參考文獻77
第4章 基于潛在結果框架的因果推斷方法80
4.1 POF80
4.1.1 POF的基本構成元素80
4.1.2 POF的因果指標81
4.1.3 POF的運行規(guī)則82
4.2 均衡的樣本子空間88
4.2.1 分層方法88
4.2.2 匹配方法90
4.2.3 基于決策樹的子空間劃分94
4.3 重加權的樣本空間96
4.3.1 逆傾向得分權重96
4.3.2 雙魯棒估計方法97
4.3.3 基于提升方法的泛化傾向得分權重98
4.3.4 協(xié)變量均衡傾向得分權重100
4.3.5 泛化的協(xié)變量均衡傾向得分權重101
4.4 去混雜的表征空間104
4.4.1 均衡表征學習104
4.4.2 局部相似表征學習107
4.5 基于潛在結果框架的因果推斷方法的綜合試驗112
4.5.1 數(shù)據生成112
4.5.2 對照試驗:估計ATE的常規(guī)方法114
4.5.3 試驗一:分層方法115
4.5.4 試驗二:匹配方法117
4.5.5 試驗三:基于決策樹的子空間劃分119
4.5.6 試驗四:逆傾向得分權重120
4.5.7 試驗五:雙魯棒估計方法121
4.5.8 試驗六:基于提升方法的泛化傾向得分權重122
4.5.9 試驗七:協(xié)變量均衡傾向得分權重123
4.5.10 試驗八:泛化的協(xié)變量均衡傾向得分權重124
4.5.11 試驗九:均衡表征學習和局部相似表征學習124
4.5.12 總結127
4.6 本章小結127
參考文獻128
第5章 基于結構因果模型的因果推斷方法132
5.1 因果層級132
5.2 結構因果模型134
5.2.1 因果圖134
5.2.2 因果圖的基本節(jié)點結構135
5.2.3 因果圖上的概率分布137
5.2.4 因果圖上結構方程139
5.2.5 結構因果模型小結141
5.3 干預推斷142
5.3.1 后門調整142
5.3.2 前門調整143
5.3.3 do演算144
5.4 干預的可識別性和識別算法147
5.4.1 基本概念和定義147
5.4.2 Px(v)的可識別性150
5.4.3 Px(s)的可識別性163
5.4.4 Pt(s)的可識別性179
5.4.5 半馬爾可夫模型向馬爾可夫模型的進化183
5.5 反事實預測184
5.6 本章小結186
參考文獻186