本書基于近些年實驗領(lǐng)域的研究成果和實踐經(jīng)驗,對實驗的方法和應(yīng)用做了很好的全景式描述,是一本兼顧系統(tǒng)性的方法論和基于實戰(zhàn)的經(jīng)驗法則的書籍。根據(jù)微軟、亞馬遜、谷歌和領(lǐng)英每年運(yùn)行的兩萬多個對照實驗,作者以示例和建議的方式向?qū)W生和業(yè)內(nèi)人士分享了自己的實踐經(jīng)驗,指出了需要避免的陷阱,并深入探討了一些進(jìn)階專題,可以為希望改善自身及機(jī)構(gòu)數(shù)據(jù)驅(qū)動決策方式的從業(yè)者提供參考。
全書分為五個部分:第I部分由四章組成。第1章概述運(yùn)行線上對照實驗的好處,并介紹實驗相關(guān)術(shù)語。第2 章用一個例子剖析運(yùn)行實驗的全過程。第3 章描述常見的陷阱以及如何建立實驗的可信賴度。第4 章概述如何搭建實驗平臺并規(guī);上實驗。第II部分的五章內(nèi)容介紹實驗的基礎(chǔ)原理,比如機(jī)構(gòu)指標(biāo)。我們推薦所有人閱讀這一部分,尤其是領(lǐng)導(dǎo)者和高管。第III部分的兩章內(nèi)容介紹線上對照實驗的補(bǔ)充技法,可以幫助管理層、數(shù)據(jù)科學(xué)家、工程師、分析師、產(chǎn)品經(jīng)理等進(jìn)行資源和時間的投資。第IV部分專注于實驗平臺的搭建,面向工程師群體。最后,第V部分深入討論進(jìn)階的實驗分析專題,面向數(shù)據(jù)科學(xué)家。
如果我們有數(shù)據(jù),那就看數(shù)據(jù)。
如果我們只有觀點(diǎn),那就按我的觀點(diǎn)來。
——Jim Barksdale,網(wǎng)景前首席執(zhí)行官
本書旨在分享多年來Ron在亞馬遜和微軟、Diane在谷歌以及Ya在微軟和領(lǐng)英大規(guī)模運(yùn)行線上對照實驗積累的實踐經(jīng)驗。雖然我們不是代表谷歌、領(lǐng)英或微軟官方,而是以個人身份寫作此書,但書中凝聚了我們工作多年積累的關(guān)鍵經(jīng)驗教訓(xùn)和遇到的常見陷阱,并提供了軟件平臺的搭建以及公司文化的培養(yǎng)方面的指導(dǎo):如何利用線上對照實驗建立數(shù)據(jù)驅(qū)動文化而不是依賴HiPPO(Highest Paid Person’s Opinion,最高薪者的意見)(R. Kohavi, HiPPO FAQ 2019)。我們相信書中的很多經(jīng)驗適用于各種線上環(huán)境,不論是大大小小的公司,還是具體到公司內(nèi)部的團(tuán)隊或組織。書中強(qiáng)調(diào)了評估實驗結(jié)果可信賴度的必要性。我們相信特威曼定律蘊(yùn)含的懷疑論:任何看起來有趣或與眾不同的數(shù)字通常都是錯的。我們鼓勵讀者對實驗結(jié)果,尤其是有突破性的正面結(jié)果做二次檢查,以及做驗證性測試。獲得數(shù)據(jù)很簡單,但獲得你能信任的數(shù)據(jù)很難!
本書第一部分適合所有讀者,由四章組成。第1章概述運(yùn)行線上對照實驗的好處,并介紹實驗相關(guān)術(shù)語。第2章用一個例子剖析運(yùn)行實驗的全過程。第3章描述常見的陷阱以及如何建立實驗的可信賴度。第4章概述如何搭建實驗平臺并規(guī);上實驗。
第二部分到第五部分針對一些特定的讀者群體,當(dāng)然也歡迎其他讀者按需閱讀。第二部分的五章內(nèi)容介紹實驗的基礎(chǔ)原理,比如機(jī)構(gòu)指標(biāo)。我們推薦所有人閱讀這一部分,尤其是領(lǐng)導(dǎo)者和高管。第三部分的兩章內(nèi)容介紹線上對照實驗的補(bǔ)充技法,可以幫助管理層、數(shù)據(jù)科學(xué)家、工程師、分析師、產(chǎn)品經(jīng)理等進(jìn)行資源和時間的投資。第四部分專注于實驗平臺的搭建,面向工程師群體。最后,第五部分深入討論進(jìn)階的實驗分析專題,面向數(shù)據(jù)科學(xué)家。
本書的配套網(wǎng)站為https://experimentguide.com,它囊括了更多的材料和勘誤,并提供了開放性討論的空間。本書作者的所有收益將捐獻(xiàn)給慈善機(jī)構(gòu)。
作者簡介:
羅恩·科哈維(Ron Kohavi)是愛彼迎的副總裁和技術(shù)院士,曾任微軟的技術(shù)研究員和公司副總裁。在加入微軟之前,他是亞馬遜的數(shù)據(jù)挖掘和個性化推薦總監(jiān)。他擁有斯坦福大學(xué)計算機(jī)科學(xué)博士學(xué)位,論文被引用超過40 000次,其中有3篇位列計算機(jī)科學(xué)領(lǐng)域引用最多的1 000篇論文榜。
黛安·唐(Diane Tang)是谷歌院士,大規(guī)模數(shù)據(jù)分析和基礎(chǔ)設(shè)施、線上對照實驗及廣告系統(tǒng)方面的專家。她擁有哈佛大學(xué)的文學(xué)學(xué)士學(xué)位和斯坦福大學(xué)的碩士及博士學(xué)位,在移動網(wǎng)絡(luò)、信息可視化、實驗方法、數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)據(jù)挖掘和大數(shù)據(jù)方面擁有專利和出版物。
許亞(Ya Xu)是領(lǐng)英數(shù)據(jù)科學(xué)與實驗平臺負(fù)責(zé)人,曾撰寫了多篇關(guān)于實驗的論文,并經(jīng)常在頂級會議和大學(xué)演講。她曾在微軟工作,擁有斯坦福大學(xué)的統(tǒng)計學(xué)博士學(xué)位。
譯者簡介:
韓瑋:愛彼迎數(shù)據(jù)科學(xué)資深專家,專注于搜索算法和實驗領(lǐng)域,之前在沃爾瑪實驗室負(fù)責(zé)相關(guān)工作。她于賓夕法尼亞大學(xué)獲得應(yīng)用數(shù)學(xué)博士學(xué)位和統(tǒng)計學(xué)碩士學(xué)位,本科畢業(yè)于中國科學(xué)技術(shù)大學(xué)數(shù)學(xué)系。
胡鵑娟:現(xiàn)任愛彼迎數(shù)據(jù)科學(xué)家,擁有四年的A/B 實驗分析經(jīng)驗。此前在領(lǐng)英任資深數(shù)據(jù)科學(xué)家。于加州大學(xué)戴維斯分校獲得統(tǒng)計學(xué)碩士學(xué)位、香港中文大學(xué)獲得金融碩士學(xué)位,本科畢業(yè)于中國科學(xué)技術(shù)大學(xué)00 班統(tǒng)計專業(yè)。
段瑋韜:領(lǐng)英資深應(yīng)用研究專家,現(xiàn)負(fù)責(zé)領(lǐng)英實驗科學(xué)團(tuán)隊。他與許亞一起在實驗領(lǐng)域緊密合作長達(dá)5 年之久,書中的很多材料和結(jié)論都提煉自他和許亞的工作經(jīng)驗。
胡澤浩:優(yōu)步數(shù)據(jù)科學(xué)經(jīng)理,優(yōu)步人工智能和增長平臺兩個數(shù)據(jù)科學(xué)團(tuán)隊的負(fù)責(zé)人,擁有五年用數(shù)據(jù)及實驗驅(qū)動產(chǎn)品開發(fā)的經(jīng)驗。于賓夕法尼亞大學(xué)獲得經(jīng)濟(jì)學(xué)博士學(xué)位,本科畢業(yè)于香港大學(xué)經(jīng)濟(jì)系。
廖一正:愛彼迎資深數(shù)據(jù)科學(xué)家,負(fù)責(zé)愛彼迎中國區(qū)搜索引擎算法開發(fā),領(lǐng)導(dǎo)著實驗分析委員會。于斯坦福大學(xué)獲得土木與環(huán)境工程博士學(xué)位,研究領(lǐng)域為應(yīng)用機(jī)器學(xué)習(xí)和統(tǒng)計。
王璐:雪花(Snowflake)計算數(shù)據(jù)科學(xué)家,擁有將近七年的實驗設(shè)計與分析、統(tǒng)計建模以及產(chǎn)品分析經(jīng)驗。曾任愛彼迎數(shù)據(jù)科學(xué)家以及吉利德科學(xué)生物統(tǒng)計師。于加州大學(xué)洛杉磯分校獲得生物統(tǒng)計博士學(xué)位,本科畢業(yè)于浙江大學(xué)生物信息系。
趙振宇:騰訊數(shù)據(jù)科學(xué)總監(jiān)。此前先后在雅虎和優(yōu)步負(fù)責(zé)實驗系統(tǒng)、因果推斷、機(jī)器學(xué)習(xí)應(yīng)用研究和平臺建設(shè),以及開源項目研發(fā)工作。于美國西北大學(xué)獲得統(tǒng)計學(xué)博士學(xué)位,本科畢業(yè)于中國科學(xué)技術(shù)大學(xué)。
鐘婧:蘋果公司Siri 部門資深數(shù)據(jù)科學(xué)家,此前先后在微軟必應(yīng)部門及臉書公司從事機(jī)器學(xué)習(xí)建模和A/B 實驗、用戶和產(chǎn)品數(shù)據(jù)分析、產(chǎn)品戰(zhàn)略分析等方向的研究工作。于密歇根大學(xué)獲得博士學(xué)位,本科畢業(yè)于清華大學(xué)電子工程系。
本書贊譽(yù)
譯者序
前言——如何閱讀本書
致謝
第一部分 線上對照實驗概覽
第1章 概述和寫作動機(jī)003
1.1 線上對照實驗的術(shù)語005
1.2 為什么進(jìn)行實驗?相關(guān)性、因果關(guān)系和可信賴度008
1.3 有效運(yùn)行對照實驗的必要元素010
1.4 宗旨011
1.5 隨時間推移的改進(jìn)013
1.6 有趣的線上對照實驗實例015
1.7 戰(zhàn)略、戰(zhàn)術(shù)及它們和實驗的關(guān)系020
1.8 補(bǔ)充閱讀 023
第2章 運(yùn)行和分析實驗——一個全程剖析的案例025
2.1 設(shè)立實驗025
2.2 假設(shè)檢驗:確立統(tǒng)計顯著性028
2.3 設(shè)計實驗030
2.4 運(yùn)行實驗并獲得數(shù)據(jù)032
2.5 分析結(jié)果033
2.6 從結(jié)果到?jīng)Q策034
第3章 特威曼定律與實驗的可信賴度037
3.1 曲解統(tǒng)計結(jié)果038
3.2 置信區(qū)間041
3.3 對內(nèi)部有效性的威脅041
3.4 對外部有效性的威脅046
3.5 細(xì)分群的差異049
3.6 辛普森悖論 052
3.7 鼓勵健康的懷疑態(tài)度054
第4章 實驗平臺和文化055
4.1 實驗成熟度模型055
4.2 基礎(chǔ)設(shè)施和工具062
第二部分 基礎(chǔ)原理
第5章 速度很重要:一個全程案例剖析075
5.1 關(guān)鍵假設(shè):局部線性近似077
5.2 如何測量網(wǎng)站的性能078
5.3 減速實驗的設(shè)計080
5.4 對不同頁面元素的影響是不同的081
5.5 極端結(jié)果083
第6章 機(jī)構(gòu)指標(biāo)085
6.1 指標(biāo)的分類086
6.2 指標(biāo)的制定:原則和技術(shù)089
6.3 指標(biāo)的評估091
6.4 指標(biāo)的演變092
6.5 更多的資源093
6.6 補(bǔ)充材料:護(hù)欄指標(biāo)093
6.7 補(bǔ)充材料:可操縱性095
第7章 實驗指標(biāo)和綜合評估標(biāo)準(zhǔn)097
7.1 從業(yè)務(wù)指標(biāo)到適用于實驗的指標(biāo)098
7.2 將關(guān)鍵指標(biāo)組合成一個OEC099
7.3 案例:亞馬遜電子郵件的OEC101
7.4 案例:必應(yīng)搜索引擎的OEC103
7.5 Goodhart法則、Campbell法則以及Lucas批判104
第8章 機(jī)構(gòu)的經(jīng)驗傳承與統(tǒng)合分析107
8.1 什么是機(jī)構(gòu)的經(jīng)驗傳承107
8.2 為什么機(jī)構(gòu)的經(jīng)驗傳承有用108
第9章 對照實驗中的倫理111
9.1 背景111
9.2 數(shù)據(jù)收集116
9.3 文化與流程117
9.4 補(bǔ)充材料:用戶標(biāo)識符117
第三部分 補(bǔ)充及替代技法
第10章 補(bǔ)充技法121
10.1 補(bǔ)充技法的空間121
10.2 基于日志的分析122
10.3 人工評估124
10.4 用戶體驗調(diào)研125
10.5 焦點(diǎn)小組125
10.6 問卷調(diào)查126
10.7 外部數(shù)據(jù)127
10.8 總結(jié)129
第11章 觀察性因果研究131
11.1 對照實驗不可行的情況131
11.2 觀察性因果研究的設(shè)計133
11.3 陷阱138
11.4 補(bǔ)充材料:被駁斥的觀察性因果研究141
第四部分 實驗平臺搭建
第12章 客戶端實驗145
12.1 服務(wù)器端和客戶端的差異145
12.2 對實驗的潛在影響148
12.3 結(jié)論152
第13章 工具化日志記錄153
13.1 客戶端與服務(wù)器端的工具化日志記錄153
13.2 處理多源的日志155
13.3 工具化日志記錄的文化156
第14章 選擇隨機(jī)化單元157
14.1 隨機(jī)化單元和分析單元159
14.2 用戶級別的隨機(jī)化160
第15章 實驗放量:權(quán)衡速度、質(zhì)量與風(fēng)險163
15.1 什么是放量163
15.2 SQR放量框架164
15.3 四個放量階段165
15.4 最終放量之后168
第16章 規(guī)模化實驗分析169
16.1 數(shù)據(jù)處理169
16.2 數(shù)據(jù)計算170
16.3 結(jié)果匯總和可視化172
第五部分 實驗分析
第17章 線上對照實驗中的統(tǒng)計學(xué)知識177
17.1 雙樣本t檢驗177
17.2 p值和置信區(qū)間178
17.3 正態(tài)性假設(shè)179
17.4 第一/二型錯誤和統(tǒng)計功效181
17.5 偏差183
17.6 多重檢驗183
17.7 費(fèi)舍爾統(tǒng)合分析184
第18章 方差估計和提高靈敏度:陷阱及解決方法185
18.1 常見陷阱186
18.2 提高靈敏度189
18.3 其他統(tǒng)計量的方差190
第19章 A/A測試193
19.1 為什么運(yùn)行A/A測試193
19.2 如何運(yùn)行A/A測試198
19.3 A/A測試失敗時199
第20章 以觸發(fā)來提高實驗靈敏度201
20.1 觸發(fā)示例201
20.2 數(shù)值示例204
20.3 最佳的和保守的觸發(fā)205
20.4 總體實驗效應(yīng)206
20.5 可信賴的觸發(fā)207
20.6 常見的陷阱207
20.7 開放性問題209
第21章 樣本比率不匹配與其他可信度相關(guān)的護(hù)欄指標(biāo)211
21.1 樣本比率不匹配212
21.2 調(diào)試SRM214
第22章 實驗變體之間的泄露和干擾219
22.1 示例220