眾所周知,在生活中統(tǒng)計(jì)學(xué)無處不在,每件事、每個(gè)人似乎都可以用統(tǒng)計(jì)數(shù)字來加以說明。特別是進(jìn)入大數(shù)據(jù)時(shí)代以后,統(tǒng)計(jì)學(xué)更是成為炙手可熱的學(xué)問,它可以幫我們解決很多重要的社會(huì)問題,并對(duì)“黑天鵝”事件和未來做出預(yù)測(cè)。
但不可否認(rèn)的是,統(tǒng)計(jì)學(xué)本身因?yàn)槟依ù罅康臄?shù)學(xué)內(nèi)容及專業(yè)術(shù)語,以至于讓人覺得高深莫測(cè)、很難親近。
《赤裸裸的統(tǒng)計(jì)學(xué)》的作者查爾斯·惠倫“扒光”了統(tǒng)計(jì)學(xué)“沉悶的外衣”,用生活中有趣的案例、直觀的圖表、生動(dòng)詼諧的語言風(fēng)格,徹底揭開了統(tǒng)計(jì)學(xué)、大數(shù)據(jù)和數(shù)字的“神秘面紗”,讓我們知道權(quán)威期刊、媒體新聞、民意調(diào)研中公布的數(shù)字從何而來,輕松掌握判斷這些統(tǒng)計(jì)數(shù)字“是否在撒謊”的秘籍。同時(shí),作者還將統(tǒng)計(jì)學(xué)的工具帶入日常生活中,告訴我們?yōu)槭裁床灰I彩票,為什么你家附近的商場(chǎng)會(huì)知道你懷孕的消息并給你寄來紙尿褲的優(yōu)惠券,等等。
大數(shù)據(jù)時(shí)代你必須掌握的統(tǒng)計(jì)學(xué)知識(shí),全部都在《赤裸裸的統(tǒng)計(jì)學(xué)》中。從今天開始,好好使用統(tǒng)計(jì)學(xué)和數(shù)據(jù)吧!
統(tǒng)計(jì)學(xué)是大數(shù)據(jù)時(shí)代最炙手可熱的學(xué)問,它可以幫我們解決很多重要的社會(huì)問題,并對(duì)“黑天鵝”事件和未來做出預(yù)測(cè)。除去大數(shù)據(jù)的沉悶外衣,呈現(xiàn)生活的真實(shí)之美! ∫曨l網(wǎng)站是如何知道你喜歡的電影類型的? 哪些人最有可能成為恐怖分子? 我們應(yīng)該依據(jù)什么來評(píng)估教學(xué)質(zhì)量,從而幫助孩子選對(duì)學(xué)校? 商場(chǎng)是如何在你的家人之前就知道你懷孕的消息的? 基尼系數(shù)是衡量社會(huì)分配公平程度最完美的指標(biāo)嗎? 買福利彩票,去賭場(chǎng)豪賭,投資股票或期貨,哪種方式讓你躋身富豪排行榜的可能性更大? “缺乏控制力和話語權(quán)”的工作,還是“權(quán)力大,責(zé)任也大”的工作,更容易讓職場(chǎng)人士猝死? 不止這些,生活中你遇到的各種問題都離不開數(shù)據(jù)和統(tǒng)計(jì)學(xué)! 〗y(tǒng)計(jì)學(xué)已經(jīng)成為大數(shù)據(jù)時(shí)代最炙手可熱的學(xué)問。它可以幫我們解決很多瑣碎的生活問題和重要的社會(huì)問題,并對(duì)“黑天鵝”事件和未來做出預(yù)測(cè)! 冻嗦懵愕慕y(tǒng)計(jì)學(xué)》沒有讓你避之不及的數(shù)學(xué)公式,沒有滿是數(shù)字的圖表,沒有空洞乏味的教科書式說教;《赤裸裸的統(tǒng)計(jì)學(xué)》有生動(dòng)詼諧的案例,有你熟悉的生活話題和社會(huì)問題,有你一定用得到的統(tǒng)計(jì)學(xué)知識(shí),有大數(shù)據(jù)時(shí)代的“游戲規(guī)則”和“生存法則”! ”緯鴮⑹悄阌龅竭^的最好的“數(shù)學(xué)老師”,它裝滿了具有現(xiàn)實(shí)意義的“課程”,比如為什么一流大學(xué)畢業(yè)生的收入會(huì)高于普通大學(xué)畢業(yè)生,還有為什么不要買彩票。
查爾斯·惠倫(CharlesWheelan),于1997~2002年間擔(dān)任《經(jīng)濟(jì)學(xué)人》雜志駐美國中西部地區(qū)的記者,還為《芝加哥部報(bào)》、《紐約時(shí)報(bào)》和《華爾街日?qǐng)?bào)》撰稿,現(xiàn)任芝加哥公共電臺(tái)WBEZ節(jié)目財(cái)經(jīng)記者。其所著《赤裸裸的經(jīng)濟(jì)學(xué)》已由中信出版社于2010年出版。
引言 我為什么憎惡微積分卻偏愛統(tǒng)計(jì)學(xué)?
第1章 統(tǒng)計(jì)學(xué)是大數(shù)據(jù)時(shí)代最炙手可熱的學(xué)問
基尼系數(shù)是否是衡量社會(huì)分配公平程度最完美的指標(biāo)?視頻網(wǎng)站是如何知道你喜歡的電影類型的?祈禱真的能讓病人的術(shù)后康復(fù)狀況改善嗎?是什么導(dǎo)致自閉癥發(fā)病率一直走高?哪些人最有可能成為恐怖分子?
第2章 描述統(tǒng)計(jì)學(xué)
你一直想買的一條連衣裙,商場(chǎng)售價(jià)為4999元,先降價(jià)25%后再提價(jià)25%,你能算出這條連衣裙的最終售價(jià)是多少嗎?
第3章 統(tǒng)計(jì)數(shù)字會(huì)撒謊
1950年人們的平均時(shí)薪是1美元,2012年人們的平均時(shí)薪是5美元,你覺得我們的工資水平漲了嗎?
第4章 相關(guān)性與相關(guān)系數(shù)
視頻網(wǎng)站根本不知道我是誰,但它又是怎么知道我喜歡看人物紀(jì)錄片而不是電視連續(xù)劇、動(dòng)作片或科幻片的?
引言 我為什么憎惡微積分卻偏愛統(tǒng)計(jì)學(xué)?
第1章 統(tǒng)計(jì)學(xué)是大數(shù)據(jù)時(shí)代最炙手可熱的學(xué)問
基尼系數(shù)是否是衡量社會(huì)分配公平程度最完美的指標(biāo)?視頻網(wǎng)站是如何知道你喜歡的電影類型的?祈禱真的能讓病人的術(shù)后康復(fù)狀況改善嗎?是什么導(dǎo)致自閉癥發(fā)病率一直走高?哪些人最有可能成為恐怖分子?
第2章 描述統(tǒng)計(jì)學(xué)
你一直想買的一條連衣裙,商場(chǎng)售價(jià)為4999元,先降價(jià)25%后再提價(jià)25%,你能算出這條連衣裙的最終售價(jià)是多少嗎?
第3章 統(tǒng)計(jì)數(shù)字會(huì)撒謊
1950年人們的平均時(shí)薪是1美元,2012年人們的平均時(shí)薪是5美元,你覺得我們的工資水平漲了嗎?
第4章 相關(guān)性與相關(guān)系數(shù)
視頻網(wǎng)站根本不知道我是誰,但它又是怎么知道我喜歡看人物紀(jì)錄片而不是電視連續(xù)劇、動(dòng)作片或科幻片的?
第5章 概率與期望值
買福利彩票,去賭場(chǎng)豪賭、投資股票或期貨,哪種方式讓你躋身《福布斯》富豪排行榜的可能性更大?
第6章 蒙提·霍爾悖論
在《讓我們做個(gè)交易》節(jié)目中,主持人打開的3號(hào)門后面是一頭羊,在剩下的1號(hào)門和2號(hào)門中必定有一扇門后面是汽車,你應(yīng)該如何選擇才能中大獎(jiǎng)?
第7章 黑天鵝事件
1%的小概率風(fēng)險(xiǎn)如何在2008年成為擊垮美國華爾街的“黑天鵝”,并毀了全球金融體系。
第8章 數(shù)據(jù)與偏見
2012年,《科學(xué)》雜志刊登了一項(xiàng)驚人的發(fā)現(xiàn):在求偶期多次遭受雌性果蠅冷落的雄性果蠅會(huì)“借酒消愁”。那么,這些果蠅是如何一醉方休的?
第9章 中心極限定理
一輛坐滿肥胖乘客的拋錨客車停在你家附近的路上,你推斷一下,它的目的地是馬拉松比賽場(chǎng)地,還是國際香腸節(jié)展廳?
第10章 統(tǒng)計(jì)推斷與假設(shè)檢驗(yàn)
垃圾郵件過濾、癌癥篩查、恐怖分子追捕,我們最不能容忍哪件事情出錯(cuò),又有哪件事情是可以“睜一只眼閉一只眼”的?
第11章 民意測(cè)驗(yàn)與誤差幅度
民調(diào)結(jié)果顯示,有89%的美國人不相信政府會(huì)做正確的事,有46%的美國人認(rèn)可奧巴馬的工作表現(xiàn)。這個(gè)結(jié)果可以代表美國人的真實(shí)想法嗎?
第12章 回歸分析與線性關(guān)系
你認(rèn)為什么樣的工作壓力更容易使職場(chǎng)人士猝死,是“缺乏控制力和話語權(quán)”的工作,還是“權(quán)力大,責(zé)任也大”的工作?
第13章 致命的回歸錯(cuò)誤
世界上3本最有聲望的醫(yī)學(xué)期刊上刊登的49篇學(xué)術(shù)研究論文中有1/3后來都被推翻了,所以,“盡量不要用你的回歸分析研究殺人”。
第14章 項(xiàng)目評(píng)估與“反現(xiàn)實(shí)”
哈佛大學(xué)等世界頂尖大學(xué)的畢業(yè)生進(jìn)入社會(huì)后,其收入往往高于一般大學(xué)的畢業(yè)生,讓他們獲得高收入的究竟是常春藤大學(xué)的教育優(yōu)勢(shì),還是他們本身就很出色?
結(jié)束語統(tǒng)計(jì)學(xué)能夠幫忙解決的5個(gè)問題
致謝
假設(shè)你所生活的城市正在舉辦一場(chǎng)馬拉松比賽。來自世界各國的運(yùn)動(dòng)員們齊聚一堂,準(zhǔn)備一決高下,但他們中的許多人都不會(huì)說英語。按照比賽組委會(huì)的安排,每位運(yùn)動(dòng)員在比賽當(dāng)天的早上簽到之后,會(huì)被隨機(jī)分配到一輛駛往起點(diǎn)的長(zhǎng)途客車。不湊巧的是,其中的一輛長(zhǎng)途客車沒有按規(guī)定到達(dá)比賽現(xiàn)場(chǎng),為了省去大量額外的運(yùn)算,我們假設(shè)這輛客車上沒有一個(gè)人有手機(jī),而且車?yán)镆矝]有裝載全球定位系統(tǒng)(GPS)設(shè)備。作為市民中的一員,你加入了搜尋長(zhǎng)途客車的隊(duì)伍。
偏偏就那么巧,在你家附近有一輛拋錨的長(zhǎng)途客車,車上坐著一大群面露不快的國際乘客,他們中沒有一個(gè)人會(huì)說英語。這肯定就是那輛失蹤的車,你將會(huì)成為這座城市的英雄!但就在此時(shí),一個(gè)疑惑出現(xiàn)在你的腦中:這輛車上的乘客看上去都“不瘦”,準(zhǔn)確地說,他們都很胖。粗略掃一眼這些人,你估計(jì)這些乘客的平均體重至少有220磅(100公斤)。隨機(jī)分配的馬拉松運(yùn)動(dòng)員的體重不可能這么重,你打開對(duì)講機(jī)對(duì)搜尋總部匯報(bào)道:“不是這輛客車,請(qǐng)繼續(xù)搜尋。”
進(jìn)一步的調(diào)查證實(shí)了你最初的判斷是正確的。趕到現(xiàn)場(chǎng)的翻譯人員經(jīng)過一番交流后,你終于知道這輛拋錨的客車原本是要前往國際香腸節(jié)會(huì)場(chǎng)的,正好這一屆的香腸節(jié)也在這座城市舉辦,連日期都碰巧相同。而且從視覺角度考慮,參加香腸節(jié)的人完全有可能也穿著寬松的運(yùn)動(dòng)長(zhǎng)褲。
祝賀你!如果你能夠體會(huì)上述的推理過程,也就是說,通過快速觀察車上乘客的體型來判斷他們并非馬拉松運(yùn)動(dòng)員,那么你就已經(jīng)領(lǐng)會(huì)了中心極限定理的基本理念,剩下的工作就是在這個(gè)基本框架下充實(shí)細(xì)節(jié)了。一旦你理解了中心極限定理,統(tǒng)計(jì)推斷的絕大多數(shù)形式將會(huì)變得非常直觀。
中心極限定理的核心要義就是,一個(gè)大型樣本的正確抽樣與其所代表的群體存在相似關(guān)系。當(dāng)然,每個(gè)樣本之間肯定會(huì)存在差異(比如前往馬拉松起點(diǎn)的這么多輛客車,每輛客車乘客的組成都不可能完全相同),但是任一樣本與整體之間存在巨大差異的概率是較低的。正是因?yàn)檫@個(gè)邏輯,讓你對(duì)那輛載滿肥胖乘客的拋錨客車做出了快速判斷。的確有胖人參加馬拉松比賽,每一次馬拉松比賽中都會(huì)有幾百名參賽者的體重在200磅以上,但絕大多數(shù)的馬拉松運(yùn)動(dòng)員還是比較瘦的。因此,如此之多的“重量級(jí)”運(yùn)動(dòng)員被隨機(jī)安排到同一輛客車上的概率可以說是很低的,所以你完全有理由認(rèn)為這不是那輛失蹤的馬拉松客車。當(dāng)然,有可能你的判斷是錯(cuò)的,但概率告訴我們你更有可能是對(duì)的。
這就是中心極限定理背后的基本經(jīng)驗(yàn)。如果我們?cè)俑郊右恍┙y(tǒng)計(jì)學(xué)工具,就能將正確或錯(cuò)誤的可能性進(jìn)行量化。例如,在一場(chǎng)有10000名選手參加的馬拉松比賽中,運(yùn)動(dòng)員的平均體重為155磅,我們可以算出,一個(gè)包含60名選手(也就是一輛客車的載客量)的隨機(jī)樣本的平均體重大于或等于220磅的概率不足1/100。但在此刻,讓我們還是從直覺出發(fā)進(jìn)行計(jì)算。通過運(yùn)用中心極限定理,我們能夠得出如下推理,這些推理都將會(huì)在下一章里進(jìn)行深入闡述。
1.如果我們掌握了某個(gè)群體的具體信息,就能推理出從這個(gè)群體中正確抽取的隨機(jī)樣本的情況。舉個(gè)例子,假設(shè)某學(xué)校的校長(zhǎng)手里有本校所有學(xué)生的統(tǒng)考成績(jī)(平均分、標(biāo)準(zhǔn)差等),這就相當(dāng)于一個(gè)相關(guān)人口數(shù)據(jù),再過一個(gè)星期的時(shí)間,區(qū)領(lǐng)導(dǎo)將會(huì)來學(xué)校隨機(jī)抽取100名學(xué)生進(jìn)行一次類似統(tǒng)考的測(cè)驗(yàn),這100名學(xué)生的成績(jī)—也就是一個(gè)樣本,將會(huì)作為考核該校教學(xué)質(zhì)量的指標(biāo)。
隨機(jī)抽取的這100名學(xué)生的考試成績(jī)是否能夠準(zhǔn)確地反映出全校學(xué)生的平均水平呢?校長(zhǎng)需要為此擔(dān)心嗎?根據(jù)中心極限定理,這100名學(xué)生作為一個(gè)隨機(jī)樣本,其平均成績(jī)不會(huì)與全校學(xué)生的平均成績(jī)產(chǎn)生較大差異。
2.如果我們掌握了某個(gè)正確抽取的樣本的具體信息(平均數(shù)和標(biāo)準(zhǔn)差),就能對(duì)其所代表的群體做出令人驚訝的精確推理。從定理的使用角度來看,這與上一點(diǎn)內(nèi)容正好相反。還是以上述假設(shè)為例,如果你是區(qū)領(lǐng)導(dǎo),想要對(duì)本區(qū)域內(nèi)的各個(gè)學(xué)校進(jìn)行教學(xué)質(zhì)量考核,與校長(zhǎng)不同的是,你手中并沒有(或不信任)某所學(xué)校所有學(xué)生的統(tǒng)考成績(jī),因此就有必要對(duì)每所學(xué)校進(jìn)行抽樣測(cè)試,也就是隨機(jī)抽取100名學(xué)生參加一場(chǎng)類似統(tǒng)考的測(cè)驗(yàn)。
作為主管教育的領(lǐng)導(dǎo),你覺得僅參考100名學(xué)生的成績(jī)就對(duì)整所學(xué)校的教學(xué)質(zhì)量做出判斷是可行的嗎?答案是可行的。中心極限定理告訴我們,一個(gè)正確抽取的樣本不會(huì)與其所代表的群體產(chǎn)生較大差異,也就是說,樣本結(jié)果(隨機(jī)抽取的100名學(xué)生的考試成績(jī))能夠很好地體現(xiàn)整個(gè)群體的情況(某所學(xué)校全體學(xué)生的測(cè)試表現(xiàn))。
3.如果我們掌握了某個(gè)樣本的數(shù)據(jù),以及某個(gè)群體的數(shù)據(jù),就能推理出該樣本是否就是該群體的樣本之一。這就是我們?cè)诒菊乱婚_始的時(shí)候所舉的那個(gè)馬拉松比賽失蹤客車的例子。已知馬拉松參賽選手的平均體重(估算),以及那輛拋錨客車上所有乘客的平均體重(目測(cè)),通過中心極限定理,我們就能計(jì)算出某個(gè)樣本(客車上的肥胖乘客)屬于某個(gè)群體(馬拉松比賽選手)的概率是多少,如果概率非常低,那么我們就能自信滿滿地說該樣本不屬于該群體(例如,客車上的乘客看上去真的不像是一群前往馬拉松比賽起點(diǎn)的運(yùn)動(dòng)員)。
4.最后,如果我們已知兩個(gè)樣本的基本特性,就能推理出這兩個(gè)樣本是否取自同一個(gè)群體。讓我們回到那個(gè)(越來越荒謬的)客車的例子上。我們現(xiàn)在得知這座城市即將同時(shí)舉辦馬拉松比賽和國際香腸節(jié),假設(shè)這兩個(gè)盛會(huì)都將會(huì)迎來數(shù)以千計(jì)的參與者,而且他們都乘坐主辦方安排的客車前往會(huì)場(chǎng),因此客車上要么是隨機(jī)安排的馬拉松運(yùn)動(dòng)員,要么是隨機(jī)安排的香腸愛好者。進(jìn)一步假設(shè)有兩輛客車在路上撞在一起了(我已經(jīng)承認(rèn)這是一個(gè)荒謬的例子,所以還請(qǐng)諸位讀者勉強(qiáng)讀下去吧),作為這座城市的管理者,你被派往現(xiàn)場(chǎng)了解事故情況,看看這兩輛客車是不是都前往同一個(gè)地點(diǎn)(馬拉松比賽或香腸節(jié))。讓人不可思議的是,兩輛客車上的乘客都不會(huì)說英語,但到場(chǎng)的醫(yī)護(hù)人員給你提供了一份關(guān)于這兩輛車上的乘客體重的詳細(xì)信息。
僅從這一點(diǎn)信息,你就能推理出這兩輛客車前往的是相同的會(huì)場(chǎng)還是不同的會(huì)場(chǎng)。請(qǐng)?jiān)俅斡媚愕闹庇X進(jìn)行判斷,假設(shè)其中一輛客車上乘客的平均體重為157磅,標(biāo)準(zhǔn)差為11磅(也就是說絕大部分乘客的體重為146~168磅)。而另一輛客車上乘客的平均體重為211磅,標(biāo)準(zhǔn)差為21磅(即絕大部分乘客的體重為190~232磅)。此刻請(qǐng)忘掉所有的統(tǒng)計(jì)學(xué)公式,僅憑邏輯做出判斷:這兩輛客車上的乘客是從同一個(gè)群體中隨機(jī)抽取的樣本嗎?
不是。一個(gè)更有可能的情形是:其中一輛客車上是馬拉松運(yùn)動(dòng)員,而另一輛客車上則是香腸愛好者。除了平均體重的不同以外,想必你還注意到了兩輛客車乘客之間的體重差異要遠(yuǎn)大于各客車內(nèi)部乘客的體重差異,總重量較輕的客車?yán)锔哂谄骄狄粋(gè)標(biāo)準(zhǔn)差的乘客體重(168磅),但還是輕于另一輛客車上低于平均值一個(gè)標(biāo)準(zhǔn)差的乘客體重(190磅),這一點(diǎn)表明(無論從統(tǒng)計(jì)學(xué)的角度還是從邏輯的角度)這兩個(gè)樣本有可能來自不同的群體。
如果憑借直覺能理解到這一步的話,就說明你已經(jīng)理解了93.2%的中心極限定理了。我們需要更進(jìn)一步,在直覺背后加上一些技術(shù)支撐。顯而易見,當(dāng)你登上一輛拋錨的客車,發(fā)現(xiàn)里面坐滿了身穿寬松運(yùn)動(dòng)褲的“肥胖”乘客時(shí),你的直覺會(huì)告訴你他們不會(huì)是馬拉松運(yùn)動(dòng)員。而中心極限定理能夠讓你在直覺的基礎(chǔ)上更上一層樓,為你的判斷提供數(shù)據(jù)支持。
……