對“偽大數(shù)據(jù)”說不:走出大數(shù)據(jù)分析與解讀的誤區(qū)
定 價(jià):55 元
- 作者:[美]馮啟思(Kaiser Fung)
- 出版時(shí)間:2015/1/1
- ISBN:9787300203676
- 出 版 社:中國人民大學(xué)出版社
- 中圖法分類:H31
- 頁碼:
- 紙張:膠版紙
- 版次:1
- 開本:16開
從另一個(gè)角度認(rèn)識大數(shù)據(jù)的力量,帶我們走出大數(shù)據(jù)分析與解讀的誤區(qū),幫助我們培養(yǎng)出數(shù)字直覺。
我們生活在大數(shù)據(jù)的時(shí)代,在本書中,統(tǒng)計(jì)學(xué)專家馮啟思將告訴你在什么時(shí)候可以接受大數(shù)據(jù)“專家”的結(jié)論,什么時(shí)候要對這些統(tǒng)計(jì)數(shù)字提出質(zhì)疑。他深入人們?nèi)粘I詈凸ぷ髦袕V泛關(guān)注的話題,如學(xué)校排名、健康指數(shù)、就業(yè)統(tǒng)計(jì)、團(tuán)購網(wǎng)站等,通過對這些數(shù)據(jù)的分析與解讀來告訴人們什么才是正確的答案,如何才能培養(yǎng)出數(shù)字直覺。作者還在書中告誡人們在當(dāng)今這個(gè)信息超載的時(shí)代,媒體充斥著各種不良信息,千萬不要輕易地信以為真,要學(xué)會(huì)對“偽大數(shù)據(jù)”說不!
暢銷書《數(shù)據(jù)統(tǒng)治世界》作者、美國紐約大學(xué)統(tǒng)計(jì)學(xué)權(quán)威教授、超高人氣的博客“垃圾圖表”博主最新力作! 引領(lǐng)你撥開大數(shù)據(jù)分析的層層迷霧,幫你認(rèn)清大數(shù)據(jù)分析與解讀背后的真相! ≡谶@個(gè)充滿數(shù)據(jù)的世界里,我們不僅要讓數(shù)據(jù)為我們所用,更要擦亮雙眼,培養(yǎng)敏銳的“數(shù)字直覺”,在別人為大數(shù)據(jù)大唱贊歌的時(shí)候,保持清醒,甄別其中的真?zhèn)巍?
馮啟思(Kaiser Fung)是一位專業(yè)的統(tǒng)計(jì)學(xué)家,在市場營銷和廣告領(lǐng)域中,擁有超過15年的應(yīng)用統(tǒng)計(jì)學(xué)方面的經(jīng)驗(yàn),曾任職于美國天狼星衛(wèi)星廣播公司、美國運(yùn)通公司、[x+1]公司、Exodus通信公司、美國圣思網(wǎng)絡(luò)公司等知名企業(yè)。他也是紐約大學(xué)的兼職教授,教授實(shí)用統(tǒng)計(jì)學(xué),還是人氣博客“垃圾圖表”(Junk Charts Blog)的博主,率先對大眾傳媒領(lǐng)域的數(shù)據(jù)和圖表進(jìn)行了重要研究,并出版了一本廣受贊譽(yù)的圖書——《數(shù)據(jù)統(tǒng)治世界》。
第一部分
關(guān)于社會(huì)大數(shù)據(jù)的解讀 /1
第1 章 法學(xué)院院長互發(fā)垃圾郵件為哪般 /3
當(dāng)一天招生辦主任
偽造、精挑細(xì)選和換牌游戲
正在消失的行為、不限量、學(xué)校之間的聯(lián)系以及部分得分
制造工作數(shù)據(jù)
問卷生存游戲、秘密協(xié)議、有提示的記憶
牽連共犯
法學(xué)院逃過經(jīng)濟(jì)衰退一劫
塞克斯頓主義
無濟(jì)于事
第2 章 新的統(tǒng)計(jì)數(shù)據(jù)真的能讓我們瘦下來嗎 /47
減肥餐的致命弱點(diǎn)
身高體重指數(shù) 第一部分
關(guān)于社會(huì)大數(shù)據(jù)的解讀 /1
第1 章 法學(xué)院院長互發(fā)垃圾郵件為哪般 /3
當(dāng)一天招生辦主任
偽造、精挑細(xì)選和換牌游戲
正在消失的行為、不限量、學(xué)校之間的聯(lián)系以及部分得分
制造工作數(shù)據(jù)
問卷生存游戲、秘密協(xié)議、有提示的記憶
牽連共犯
法學(xué)院逃過經(jīng)濟(jì)衰退一劫
塞克斯頓主義
無濟(jì)于事
第2 章 新的統(tǒng)計(jì)數(shù)據(jù)真的能讓我們瘦下來嗎 /47
減肥餐的致命弱點(diǎn)
身高體重指數(shù)
被誤用的測量
需要解決的難題
真正的難題在哪里
維持新體重的最后一搏
第二部分
關(guān)于營銷大數(shù)據(jù)的解讀 /73
第3 章 脫銷是如何毀掉一家企業(yè)的 /75
盈利與虧損的分界線
網(wǎng)絡(luò)營銷真的那么管用嗎
第4 章 個(gè)性化銷售真的能挽救高朋嗎 /97
通過電子郵件檢索
失敗的樂趣
當(dāng)米蘭達(dá)遇見帕特里克
高朋的目標(biāo)客戶到底在哪里
高朋模式需要更多的新客戶
高朋的定位
成長的陣痛
第5 章 營銷人員為何給你發(fā)混合型的推銷信息 /119
超特大號(XXL)提包是如何泄露你的秘密的
商家都了解你的什么
傳遞混合信息的科學(xué)性
大數(shù)據(jù)是救世主嗎
第三部分
關(guān)于經(jīng)濟(jì)大數(shù)據(jù)的解讀 /137
第6 章 要是沒人能夠申請,這還算新工作嗎 /139
找借口
是否需要進(jìn)行季度性調(diào)整
這條魚變質(zhì)了
華盛頓過去的那些漂亮的統(tǒng)計(jì)數(shù)據(jù)
克魯?shù)聽柗Q之為“哎呦”
第7 章 你買雞蛋花了多少錢 /167
有些你看見了,有些你沒看見
對被平均化的不滿
誰的核心
鉆啊,孩子,鉆啊
對平均數(shù)的懼怕
第四部分
關(guān)于體育大數(shù)據(jù)的解讀 /189
第8 章 你是好教練還是好經(jīng)理 /191
邀請統(tǒng)計(jì)學(xué)家進(jìn)入你家廚房
生活在夢幻游戲之外
首先看一下教練
再看一下教練能力
杰伊為何要忽略自己的建議
被總經(jīng)理所禁錮
命運(yùn)
接下來在家里會(huì)發(fā)生什么
后記 在大數(shù)據(jù)時(shí)代生存下去 /221
[美其名曰] 大數(shù)據(jù)科學(xué)家生活中的三個(gè)小時(shí)
三天與6 000個(gè)詞的較量
我們生活在一個(gè)任何人都無法擺脫數(shù)據(jù)的大數(shù)據(jù)時(shí)代。數(shù)據(jù)越多,人們做出的分析就越多——呈現(xiàn)指數(shù)增長;人們分析得越多,制造出的煙幕彈也就越多。因此,保持清醒的頭腦就變得非常重要。
大數(shù)據(jù)是高科技時(shí)代的流行語,它大約出現(xiàn)在2010 年。這個(gè)行業(yè)喜歡將兩個(gè)詞組織起來表達(dá)一個(gè)概念,就跟史蒂文· 西格爾(Steven Seagal)喜歡用兩個(gè)詞為他的電影命名一樣。大數(shù)據(jù)是“寬
帶”、“無線”、“社交媒體”或“網(wǎng)站”這類新概念的后裔。它表示海量的數(shù)據(jù),僅此而已。
隸屬于被譽(yù)為“傳奇”的麥肯錫管理咨詢公司的麥肯錫全球研究院談起“大數(shù)據(jù)”時(shí)說道:“這個(gè)概念指的是那些規(guī)模巨大到通常的數(shù)據(jù)處理軟件都無法捕捉、存儲、管理和分析的數(shù)據(jù)集!备鶕(jù)2011 年其發(fā)表的第一份“大數(shù)據(jù)”報(bào)告,這些研究者所認(rèn)為的“大”是指每家企業(yè)所擁有的數(shù)據(jù)達(dá)到幾十個(gè)乃至上千太字節(jié)(Terabyte)。
我們對“大數(shù)據(jù)”的理解要比工業(yè)標(biāo)準(zhǔn)更全面。我們之所以關(guān)心這個(gè)問題,不是因?yàn)閿?shù)據(jù)越來越多,而是因?yàn)閷?shù)據(jù)的分析越來越多了。我們不得不投入更多的人手以便能更多、更快地分析數(shù)據(jù)。真正驅(qū)動(dòng)我們這樣做的不是數(shù)據(jù)的數(shù)量而是數(shù)據(jù)的價(jià)值。如果我們想深入研究失業(yè)、通貨膨脹或者其他經(jīng)濟(jì)指標(biāo),我們可以從美國勞工統(tǒng)計(jì)局(the Bureau of Labor Statistics)的網(wǎng)站上下載大量的數(shù)據(jù)集。如果某位紐約居民對某飯店的“B”健康等級感興趣,他就可以在紐約市的健康與心理衛(wèi)生部(Department of Health and Mental Hygiene)的在線數(shù)據(jù)庫中,查閱違規(guī)飯店名單。幾年前,當(dāng)豐田汽車被接連曝出存在突然加速的隱患時(shí),我們了解到美國國家公路交通安全管理局(National Highway Traffic Safety Administration)設(shè)立了一個(gè)開放資源中心,用來存儲關(guān)于駕駛員安全方面的投訴。自1990 年代初,任何人都可以從雅虎財(cái)經(jīng)、億創(chuàng)理財(cái)(E*Trade)等網(wǎng)站上,下載到股票、共同基金以及其他金融產(chǎn)品的運(yùn)作情況。有時(shí),甚至連公司也會(huì)參與其中,使得一些專有的數(shù)據(jù)公開化。2006 年,美國最大的在線DVD 租賃商奈飛公司(Netflix)統(tǒng)計(jì)并發(fā)布了1 億部電影的分類等級,并征募科學(xué)家來改進(jìn)預(yù)測算法。玩家們通過研究統(tǒng)計(jì)數(shù)字來獲得競爭優(yōu)勢,從而將“夢幻體育”(Fantasy Sports)這個(gè)游戲推到了一個(gè)新的高度。那些過去印刷在紙版書的數(shù)據(jù),如今以電子表格的形式在互聯(lián)網(wǎng)上迅速傳播。數(shù)據(jù)是免費(fèi)的,又很容易獲得,這必然會(huì)產(chǎn)生更多的數(shù)據(jù)分析。
比爾· 蓋茨是美國企業(yè)成功故事的典型代表。這個(gè)絕頂聰明的孩子,大學(xué)中途退學(xué),創(chuàng)辦自己的軟件公司。而且他們公司開發(fā)的軟件,最終用在了世界90% 的電腦上,比爾也因此賺到了數(shù)十億美元的財(cái)富。后來,他退出江湖,將大部分財(cái)富捐獻(xiàn)給慈善事業(yè)。比爾以自己和妻子的名義成立了“比爾& 梅琳達(dá)· 蓋茨基金會(huì)”(Bill & Melinda Gates Foundation)。而且我們很高興地看到該基金會(huì)在許多領(lǐng)域進(jìn)行了大膽投資。它涉足的領(lǐng)域包括在發(fā)展中國家進(jìn)行瘧疾預(yù)防,在美國進(jìn)行中學(xué)改革,以及對艾滋病(HIV/AIDS)的研究。蓋茨基金會(huì)因依靠數(shù)據(jù)來做出明智的決定,從而贏得了良好的聲譽(yù)。
但這并不意味著他們不會(huì)犯錯(cuò)。蓋茨在千禧年開始之際,大力支持小型學(xué)校運(yùn)動(dòng),他在全美范圍內(nèi)選出了一些學(xué)校,并往這些學(xué)校投入了上億美元。證據(jù)A 是當(dāng)時(shí)的一項(xiàng)統(tǒng)計(jì)發(fā)現(xiàn):在全美表現(xiàn)最好的學(xué)校中,小型學(xué)校所占的比例不均衡。例如,在賓夕法尼亞州,按照五年級的閱讀成績評出的前50 所學(xué)校中,12% 是小型學(xué)校。要是學(xué)生的成績跟學(xué)校的規(guī)模無關(guān),那么規(guī)模大的學(xué)校在這50 所名校中所占的比例應(yīng)該是小型學(xué)校的四倍。因此,學(xué)校規(guī)模被認(rèn)為是影響教學(xué)質(zhì)量的重要因素——每個(gè)年級最多不能超過100 名學(xué)生。而蓋茨基金會(huì)設(shè)計(jì)的一套改造方案,就是將大型學(xué)校拆分成更小、更高效的小型學(xué)校。
舉例來說,2003 年新學(xué)年伊始,在華盛頓的芒特萊克泰勒斯高中(Mountlake Terrace High School)讀書的1 800 名學(xué)生發(fā)現(xiàn),自己的學(xué)校被分成了五所小型學(xué)校,學(xué)校的名字分別叫做“發(fā)現(xiàn)學(xué)校”、“改革學(xué)校”、“復(fù)興學(xué)校”等。不過,校址沒有改變,還是在以前的大樓里。蓋茨基金會(huì)教育處執(zhí)行主任湯姆· 范德· 阿爾克(Tom Vander Ark)解釋說:“大多數(shù)窮人家的孩子,不得不進(jìn)規(guī)模大的學(xué)校念書,在那里沒人認(rèn)識他們,他們被甩進(jìn)了一條難以出頭的死路……小型學(xué)校只不過營造了一個(gè)(比大型學(xué)校)更好的成長環(huán)境。在那里,比較容易形成積極的氛圍,產(chǎn)生較高的期望值,也更容易優(yōu)化課程設(shè)置,改進(jìn)教學(xué)質(zhì)量!
十年以后,蓋茨基金會(huì)卻發(fā)生了徹底的轉(zhuǎn)變,它不再將學(xué)校的規(guī)模視為解決學(xué)生成績問題的唯一方法,而開始致力于設(shè)計(jì)富有新意的課程以及提升教學(xué)質(zhì)量。蓋茨基金會(huì)對學(xué)校重組前后的效果進(jìn)行了細(xì)致的調(diào)查研究,結(jié)果發(fā)現(xiàn),重組后的學(xué)校平均成績沒有變得更好,相反,在某些個(gè)例中變得更差了。
統(tǒng)計(jì)學(xué)家霍華德· 魏訥(Howard Wainer)在美國教育考試服務(wù)中心(Educational Testing Services)度過了最好的職業(yè)生涯。魏訥曾抱怨道:“這數(shù)百萬美元的錯(cuò)誤,本來是可以避免的。”在上面提到的對賓夕法尼亞州的學(xué)校進(jìn)行的同一分析中,魏訥指出,雖然小型學(xué)校在前50 所學(xué)校中占了12% 的份額,但同時(shí)要看到,在后50 所學(xué)校中,有18% 是小型學(xué)校。簡單來說,小型學(xué)校在這個(gè)分布的兩端所占的比例都偏高。不管強(qiáng)調(diào)哪一部分?jǐn)?shù)據(jù),分析師們都會(huì)得出完全相反的結(jié)論。在對飛機(jī)晚點(diǎn)的研究中,我們見過類似的情況。問題的關(guān)鍵不在于多少數(shù)據(jù)被分析,而是被如何分析。
蓋茨基金會(huì)的故事證明了另外一點(diǎn):數(shù)據(jù)分析是一件棘手的事,無論是權(quán)威專家還是經(jīng)驗(yàn)豐富的行家,都不能擔(dān)保不出錯(cuò)。不管一個(gè)人的腦袋瓜多么靈光,總會(huì)有一定的犯錯(cuò)范圍。這是因?yàn)椋瑳]有人能夠掌握所有信息。“那是在頂尖期刊上發(fā)表的”、“別瞎懷疑了,登在這本期刊上的文章難道會(huì)有錯(cuò)?!”這樣的話經(jīng)常拿來當(dāng)做堵住別人嘴巴的借口。生活在大數(shù)據(jù)時(shí)代,只有傻瓜才會(huì)采取這種態(tài)度。你聽說過很多研究,試圖在某種疾病與某種基因之間建立聯(lián)系,比如,帕金森癥和高血壓。可是,你知道嗎?經(jīng)過同行評審、并得到同行認(rèn)可的遺傳學(xué)關(guān)聯(lián)性研究成果,只有30% 能被后續(xù)的研究證實(shí),其余的都是假陽性結(jié)果(false-positive result)。那些聲稱是原創(chuàng)性的研究成果,還沒來得及出版勘誤表,就已經(jīng)被推翻了。不過,話又說回來,我還是希望專家能發(fā)表一些質(zhì)量稍高的分析報(bào)告。
大數(shù)據(jù)在因果關(guān)系這個(gè)問題上,實(shí)際上沒什么好講的。不過,存在一種普遍的誤解,以為海量的數(shù)據(jù)流能夠?qū)㈦[藏著的“因果關(guān)系”沖出地面。請想一下點(diǎn)擊流吧,網(wǎng)絡(luò)營銷人員借助點(diǎn)擊追蹤網(wǎng)絡(luò)用戶,來以此證明網(wǎng)絡(luò)營銷是成功的。顧客點(diǎn)擊了一個(gè)網(wǎng)頁橫幅廣告或者搜索廣告,然后下了訂單,這不就足以證明網(wǎng)絡(luò)營銷成功了嗎?還需要什么更有力的證據(jù)嗎?現(xiàn)實(shí)情況遠(yuǎn)非如此簡單明了。比方說,我在網(wǎng)上點(diǎn)了一個(gè)三星蓋世(Galaxy)的橫幅廣告,隨后將這款手機(jī)放進(jìn)了購物車。一個(gè)星期后,我觀看了他們抨擊蘋果的廣告,覺得很過癮,于是,我回到三星的網(wǎng)店完成了這筆交易。分析人員在仔細(xì)分析網(wǎng)絡(luò)日志時(shí),不但會(huì)漏掉促使我行動(dòng)的真實(shí)原因,而且會(huì)犯假陽性錯(cuò)誤,將橫幅廣告跟此次購買行為捆綁在了一起。因?yàn)榫W(wǎng)絡(luò)營銷人員能看到的只有這些。這些小問題在網(wǎng)絡(luò)分析員的生活中稀松
平常。
大數(shù)據(jù)不僅意味著有更多好的分析,也意味著會(huì)有更多壞的分析。要知道,即便是專家和技術(shù)大牛也有掉鏈子的時(shí)候。如果一些不好的數(shù)據(jù)被心懷叵測的可疑人員添油加醋地利用,事情會(huì)變得更糟糕;不過,即便是動(dòng)機(jī)純潔的分析人員稍有不慎也會(huì)上當(dāng)受騙。在這個(gè)充滿數(shù)據(jù)的世界中,消費(fèi)者得有一副火眼金睛才行。
大數(shù)據(jù)是真實(shí)的,而其影響更是廣泛的。至少,我們每個(gè)人都是數(shù)據(jù)分析的消費(fèi)者。因此,我們必須學(xué)會(huì)成為一個(gè)聰明的消費(fèi)者。我們需要具備的是一種數(shù)字直覺。
數(shù)字直覺是我在招聘數(shù)據(jù)分析員時(shí)最為看重的一種品質(zhì)。它能將真正的天才從“還不錯(cuò)”中區(qū)別開來。我希望在應(yīng)聘者身上發(fā)現(xiàn)三樣?xùn)|西:一個(gè)是數(shù)字直覺,其他兩樣分別是技術(shù)能力跟商業(yè)思維。有些人可能在編程方面無人能敵,但卻沒有一點(diǎn)數(shù)字直覺;有些人可能是個(gè)講故事的高手,能將一個(gè)個(gè)的情節(jié)串聯(lián)起來,但是卻沒有任何數(shù)字直覺。數(shù)字直覺是第三維度。
我寫作這本書的目的是引你上路。本書的每一章都是由近期讀到的一則新聞?dòng)|發(fā)靈感而寫成的。在這些新聞故事中,有人提出了一些觀點(diǎn),并且援引數(shù)據(jù)來證明自己的觀點(diǎn)。我通過提一些尖銳的問題,檢查一致性,數(shù)理論證,有時(shí)候,也會(huì)通過獲取并分析相關(guān)數(shù)據(jù),來展示我是如何驗(yàn)證這些觀點(diǎn)的。比如,我會(huì)質(zhì)疑高朋(Groupon)的商業(yè)模型有意義嗎?一種檢測肥胖的新方法能解決我們最大的健康危機(jī)嗎?克萊蒙德麥肯那學(xué)院(Claremont McKenna College)在學(xué)院排名游戲中小規(guī)模作弊了嗎?政府公布的通脹跟失業(yè)數(shù)據(jù)值得信任嗎?我們?nèi)绾卧u價(jià)夢幻體育聯(lián)盟的表現(xiàn)?當(dāng)商家通過追蹤我們的活動(dòng)來實(shí)現(xiàn)個(gè)性化營銷時(shí),我們會(huì)從中受益嗎?
即使是專家有時(shí)候也會(huì)掉進(jìn)數(shù)據(jù)的陷阱中。如果我在這本書里面也犯了此類的錯(cuò)誤,那么責(zé)任完全在我。要是我沒有把觀點(diǎn)講得足夠清楚,那就意味著這些數(shù)據(jù)的分析方法不止一種。我鼓勵(lì)你們形成自己的觀點(diǎn)。只有通過這樣的練習(xí)實(shí)踐,才能培養(yǎng)出你自己的數(shù)字直覺。
歡迎來到大數(shù)據(jù)時(shí)代,不過,要處處留神才是!