本書由微信公眾號:狗熊會(huì)創(chuàng)始人王漢生教授(熊大),及其核心團(tuán)隊(duì)聯(lián)合創(chuàng)作完成。本書可以被看作商業(yè)分析(business analytics)領(lǐng)域入門級通俗且有趣的讀物,深入淺出,雅俗共賞。適合數(shù)據(jù)分析師、工程師、產(chǎn)品經(jīng)理、銷售、BD、以及數(shù)據(jù)企業(yè)中高管閱讀。
本書主要由五章組成。第一章介紹了熊大樸素的數(shù)據(jù)價(jià)值觀,解讀數(shù)據(jù)與價(jià)值的邏輯關(guān)系;第二章介紹了最基本的數(shù)據(jù)可視化方法(統(tǒng)計(jì)圖表)的規(guī)范與有趣應(yīng)用;第三章介紹了回歸分析,通過精彩案例展示了如何將一個(gè)業(yè)務(wù)問題定義成為一個(gè)數(shù)據(jù)可分析問題;第四章介紹了機(jī)器學(xué)習(xí),可以看作是第三章技術(shù)上的一個(gè)重要補(bǔ)充;第五章展示了各種常見的非結(jié)構(gòu)化數(shù)據(jù)分析(文本、圖像)的有趣案例。本
書所有案例內(nèi)容的原始版本、相關(guān)數(shù)據(jù)資源,都可以從微信公眾號狗熊會(huì)(ID:CluBear)獲得。
作者簡介
王漢生,北京大學(xué)光華管理學(xué)院商務(wù)統(tǒng)計(jì)與經(jīng)濟(jì)計(jì)量系系主任,教授,博士生導(dǎo)師。現(xiàn)兼任北京大學(xué)商務(wù)智能研究中心主任,曾任嘉茂榮聘教授(2014-2015),藍(lán)天環(huán)保講席教授(2015-2016)。他還是微信公眾號“狗熊會(huì)”創(chuàng)始人、美國統(tǒng)計(jì)學(xué)會(huì)Fellow(2014)、國家杰出青年基金獲得者(2016)。
他主要研究同移動(dòng)互聯(lián)網(wǎng)以及量化投資相關(guān)的數(shù)據(jù)分析,包括但不局限于中文文本、網(wǎng)絡(luò)結(jié)構(gòu)、位置軌跡等;在業(yè)界實(shí)踐方面,他是國內(nèi)較早從統(tǒng)計(jì)數(shù)據(jù)分析角度關(guān)注并研究搜索引擎營銷,社交網(wǎng)絡(luò)數(shù)據(jù),以及位置軌跡數(shù)據(jù)分析的學(xué)者。曾擔(dān)任博雅立方科技有限公司首席科學(xué)家(2009—2015),百分點(diǎn)首席統(tǒng)計(jì)學(xué)家(2015—現(xiàn)在)。此外,與量幫科技、考拉征信、彩虹無線、蓬景數(shù)字等眾多企業(yè)有深度學(xué)術(shù)合作,合作領(lǐng)域涉及量化投資、互聯(lián)網(wǎng)征信、車聯(lián)網(wǎng)、移動(dòng)設(shè)備RTB廣告競價(jià)、搜索引擎營銷、電子商務(wù)等多個(gè)重要行業(yè)。此外,王漢生教授同騰訊、百度、阿里、奇虎、奧迪、京東、聯(lián)通等眾多企業(yè)有短期項(xiàng)目或者培訓(xùn)會(huì)議合作。
緒論 大數(shù)據(jù)時(shí)代之“皇帝的新裝”
第一章 樸素的數(shù)據(jù)價(jià)值觀
什么是數(shù)據(jù)?
數(shù)據(jù)的商業(yè)價(jià)值
數(shù)據(jù)到價(jià)值的轉(zhuǎn)化:回歸分析的“道”與“術(shù)”
搞清客戶需求
中國數(shù)據(jù)科學(xué)的風(fēng)口
第二章 數(shù)據(jù)可視化
實(shí)力派:準(zhǔn)確+有效
偶像派:簡潔+美觀
柱狀圖
堆積柱狀圖
柱狀圖之妙用
餅圖
直方圖
折線圖
散點(diǎn)圖
箱線圖
莖葉圖
第三章回歸分析
什么是回歸分析?
線性回歸——北京市二手房房價(jià)
線性回歸——中國電影票房
線性回歸——線上女裝銷量預(yù)測
線性回歸——股票投資中的均線策略
01回歸——某移動(dòng)通信公司客戶流失預(yù)警分析
01回歸——車險(xiǎn)數(shù)據(jù)分析與商業(yè)價(jià)值
01回歸——點(diǎn)擊率預(yù)測在RTB廣告投放中的應(yīng)用
定序回歸——信用卡逾期數(shù)據(jù)分析
計(jì)數(shù)回歸——英超進(jìn)球誰最強(qiáng)
生存回歸——新產(chǎn)品在架時(shí)長研究
第四章 機(jī)器學(xué)習(xí)
樸素貝葉斯——12345,有事找政府
決策樹——非誠勿擾
決策樹——二手車保值比率那些事兒
回歸樹與提升算法——世界這么大,想去哪兒看看?
深度學(xué)習(xí)——圖像自動(dòng)識(shí)別
深度學(xué)習(xí)——打麻將
K均值聚類——狗熊皮鞋的百度廣告投放
第五章 非結(jié)構(gòu)化數(shù)據(jù)
中文文本——小說的三要素:以《瑯琊榜》為例
中文文本——從用戶評論看產(chǎn)品改善
中文文本——空氣凈化器的好評率影響因素分析
中文文本——數(shù)據(jù)分析崗位招聘情況的影響因素分析
中文文本——張無忌最愛誰
網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)——《甄嬛傳》中的愛恨情仇
圖像數(shù)據(jù)——通過圖片識(shí)別PM2.5
刷卡數(shù)據(jù)——互聯(lián)網(wǎng)征信