目錄
第1章基礎(chǔ)理論
如何開(kāi)始學(xué)習(xí)
1.1術(shù)語(yǔ)定義
1.2研究目的
1.3研究視角
1.4發(fā)展簡(jiǎn)史
1.5理論體系
1.6基本原則
1.7相關(guān)理論
1.8人才類型
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第2章理論基礎(chǔ)
如何開(kāi)始學(xué)習(xí)
2.1數(shù)據(jù)科學(xué)的學(xué)科地位
2.2統(tǒng)計(jì)學(xué)
2.3機(jī)器學(xué)習(xí)
2.4數(shù)據(jù)可視化
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第3章流程與方法
如何開(kāi)始學(xué)習(xí)
3.1基本流程
3.2數(shù)據(jù)加工
3.3數(shù)據(jù)審計(jì)
3.4數(shù)據(jù)分析
3.5數(shù)據(jù)可視化
3.6數(shù)據(jù)故事化
3.7數(shù)據(jù)科學(xué)項(xiàng)目管理
3.8數(shù)據(jù)科學(xué)中的常見(jiàn)錯(cuò)誤
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第4章技術(shù)與工具
如何開(kāi)始學(xué)習(xí)
4.1數(shù)據(jù)科學(xué)的技術(shù)體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發(fā)展趨勢(shì)
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第5章數(shù)據(jù)產(chǎn)品及開(kāi)發(fā)
如何開(kāi)始學(xué)習(xí)
5.1定義
5.2主要特征
5.3關(guān)鍵活動(dòng)
5.4數(shù)據(jù)柔術(shù)
5.5數(shù)據(jù)能力
5.6數(shù)據(jù)戰(zhàn)略
5.7數(shù)據(jù)治理
5.8數(shù)據(jù)安全、隱私、道德與倫理
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
第6章典型案例及實(shí)踐
如何開(kāi)始學(xué)習(xí)
6.1統(tǒng)計(jì)分析
6.2機(jī)器學(xué)習(xí)
6.3數(shù)據(jù)可視化
6.4Spark編程
6.52012年美國(guó)總統(tǒng)大選
如何繼續(xù)學(xué)習(xí)
習(xí)題
參考文獻(xiàn)
附錄A本書(shū)例題的R語(yǔ)言版代碼
附錄B數(shù)據(jù)科學(xué)的重要資源
附錄C術(shù)語(yǔ)索引
后記
圖目錄
圖11DIKW金字塔模型3
圖12數(shù)據(jù)與數(shù)值的區(qū)別4
圖13數(shù)字信號(hào)與模擬信號(hào)4
圖1420082015年全球數(shù)據(jù)規(guī)模及類型的估計(jì)6
圖15大數(shù)據(jù)的特征7
圖16大數(shù)據(jù)的本質(zhì)8
圖17人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別與聯(lián)系10
圖18DIKUW模型及應(yīng)用11
圖19數(shù)據(jù)洞見(jiàn)12
圖110業(yè)務(wù)數(shù)據(jù)化與數(shù)據(jù)業(yè)務(wù)化12
圖111常用驅(qū)動(dòng)方式13
圖112數(shù)據(jù)的層次性13
圖113大數(shù)據(jù)生態(tài)系統(tǒng)示意圖14
圖114數(shù)據(jù)科學(xué)的新研究視角15
圖115Gartner技術(shù)成熟度曲線16
圖116數(shù)據(jù)科學(xué)的萌芽期(19742009年)17
圖117數(shù)據(jù)科學(xué)的快速發(fā)展期(20102013年)18
圖118數(shù)據(jù)科學(xué)的逐漸成熟期(2014年至今)19
圖119數(shù)據(jù)科學(xué)的理論體系20
圖120數(shù)據(jù)科學(xué)的主要內(nèi)容20
圖121數(shù)據(jù)科學(xué)的三世界原則22
圖122數(shù)據(jù)科學(xué)的三個(gè)要素及3C精神23
圖123計(jì)算密集型應(yīng)用與數(shù)據(jù)密集型應(yīng)用的區(qū)別24
圖124數(shù)據(jù)范式與知識(shí)范式的區(qū)別25
圖125數(shù)據(jù)管理范式的變化25
圖126數(shù)據(jù)的資產(chǎn)屬性26
圖127常用驅(qū)動(dòng)方式28
圖128CAPTCHA方法的應(yīng)用28
圖129ReCAPTCHA項(xiàng)目29
圖130數(shù)據(jù)與算法之間的關(guān)系30
圖131BellKors Pragmatic Chaos團(tuán)隊(duì)獲得Netflix獎(jiǎng)30
圖132Netflix獎(jiǎng)公測(cè)結(jié)果31
圖133數(shù)據(jù)科學(xué)與商務(wù)智能的區(qū)別與聯(lián)系32
圖134數(shù)據(jù)科學(xué)與數(shù)據(jù)工程在企業(yè)應(yīng)用中的區(qū)別與聯(lián)系33
圖135數(shù)據(jù)科學(xué)人才類型及其收入33
圖136RStudio中編輯Markdown的窗口35
圖137數(shù)據(jù)科學(xué)家團(tuán)隊(duì)38
圖138大數(shù)據(jù)人才應(yīng)具備的不同知識(shí)結(jié)構(gòu)40
圖139學(xué)習(xí)數(shù)據(jù)科學(xué)的四則原則43
圖21數(shù)據(jù)科學(xué)的理論基礎(chǔ)50
圖22統(tǒng)計(jì)方法的分類(行為目的與思路方式視角)52
圖23統(tǒng)計(jì)學(xué)中的數(shù)據(jù)推斷53
圖24數(shù)據(jù)統(tǒng)計(jì)方法的類型(方法論視角)53
圖25數(shù)據(jù)統(tǒng)計(jì)基本方法54
圖26元分析與基本分析54
圖27GFT預(yù)測(cè)與美國(guó)疾病控制中心數(shù)據(jù)的對(duì)比55
圖28GFT估計(jì)與實(shí)際數(shù)據(jù)的誤差(2013年2月)56
圖29大數(shù)據(jù)時(shí)代的思維模式的轉(zhuǎn)變58
圖210西洋雙陸棋58
圖211機(jī)器人駕駛58
圖212機(jī)器學(xué)習(xí)的基本思路59
圖213機(jī)器學(xué)習(xí)的三要素61
圖214機(jī)器學(xué)習(xí)的類型62
圖215KNN算法的基本步驟63
圖216決策樹(shù)示例識(shí)別鳥(niǎo)類65
圖217感知器示例67
圖218前向神經(jīng)網(wǎng)絡(luò)67
圖219歸納學(xué)習(xí)與分析學(xué)習(xí)70
圖220增強(qiáng)學(xué)習(xí)70
圖221機(jī)器學(xué)習(xí)的類型71
圖222IBM Watson72
圖223Pepper機(jī)器人73
圖224機(jī)器學(xué)習(xí)中的數(shù)據(jù)73
圖225Anscombe四組數(shù)據(jù)的可視化77
圖226John Snow的鬼地圖(Ghost Map)78
圖227在Tableau中加利福尼亞州政府收入來(lái)源數(shù)據(jù)的可視化79
圖31數(shù)據(jù)科學(xué)的基本流程83
圖32量化自我84
圖33規(guī)整數(shù)據(jù)與干凈數(shù)據(jù)的區(qū)別85
圖34規(guī)整數(shù)據(jù)示意圖86
圖35殘差89
圖36數(shù)據(jù)分析的類型90
圖37Analytics 1.0~3.091
圖38數(shù)據(jù)加工方法92
圖39數(shù)據(jù)審計(jì)與數(shù)據(jù)清洗93
圖310缺失數(shù)據(jù)處理的步驟94
圖311冗余數(shù)據(jù)處理的方法94
圖312數(shù)據(jù)分箱處理的步驟與類型96
圖313均值平滑與邊界值平滑96
圖314內(nèi)容集成98
圖315結(jié)構(gòu)集成99
圖316數(shù)據(jù)脫敏處理100
圖317數(shù)據(jù)連續(xù)性的定義及重要性104
圖318可視化審計(jì)示例106
圖319Gartner分析學(xué)價(jià)值扶梯模型106
圖320冰激凌的銷(xiāo)售量與謀殺案的發(fā)生數(shù)量108
圖321數(shù)據(jù)分析的類型110
圖322拿破侖進(jìn)軍俄國(guó)慘敗而歸的歷史事件的可視化111
圖323可視分析學(xué)的相關(guān)學(xué)科111
圖324可視分析學(xué)模型112
圖325數(shù)據(jù)可視化的方法體系113
圖326視覺(jué)圖形元素與視覺(jué)通道113
圖327雷達(dá)圖示例114
圖328齊美爾連帶114
圖329視覺(jué)隱喻的示例美國(guó)政府機(jī)構(gòu)的設(shè)置114
圖330地鐵路線圖的創(chuàng)始人Henry Beck115
圖331Henry Beck的倫敦地鐵線路圖116
圖332視覺(jué)突出的示例116
圖333完圖法則的示例117
圖334視覺(jué)通道的選擇與展示119
圖335視覺(jué)通道的精確度對(duì)比119
圖336視覺(jué)通道的可辨認(rèn)性某公司產(chǎn)品銷(xiāo)售示意圖120
圖337視覺(jué)通道的可分離性差120
圖338上下文導(dǎo)致視覺(jué)假象1121
圖339上下文導(dǎo)致視覺(jué)假象2121
圖340對(duì)亮度和顏色的相對(duì)判斷容易造成視覺(jué)假象的示例121
圖341數(shù)據(jù)可視化表達(dá)與數(shù)據(jù)故事化描述126
圖342數(shù)據(jù)的故事化描述及故事的展現(xiàn)127
圖343項(xiàng)目管理的主要內(nèi)容130
圖344數(shù)據(jù)科學(xué)項(xiàng)目的基本流程131
圖412017大數(shù)據(jù)產(chǎn)業(yè)全景圖140
圖42大數(shù)據(jù)參考架構(gòu)142
圖43MapReduce執(zhí)行過(guò)程144
圖44MapReduce對(duì)中間數(shù)據(jù)的處理148
圖45以MapReduce為核心和以YARN為核心的軟件棧對(duì)比150
圖46下一代MapReduce框架151
圖47Apache的Hadoop項(xiàng)目151
圖48Hadoop生態(tài)系統(tǒng)152
圖49Hadoop MapReduce數(shù)據(jù)處理過(guò)程153
圖410Apache Hive官方網(wǎng)站155
圖411Apache Pig官方網(wǎng)站156
圖412Apache Mahout官方網(wǎng)站157
圖413Apache HBase官方網(wǎng)站157
圖414HBase與Hadoop項(xiàng)目158
圖415HBase的邏輯模型159
圖416Apache ZooKeeper官方網(wǎng)站160
圖417Apache Flume官方網(wǎng)站161
圖418Apache Sqoop官方網(wǎng)站162
圖419Spark 技術(shù)架構(gòu)163
圖420Spark的基本流程164
圖421Spark的執(zhí)行步驟169
圖422Lambda 架構(gòu)的主要組成部分171
圖423傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)與缺點(diǎn)172
圖424關(guān)系數(shù)據(jù)庫(kù)技術(shù)與NoSQL技術(shù)之間的關(guān)系174
圖425NoSQL數(shù)據(jù)分布的兩個(gè)基本途徑175
圖426分片處理176
圖427主從復(fù)制177
圖428對(duì)等復(fù)制178
圖429數(shù)據(jù)不一致性179
圖430CAP理論180
圖431Memcached官方網(wǎng)站183
圖432一致性散列的分配方式184
圖433服務(wù)器增加時(shí)的變化184
圖434云計(jì)算的演變過(guò)程188
圖435數(shù)據(jù)管理的新變化190
圖43620162018年數(shù)據(jù)科學(xué)相關(guān)項(xiàng)目中軟件產(chǎn)品的使用率(%)192
圖4372019年Gartner數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)平臺(tái)魔力194
圖51數(shù)據(jù)產(chǎn)品開(kāi)發(fā)中的數(shù)據(jù)與數(shù)據(jù)柔術(shù)201
圖52知識(shí)范式與數(shù)據(jù)范式203
圖53數(shù)據(jù)產(chǎn)品的多樣性204
圖54數(shù)據(jù)產(chǎn)品的層次性205
圖55Google全球商機(jī)洞察(Google Global Market Finder)206
圖56數(shù)據(jù)產(chǎn)品鏈207
圖57傳統(tǒng)產(chǎn)品開(kāi)發(fā)與數(shù)據(jù)產(chǎn)品開(kāi)發(fā)的區(qū)別208
圖58D.J.Patil209
圖59UI(User Interface)設(shè)計(jì)方案與設(shè)計(jì)思維210
圖510Google搜索的用戶體驗(yàn)211
圖511人與計(jì)算機(jī)圖像內(nèi)容識(shí)別能力的不同211
圖512Amazon Mechanical Turk平臺(tái)213
圖513一個(gè)HIT的生命周期213
圖514基于人與計(jì)算機(jī)的數(shù)據(jù)處理成本曲線214
圖515亞馬遜的數(shù)據(jù)產(chǎn)品其他商家(Other Sellers)215
圖516LinkedIn的數(shù)據(jù)產(chǎn)品你可能認(rèn)識(shí)的人們(People you may know)216
圖517LinkedIn的數(shù)據(jù)產(chǎn)品你的觀眾是誰(shuí)216
圖518逆向交互定律217
圖519LinkedIn數(shù)據(jù)產(chǎn)品崗位推薦219
圖520LinkedIn的數(shù)據(jù)產(chǎn)品幫助你的朋友找到工作220
圖521Facebook的良好用戶體驗(yàn)220
圖522DMM模型基本思路222
圖523CMM基本思想222
圖524CMM成熟度等級(jí)224
圖525DMM關(guān)鍵過(guò)程域225
圖526DMM層級(jí)劃分及描述227
圖527IDEAL模型229
圖528組織機(jī)構(gòu)數(shù)據(jù)管理能力成熟度評(píng)估結(jié)果的可視化229
圖529數(shù)據(jù)戰(zhàn)略與數(shù)據(jù)管理目標(biāo)的區(qū)別230
圖530數(shù)據(jù)戰(zhàn)略的目標(biāo)231
圖531數(shù)據(jù)戰(zhàn)略的側(cè)重點(diǎn)231
圖532數(shù)據(jù)戰(zhàn)略的范疇231
圖533數(shù)據(jù)管理與數(shù)據(jù)治理的區(qū)別233
圖534IBM提出的企業(yè)數(shù)據(jù)管理的范疇233
圖535數(shù)據(jù)治理的PDCA模型234
圖536DGI數(shù)據(jù)治理框架235
圖537P2DR模型237
圖538從歐洲大陸的空戰(zhàn)中返回的轟炸機(jī)238
圖61KMeans算法的基本步驟267
圖62奧巴馬2012年總統(tǒng)競(jìng)選芝加哥總部287
圖63George Clooney288
圖64Sarah Jessica Parker288
圖65奧巴馬及快速捐贈(zèng)計(jì)劃290
圖66奧巴馬通過(guò)Reddit與選民互動(dòng)291
圖672012年美國(guó)總統(tǒng)競(jìng)選財(cái)務(wù)數(shù)據(jù)官方網(wǎng)站292
圖A1女性體重與身高的線性回歸分析314
圖A2工資數(shù)據(jù)的可視化327
圖A3起飛延誤時(shí)間339
圖A4到達(dá)延誤時(shí)間339
圖A5捐助人職業(yè)、黨派及捐助額度分析352
圖A6分箱處理后的捐款數(shù)據(jù)可視化353
圖A7捐款日期與金額的可視化354
圖A8捐款月份與金額變化分析355
圖A9投票結(jié)果的可視化357
表目錄
表11結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)的區(qū)別與聯(lián)系5
表12某數(shù)據(jù)科學(xué)家的畫(huà)像(Profile)37
表21參數(shù)估計(jì)與假設(shè)檢驗(yàn)的主要區(qū)別53
表22統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)的術(shù)語(yǔ)對(duì)照表57
表23機(jī)器學(xué)習(xí)的相關(guān)學(xué)科61
表24已知6部電影的類型及其中出現(xiàn)的接吻次數(shù)和打斗次數(shù)64
表25已知電影與未知電影的距離64
表26分析學(xué)習(xí)和歸納學(xué)習(xí)的比較70
表27Anscombe的四組數(shù)據(jù)(Anscombes Quartet)76
表31測(cè)試數(shù)據(jù)A86
表32測(cè)試數(shù)據(jù)B86
表33測(cè)試數(shù)據(jù)C86
表34Pew論壇部分人員信仰與收入數(shù)據(jù)統(tǒng)計(jì)(規(guī)整化處理之前)87
表35Pew論壇部分人員信仰與收入數(shù)據(jù)統(tǒng)計(jì)(規(guī)整化處理之后)87
表36探索性統(tǒng)計(jì)中常用的集中趨勢(shì)統(tǒng)計(jì)量89
表37探索性統(tǒng)計(jì)中常用的離散程度統(tǒng)計(jì)量89
表38探索性統(tǒng)計(jì)中常用的數(shù)據(jù)分布統(tǒng)計(jì)量89
表39常見(jiàn)的數(shù)據(jù)變換策略97
表310十進(jìn)制第一數(shù)字的使用概率103
表311數(shù)據(jù)分析中常見(jiàn)錯(cuò)誤109
表312數(shù)據(jù)類型及所支持的操作類型118
表313數(shù)據(jù)類型與視覺(jué)通道的對(duì)應(yīng)關(guān)系118
表314數(shù)據(jù)故事化描述應(yīng)遵循的基本原則128
表315數(shù)據(jù)科學(xué)項(xiàng)目中的主要角色及其任務(wù)130
表41Transformation常用函數(shù)166
表42Action常用函數(shù)166
表43RDD的存儲(chǔ)級(jí)別167
表44Spark數(shù)據(jù)類型和R數(shù)據(jù)類型之間的映射關(guān)系170
表45較有代表性的云數(shù)據(jù)庫(kù)產(chǎn)品174
表46NoSQL數(shù)據(jù)庫(kù)中常用的數(shù)據(jù)模型175
表47R與Python對(duì)比186
表48云計(jì)算的基本類型189
表49排名前10位數(shù)據(jù)科學(xué)產(chǎn)品的使用率及變化情況/4
表51數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)加工的區(qū)別202
表52Google公司的十大產(chǎn)品與服務(wù)202
表53數(shù)據(jù)管理成熟度模型的過(guò)程域分類226
表54信息系統(tǒng)安全等級(jí)及保護(hù)基本要求237
表55腎結(jié)石治療數(shù)據(jù)分析兩種治療方案的分別統(tǒng)計(jì)240
表56兩種治療方案的匯總統(tǒng)計(jì)240
表61數(shù)據(jù)集women248
表62Protein數(shù)據(jù)集266
表63工資信息274
表64各字段的名稱及含義292
表A1Spark版本差異性331
表A2Spark與R的數(shù)據(jù)類型對(duì)比332
表A3SparkR與sparklyr比較340