關(guān)于我們
書單推薦
新書推薦
|
數(shù)據(jù)科學(xué)理論與實踐(第2版) 重點介紹數(shù)據(jù)科學(xué)中的新理論和代表性實踐,填補數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的核心教材的空白。主要內(nèi)容包括:基礎(chǔ)理論(術(shù)語定義、研究目的、發(fā)展簡史、理論體系、基本原則、數(shù)據(jù)科學(xué)家)、理論基礎(chǔ)(數(shù)據(jù)科學(xué)的學(xué)科地位、統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)可視化)、流程與方法(基本歷程、數(shù)據(jù)加工、數(shù)據(jù)審計、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)故事化、項目管理)、技術(shù)與工具(技術(shù)體系、MapReduce、Hadoop、Spark、NoSQL與NewSQL、R與Python)、數(shù)據(jù)產(chǎn)品及開發(fā)(主要特征、關(guān)鍵活動、數(shù)據(jù)柔術(shù)、數(shù)據(jù)能力、數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理)、典型案例及實踐等 (1)國家精品開放在線課程《數(shù)據(jù)科學(xué)導(dǎo)論》的配套教材(2)一本系統(tǒng)講解全球范圍內(nèi)的數(shù)據(jù)科學(xué)的新理論與代表性實踐的教材; 前 言
章名 第1章基礎(chǔ)理論 注: 與數(shù)據(jù)科學(xué)相關(guān)的導(dǎo)論類課程有數(shù)據(jù)科學(xué)導(dǎo)論、大數(shù)據(jù)導(dǎo)論、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論等; 非導(dǎo)論類課程有數(shù)據(jù)科學(xué)、數(shù)據(jù)科學(xué)理論與實踐、數(shù)據(jù)科學(xué)原理與實踐、數(shù)據(jù)科學(xué)方法與技術(shù)等; 常見的大數(shù)據(jù)類專業(yè)有數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、大數(shù)據(jù)管理與應(yīng)用、大數(shù)據(jù)技術(shù)與應(yīng)用和大數(shù)據(jù)分析等。 中國人民大學(xué)副教授,博士生導(dǎo)師;國家精品在線開放課程《數(shù)據(jù)科學(xué)導(dǎo)論》負責(zé)人;中國計算機學(xué)會信息系統(tǒng)專委員會委員、中國軟件行業(yè)協(xié)會中國軟件專業(yè)人才培養(yǎng)工程專家委員、全國高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟專家委員會副主任、全國高校大數(shù)據(jù)教育聯(lián)盟大數(shù)據(jù)教材專家指導(dǎo)委員會委員; 目錄
如何開始學(xué)習(xí) 1.1術(shù)語定義 1.2研究目的 1.3研究視角 1.4發(fā)展簡史 1.5理論體系 1.6基本原則 1.7相關(guān)理論 1.8人才類型 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第2章理論基礎(chǔ) 如何開始學(xué)習(xí) 2.1數(shù)據(jù)科學(xué)的學(xué)科地位 2.2統(tǒng)計學(xué) 2.3機器學(xué)習(xí) 2.4數(shù)據(jù)可視化 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第3章流程與方法 如何開始學(xué)習(xí) 3.1基本流程 3.2數(shù)據(jù)加工 3.3數(shù)據(jù)審計 3.4數(shù)據(jù)分析 3.5數(shù)據(jù)可視化 3.6數(shù)據(jù)故事化 3.7數(shù)據(jù)科學(xué)項目管理 3.8數(shù)據(jù)科學(xué)中的常見錯誤 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第4章技術(shù)與工具 如何開始學(xué)習(xí) 4.1數(shù)據(jù)科學(xué)的技術(shù)體系 4.2MapReduce 4.3Hadoop 4.4Spark 4.5NoSQL與NewSQL 4.6R與Python 4.7發(fā)展趨勢 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第5章數(shù)據(jù)產(chǎn)品及開發(fā) 如何開始學(xué)習(xí) 5.1定義 5.2主要特征 5.3關(guān)鍵活動 5.4數(shù)據(jù)柔術(shù) 5.5數(shù)據(jù)能力 5.6數(shù)據(jù)戰(zhàn)略 5.7數(shù)據(jù)治理 5.8數(shù)據(jù)安全、隱私、道德與倫理 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 第6章典型案例及實踐 如何開始學(xué)習(xí) 6.1統(tǒng)計分析 6.2機器學(xué)習(xí) 6.3數(shù)據(jù)可視化 6.4Spark編程 6.52012年美國總統(tǒng)大選 如何繼續(xù)學(xué)習(xí) 習(xí)題 參考文獻 附錄A本書例題的R語言版代碼 附錄B數(shù)據(jù)科學(xué)的重要資源 附錄C術(shù)語索引 后記
圖12數(shù)據(jù)與數(shù)值的區(qū)別4 圖13數(shù)字信號與模擬信號4 圖1420082015年全球數(shù)據(jù)規(guī)模及類型的估計6 圖15大數(shù)據(jù)的特征7 圖16大數(shù)據(jù)的本質(zhì)8 圖17人工智能、機器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別與聯(lián)系10 圖18DIKUW模型及應(yīng)用11 圖19數(shù)據(jù)洞見12 圖110業(yè)務(wù)數(shù)據(jù)化與數(shù)據(jù)業(yè)務(wù)化12 圖111常用驅(qū)動方式13 圖112數(shù)據(jù)的層次性13 圖113大數(shù)據(jù)生態(tài)系統(tǒng)示意圖14 圖114數(shù)據(jù)科學(xué)的新研究視角15 圖115Gartner技術(shù)成熟度曲線16 圖116數(shù)據(jù)科學(xué)的萌芽期(19742009年)17 圖117數(shù)據(jù)科學(xué)的快速發(fā)展期(20102013年)18 圖118數(shù)據(jù)科學(xué)的逐漸成熟期(2014年至今)19 圖119數(shù)據(jù)科學(xué)的理論體系20 圖120數(shù)據(jù)科學(xué)的主要內(nèi)容20 圖121數(shù)據(jù)科學(xué)的三世界原則22 圖122數(shù)據(jù)科學(xué)的三個要素及3C精神23 圖123計算密集型應(yīng)用與數(shù)據(jù)密集型應(yīng)用的區(qū)別24 圖124數(shù)據(jù)范式與知識范式的區(qū)別25 圖125數(shù)據(jù)管理范式的變化25 圖126數(shù)據(jù)的資產(chǎn)屬性26 圖127常用驅(qū)動方式28 圖128CAPTCHA方法的應(yīng)用28 圖129ReCAPTCHA項目29 圖130數(shù)據(jù)與算法之間的關(guān)系30 圖131BellKors Pragmatic Chaos團隊獲得Netflix獎30 圖132Netflix獎公測結(jié)果31 圖133數(shù)據(jù)科學(xué)與商務(wù)智能的區(qū)別與聯(lián)系32 圖134數(shù)據(jù)科學(xué)與數(shù)據(jù)工程在企業(yè)應(yīng)用中的區(qū)別與聯(lián)系33 圖135數(shù)據(jù)科學(xué)人才類型及其收入33 圖136RStudio中編輯Markdown的窗口35 圖137數(shù)據(jù)科學(xué)家團隊38 圖138大數(shù)據(jù)人才應(yīng)具備的不同知識結(jié)構(gòu)40 圖139學(xué)習(xí)數(shù)據(jù)科學(xué)的四則原則43 圖21數(shù)據(jù)科學(xué)的理論基礎(chǔ)50 圖22統(tǒng)計方法的分類(行為目的與思路方式視角)52 圖23統(tǒng)計學(xué)中的數(shù)據(jù)推斷53 圖24數(shù)據(jù)統(tǒng)計方法的類型(方法論視角)53 圖25數(shù)據(jù)統(tǒng)計基本方法54 圖26元分析與基本分析54 圖27GFT預(yù)測與美國疾病控制中心數(shù)據(jù)的對比55 圖28GFT估計與實際數(shù)據(jù)的誤差(2013年2月)56 圖29大數(shù)據(jù)時代的思維模式的轉(zhuǎn)變58 圖210西洋雙陸棋58 圖211機器人駕駛58 圖212機器學(xué)習(xí)的基本思路59 圖213機器學(xué)習(xí)的三要素61 圖214機器學(xué)習(xí)的類型62 圖215KNN算法的基本步驟63 圖216決策樹示例識別鳥類65 圖217感知器示例67 圖218前向神經(jīng)網(wǎng)絡(luò)67 圖219歸納學(xué)習(xí)與分析學(xué)習(xí)70 圖220增強學(xué)習(xí)70 圖221機器學(xué)習(xí)的類型71 圖222IBM Watson72 圖223Pepper機器人73 圖224機器學(xué)習(xí)中的數(shù)據(jù)73 圖225Anscombe四組數(shù)據(jù)的可視化77 圖226John Snow的鬼地圖(Ghost Map)78 圖227在Tableau中加利福尼亞州政府收入來源數(shù)據(jù)的可視化79 圖31數(shù)據(jù)科學(xué)的基本流程83 圖32量化自我84 圖33規(guī)整數(shù)據(jù)與干凈數(shù)據(jù)的區(qū)別85 圖34規(guī)整數(shù)據(jù)示意圖86 圖35殘差89 圖36數(shù)據(jù)分析的類型90 圖37Analytics 1.0~3.091 圖38數(shù)據(jù)加工方法92 圖39數(shù)據(jù)審計與數(shù)據(jù)清洗93 圖310缺失數(shù)據(jù)處理的步驟94 圖311冗余數(shù)據(jù)處理的方法94 圖312數(shù)據(jù)分箱處理的步驟與類型96 圖313均值平滑與邊界值平滑96 圖314內(nèi)容集成98 圖315結(jié)構(gòu)集成99 圖316數(shù)據(jù)脫敏處理100 圖317數(shù)據(jù)連續(xù)性的定義及重要性104 圖318可視化審計示例106 圖319Gartner分析學(xué)價值扶梯模型106 圖320冰激凌的銷售量與謀殺案的發(fā)生數(shù)量108 圖321數(shù)據(jù)分析的類型110 圖322拿破侖進軍俄國慘敗而歸的歷史事件的可視化111 圖323可視分析學(xué)的相關(guān)學(xué)科111 圖324可視分析學(xué)模型112 圖325數(shù)據(jù)可視化的方法體系113 圖326視覺圖形元素與視覺通道113 圖327雷達圖示例114 圖328齊美爾連帶114 圖329視覺隱喻的示例美國政府機構(gòu)的設(shè)置114 圖330地鐵路線圖的創(chuàng)始人Henry Beck115 圖331Henry Beck的倫敦地鐵線路圖116 圖332視覺突出的示例116 圖333完圖法則的示例117 圖334視覺通道的選擇與展示119 圖335視覺通道的精確度對比119 圖336視覺通道的可辨認性某公司產(chǎn)品銷售示意圖120 圖337視覺通道的可分離性差120 圖338上下文導(dǎo)致視覺假象1121 圖339上下文導(dǎo)致視覺假象2121 圖340對亮度和顏色的相對判斷容易造成視覺假象的示例121 圖341數(shù)據(jù)可視化表達與數(shù)據(jù)故事化描述126 圖342數(shù)據(jù)的故事化描述及故事的展現(xiàn)127 圖343項目管理的主要內(nèi)容130 圖344數(shù)據(jù)科學(xué)項目的基本流程131 圖412017大數(shù)據(jù)產(chǎn)業(yè)全景圖140 圖42大數(shù)據(jù)參考架構(gòu)142 圖43MapReduce執(zhí)行過程144 圖44MapReduce對中間數(shù)據(jù)的處理148 圖45以MapReduce為核心和以YARN為核心的軟件棧對比150 圖46下一代MapReduce框架151 圖47Apache的Hadoop項目151 圖48Hadoop生態(tài)系統(tǒng)152 圖49Hadoop MapReduce數(shù)據(jù)處理過程153 圖410Apache Hive官方網(wǎng)站155 圖411Apache Pig官方網(wǎng)站156 圖412Apache Mahout官方網(wǎng)站157 圖413Apache HBase官方網(wǎng)站157 圖414HBase與Hadoop項目158 圖415HBase的邏輯模型159 圖416Apache ZooKeeper官方網(wǎng)站160 圖417Apache Flume官方網(wǎng)站161 圖418Apache Sqoop官方網(wǎng)站162 圖419Spark 技術(shù)架構(gòu)163 圖420Spark的基本流程164 圖421Spark的執(zhí)行步驟169 圖422Lambda 架構(gòu)的主要組成部分171 圖423傳統(tǒng)關(guān)系數(shù)據(jù)庫的優(yōu)點與缺點172 圖424關(guān)系數(shù)據(jù)庫技術(shù)與NoSQL技術(shù)之間的關(guān)系174 圖425NoSQL數(shù)據(jù)分布的兩個基本途徑175 圖426分片處理176 圖427主從復(fù)制177 圖428對等復(fù)制178 圖429數(shù)據(jù)不一致性179 圖430CAP理論180 圖431Memcached官方網(wǎng)站183 圖432一致性散列的分配方式184 圖433服務(wù)器增加時的變化184 圖434云計算的演變過程188 圖435數(shù)據(jù)管理的新變化190 圖43620162018年數(shù)據(jù)科學(xué)相關(guān)項目中軟件產(chǎn)品的使用率(%)192 圖4372019年Gartner數(shù)據(jù)科學(xué)和機器學(xué)習(xí)平臺魔力194 圖51數(shù)據(jù)產(chǎn)品開發(fā)中的數(shù)據(jù)與數(shù)據(jù)柔術(shù)201 圖52知識范式與數(shù)據(jù)范式203 圖53數(shù)據(jù)產(chǎn)品的多樣性204 圖54數(shù)據(jù)產(chǎn)品的層次性205 圖55Google全球商機洞察(Google Global Market Finder)206 圖56數(shù)據(jù)產(chǎn)品鏈207 圖57傳統(tǒng)產(chǎn)品開發(fā)與數(shù)據(jù)產(chǎn)品開發(fā)的區(qū)別208 圖58D.J.Patil209 圖59UI(User Interface)設(shè)計方案與設(shè)計思維210 圖510Google搜索的用戶體驗211 圖511人與計算機圖像內(nèi)容識別能力的不同211 圖512Amazon Mechanical Turk平臺213 圖513一個HIT的生命周期213 圖514基于人與計算機的數(shù)據(jù)處理成本曲線214 圖515亞馬遜的數(shù)據(jù)產(chǎn)品其他商家(Other Sellers)215 圖516LinkedIn的數(shù)據(jù)產(chǎn)品你可能認識的人們(People you may know)216 圖517LinkedIn的數(shù)據(jù)產(chǎn)品你的觀眾是誰216 圖518逆向交互定律217 圖519LinkedIn數(shù)據(jù)產(chǎn)品崗位推薦219 圖520LinkedIn的數(shù)據(jù)產(chǎn)品幫助你的朋友找到工作220 圖521Facebook的良好用戶體驗220 圖522DMM模型基本思路222 圖523CMM基本思想222 圖524CMM成熟度等級224 圖525DMM關(guān)鍵過程域225 圖526DMM層級劃分及描述227 圖527IDEAL模型229 圖528組織機構(gòu)數(shù)據(jù)管理能力成熟度評估結(jié)果的可視化229 圖529數(shù)據(jù)戰(zhàn)略與數(shù)據(jù)管理目標的區(qū)別230 圖530數(shù)據(jù)戰(zhàn)略的目標231 圖531數(shù)據(jù)戰(zhàn)略的側(cè)重點231 圖532數(shù)據(jù)戰(zhàn)略的范疇231 圖533數(shù)據(jù)管理與數(shù)據(jù)治理的區(qū)別233 圖534IBM提出的企業(yè)數(shù)據(jù)管理的范疇233 圖535數(shù)據(jù)治理的PDCA模型234 圖536DGI數(shù)據(jù)治理框架235 圖537P2DR模型237 圖538從歐洲大陸的空戰(zhàn)中返回的轟炸機238 圖61KMeans算法的基本步驟267 圖62奧巴馬2012年總統(tǒng)競選芝加哥總部287 圖63George Clooney288 圖64Sarah Jessica Parker288 圖65奧巴馬及快速捐贈計劃290 圖66奧巴馬通過Reddit與選民互動291 圖672012年美國總統(tǒng)競選財務(wù)數(shù)據(jù)官方網(wǎng)站292 圖A1女性體重與身高的線性回歸分析314 圖A2工資數(shù)據(jù)的可視化327 圖A3起飛延誤時間339 圖A4到達延誤時間339 圖A5捐助人職業(yè)、黨派及捐助額度分析352 圖A6分箱處理后的捐款數(shù)據(jù)可視化353 圖A7捐款日期與金額的可視化354 圖A8捐款月份與金額變化分析355 圖A9投票結(jié)果的可視化357
表12某數(shù)據(jù)科學(xué)家的畫像(Profile)37 表21參數(shù)估計與假設(shè)檢驗的主要區(qū)別53 表22統(tǒng)計學(xué)與機器學(xué)習(xí)的術(shù)語對照表57 表23機器學(xué)習(xí)的相關(guān)學(xué)科61 表24已知6部電影的類型及其中出現(xiàn)的接吻次數(shù)和打斗次數(shù)64 表25已知電影與未知電影的距離64 表26分析學(xué)習(xí)和歸納學(xué)習(xí)的比較70 表27Anscombe的四組數(shù)據(jù)(Anscombes Quartet)76 表31測試數(shù)據(jù)A86 表32測試數(shù)據(jù)B86 表33測試數(shù)據(jù)C86 表34Pew論壇部分人員信仰與收入數(shù)據(jù)統(tǒng)計(規(guī)整化處理之前)87 表35Pew論壇部分人員信仰與收入數(shù)據(jù)統(tǒng)計(規(guī)整化處理之后)87 表36探索性統(tǒng)計中常用的集中趨勢統(tǒng)計量89 表37探索性統(tǒng)計中常用的離散程度統(tǒng)計量89 表38探索性統(tǒng)計中常用的數(shù)據(jù)分布統(tǒng)計量89 表39常見的數(shù)據(jù)變換策略97 表310十進制第一數(shù)字的使用概率103 表311數(shù)據(jù)分析中常見錯誤109 表312數(shù)據(jù)類型及所支持的操作類型118 表313數(shù)據(jù)類型與視覺通道的對應(yīng)關(guān)系118 表314數(shù)據(jù)故事化描述應(yīng)遵循的基本原則128 表315數(shù)據(jù)科學(xué)項目中的主要角色及其任務(wù)130 表41Transformation常用函數(shù)166 表42Action常用函數(shù)166 表43RDD的存儲級別167 表44Spark數(shù)據(jù)類型和R數(shù)據(jù)類型之間的映射關(guān)系170 表45較有代表性的云數(shù)據(jù)庫產(chǎn)品174 表46NoSQL數(shù)據(jù)庫中常用的數(shù)據(jù)模型175 表47R與Python對比186 表48云計算的基本類型189 表49排名前10位數(shù)據(jù)科學(xué)產(chǎn)品的使用率及變化情況/4 表51數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)加工的區(qū)別202 表52Google公司的十大產(chǎn)品與服務(wù)202 表53數(shù)據(jù)管理成熟度模型的過程域分類226 表54信息系統(tǒng)安全等級及保護基本要求237 表55腎結(jié)石治療數(shù)據(jù)分析兩種治療方案的分別統(tǒng)計240 表56兩種治療方案的匯總統(tǒng)計240 表61數(shù)據(jù)集women248 表62Protein數(shù)據(jù)集266 表63工資信息274 表64各字段的名稱及含義292 表A1Spark版本差異性331 表A2Spark與R的數(shù)據(jù)類型對比332 表A3SparkR與sparklyr比較340
你還可能感興趣
我要評論
|