本書介紹了大數(shù)據(jù)分析的多種模型、所涉及的算法和技術(shù)、實(shí)現(xiàn)大數(shù)據(jù)分析系統(tǒng)所需的工具以及大數(shù)據(jù)分析的具體應(yīng)用。本書共16章。第1章為緒論,就大數(shù)據(jù)、大數(shù)據(jù)分析等概念進(jìn)行了闡釋,并對(duì)本書內(nèi)容進(jìn)行了概述;第2~7章介紹了關(guān)聯(lián)分析模型、分類分析模型、聚類分析模型、結(jié)構(gòu)分析模型和文本分析模型;第8章介紹大數(shù)據(jù)分析的數(shù)據(jù)預(yù)處理問題;第9章介紹降維方法;第10章介紹了數(shù)據(jù)倉(cāng)庫(kù)的概念、內(nèi)涵、組成、體系結(jié)構(gòu)和建立方法,還介紹了分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)和內(nèi)存數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。第11章介紹大數(shù)據(jù)分析算法中的回歸算法、關(guān)聯(lián)規(guī)則挖掘算法、分類算法以及聚類算法的實(shí)現(xiàn)。第12~14章介紹了三種用于實(shí)現(xiàn)大數(shù)據(jù)分析算法的平臺(tái),即并行計(jì)算平臺(tái)、流式計(jì)算平臺(tái)和大圖分析平臺(tái)。第15章和第16章介紹兩類大數(shù)據(jù)分析的具體應(yīng)用,分別講述了社會(huì)網(wǎng)絡(luò)分析和推薦系統(tǒng)。本書可作為高等院校大數(shù)據(jù)相關(guān)專業(yè)的教學(xué)用書,也可以作為從事大數(shù)據(jù)相關(guān)工作的工程技術(shù)人員的參考用書。
本書的緣起與成書過程大數(shù)據(jù)經(jīng)過分析能夠產(chǎn)生高價(jià)值,這無(wú)疑已在大數(shù)據(jù)火爆的今天成為共識(shí),從而使得大數(shù)據(jù)分析在“大數(shù)據(jù)+”涉及的領(lǐng)域(如工業(yè)、醫(yī)療、農(nóng)業(yè)、教育等)有了廣泛的應(yīng)用。大數(shù)據(jù)分析的相關(guān)知識(shí)不僅是大數(shù)據(jù)行業(yè)的從業(yè)人員應(yīng)該必備的,也是和大數(shù)據(jù)相關(guān)的各行各業(yè)的從業(yè)者需要了解的。
然而,人們對(duì)大數(shù)據(jù)分析的解讀有多個(gè)不同方面。從“分析”的角度解讀,大數(shù)據(jù)分析可以看作統(tǒng)計(jì)分析的延伸;從 “數(shù)據(jù)”的角度解讀,大數(shù)據(jù)分析可以看作數(shù)據(jù)管理與挖掘的擴(kuò)展;從“大”的角度解讀,大數(shù)據(jù)分析可以看作數(shù)據(jù)密集高性能計(jì)算的具體化。
而大數(shù)據(jù)分析的有效實(shí)施也需要多個(gè)方面的知識(shí)。從分析的角度來講,需要統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等方面的知識(shí);從數(shù)據(jù)處理的角度來講,需要數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘等方面的知識(shí);從計(jì)算平臺(tái)的角度來講,需要并行系統(tǒng)和并行計(jì)算的知識(shí)。
上述多樣化造成了目前大數(shù)據(jù)分析的教材和參考書的多樣化:有些書重點(diǎn)介紹統(tǒng)計(jì)學(xué)或者機(jī)器學(xué)習(xí)知識(shí),突出“分析”;有些書重點(diǎn)介紹實(shí)現(xiàn)平臺(tái)和技術(shù),突出“大”;有些書重點(diǎn)介紹數(shù)據(jù)挖掘知識(shí)及其應(yīng)用,突出“數(shù)據(jù)”。筆者認(rèn)為,這三類知識(shí)對(duì)大數(shù)據(jù)分析都是必不可少的,于是試圖編寫一本教材來融合這三類知識(shí),給讀者展示一個(gè)相對(duì)廣闊的大數(shù)據(jù)分析圖景。
也正是因?yàn)榻庾x的角度和所需知識(shí)的多樣化,本書的成書過程也比較曲折。在成書的過程中,筆者對(duì)大數(shù)據(jù)分析的認(rèn)識(shí)也在不斷加深,因而在編寫過程中幾次變換結(jié)構(gòu)和體例。由于筆者主要從事數(shù)據(jù)相關(guān)工作,所以起初以大數(shù)據(jù)分析算法和相關(guān)技術(shù)為主,對(duì)數(shù)據(jù)分析模型方面的知識(shí)只是一筆帶過。在和業(yè)內(nèi)人士的交流中發(fā)現(xiàn),對(duì)于很多讀者來說,了解分析模型可能更重要,因?yàn)楹芏喾治鏊惴ê痛髷?shù)據(jù)分析所需的技術(shù)都有平臺(tái)實(shí)現(xiàn),分析模型卻需要了解業(yè)務(wù)的人來建立,于是筆者增加了較多數(shù)據(jù)分析模型方面的內(nèi)容。而后通過和阿里云的合作,筆者又進(jìn)一步了解了大數(shù)據(jù)分析的需求,于是增加了數(shù)據(jù)預(yù)處理等內(nèi)容,并基于阿里云的技術(shù)和平臺(tái)對(duì)書中的一些內(nèi)容做了實(shí)現(xiàn)。這就是本書現(xiàn)在的版本。
本書的內(nèi)容本書力求系統(tǒng)地介紹大數(shù)據(jù)分析過程中的模型、技術(shù)、實(shí)現(xiàn)平臺(tái)和應(yīng)用?紤]到不同部分的側(cè)重不同,故采取了不同的寫作方法,盡可能使本書的內(nèi)容適合更多的讀者閱讀。
模型部分主要突出了大數(shù)據(jù)分析模型的描述方法。通過這一部分的學(xué)習(xí),讀者可以在不考慮實(shí)現(xiàn)的情況下,針對(duì)應(yīng)用需求建立大數(shù)據(jù)分析模型,即使不了解實(shí)現(xiàn)平臺(tái)和具體技術(shù),讀者也可以獨(dú)立學(xué)習(xí)這部分內(nèi)容。在實(shí)踐中,可以將分析模型表達(dá)為R語(yǔ)言,甚至像阿里云提供的可視化工具中那樣分析流程,即使不掌握算法等方面的技術(shù),同樣可以進(jìn)行大數(shù)據(jù)分析。
當(dāng)然,如果對(duì)大數(shù)據(jù)分析相關(guān)技術(shù)有深入了解,會(huì)更加快速有效地進(jìn)行分析,因而技術(shù)部分介紹了大數(shù)據(jù)分析所涉及的技術(shù),重點(diǎn)在于解決大數(shù)據(jù)分析的效率和可擴(kuò)展性問題。
“工欲善其事,必先利其器”,有了好的開發(fā)平臺(tái),就可以有效地實(shí)現(xiàn)相關(guān)的技術(shù),因而實(shí)現(xiàn)平臺(tái)部分介紹了多種開發(fā)大數(shù)據(jù)分析系統(tǒng)的實(shí)現(xiàn)平臺(tái)。
最后兩章針對(duì)“推薦系統(tǒng)”和“社交網(wǎng)絡(luò)”這兩個(gè)大數(shù)據(jù)分析的典型應(yīng)用涉及的一些模型和技術(shù)進(jìn)行了介紹,也是前面內(nèi)容在應(yīng)用中的具體體現(xiàn)。
“大數(shù)據(jù)”是一個(gè)比較寬泛的概念,本書圍繞著分析過程進(jìn)行講解,突出大數(shù)據(jù)的特點(diǎn),與大數(shù)據(jù)算法、大數(shù)據(jù)系統(tǒng)、大數(shù)據(jù)程序的編程實(shí)現(xiàn)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等書籍具有互補(bǔ)性,讀者可以相互參考。
為方便讀者的學(xué)習(xí),筆者總結(jié)了一些大數(shù)據(jù)分析常用系統(tǒng)和工具的安裝與配置方法,讀者可登錄華章網(wǎng)站(www.hzbook.com)在本書網(wǎng)頁(yè)中下載文檔。
本書沒講什么由于大數(shù)據(jù)分析涉及的內(nèi)容過于寬泛,盡管筆者試圖從多個(gè)角度介紹大數(shù)據(jù)分析,但是限于本書的寫作周期和篇幅,有一些讀者關(guān)心的內(nèi)容并沒有包括在本書之中,比如:
數(shù)據(jù)流分析算法神經(jīng)網(wǎng)絡(luò)/深度學(xué)習(xí)大數(shù)據(jù)可視化大圖分析算法大數(shù)據(jù)分析技術(shù)在醫(yī)療、社會(huì)安全、教育、工業(yè)等多個(gè)領(lǐng)域的應(yīng)用一方面,讀者可以閱讀相關(guān)的書籍了解這些領(lǐng)域的內(nèi)容;另一方面,筆者也正在籌劃,期望能夠在本書的再版中列入上述內(nèi)容。
致使用本書的教師本書涉及多方面內(nèi)容,對(duì)于教學(xué)而言,本書適用于多門課程的教學(xué),除了直接用于“大數(shù)據(jù)分析”或者“數(shù)據(jù)科學(xué)”課程的教學(xué)之外,還可以作為“數(shù)理統(tǒng)計(jì)”“數(shù)據(jù)挖掘”“機(jī)器學(xué)習(xí)”等課程的補(bǔ)充教材。
針對(duì)不同專業(yè)的教學(xué),教師可以選擇不同的內(nèi)容。針對(duì)計(jì)算機(jī)科學(xué)專業(yè)的本科生或者研究生,可以全面講授本書的內(nèi)容,但深度和側(cè)重點(diǎn)上可以有所差別。針對(duì)培養(yǎng)數(shù)據(jù)科學(xué)家的“數(shù)據(jù)科學(xué)”專業(yè)的學(xué)生,如果培養(yǎng)方案中沒有計(jì)算機(jī)系統(tǒng)和算法相關(guān)的課程,可以重點(diǎn)講授第1~7章的內(nèi)容,第8~11章可以著重講解技術(shù)的選用而不是原理,第15~16章著重講解背景和模型,其中的算法部分可以略去。針對(duì)培養(yǎng)工程師的技術(shù)類課程或者培訓(xùn),可以重點(diǎn)講授第8~14章,第1~7章中對(duì)模型的介紹可以略去,僅通過例子
序當(dāng)前,一場(chǎng)科技革命浪潮正席卷全球,這一次,IT技術(shù)是主角之一。云計(jì)算、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng),這些新技術(shù)正加速走向應(yīng)用。很快,它們將滲透至我們生產(chǎn)、生活中的每個(gè)角落,并將深刻改變我們的世界。
在這些新技術(shù)當(dāng)中,云計(jì)算作為基礎(chǔ)設(shè)施,將全面支撐各類新技術(shù)、新應(yīng)用。我認(rèn)為:云計(jì)算,特別是公共云,將成為這場(chǎng)科技革命的承載平臺(tái),全面支撐各類技術(shù)創(chuàng)新、應(yīng)用創(chuàng)新和模式創(chuàng)新。
作為一種普惠的公共計(jì)算資源與服務(wù),云計(jì)算與傳統(tǒng)IT計(jì)算資源相比有以下幾個(gè)方面的優(yōu)勢(shì):一是硬件的集約化;二是人才的集約化;三是安全的集約化;四是服務(wù)的普惠化。
公共云計(jì)算的快速發(fā)展將帶動(dòng)云計(jì)算產(chǎn)業(yè)進(jìn)入一個(gè)新的階段,我們可以稱之為“云計(jì)算2.0時(shí)代”,云計(jì)算對(duì)行業(yè)演進(jìn)發(fā)展的支撐作用將更加凸顯。
云計(jì)算是“數(shù)據(jù)在線”的主要承載!霸诰”是我們這個(gè)時(shí)代最重要的本能,它讓互聯(lián)網(wǎng)變成了最具滲透力的基礎(chǔ)設(shè)施,數(shù)據(jù)變成了最具共享性的生產(chǎn)資料,計(jì)算變成了隨時(shí)隨地的公共服務(wù)。云計(jì)算不僅承載數(shù)據(jù)本身,同時(shí)也承載數(shù)據(jù)應(yīng)用所需的計(jì)算資源。
云計(jì)算是“智能”與“智慧”的重要支撐。智慧有兩大支撐,即網(wǎng)絡(luò)與大數(shù)據(jù)。包括互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)在內(nèi)的各種網(wǎng)絡(luò),負(fù)責(zé)搜集和共享數(shù)據(jù);大數(shù)據(jù)作為“原材料”,是各類智慧應(yīng)用的基礎(chǔ)。云計(jì)算是支撐網(wǎng)絡(luò)和大數(shù)據(jù)的平臺(tái),所以,幾乎所有智慧應(yīng)用都離不開云計(jì)算。
云計(jì)算是企業(yè)享受平等IT應(yīng)用與創(chuàng)新環(huán)境的有力保障。當(dāng)前,企業(yè)創(chuàng)新,特別是小微企業(yè)和創(chuàng)業(yè)企業(yè)的創(chuàng)新面臨IT技術(shù)和IT成本方面的壁壘。云計(jì)算的出現(xiàn)打破了這一壁壘,IT成為唾手可得的基礎(chǔ)性資源,企業(yè)無(wú)須把重點(diǎn)放在IT支撐與實(shí)現(xiàn)上,可以更加聚焦于擅長(zhǎng)的領(lǐng)域進(jìn)行創(chuàng)新,這對(duì)提升全行業(yè)的信息化水平以及激發(fā)創(chuàng)新創(chuàng)業(yè)熱情將起到至關(guān)重要的作用。
除了發(fā)揮基礎(chǔ)設(shè)施平臺(tái)的支撐作用外,2.0時(shí)代的云計(jì)算,特別是公共云計(jì)算對(duì)產(chǎn)業(yè)的影響將從量變到質(zhì)變。我認(rèn)為,公共云將全面重塑整個(gè)ICT生態(tài),向下定義數(shù)據(jù)中心、IT設(shè)備,甚至是CPU等核心器件,向上定義軟件與應(yīng)用,橫向承載數(shù)據(jù)與安全,縱向支撐人工智能的技術(shù)演進(jìn)與應(yīng)用創(chuàng)新。
對(duì)我國(guó)來說,發(fā)展云計(jì)算產(chǎn)業(yè)的戰(zhàn)略意義重大。我認(rèn)為,云計(jì)算已不僅僅是“IT基礎(chǔ)設(shè)施”,它將像電網(wǎng)、移動(dòng)通信網(wǎng)、互聯(lián)網(wǎng)、交通網(wǎng)絡(luò)一樣,成為“國(guó)家基礎(chǔ)設(shè)施”,全面服務(wù)國(guó)家多項(xiàng)重大戰(zhàn)略的實(shí)施與落地。
云計(jì)算是網(wǎng)絡(luò)強(qiáng)國(guó)建設(shè)的重要基石。發(fā)展云計(jì)算產(chǎn)業(yè),有利于我國(guó)實(shí)現(xiàn)IT全產(chǎn)業(yè)鏈的自主可控,提高信息安全保障水平,并推動(dòng)大數(shù)據(jù)、人工智能的發(fā)展。
云計(jì)算是提升國(guó)家治理能力的重要工具。隨著大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)應(yīng)用到智慧城市、智慧政務(wù)建設(shè)中,國(guó)家及各城市的治理水平和服務(wù)能力大幅提升,這背后,云計(jì)算平臺(tái)功不可沒。
云計(jì)算將全面推動(dòng)國(guó)家產(chǎn)業(yè)轉(zhuǎn)型升級(jí)。云計(jì)算將支撐“中國(guó)制造2025”“互聯(lián)網(wǎng)+”戰(zhàn)略,全面推動(dòng)“兩化”深度融合。同時(shí),云計(jì)算也為創(chuàng)新創(chuàng)業(yè)提供了優(yōu)質(zhì)土壤,在“雙創(chuàng)”領(lǐng)域,云計(jì)算已真正成為基礎(chǔ)設(shè)施。
在DT時(shí)代,我認(rèn)為計(jì)算及計(jì)算的能力是衡量一個(gè)國(guó)家科技實(shí)力和創(chuàng)新能力的重要標(biāo)準(zhǔn)。只有掌握計(jì)算能力,才具備全面支撐創(chuàng)新的基礎(chǔ),才有能力挖掘數(shù)據(jù)的價(jià)值,才能在重塑ICT生態(tài)過程中掌握主導(dǎo)權(quán)。
接下來的幾年,云計(jì)算將成為全球科技和產(chǎn)業(yè)競(jìng)爭(zhēng)的焦點(diǎn)。目前,我國(guó)的云計(jì)算產(chǎn)業(yè)具備和發(fā)達(dá)國(guó)家抗衡的能力,而我們對(duì)數(shù)據(jù)的認(rèn)知、駕馭能力及對(duì)資源的利用開發(fā)和人力也是與發(fā)達(dá)國(guó)家等同的。因此,我們正處在一個(gè)“黃金窗口期”。
我一直認(rèn)為,支撐技術(shù)進(jìn)步和產(chǎn)業(yè)發(fā)展的最主要力量是人才,未來世界各國(guó)在云計(jì)算、大數(shù)據(jù)、AI等領(lǐng)域的競(jìng)爭(zhēng),在某種程度上會(huì)轉(zhuǎn)變?yōu)槿瞬胖疇?zhēng)。因此,加強(qiáng)專業(yè)人才培養(yǎng)將是推動(dòng)云計(jì)算、大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重要抓手。
由于是新興產(chǎn)業(yè),我國(guó)云計(jì)算、大數(shù)據(jù)領(lǐng)域的人才相對(duì)短缺。作為中國(guó)最大的云計(jì)算服務(wù)企業(yè),阿里云希望能在云計(jì)算、大數(shù)據(jù)領(lǐng)域的人才培養(yǎng)方面做出努力,將我們?cè)谠朴?jì)算、大數(shù)據(jù)領(lǐng)域的實(shí)踐經(jīng)驗(yàn)貢獻(xiàn)到高校的教育中,為高校的課程建設(shè)提供支持。
與傳統(tǒng)IT基礎(chǔ)技術(shù)理論相比,云計(jì)算和大數(shù)據(jù)更偏向應(yīng)用,而這方面恰恰是阿里云的優(yōu)勢(shì)。因此,我們與高校合作,優(yōu)勢(shì)互補(bǔ),將計(jì)算機(jī)科學(xué)的理論和阿里云的產(chǎn)業(yè)實(shí)踐融合起來,讓大家從實(shí)戰(zhàn)的角度認(rèn)識(shí)、掌握云計(jì)算和大數(shù)據(jù)。
我們希望通過這套教材,把阿里云一些經(jīng)過檢驗(yàn)的經(jīng)驗(yàn)與成果分享給全社會(huì),讓眾多計(jì)算機(jī)相關(guān)專業(yè)學(xué)生、技術(shù)開發(fā)者及所有對(duì)云計(jì)算、大數(shù)據(jù)感興趣的企業(yè)和個(gè)人,可以與我們一起推動(dòng)中國(guó)云計(jì)算、大數(shù)據(jù)產(chǎn)業(yè)的健康快速發(fā)展!
胡曉明阿里云總裁
王宏志,博士,博士生導(dǎo)師,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院副教授,中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員,YOCSEF黑龍江省分論壇AC。2008年7月在哈爾濱工業(yè)大學(xué)計(jì)算機(jī)軟件與理論學(xué)科獲得博士學(xué)位,博士論文獲得“中國(guó)計(jì)算機(jī)學(xué)博士論文”和“哈爾濱工業(yè)大學(xué)博士論文”。研究方向包括XML數(shù)據(jù)管理、圖數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、信息集成等。先后被評(píng)為“微軟學(xué)者”、“中國(guó)數(shù)據(jù)庫(kù)工程師”和“IBM博士英才”。曾先后擔(dān)任全國(guó)數(shù)據(jù)庫(kù)會(huì)議等多個(gè)學(xué)術(shù)會(huì)議的程序委員會(huì)委員和IEEE TKDE等多個(gè)重要國(guó)際期刊的審稿人。
目 錄
序
前言
教學(xué)建議
第1章 緒論 1
1.1 什么是大數(shù)據(jù) 1
1.2 哪里有大數(shù)據(jù) 3
1.3 什么是大數(shù)據(jù)分析 4
1.4 大數(shù)據(jù)分析的過程、技術(shù)與難點(diǎn) 5
1.5 全書概覽 8
小結(jié) 10
習(xí)題 10
第2章 大數(shù)據(jù)分析模型 11
2.1 大數(shù)據(jù)分析模型建立方法 11
2.2 基本統(tǒng)計(jì)量 13
2.2.1 全表統(tǒng)計(jì)量 14
2.2.2 皮爾森相關(guān)系數(shù) 15
2.3 推斷統(tǒng)計(jì) 16
2.3.1 參數(shù)估計(jì) 16
2.3.2 假設(shè)檢驗(yàn) 20
2.3.3 假設(shè)檢驗(yàn)的阿里云實(shí)現(xiàn) 23
小結(jié) 28
習(xí)題 28
第3章 關(guān)聯(lián)分析模型 30
3.1 回歸分析 31
3.1.1 回歸分析概述 31
3.1.2 回歸模型的拓展 35
3.1.3 回歸的阿里云實(shí)現(xiàn) 43
3.2 關(guān)聯(lián)規(guī)則分析 52
3.3 相關(guān)分析 54
小結(jié) 57
習(xí)題 58
第4章 分類分析模型 60
4.1 分類分析的定義 60
4.2 判別分析的原理和方法 61
4.2.1 距離判別法 61
4.2.2 Fisher判別法 64
4.2.3 貝葉斯判別法 67
4.3 基于機(jī)器學(xué)習(xí)分類的模型 71
4.3.1 支持向量機(jī) 72
4.3.2 邏輯回歸 74
4.3.3 決策樹與回歸樹 75
4.3.4 k近鄰 78
4.3.5 隨機(jī)森林 78
4.3.6 樸素貝葉斯 81
4.4 分類分析實(shí)例 82
4.4.1 二分類實(shí)例 82
4.4.2 多分類實(shí)例 94
小結(jié) 101
習(xí)題 102
第5章 聚類分析模型 105
5.1 聚類分析的定義 105
5.1.1 基于距離的親疏關(guān)系度量 105
5.1.2 基于相似系數(shù)的相似性度量 108
5.1.3 個(gè)體與類以及類間的親疏關(guān)系度量 110
5.1.4 變量的選擇與處理 111
5.2 聚類分析的分類 111
5.3 聚類有效性的評(píng)價(jià) 112
5.4 聚類分析方法概述 112
5.5 聚類分析的應(yīng)用 113
5.6 聚類分析的阿里云實(shí)現(xiàn) 114
小結(jié) 119
習(xí)題 119
第6章 結(jié)構(gòu)分析模型 122
6.1 最短路徑 122
6.2 鏈接排名 123
6.3 結(jié)構(gòu)計(jì)數(shù) 125
6.4 結(jié)構(gòu)聚類 126
6.5 社團(tuán)發(fā)現(xiàn) 128
6.5.1 社團(tuán)的定義 128
6.5.2 社團(tuán)的分類 128
6.5.3 社團(tuán)的用途 128
6.5.4 社團(tuán)的數(shù)學(xué)定義 128
6.5.5 基于阿里云的社團(tuán)發(fā)現(xiàn) 130
小結(jié) 132
習(xí)題 133
第7章 文本分析模型 135
7.1 文本分析模型概述 135
7.2 文本分析方法概述 136
7.2.1 SplitWord 136
7.2.2 詞頻統(tǒng)計(jì) 137
7.2.3 TF-IDF 138
7.2.4 PLDA 140
7.2.5 Word2Vec 147
小結(jié) 148
習(xí)題 149
第8章 大數(shù)據(jù)分析的數(shù)據(jù)預(yù)處理 150
8.1 數(shù)據(jù)抽樣和過濾 150
8.1.1 數(shù)據(jù)抽樣 150
8.1.2 數(shù)據(jù)過濾 154
8.1.3 基于阿里云的抽樣和過濾實(shí)現(xiàn) 154
8.2 數(shù)據(jù)標(biāo)準(zhǔn)化與歸一化 157
8.3 數(shù)據(jù)清洗 159
8.3.1 數(shù)據(jù)質(zhì)量概述 159
8.3.2 缺失值填充 160
8.3.3 實(shí)體識(shí)別與真值發(fā)現(xiàn) 162
8.3.4 錯(cuò)誤發(fā)現(xiàn)與修復(fù) 169
小結(jié) 171
習(xí)題 171
第9章 降維 173
9.1 特征工程 173
9.1.1 特征工程概述 173
9.1.2 特征變換 175
9.1.3 特征選擇 178
9.1.4 特征重要性評(píng)估 183
9.2 主成分分析 191
9.2.1 什么是主成分分析 191
9.2.2 主成分分析的計(jì)算過程 192
9.2.3 基于阿里云的主成分分析 194
9.2.4 主成分的表現(xiàn)度量 195
9.3 因子分析 196
9.3.1 因子分析概述 196
9.3.2 因子分析的主要分析指標(biāo) 196
9.3.3 因子分析的計(jì)算方法 197
9.4 壓縮感知 203
9.4.1 什么是壓縮感知 203
9.4.2 壓縮感知的具體模型 204
9.5 面向神經(jīng)網(wǎng)絡(luò)的降維 205
9.5.1 面向神經(jīng)網(wǎng)絡(luò)的降維方法概述 205
9.5.2 如何利用神經(jīng)網(wǎng)絡(luò)降維 206
9.6 基于特征散列的維度縮減 207
9.6.1 特征散列方法概述 207
9.6.2 特征散列算法 207
9.7 基于Lasso算法的降維 208
9.7.1 Lasso方法簡(jiǎn)介 208
9.7.2 Lasso方法 209
9.7.3 Lasso算法的適用情景 211
小結(jié) 211
習(xí)題 212
第10章 面向大數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) 214
10.1 數(shù)據(jù)倉(cāng)庫(kù)概述 214
10.1.1 數(shù)據(jù)倉(cāng)庫(kù)的基本概念 214
10.1.2 數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)涵 215
10.1.3 數(shù)據(jù)倉(cāng)庫(kù)的基本組成 215
10.1.4 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu) 216
10.1.5 數(shù)據(jù)倉(cāng)庫(kù)的建立 217
10.2 分布式數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) 221
10.2.1 基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) 221
10.2.2 Shark:基于Spark的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) 227
10.2.3 Mesa 228
10.3 內(nèi)存數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) 231
10.3.1 SAP HANA 231
10.3.2 HyPer 234
10.4 阿里云數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 236
小結(jié) 238
習(xí)題 239
第11章 大數(shù)據(jù)分析算法 240
11.1 大數(shù)據(jù)分析算法概述 240
11.2 回歸算法 242
11.3 關(guān)聯(lián)規(guī)則挖掘算法 248
11.4 分類算法 255
11.4.1 二分類算法 256
11.4.2 多分類算法 273
11.5 聚類算法 283
11.5.1 k-means算法 283
11.5.2 CLARANS算法 291
小結(jié) 293
習(xí)題 293
第12章 大數(shù)據(jù)計(jì)算平臺(tái) 295
12.1 Spark 295
12.1.1 Spark簡(jiǎn)介 295
12.1.2 基于Spark的大數(shù)據(jù)分析實(shí)例 296
12.2 Hyracks 299
12.2.1 Hyracks簡(jiǎn)介 299
12.2.2 基于Hyracks的大數(shù)據(jù)分析實(shí)例 299
12.3 DPark