本書系統(tǒng)介紹了大數(shù)據(jù)的內(nèi)涵、特征、技術(shù)及應(yīng)用。全書共10章,其中第1~8章為技術(shù)篇,主要從大數(shù)據(jù)處理流程出發(fā),圍繞大數(shù)據(jù)體系架構(gòu),詳細闡述大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)存儲、大數(shù)據(jù)分析挖掘、大數(shù)據(jù)可視化等關(guān)鍵技術(shù)。第9、10章為應(yīng)用篇,對大數(shù)據(jù)在電信、文娛、教育、醫(yī)療等行業(yè)的具體應(yīng)用進行了論述,并通過典型案例與Python代碼示例,展示如何將大數(shù)據(jù)原理付諸實踐。
本書兼顧專業(yè)性和可讀性,適合作為高等院校大數(shù)據(jù)技術(shù)的基礎(chǔ)教材,也可供大數(shù)據(jù)技術(shù)愛好者學習參考。
本書在編寫時,堅持“以應(yīng)用為先”的原則,注重理論與實踐相結(jié)合,將大數(shù)據(jù)抽象的概念、原理和技術(shù)方法融入具體實例中,幫助讀者更好地理解、掌握和運用大數(shù)據(jù)技術(shù)。
隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的廣泛應(yīng)用,全球數(shù)據(jù)量呈現(xiàn)井噴式增長,洶涌而來的數(shù)據(jù)洪流將人類社會帶入了嶄新的大數(shù)據(jù)時代。大數(shù)據(jù)雖然是現(xiàn)代信息技術(shù)發(fā)展的產(chǎn)物,但它的影響不僅僅局限于信息通信產(chǎn)業(yè),而是覆蓋到社會的各個領(lǐng)域。從國家治理到企業(yè)運營,從經(jīng)濟生產(chǎn)到社會生活,大數(shù)據(jù)的身影無處不在,深刻影響和改變著人類的生產(chǎn)、生活及思維方式。數(shù)據(jù)作為與物質(zhì)、能源同等重要的戰(zhàn)略資源,蘊含著巨大的商業(yè)價值,只有憑借敏銳的洞察力和先進的大數(shù)據(jù)處理技術(shù),才能從中挖掘出隱藏的信息,實現(xiàn)數(shù)據(jù)價值的提升。
大數(shù)據(jù)技術(shù)具有很強的實用性。本書在編寫時,堅持“以應(yīng)用為先”的原則,注重理論與實踐相結(jié)合,將大數(shù)據(jù)抽象的概念、原理和技術(shù)方法融入具體實例中,幫助讀者更好地理解、掌握和運用大數(shù)據(jù)技術(shù)。本書在結(jié)構(gòu)編排上遵循初學者的認知特點,首先對大數(shù)據(jù)的概念進行剖析,使讀者建立起對大數(shù)據(jù)的感性認識,然后以大數(shù)據(jù)處理流程為主線,依次闡述數(shù)據(jù)采集、預(yù)處理、存儲、分析挖掘及可視化等關(guān)鍵技術(shù),最后結(jié)合行業(yè)案例和典型應(yīng)用加深讀者對理論知識的理解。本書重在培養(yǎng)讀者的大數(shù)據(jù)思維,并未過多涉及深奧的數(shù)學理論和復雜的編程細節(jié)。
全書共10章:第1章是概述部分,主要介紹大數(shù)據(jù)的定義、特點、相關(guān)技術(shù)和應(yīng)用領(lǐng)域。第2章介紹大數(shù)據(jù)的采集和預(yù)處理,包括數(shù)據(jù)采集方法、數(shù)據(jù)預(yù)處理流程以及常用的大數(shù)據(jù)采集與處理平臺。第3章介紹常用的大數(shù)據(jù)存儲技術(shù),包括底層分布式文件系統(tǒng)、分布式數(shù)據(jù)庫和支持企業(yè)業(yè)務(wù)決策的數(shù)據(jù)倉庫。第4~7章介紹數(shù)據(jù)分析挖掘的理論和方法,詳細闡述分類、回歸、聚類和關(guān)聯(lián)分析等技術(shù)的概念、處理流程、常用算法及評價指標。第8章介紹數(shù)據(jù)可視化技術(shù)的理論與方法,主要包括數(shù)據(jù)可視化的概念、原則、分析工具和編程語言,并簡要介紹可視化技術(shù)的行業(yè)應(yīng)用。第9章介紹電信行業(yè)大數(shù)據(jù)的發(fā)展及應(yīng)用現(xiàn)狀,著重分析大數(shù)據(jù)在電信網(wǎng)絡(luò)優(yōu)化、電信客戶細分、電信客戶流失管理等方面的典型案例。第10章介紹大數(shù)據(jù)技術(shù)在文娛、教育、醫(yī)療等行業(yè)的應(yīng)用案例。
為便于教師教學和學生學習,本書提供所有案例的源代碼,同時配有電子課件和課后習題的參考答案,讀者可在機械工業(yè)出版社教育服務(wù)網(wǎng)(http://www.cmpedu.com)下載。
本書由施苑英、蔣軍敏、石薇和王竹霞共同編寫,具體分工如下:施苑英編寫第1章、第6章、第9章9.1~9.4節(jié),蔣軍敏編寫第2章、第5章和第9章9.5節(jié),石薇編寫第3章、第7章、第10章10.1節(jié)和10.2節(jié),王竹霞編寫第4章、第8章和第10章10.3節(jié)。同時感謝西安郵電大學王選宏高級工程師對完成本書所給予的幫助和支持!
本書在編寫過程中,參考了大量國內(nèi)外著作、論文以及互聯(lián)網(wǎng)上的優(yōu)秀文章,在此謹向相關(guān)作者表示衷心的感謝。由于文獻資料數(shù)目較多,在列入?yún)⒖嘉墨I時難免有所疏漏,我們對所涉及的作者深表歉意。
由于編者水平有限,兼之時間倉促,書中的錯誤和不妥之處在所難免,懇請廣大讀者批評指正。
編者
高等院校教師
目錄
目錄
前言
第1章大數(shù)據(jù)技術(shù)概述
1.1什么是大數(shù)據(jù)
1.2大數(shù)據(jù)技術(shù)
1.3大數(shù)據(jù)應(yīng)用
習題
第2章大數(shù)據(jù)采集與預(yù)處理
2.1大數(shù)據(jù)采集概述
2.2大數(shù)據(jù)采集方法
2.3大數(shù)據(jù)預(yù)處理
2.4大數(shù)據(jù)采集及處理平臺
習題
第3章大數(shù)據(jù)存儲技術(shù)
3.1存儲技術(shù)的發(fā)展
3.2分布式文件系統(tǒng)
3.3數(shù)據(jù)庫
3.4數(shù)據(jù)倉庫
習題
第4章大數(shù)據(jù)分析挖掘——分類
4.1分類分析概述
4.2分類分析的過程
4.3分類算法
4.4分類結(jié)果評估
習題
第5章大數(shù)據(jù)分析挖掘——回歸
5.1回歸分析概述
5.2回歸分析的步驟
5.3回歸分析算法
5.4回歸算法評估
習題
第6章大數(shù)據(jù)分析挖掘——聚類
6.1聚類分析概述
6.2聚類分析的步驟
6.3相似度計算
6.4聚類算法
6.5聚類結(jié)果評估
習題
第7章大數(shù)據(jù)分析挖掘——關(guān)聯(lián)規(guī)則
7.1關(guān)聯(lián)規(guī)則的概念
7.2關(guān)聯(lián)規(guī)則挖掘的一般過程
7.3Apriori算法
7.4FP-Growth算法
7.5關(guān)聯(lián)模式評估
習題
第8章大數(shù)據(jù)可視化技術(shù)
8.1可視化技術(shù)概述
8.2數(shù)據(jù)可視化工具
8.3數(shù)據(jù)可視化應(yīng)用
習題
第9章電信行業(yè)大數(shù)據(jù)應(yīng)用
9.1電信大數(shù)據(jù)概述
9.2電信大數(shù)據(jù)應(yīng)用
9.3案例1——網(wǎng)絡(luò)優(yōu)化
9.4案例2——客戶細分
9.5案例3——客戶流失管理
習題
第10章其他行業(yè)大數(shù)據(jù)應(yīng)用
10.1文娛行業(yè)大數(shù)據(jù)應(yīng)用
10.2教育行業(yè)大數(shù)據(jù)應(yīng)用
10.3醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用
習題
參考文獻