前言
IT產(chǎn)業(yè)在其發(fā)展歷程中,經(jīng)歷過幾次技術(shù)浪潮。如今,大數(shù)據(jù)浪潮正在迅速朝我們涌來,并將觸及各個行業(yè)和生活的許多方面。大數(shù)據(jù)浪潮將比之前發(fā)生過的浪潮更大、觸及面更廣,給人們的工作和生活帶來的變化和影響也更大。
毋庸置疑,大數(shù)據(jù)的應(yīng)用激發(fā)了一場思想風(fēng)暴,也悄然改變了我們的生活方式和思維習(xí)慣。大數(shù)據(jù)正以前所未有的速度顛覆人們探索世界的方法,引起工業(yè)、商業(yè)、醫(yī)學(xué)、軍事等領(lǐng)域的深刻變革。因此,在當(dāng)前大數(shù)據(jù)浪潮的猛烈沖擊下,人們迫切需要充實和完善自己原有的IT知識結(jié)構(gòu),掌握兩種全新的技能: 一是掌握大數(shù)據(jù)基本技術(shù)與應(yīng)用,使大數(shù)據(jù)為我們所用的技能; 二是掌握數(shù)據(jù)之間隱藏的規(guī)律與關(guān)系,以及可視化方法,使大數(shù)據(jù)更好地服務(wù)于社會發(fā)展的技能。
本書注重實用性,圍繞大數(shù)據(jù)及其相關(guān)技術(shù)這一主題,采用深入淺出、圖文并茂的敘述方式,簡明扼要地闡述了大數(shù)據(jù)及其相關(guān)技術(shù)的基本理論和發(fā)展趨勢,使廣大讀者通過閱讀本書,深入了解和掌握大數(shù)據(jù)的理論和應(yīng)用,從而更好地把握時代發(fā)展的脈搏和歷史賦予的機遇。
本書的目標(biāo)是給廣大讀者提供一個既通俗易懂,又具有嚴(yán)謹(jǐn)、完整、結(jié)構(gòu)化特征的書籍。其獨到之處是既闡明了大數(shù)據(jù)技術(shù)的系統(tǒng)性和理論性,又對傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)在來源、結(jié)構(gòu)、特征、存儲方式、使用方法等方面,通過大量的表格和圖形方式進行了有針對性的對比和闡述,使讀者對兩者的區(qū)別一目了然,對理解和掌握大數(shù)據(jù)理技術(shù)具有事半功倍的效果。另外,考慮到大數(shù)據(jù)技術(shù)涉及許多新名詞和專業(yè)性極強的詞匯,故在全書的每一章中均附有相關(guān)術(shù)語的注釋,方便讀者查閱和自學(xué)。
本書還力求將大數(shù)據(jù)技術(shù)晦澀難懂的理論知識以通俗易懂的語言和方式,由淺入深地展現(xiàn)在讀者面前,便于讀者理解和掌握。本書內(nèi)容重點突出,語言精練易懂,非常便于自學(xué),可作為想了解、使用大數(shù)據(jù)技術(shù)的相關(guān)人員,如工程技術(shù)人員、IT工作者、企業(yè)策劃和管理人員的參考書,也可作為相關(guān)學(xué)習(xí)班的培訓(xùn)教材。
全書共分成11章: 第1章大數(shù)據(jù)概論,第2章大數(shù)據(jù)采集及預(yù)處理,第3章大數(shù)據(jù)分析概論,第4章大數(shù)據(jù)可視化,第5章Hadoop概論,第6章HDFS和Common概論,第7章MapReduce概論,第8章NoSQL技術(shù)介紹,第9章Spark概論,第10章云計算與大數(shù)據(jù),第11章大數(shù)據(jù)解決方案相關(guān)案例。
本書在寫作過程中參閱了大量的中外書籍和相關(guān)資料,在此對各位作者表示真誠的謝意。另外本書得到了中國醫(yī)科大學(xué)沙憲政教授和東北大學(xué)楊廣明教授的大力支持,清華大學(xué)出版社對這本書的出版做了精心策劃及充分論證,特此感謝!由于作者水平有限,加之時間倉促,書中難免存在疏漏之處,懇請廣大讀者批評斧正!
婁巖2016年6月
第1章大數(shù)據(jù)概論
1.1大數(shù)據(jù)技術(shù)概述
1.1.1大數(shù)據(jù)的基本概念
1.1.2IT產(chǎn)業(yè)的發(fā)展簡史
1.1.3大數(shù)據(jù)的來源
1.1.4大數(shù)據(jù)產(chǎn)生的三個發(fā)展階段
1.1.5大數(shù)據(jù)的特點
1.1.6大數(shù)據(jù)處理流程
1.1.7大數(shù)據(jù)的數(shù)據(jù)格式特性
1.1.8大數(shù)據(jù)的特征
1.1.9大數(shù)據(jù)的應(yīng)用領(lǐng)域
1.2大數(shù)據(jù)技術(shù)架構(gòu)
1.3大數(shù)據(jù)的整體技術(shù)和關(guān)鍵技術(shù)
1.4大數(shù)據(jù)分析的五種典型工具簡介
1.5大數(shù)據(jù)未來發(fā)展趨勢
1.5.1數(shù)據(jù)資源化
1.5.2數(shù)據(jù)科學(xué)和數(shù)據(jù)聯(lián)盟的成立
1.5.3大數(shù)據(jù)隱私和安全問題
1.5.4開源軟件成為推動大數(shù)據(jù)發(fā)展的動力
1.5.5大數(shù)據(jù)在多方位改善我們的生活
本章小結(jié)
第2章大數(shù)據(jù)采集及預(yù)處理
2.1大數(shù)據(jù)采集
2.1.1大數(shù)據(jù)采集概述
2.1.2大數(shù)據(jù)采集的數(shù)據(jù)來源
2.1.3大數(shù)據(jù)采集的技術(shù)方法
2.2大數(shù)據(jù)的預(yù)處理
2.3大數(shù)據(jù)采集及預(yù)處理的工具
本章小結(jié)
第3章大數(shù)據(jù)分析概述
3.1大數(shù)據(jù)分析簡介
3.1.1什么是大數(shù)據(jù)分析
3.1.2大數(shù)據(jù)分析的基本方法
3.1.3大數(shù)據(jù)處理流程
3.2大數(shù)據(jù)分析的主要技術(shù)
3.2.1深度學(xué)習(xí)
3.2.2知識計算
3.2.3可視化
3.3大數(shù)據(jù)分析處理系統(tǒng)簡介
3.3.1批量數(shù)據(jù)及處理系統(tǒng)
3.3.2流式數(shù)據(jù)及處理系統(tǒng)
3.3.3交互式數(shù)據(jù)及處理系統(tǒng)
3.3.4圖數(shù)據(jù)及處理系統(tǒng)
3.4大數(shù)據(jù)分析的應(yīng)用
本章小結(jié)
第4章大數(shù)據(jù)可視化
4.1大數(shù)據(jù)可視化概述
4.1.1大數(shù)據(jù)可視化與數(shù)據(jù)可視化
4.1.2大數(shù)據(jù)可視化的過程
4.2大數(shù)據(jù)可視化工具
4.2.1常見大數(shù)據(jù)可視化工具簡介
4.2.2Tableau數(shù)據(jù)可視化入門
本章小結(jié)
第5章Hadoop概論
5.1Hadoop簡介
5.1.1Hadoop的發(fā)展簡史
5.1.2Hadoop應(yīng)用現(xiàn)狀和發(fā)展趨勢
5.2Hadoop的架構(gòu)與組成
5.2.1Hadoop架構(gòu)
5.2.2Hadoop組成模塊介紹
5.3Hadoop的應(yīng)用
5.3.1Hadoop平臺搭建
5.3.2Hadoop的開發(fā)方式
5.3.3Hadoop應(yīng)用分析
本章小結(jié)
第6章HDFS和Common概論
6.1HDFS概述
6.1.1HDFS相關(guān)概念
6.1.2HDFS特點
6.1.3HDFS體系結(jié)構(gòu)
6.1.4HDFS工作原理
6.1.5HDFS相關(guān)技術(shù)
6.1.6HDFS源代碼結(jié)構(gòu)
6.1.7HDFS接口
6.2Common概述
本章小結(jié)
第7章MapReduce概論
7.1MapReduce簡介
7.1.1如何理解MapReduce
7.1.2MapReduce功能和技術(shù)特征
7.2MapReduce的Map和Reduce任務(wù)
7.2.1Map與Reduce
7.2.2Map任務(wù)原理
7.2.3Reduce任務(wù)原理
7.3MapReduce架構(gòu)和工作流程
7.3.1MapReduce的架構(gòu)
7.3.2MapReduce工作流程
7.4MapReduce編程源碼范例
7.5MapReduce接口
本章小結(jié)
第8章NoSQL技術(shù)介紹
8.1NoSQL基礎(chǔ)知識
8.1.1NoSQL的產(chǎn)生
8.1.2NoSQL的特點
8.1.3NoSQL的技術(shù)基礎(chǔ)
8.2NoSQL的種類
8.2.1鍵值存儲
8.2.2列存儲
8.2.3面向文檔存儲
8.2.4圖形存儲
8.3典型的NoSQL工具
8.3.1Redis
8.3.2Bigtable
8.3.3CouchDB
8.3.4Neo4j
本章小結(jié)
第9章Spark概論
9.1Spark概述
9.1.1Spark簡介
9.1.2Spark發(fā)展
9.1.3Scala語言
9.2Spark與Hadoop
9.2.1Hadoop的局限與不足
9.2.2Spark的優(yōu)點
9.2.3Spark速度比Hadoop快的原因分解
9.3Spark大數(shù)據(jù)處理架構(gòu)及其生態(tài)系統(tǒng)
9.3.1底層的Cluster Manager和Data Manager
9.3.2中間層的Spark Runtime
9.3.3高層的應(yīng)用模塊
9.4Spark的應(yīng)用
9.4.1Spark的應(yīng)用場景
9.4.2應(yīng)用Spark的成功案例
本章小結(jié)
第10章云計算與大數(shù)據(jù)
10.1云計算概論
10.1.1云計算定義
10.1.2云計算與大數(shù)據(jù)的關(guān)系
10.1.3云計算基本特征
10.1.4云計算服務(wù)模式
10.2云計算核心技術(shù)
10.2.1虛擬化技術(shù)
10.2.2虛擬化軟件及應(yīng)用
10.2.3資源池化技術(shù)
10.2.4云計算部署模式
10.3云計算仿真
10.4云計算的安全
10.4.1云計算安全現(xiàn)狀
10.4.2云計算安全服務(wù)體系
10.5云計算應(yīng)用案例
本章小結(jié)
第11章大數(shù)據(jù)解決方案及相關(guān)案例
11.1大數(shù)據(jù)解決方案基礎(chǔ)
11.2Intel大數(shù)據(jù)
11.2.1Intel大數(shù)據(jù)解決方案
11.2.2Intel大數(shù)據(jù)相關(guān)案例——中國移動廣東公司詳單、賬單
查詢系統(tǒng)
11.3百度大數(shù)據(jù)
11.3.1百度大數(shù)據(jù)引擎
11.3.2百度大數(shù)據(jù)+平臺
11.3.3相關(guān)應(yīng)用
11.3.4百度預(yù)測的使用方法
11.4騰訊大數(shù)據(jù)
11.4.1騰訊大數(shù)據(jù)解決方案
11.4.2相關(guān)實例——廣點通
本章小結(jié)
參考文獻