本書第1章為大數(shù)據(jù)概述,介紹大數(shù)據(jù)的基本概念和應(yīng)用領(lǐng)域,回顧大數(shù)據(jù)理念和技術(shù)的發(fā)展歷程,闡述大數(shù)據(jù)的發(fā)展前景。第2~7章介紹大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)計(jì)算平臺(tái)、大數(shù)據(jù)管理、數(shù)據(jù)挖掘、大數(shù)據(jù)隱私與安全和人工智能6個(gè)大數(shù)據(jù)領(lǐng)域及其中的主要技術(shù)。第2章主要介紹大數(shù)據(jù)采集技術(shù),包括大數(shù)據(jù)的來(lái)源、采集方法及數(shù)據(jù)預(yù)處理方法等,*后對(duì)大數(shù)據(jù)采集應(yīng)用案例進(jìn)行分析,幫助讀者更好地理解大數(shù)據(jù)采集技術(shù)。第3章介紹大數(shù)據(jù)處理架構(gòu)Hadoop以及與大數(shù)據(jù)技術(shù)密不可分的云計(jì)算技術(shù)及其應(yīng)用。由于Hadoop已經(jīng)成為應(yīng)用*廣泛的大數(shù)據(jù)技術(shù),本書的大數(shù)據(jù)相關(guān)技術(shù)主要圍繞Hadoop展開,包括HDFS和MapReduce。第4章介紹大數(shù)據(jù)管理,包括分布式數(shù)據(jù)庫(kù)(HBase)、常用的NoSQL數(shù)據(jù)庫(kù)和云數(shù)據(jù)庫(kù)。第5章從數(shù)據(jù)挖掘的概念入手,介紹數(shù)據(jù)挖掘的幾種算法以及算法的應(yīng)用。第6章提出大數(shù)據(jù)面臨的安全隱患,介紹大數(shù)據(jù)安全的基本概念以及大數(shù)據(jù)安全與隱私保護(hù)的主要方法。第7章介紹人工智能的起源和基本概念,通過(guò)案例介紹一些經(jīng)典的機(jī)器學(xué)習(xí)算法在實(shí)際中的應(yīng)用。第8~11章包含4個(gè)實(shí)驗(yàn),對(duì)應(yīng)數(shù)據(jù)采集技術(shù)、云計(jì)算技術(shù)和數(shù)據(jù)挖掘技術(shù)展開。本書在重視理論的前提下,不忽視實(shí)際的可操作性,注重問(wèn)題的解決,大數(shù)據(jù)基礎(chǔ)與大數(shù)據(jù)技術(shù)部分每章均設(shè)有習(xí)題,以幫助讀者鞏固所學(xué)知識(shí)。
本書以大數(shù)據(jù)技術(shù)為主線,將大數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)過(guò)程中的核心技術(shù)串接起來(lái),分為基礎(chǔ)部分、技術(shù)部分及實(shí)驗(yàn)部分。不同技術(shù)配套一個(gè)當(dāng)前的熱門話題案例,讓學(xué)生明白技術(shù)的應(yīng)用范圍及領(lǐng)域,從而找到適合自己發(fā)展的大數(shù)據(jù)技術(shù)方向。
隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等新一代信息技術(shù)的應(yīng)用和推廣,大數(shù)據(jù)技術(shù)成為又一顛覆性的技術(shù),備受人們關(guān)注。身處大數(shù)據(jù)時(shí)代,我們已經(jīng)感受到大數(shù)據(jù)對(duì)人們的思維模式和生活方式的改變,大數(shù)據(jù)對(duì)人類的社會(huì)生產(chǎn)和生活必將產(chǎn)生重大而深遠(yuǎn)的影響。本書定位為大數(shù)據(jù)技術(shù)入門教材,以大數(shù)據(jù)的基本技術(shù)路線為框架,通過(guò)基本理論和應(yīng)用實(shí)例相結(jié)合的方式,介紹大數(shù)據(jù)技術(shù),幫助讀者形成對(duì)大數(shù)據(jù)知識(shí)體系及其應(yīng)用領(lǐng)域的輪廓性認(rèn)識(shí),為讀者在大數(shù)據(jù)領(lǐng)域的繼續(xù)深造奠定基礎(chǔ)。本書旨在服務(wù)大數(shù)據(jù)初學(xué)者,為適應(yīng)初學(xué)者學(xué)習(xí)特點(diǎn),適當(dāng)增加了廣度而降低了深度,在數(shù)據(jù)挖掘部分盡可能少地使用數(shù)學(xué)知識(shí),對(duì)于一些不可避免的部分,力求展現(xiàn)其中的精華,而在大數(shù)據(jù)實(shí)驗(yàn)部分,必須掌握的基礎(chǔ)性編程語(yǔ)言也有涉及。本書主要以Java語(yǔ)言為基礎(chǔ)。本書第1章為大數(shù)據(jù)概述,介紹大數(shù)據(jù)的基本概念和應(yīng)用領(lǐng)域,回顧大數(shù)據(jù)理念和技術(shù)的發(fā)展歷程,闡述大數(shù)據(jù)的發(fā)展前景。第2~7章介紹大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)計(jì)算平臺(tái)、大數(shù)據(jù)管理、數(shù)據(jù)挖掘、大數(shù)據(jù)隱私與安全和人工智能6個(gè)大數(shù)據(jù)領(lǐng)域及其中的主要技術(shù)。第2章主要介紹大數(shù)據(jù)采集技術(shù),包括大數(shù)據(jù)的來(lái)源、采集方法及數(shù)據(jù)預(yù)處理方法等,*后對(duì)大數(shù)據(jù)采集應(yīng)用案例進(jìn)行分析,幫助讀者更好地理解大數(shù)據(jù)采集技術(shù)。第3章介紹大數(shù)據(jù)處理架構(gòu)Hadoop以及與大數(shù)據(jù)技術(shù)密不可分的云計(jì)算技術(shù)及其應(yīng)用。由于Hadoop已經(jīng)成為應(yīng)用*廣泛的大數(shù)據(jù)技術(shù),本書的大數(shù)據(jù)相關(guān)技術(shù)主要圍繞Hadoop展開,包括HDFS和MapReduce。第4章介紹大數(shù)據(jù)管理,包括分布式數(shù)據(jù)庫(kù)(HBase)、常用的NoSQL數(shù)據(jù)庫(kù)和云數(shù)據(jù)庫(kù)。第5章從數(shù)據(jù)挖掘的概念入手,介紹數(shù)據(jù)挖掘的幾種算法以及算法的應(yīng)用。第6章提出大數(shù)據(jù)面臨的安全隱患,介紹大數(shù)據(jù)安全的基本概念以及大數(shù)據(jù)安全與隱私保護(hù)的主要方法。第7章介紹人工智能的起源和基本概念,通過(guò)案例介紹一些經(jīng)典的機(jī)器學(xué)習(xí)算法在實(shí)際中的應(yīng)用。第8~11章包含4個(gè)實(shí)驗(yàn),對(duì)應(yīng)數(shù)據(jù)采集技術(shù)、云計(jì)算技術(shù)和數(shù)據(jù)挖掘技術(shù)展開。本書在重視理論的前提下,不忽視實(shí)際的可操作性,注重問(wèn)題的解決,大數(shù)據(jù)基礎(chǔ)與大數(shù)據(jù)技術(shù)部分每章均設(shè)有習(xí)題,以幫助讀者鞏固所學(xué)知識(shí)。本書由武漢華夏理工學(xué)院劉春燕和司曉梅主編。在本書編寫的過(guò)程中,編者參考了國(guó)內(nèi)外大量大數(shù)據(jù)及云計(jì)算技術(shù)的文獻(xiàn)資料,且書中部分案例來(lái)自網(wǎng)絡(luò),在此一并對(duì)相關(guān)作者表示感謝。由于編者能力有限,書中難免存在不妥之處,懇請(qǐng)讀者朋友提出寶貴意見(jiàn),不勝感激。
劉春燕,女,副教授,計(jì)算機(jī)與網(wǎng)絡(luò)工程系副主任。從事專業(yè):計(jì)算機(jī)科學(xué)與技術(shù),研究方向:數(shù)據(jù)庫(kù)應(yīng)用、大數(shù)據(jù)技術(shù)。近5年,主持省教育廳項(xiàng)目1項(xiàng),主持湖北省交通物聯(lián)網(wǎng)實(shí)驗(yàn)室開放基金項(xiàng)目1項(xiàng),主持湖南省高鐵研究中心開放基金項(xiàng)目1項(xiàng),參與多項(xiàng)省級(jí)、院級(jí)教科研項(xiàng)目。在國(guó)內(nèi)外期刊雜志和學(xué)術(shù)會(huì)議上發(fā)表學(xué)術(shù)論文10余篇,其中中文核心期刊2篇,EI檢索會(huì)議論文4篇,參編教材2部。指導(dǎo)學(xué)生參加藍(lán)橋杯全國(guó)軟件和信息技術(shù)專業(yè)人才大賽獲全國(guó)優(yōu)秀獎(jiǎng),被評(píng)為優(yōu)秀指導(dǎo)教師。先后榮獲優(yōu)秀科研工作者、年度優(yōu)秀員工、教學(xué)質(zhì)量?jī)?yōu)秀獎(jiǎng)等榮譽(yù)稱號(hào)。
第1章 大數(shù)據(jù)概述/001
1.1 大數(shù)據(jù)興起之謎/001
1.2 無(wú)處不在的大數(shù)據(jù)/004
1.3 大數(shù)據(jù)的概念和特征/013
1.4 大數(shù)據(jù)的關(guān)鍵技術(shù)/016
1.5 大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)/022
1.6 大數(shù)據(jù)的發(fā)展、應(yīng)用及挑戰(zhàn)/027
第2章 大數(shù)據(jù)采集與預(yù)處理/032
2.1 大數(shù)據(jù)的來(lái)源/032
2.2 大數(shù)據(jù)的采集方法/034
2.3 數(shù)據(jù)預(yù)處理/044
2.4 大數(shù)據(jù)采集應(yīng)用案例互聯(lián)網(wǎng)行業(yè) 職場(chǎng)分析/052
第3章 大數(shù)據(jù)計(jì)算平臺(tái)/058
3.1 Hadoop平臺(tái)/058
3.2 HDFS /062
3.3 大數(shù)據(jù)計(jì)算模式/067
3.4 MapReduce /069
3.5 Spark平臺(tái)/078
3.6 流計(jì)算框架Storm /087
3.7 云計(jì)算平臺(tái)/091
3.8 云計(jì)算的關(guān)鍵技術(shù)/096
第4章 大數(shù)據(jù)管理大數(shù)據(jù)的高效之道/101
4.1 大數(shù)據(jù)管理之NoSQL數(shù)據(jù)庫(kù)/101
4.2 NoSQL與關(guān)系型數(shù)據(jù)庫(kù)的比較/104
4.3 NoSQL的四大類型/107
4.4 NoSQL的三大基石/111
4.5 新興數(shù)據(jù)庫(kù)技術(shù)/114
4.6 大數(shù)據(jù)應(yīng)用案例在北上廣打拼是怎樣一種體驗(yàn)/120
第5章 數(shù)據(jù)挖掘大數(shù)據(jù)的智慧之道/126
5.1 數(shù)據(jù)挖掘概述/126
5.2 大數(shù)據(jù)挖掘技術(shù)/128
5.3 分類和預(yù)測(cè)/129
5.4 聚類分析/139
5.5 關(guān)聯(lián)規(guī)則分析/138
5.6 商業(yè)智能的分析預(yù)測(cè)/154
5.7 社交大數(shù)據(jù)的成功密碼/158
5.8 大數(shù)據(jù)應(yīng)用案例大數(shù)據(jù)預(yù)測(cè)/163
第6章 大數(shù)據(jù)隱私與安全/1686.1 安全與隱私問(wèn)題/168
6.2 大數(shù)據(jù)面臨的問(wèn)題/169
6.3 大數(shù)據(jù)的安全防護(hù)策略/171
6.4 如何解決隱私保護(hù)問(wèn)題/171
6.5 大數(shù)據(jù)應(yīng)用案例智慧城市中的 安全防護(hù)/175
第7章 人工智能科幻到現(xiàn)實(shí)的蛻變/182
7.1 人工智能的起源/182
7.2 當(dāng)人工智能遇上大數(shù)據(jù)/190
7.3 人機(jī)大戰(zhàn):AI會(huì)挑戰(zhàn)人類嗎?/192
7.4 AI會(huì)取代人類嗎?/194
7.5 AI時(shí)代的教育與個(gè)人發(fā)展/199
7.6 大數(shù)據(jù)應(yīng)用案例神秘AI的魅力 /203
第8章 數(shù)據(jù)采集實(shí)驗(yàn)/206
第9章 CloudSim虛擬平臺(tái)實(shí)驗(yàn)/212
第10章 數(shù)據(jù)挖掘算法之Apriori算法實(shí)驗(yàn)/215
第11章 數(shù)據(jù)挖掘算法之決策樹算法實(shí)驗(yàn)/216
附錄A /218
附錄B /219
附錄C /229
參考文獻(xiàn)/239