本書從初學者易于理解的角度,以通俗易懂的語言、豐富的實例和簡潔的圖表,將大數據的基本概念、大數據的數據結構、大數據的特征、大數據的關鍵技術、大數據的計算模式、大數據的采集與存儲、大數據的管理、大數據的分析與處理、大數據的可視化、大數據的應用、大數據的發(fā)展與展望等進行了系統(tǒng)化的講解。從基礎開始,通過逐步深入的方式,對大數據的核心技術和未來發(fā)展趨勢進行了詳細介紹。書中每章都設有練習題,以便于鞏固所學內容。 本書注重實用性,圍繞大數據這一主題,采用深入淺出、圖文并茂的方式,簡明扼要地闡述了大數據關鍵技術的基本理論及應用,盡可能希望通過理論與實際案例相結合,尋找合適的切入點,讓讀者對理論知識的掌握更直接、更快速。 本書適合作為本科和職業(yè)院校計算機類專業(yè)大數據導論課程的教材,也適合對大數據感興趣的讀者和有關技術人員參考使用。
本書系統(tǒng)地講解了大數據基本概念,盡可能希望通過理論與實際案例相結合,尋找合適的切入點,讓讀者對理論知識的掌握更直接、更快速?梢宰鳛榕囵B(yǎng)應用型人才的課程教材,也適用于大數據初學者對大數據基礎理論有需求的廣大讀者。
大數據概論是了解和學習大數據的基礎。本書系統(tǒng)地講解了大數據的基本概念、大數據的數據結構、大數據的特征、大數據的關鍵技術、大數據的計算模式、大數據的采集與存儲、大數據的管理、大數據的分析與處理、大數據的可視化、大數據的應用、大數據的發(fā)展與展望。本書以易學、全面和實用為目的,從基礎到應用,系統(tǒng)地介紹了大數據的關鍵技術和應用。本書共分為8章,主要內容如下。
第1章介紹大數據的基本知識,包括大數據的定義、大數據的結構類型、大數據的特征、大數據的關鍵技術、大數據的計算模式、大數據的應用、大數據的發(fā)展、大數據的意義。
第2章介紹Hadoop分布式架構,包括Hadoop的由來、Hadoop的優(yōu)勢、Hadoop的特性、Hadoop的應用現狀、Hadoop的架構元素、Hadoop的集群系統(tǒng)、Hadoop的開源實現、Hadoop的信息安全、Hadoop的應用領域。
第3章介紹大數據采集與存儲,包括大數據采集概述、大數據采集的數據來源、大數據的采集方法、分布式存儲系統(tǒng)、分布式文件系統(tǒng)、HDFS概述、云存儲、數據倉庫。
第4章介紹大數據管理,包括數據管理概述、數據模型的管理、主數據的管理、元數據的管理、數據質量的管理、數據安全的管理。
第5章介紹大數據分析與處理,包括數據分析的概念、數據分析常用工具、數據分析的技術、數據分析的類型、數據分析的流程、數據分析的算法、大數據分析的數據類型、大數據分析的方法、大數據分析的總體框架、大數據分析的應用、大數據處理。
第6章介紹大數據可視化,包括數據可視化的概念、數據可視化的類型、數據可視化的目標與作用、數據可視化的主要技術、數據可視化的流程、大數據可視化的方法、大數據可視化的工具、大數據可視化的應用。
第7章介紹大數據應用,包括大數據在教育領域的應用、大數據在互聯(lián)網領域的應用、大數據在金融領域的應用、大數據在通信領域的應用、大數據應用的未來發(fā)展趨勢。第8章介紹大數據的發(fā)展與展望,包括大數據與云計算、大數據與人工智能、大數據與區(qū)塊鏈、大數據安全與隱私保護技術發(fā)展前景、大數據未來展望。
為了便于教學,本書提供的PPT課件等教學資源可以從清華大學出版社網站(http://www.tup.com.cn)的下載區(qū)免費下載。
由于編者水平有限,書中難免存在疏漏,敬請讀者批評、指正。
大數據概論
編者2021年2月
龍虎,河南信陽人,計算機科學與技術專業(yè)副教授,黔東南州大數據智庫專家,主持大數據相關省部級項目1項,地廳級項目4項,校級項目6項,發(fā)表大數據相關論文13篇,2012年8月至今,凱里學院大數據工程學院教師。
第1章大數據概述1
1.1大數據的概念1
1.1.1數據與信息2
1.1.2大數據的定義3
1.2大數據的結構類型4
1.3大數據的特征5
1.4大數據的關鍵技術7
1.5大數據的計算模式16
1.5.1批處理計算17
1.5.2流式計算17
1.5.3迭代計算17
1.5.4交互式計算18
1.6大數據的應用18
1.7大數據的發(fā)展19
1.8大數據的意義21
練習題22
第2章Hadoop分布式架構23
2.1Hadoop概述23
2.1.1簡介24
2.1.2Hadoop的由來25
2.1.3Hadoop的優(yōu)勢25
2.1.4Hadoop的特性26
2.1.5Hadoop的應用現狀26
2.2Hadoop的架構元素27
2.3Hadoop的集群系統(tǒng)32
2.4Hadoop的開源實現36
2.5Hadoop的信息安全36
2.6Hadoop的應用領域36
練習題37第3章大數據采集與存儲39
3.1大數據采集概述39
3.2大數據采集的數據來源40
3.3大數據的采集方法40
3.3.1系統(tǒng)日志采集方法41
3.3.2網絡大數據采集方法42
3.3.3教育大數據采集方法43
3.4分布式存儲系統(tǒng)44
3.5分布式文件系統(tǒng)45
3.5.1計算機集群結構45
3.5.2分布式文件系統(tǒng)的結構45
3.5.3分布式文件系統(tǒng)的設計需求46
3.6HDFS概述46
3.6.1HDFS相關概念46
3.6.2HDFS的特點48
3.6.3HDFS的體系結構49
3.6.4HDFS的工作原理50
3.6.5HDFS的相關技術50
3.6.6HDFS的源代碼結構51
3.6.7HDFS的接口52
3.7云存儲52
3.8數據倉庫53
練習題61
第4章大數據管理62
4.1數據管理概述62
4.2數據模型的管理63
4.3主數據的管理65
4.4元數據的管理65
4.5數據質量的管理68
4.6數據安全的管理70
練習題73
第5章大數據分析與處理75
5.1數據分析概述75
5.1.1數據分析的概念76
5.1.2數據分析常用工具76
5.1.3數據分析的技術86
5.1.4數據分析的類型88
5.1.5數據分析的流程89
5.1.6數據分析的算法89
5.2大數據分析92
5.2.1大數據分析的數據類型92
5.2.2大數據分析的方法92
5.2.3大數據分析的總體框架94
5.2.4大數據分析的應用94
5.3大數據處理95
5.3.1大數據處理方法95
5.3.2大數據處理模式96
5.3.3大數據處理基本過程97
5.3.4大數據處理架構97
5.3.5大數據處理系統(tǒng)99
練習題99
第6章大數據可視化101
6.1數據可視化102
6.1.1數據可視化的概念102
6.1.2數據可視化的類型104
6.1.3數據可視化的目標與作用106
6.1.4數據可視化的主要技術106
6.1.5數據可視化的流程107
6.2大數據可視化的方法108
6.3大數據可視化的工具111
6.4大數據可視化的應用117
練習題119
第7章大數據應用121
7.1大數據在教育領域的應用122
7.1.1基于大數據的深度學習模型構建123
7.1.2基于大數據技術的混合教學模式構建125
7.1.3大數據技術下的數據驅動教學范式127
7.1.4基于大數據的智慧教育云平臺128
7.2大數據在互聯(lián)網領域的應用134
7.2.1智能推薦系統(tǒng)135
7.2.2協(xié)同過濾136
7.3大數據在金融領域的應用137
7.4大數據在通信領域的應用141
7.5大數據應用的未來發(fā)展趨勢141
練習題142
第8章大數據的發(fā)展與展望143
8.1大數據與云計算143
8.1.1云計算的概念144
8.1.2云計算的特點145
8.1.3云計算的體系結構145
8.1.4云計算的關鍵技術146
8.1.5云計算的服務模式147
8.1.6云計算服務體系結構148
8.1.7云計算的部署模式149
8.1.8大數據與云計算的關系150
8.2大數據與人工智能150
8.2.1人工智能的概念150
8.2.2人工智能的關鍵技術151
8.2.3人工智能的應用154
8.2.4大數據與人工智能的關系156
8.3大數據與區(qū)塊鏈157
8.4大數據安全與隱私保護技術發(fā)展前景158
8.5大數據未來展望163
練習題164
參考文獻166