大數(shù)據(jù)技術(shù)與應(yīng)用基礎(chǔ)
定 價(jià):39.8 元
叢書(shū)名: 21世紀(jì)高等院校云計(jì)算和大數(shù)據(jù)人才培養(yǎng)規(guī)劃教材
- 作者:陳志德 曾燕清 李翔宇
- 出版時(shí)間:2017/1/1
- ISBN:9787115443472
- 出 版 社:人民郵電出版社
- 中圖法分類:TP274
- 頁(yè)碼:212
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16K
本書(shū)在介紹大數(shù)據(jù)發(fā)展背景、特點(diǎn)及主要技術(shù)層面的基礎(chǔ)上,對(duì)大數(shù)據(jù)的數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、常見(jiàn)計(jì)算模式和典型系統(tǒng)工具進(jìn)行了分析介紹。本書(shū)同時(shí)對(duì)各種典型系統(tǒng)工具進(jìn)行了講解,包括大數(shù)據(jù)查詢分析計(jì)算及典型工具(HBase、Hive)、批處理計(jì)算及典型工具(MapReduce、Spark)、流式計(jì)算及典型工具(Storm、Apex、Flink)、事件流及典型工具(Druid)等。
本書(shū)提供了大量的實(shí)例和源代碼供讀者參考,指導(dǎo)讀者快速、無(wú)障礙地了解和掌握常見(jiàn)大數(shù)據(jù)分析工具的使用。本書(shū)適合作為計(jì)算機(jī)及相關(guān)專業(yè)的教學(xué)用書(shū),也可以作為大數(shù)據(jù)初學(xué)者的自學(xué)教材和參考手冊(cè)。
1.內(nèi)容豐富多樣,對(duì)比學(xué)習(xí)
考慮當(dāng)前大數(shù)據(jù)發(fā)展處于起步并逐步趕超先進(jìn),其應(yīng)用領(lǐng)域豐富廣泛,本書(shū)除了介紹典型開(kāi)源大數(shù)據(jù)處理框架Apache Hadoop框架之外,還介紹了批處理計(jì)算Spark、流式計(jì)算及典型工具(Storm、Apex、Flink)和事件流及典型工具(Druid)等,讓讀者了解不同類型工具系統(tǒng)的特點(diǎn),并配以豐富簡(jiǎn)單易上手的實(shí)例,讓讀者能夠切實(shí)體會(huì)和掌握各種類型工具的特點(diǎn)和應(yīng)用。
2.輕量級(jí)理論,重在培養(yǎng)動(dòng)手實(shí)踐能力
為了讓讀者能夠快速掌握技能并保證理論能夠適應(yīng)實(shí)踐要求,本書(shū)本著輕量級(jí)理論原則,給出豐富的實(shí)例、詳實(shí)的實(shí)驗(yàn)操作步驟和使用普通讀者也易于配置的實(shí)驗(yàn)環(huán)境,讓讀者能夠快速上手,在做中學(xué)。
3.有效結(jié)合實(shí)際應(yīng)用
除了各章節(jié)給出的配套實(shí)例外,本書(shū)在最后還給出電商領(lǐng)域的大數(shù)據(jù)分析綜合實(shí)例,以實(shí)際行業(yè)應(yīng)用案例說(shuō)明大數(shù)據(jù)處理和計(jì)算工具的使用以及進(jìn)一步闡述大數(shù)據(jù)行業(yè)應(yīng)用的重大意義。
陳志德,2005年至今在福建師范大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院工作,任計(jì)算機(jī)系副主任。主要研究方向包括網(wǎng)絡(luò)與信息安全、物聯(lián)網(wǎng)與移動(dòng)計(jì)算等,指導(dǎo)碩士研究生20多人,指導(dǎo)研究生的學(xué)位論文曾獲校優(yōu)秀碩士論文一等獎(jiǎng)。近年來(lái)主持福建省自然科學(xué)基金、福建省科技廳K類基金等項(xiàng)目10項(xiàng),參與國(guó)家自然科學(xué)基金和省科技廳高校產(chǎn)學(xué)合作科技重大項(xiàng)目課題各1項(xiàng)。出版學(xué)術(shù)專著2本,教材1本。在Journal of Computer and System Sciences、Concurrency and Computation: Practice and Experience等期刊發(fā)表學(xué)術(shù)論文40多篇,申請(qǐng)專利10多項(xiàng),軟件著作權(quán)10多項(xiàng)。擔(dān)任CTCIS和NSS等國(guó)內(nèi)和國(guó)際學(xué)術(shù)會(huì)議的程序委員會(huì)委員。
第1章 大數(shù)據(jù)概述 1
1.1 大數(shù)據(jù)的發(fā)展 1
1.2 大數(shù)據(jù)的概念及特征 2
1.2.1 大數(shù)據(jù)的概念 2
1.2.2 大數(shù)據(jù)的特征 2
1.3 大數(shù)據(jù)的產(chǎn)生及數(shù)據(jù)類型 3
1.3.1 大數(shù)據(jù)的產(chǎn)生 3
1.3.2 數(shù)據(jù)類型 3
1.4 大數(shù)據(jù)計(jì)算模式和系統(tǒng) 4
1.5 大數(shù)據(jù)的主要技術(shù)層面和技術(shù)內(nèi)容 4
1.6 大數(shù)據(jù)的典型應(yīng)用 6
1.7 本章小結(jié) 7
第2章 數(shù)據(jù)獲取 8
2.1 Scrapy環(huán)境搭建 8
2.2 爬蟲(chóng)項(xiàng)目創(chuàng)建 8
2.3 采集目標(biāo)數(shù)據(jù)項(xiàng)定義 10
2.4 爬蟲(chóng)核心實(shí)現(xiàn) 11
2.5 數(shù)據(jù)存儲(chǔ) 15
2.6 爬蟲(chóng)運(yùn)行 17
2.7 本章小結(jié) 18
第3章 Hadoop基礎(chǔ) 19
3.1 Hadoop概述 19
3.2 Hadoop原理 20
3.2.1 Hadoop HDFS原理 20
3.2.2 Hadoop MapReduce原理 21
3.2.3 Hadoop YARN原理 22
3.3 Hadoop的安裝與配置 24
3.4 Hadoop生態(tài)系統(tǒng)簡(jiǎn)介 46
3.5 本章小結(jié) 47
第4章 HDFS基本應(yīng)用 48
4.1 實(shí)戰(zhàn)命令行接口 48
4.2 實(shí)戰(zhàn)Java接口 52
4.3 數(shù)據(jù)流 60
4.3.1 數(shù)據(jù)流簡(jiǎn)介 60
4.3.2 數(shù)據(jù)流讀取 61
4.3.3 數(shù)據(jù)流寫入 62
4.4 本章小結(jié) 64
第5章 MapReduce應(yīng)用開(kāi)發(fā) 65
5.1 配置Hadoop MapReduce開(kāi)發(fā)環(huán)境 65
5.1.1 系統(tǒng)環(huán)境及所需文件 65
5.1.2 安裝Eclipse 65
5.1.3 向Eclipse中添加插件 66
5.2 編寫和運(yùn)行第一個(gè)MapReduce程序前的準(zhǔn)備 69
5.2.1 系統(tǒng)環(huán)境及所需要的文件 69
5.2.2 建立運(yùn)行MapReduce程序的依賴環(huán)境 69
5.2.3 建立編寫MapReduce程序的依賴包 70
5.3 MapReduce應(yīng)用案例 78
5.3.1 單詞計(jì)數(shù) 78
5.3.2 數(shù)據(jù)去重 82
5.3.3 排序 85
5.3.4 單表關(guān)聯(lián) 89
5.3.5 多表關(guān)聯(lián) 95
5.4 本章小結(jié) 102
第6章 分布式數(shù)據(jù)庫(kù)HBase 103
6.1 HBase簡(jiǎn)介 103
6.2 HBase接口 103
6.3 安裝HBase集群 104
6.3.1 系統(tǒng)環(huán)境 104
6.3.2 安裝ZooKeeper 104
6.3.3 安裝HBase 106
6.4 HBase Shell 108
6.5 HBase API 110
6.6 HBase綜合實(shí)例 113
6.7 本章小結(jié) 118
第7章 數(shù)據(jù)倉(cāng)庫(kù)工具Hive 119
7.1 Hive簡(jiǎn)介 119
7.2 Hive接口實(shí)戰(zhàn) 119
7.3 Hive復(fù)雜語(yǔ)句實(shí)戰(zhàn) 124
7.4 Hive綜合實(shí)例 127
7.4.1 準(zhǔn)備數(shù)據(jù) 127
7.4.2 在Hive上創(chuàng)建數(shù)據(jù)庫(kù)和表 128
7.4.3 導(dǎo)入數(shù)據(jù) 129
7.4.4 算法分析與執(zhí)行HQL語(yǔ)句 130
7.4.5 運(yùn)行結(jié)果分析 131
7.5 本章小結(jié) 132
第8章 開(kāi)源集群計(jì)算環(huán)境Spark 133
8.1 Spark簡(jiǎn)介 133
8.2 Spark接口實(shí)戰(zhàn) 133
8.2.1 環(huán)境要求 133
8.2.2 IDEA使用和打包 134
8.3 Spark編程的RDD 137
8.3.1 RDD 137
8.3.2 創(chuàng)建RDD 138
8.3.3 RDD中與Map和Reduce相關(guān)的API 138
8.4 Spark實(shí)戰(zhàn)案例——統(tǒng)計(jì)1000萬(wàn)人口的平均年齡 141
8.4.1 案例描述 141
8.4.2 案例分析 143
8.4.3 編程實(shí)現(xiàn) 143
8.4.4 提交到集群運(yùn)行 144
8.4.5 監(jiān)控執(zhí)行狀態(tài) 144
8.5 Spark MLlib實(shí)戰(zhàn)——聚類實(shí)戰(zhàn) 145
8.5.1 算法說(shuō)明 145
8.5.2 實(shí)例介紹 145
8.5.3 測(cè)試數(shù)據(jù)說(shuō)明 146
8.5.4 程序源碼 146
8.5.5 運(yùn)行腳本 148
8.6 本章小結(jié) 150
第9章 流實(shí)時(shí)處理系統(tǒng)Storm 152
9.1 Storm概述 152
9.1.1 Storm簡(jiǎn)介 152
9.1.2 Storm主要特點(diǎn) 152
9.2 Storm安裝與配置 153
9.3 本章小結(jié) 160
第10章 企業(yè)級(jí)、大數(shù)據(jù)流處理 Apex 161
10.1 Apache Apex簡(jiǎn)介 161
10.2 Apache Apex開(kāi)發(fā)環(huán)境配置 161
10.2.1 部署開(kāi)發(fā)工具 161
10.2.2 安裝Apex組件 162
10.2.3 創(chuàng)建Top N Words應(yīng)用 164
10.3 運(yùn)行TopN Words應(yīng)用 166
10.3.1 開(kāi)啟Apex客戶端 166
10.3.2 執(zhí)行 166
10.4 本章小結(jié) 167
第11章 事件流OLAP之Druid 168
11.1 Druid簡(jiǎn)介 168
11.2 Druid應(yīng)用場(chǎng)所 168
11.3 Druid集群 169
11.4 Druid單機(jī)環(huán)境 170
11.4.1 安裝Druid 170
11.4.2 安裝ZooKeeper 170
11.4.3 啟動(dòng)Druid服務(wù) 171
11.4.4 批量加載數(shù)據(jù) 172
11.4.5 加載流數(shù)據(jù) 175
11.4.6 數(shù)據(jù)查詢 177
11.5 本章小結(jié) 180
第12章 事件數(shù)據(jù)流引擎Flink 181
12.1 Flink概述 181
12.2 Flink基本架構(gòu) 181
12.3 單機(jī)安裝Flink 182
12.4 Flink運(yùn)行第一個(gè)例子 184
12.5 Flink集群部署 187
12.5.1 環(huán)境準(zhǔn)備 187
12.5.2 安裝和配置 187
12.5.3 啟動(dòng)Flink集群 188
12.5.4 集群中添加JobManager/TaskManager 189
12.6 本章小結(jié) 189
第13章 分布式文件搜索 Elasticsearch 190
13.1 Elasticsearch簡(jiǎn)介 190
13.2 Elasticsearch單節(jié)點(diǎn)安裝 192
13.3 插件Elasticsearch-head安裝 193
13.4 Elasticsearch的基本操作 195
13.5 綜合實(shí)戰(zhàn) 199
13.6 本章小結(jié) 202
第14章 實(shí)例電商數(shù)據(jù)分析 203
14.1 背景與挖掘目標(biāo) 203
14.2 分析方法與過(guò)程 203
14.2.1 數(shù)據(jù)收集 203
14.2.2 數(shù)據(jù)預(yù)處理 206
14.2.3 導(dǎo)入數(shù)據(jù)到Hadoop 206
14.2.4 數(shù)據(jù)取樣分析 209
14.3 本章小結(jié) 211
參考文獻(xiàn) 212