Hadoop應(yīng)用開(kāi)發(fā)與案例實(shí)戰(zhàn)(慕課版)
定 價(jià):49.8 元
- 作者:穆建平 王建 商程
- 出版時(shí)間:2021/4/1
- ISBN:9787115537782
- 出 版 社:人民郵電出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:207
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
Hadoop是目前比較流行的大數(shù)據(jù)框架之一,可使用簡(jiǎn)單的高級(jí)編程模型實(shí)現(xiàn)大型數(shù)據(jù)集的分布式存儲(chǔ)和處理。
本書(shū)以Hadoop的概念、集群搭建、核心組件、實(shí)戰(zhàn)案例等為主線(xiàn),較為全面地介紹了Hadoop大數(shù)據(jù)存儲(chǔ)及處理技術(shù)的相關(guān)知識(shí)。全書(shū)共10章,前9章主要講解Hadoop基礎(chǔ),內(nèi)容包括初識(shí)Hadoop、Hadoop的安裝與配置、高可用與聯(lián)邦、分布式文件系統(tǒng)HDFS、集群資源管理系統(tǒng)YARN、分布式計(jì)算框架MapRecuer、Hadoop的I/O操作、Hadoop3.x新特性、Hadoop商業(yè)發(fā)行版等;第10章是Hadoop實(shí)戰(zhàn)案例,以實(shí)際Hadoop框架的運(yùn)用為導(dǎo)向引入了三個(gè)實(shí)戰(zhàn)案例:文件合并及多目錄輸出、網(wǎng)頁(yè)域名分區(qū)統(tǒng)計(jì)以及電商平臺(tái)商品評(píng)價(jià)數(shù)據(jù)分析案例。
1、案例豐富、實(shí)操性強(qiáng);
2、知識(shí)點(diǎn)全面,重點(diǎn)難點(diǎn)突出;
3、用詞容易理解;
4、教材配套全面,有知識(shí)點(diǎn)授課視頻做支撐;
5、浪潮集團(tuán)真實(shí)項(xiàng)目案例,穿插到每個(gè)知識(shí)點(diǎn);
浪潮優(yōu)派公司教學(xué)部總經(jīng)理助理,擁有多年大型軟件項(xiàng)目開(kāi)發(fā)、管理及教學(xué)經(jīng)驗(yàn),具有豐富的軟件開(kāi)發(fā)及教學(xué)經(jīng)驗(yàn)。主要包括“華電煤業(yè)全面預(yù)算管理平臺(tái)”“河南煙草訂貨平臺(tái)”“高校畢業(yè)生就業(yè)信息網(wǎng)”“3G移動(dòng)就業(yè)信息平臺(tái)”等大型應(yīng)用項(xiàng)目。
第 1章 初識(shí)Hadoop 9
1.1 Hadoop概述 9
1.1.1 Hadoop簡(jiǎn)介 9
1.1.2 Hadoop的背景 10
1.1.3 Hadoop的發(fā)展歷程 11
1.1.4 Hadoop的特點(diǎn) 12
1.2 Hadoop核心組件 13
1.2.1 分布式文件系統(tǒng)HDFS 13
1.2.2 分布式計(jì)算框架MapReduce 15
1.2.3 集群資源管理器-YARN 16
1.3 Hadoop生態(tài)系統(tǒng)及相關(guān)技術(shù)簡(jiǎn)介 17
1.4 Hadoop的應(yīng)用場(chǎng)景 20
本章小結(jié) 22
習(xí)題 22
第 2章 Hadoop安裝與配置 24
2.1 Hadoop的安裝方式 24
2.2 偽分布式安裝 25
2.2.1 安裝前的準(zhǔn)備工作 25
2.2.2 Hadoop安裝與配置 31
2.2.3 啟動(dòng)與停止Hadoop 35
2.2.4 訪(fǎng)問(wèn)Hadoop 37
2.3 完全分布式安裝 38
2.3.1 Hadoop集群規(guī)劃 39
2.3.2 安裝前的準(zhǔn)備工作 39
2.3.3 Hadoop安裝與配置 43
2.3.4 集群?jiǎn)?dòng)與監(jiān)控 45
2.3.5 集群節(jié)點(diǎn)的添加與刪除 47
本章小結(jié) 50
習(xí)題 51
第3章 高可用與聯(lián)邦 52
3.1 高可用 52
3.2 為什么需要高可用 52
3.3 HDFS高可用 53
3.3.1 HDFS高可用運(yùn)行流程 54
3.3.2 HDFS高可用環(huán)境搭建 55
3.4 YARN高可用 65
3.5 聯(lián)邦 69
本章小結(jié) 70
習(xí)題 70
第4章 分布式文件系統(tǒng)HDFS 71
4.1 HDFS概述 71
4.1.1 HDFS簡(jiǎn)介 71
4.1.2 HDFS架構(gòu) 72
4.2 HDFS的基本概念 73
4.2.1 命名空間與塊存儲(chǔ)服務(wù) 73
4.2.2 數(shù)據(jù)塊 74
4.2.3 數(shù)據(jù)復(fù)制 75
4.2.4 心跳檢測(cè)與副本恢復(fù) 76
4.3 HDFS的數(shù)據(jù)讀寫(xiě)流程 77
4.3.1 數(shù)據(jù)寫(xiě)入流程 77
4.3.2 數(shù)據(jù)讀取流程 78
4.4 HDFS元數(shù)據(jù)管理機(jī)制 79
4.4.1 元數(shù)據(jù)持久化機(jī)制 80
4.4.2 元數(shù)據(jù)合并機(jī)制 81
4.5 HDFS Shell命令 83
4.5.1文件系統(tǒng)常用操作命令 83
4.5.2 常用管理命令 dfsadmin 87
4.6 開(kāi)發(fā)環(huán)境搭建 90
4.6.1 maven簡(jiǎn)介 90
4.6.2 基于Maven+Eclipse構(gòu)建Hadoop開(kāi)發(fā)調(diào)試環(huán)境 91
4.7 Java API應(yīng)用 95
4.7.1 HDFS文件系統(tǒng)操作涉及的類(lèi) 95
4.7.2 RPC的原理及應(yīng)用 99
本章小結(jié) 101
習(xí)題 102
第5章 集群資源管理系統(tǒng)YARN 103
5.1 YARN產(chǎn)生背景 103
5.2 YARN在共享集群模式中的應(yīng)用 104
5.3 YARN的設(shè)計(jì)思想 106
5.3.1 YARN的基本架構(gòu) 106
5.3.2 ResourceManager HA 108
5.4 YARN的工作流程 111
5.5 YARN的資源調(diào)度器 112
5.5.1 調(diào)度選項(xiàng) 112
5.5.2 FIFO Scheduler 113
5.5.3 Capacity Scheduler 113
5.5.4 Fair Scheduler 116
本章小結(jié) 122
習(xí)題 123
第6章 分布式計(jì)算框架MapReduce 124
6.1 MapReduce概述 124
6.2 map和reduce的處理過(guò)程 124
6.2.1 處理過(guò)程概述 124
6.2.2 MapReduce入門(mén)案例 126
6.2.3 關(guān)于shuffle 132
6.2.4 YARN對(duì)MapReduce的資源調(diào)度 134
6.2.5 map的本地化 135
6.3 MapReduce進(jìn)階 135
6.3.1 Combiner 135
6.3.2 Partioner 136
6.3.3 MapReduce輸入的處理類(lèi) 137
6.3.4 MapReduce輸出的處理類(lèi) 138
6.4 案例 139
本章小結(jié) 153
習(xí)題 153
第7章 Hadoop的I/O操作 155
7.1 IO操作中的數(shù)據(jù)完整性檢查 155
7.2 I/O操作中的數(shù)據(jù)壓縮 156
7.2.1 壓縮算法 157
7.2.2 壓縮和解壓縮 157
7.3 Hadoop I/O序列化接口 159
7.3.1 序列化 159
7.3.2 Hadoop序列化 159
7.4自定義序列化類(lèi) 163
7.5基于文件的數(shù)據(jù)結(jié)構(gòu) 165
7.5.1 SequenceFile 165
7.5.2 SequenceFileInputFormat 166
本章小結(jié) 166
習(xí)題 167
第8章 Hadoop 3.x新特性 168
8.1 Hadoop 3.x概述 168
8.2 Hadoop 3.x的改進(jìn) 169
8.2.1 JDK升級(jí) 169
8.2.2 EC技術(shù) 169
8.2.3 YARN優(yōu)化 172
8.2.4 支持多NameNode 174
8.2.5 DataNode內(nèi)部負(fù)載均衡 177
8.2.6 端口號(hào)的改變 180
8.3 Hadoop 3.x其他新特性 181
8.3.1 shell腳本重寫(xiě) 181
8.3.2 GPU和FPGA支持 181
本章小結(jié) 182
習(xí)題 182
第9章 Hadoop商業(yè)發(fā)行版 184
9.1 Hadoop集群管理的挑戰(zhàn) 184
9.2 CDH概述 184
9.3 Cloudera Manager概述 185
9.3.1 Cloudera Manager的架構(gòu) 186
9.3.2 Cloudera Manager中的基本概念 187
9.4 Cloudera Manager及CDH離線(xiàn)安裝部署 189
9.4.1 集群部署規(guī)劃 190
9.4.2 安裝前的準(zhǔn)備工作 191
9.4.3 前置軟件安裝 192
9.4.4 Cloudera Manager安裝與配置 194
9.4.5 CDH部署 196
9.4.6 Cloudera Manager搭建Hadoop集群 197
9.4.7 啟用HDFS HA和YARN HA 203
9.5 Cloudera Manager的功能 206
9.5.1 Cloudera Manager的基本核心功能 206
9.5.2 Cloudera Manager的高級(jí)功能 212
9.6 Hadoop其他商業(yè)發(fā)行版介紹 214
9.6.1 HDP 214
9.6.2 MapR Hadoop 215
9.6.3 華為Hadoop 216
本章小結(jié) 216
習(xí)題 216
第 10章 Hadoop實(shí)戰(zhàn)案例 217
10.1 項(xiàng)目背景 217
10.2 Apache Avro 217
10.2.1 Apache Avro概述 218
10.2.2 Schema 218
10.2.3 Avro序列化與反序列化案例 219
10.3 案例一:Avro文件合并多目錄輸出 223
10.3.1 需求概述 223
10.3.2 數(shù)據(jù)描述 224
10.3.3 設(shè)計(jì)思路分析 225
10.3.4 功能實(shí)現(xiàn) 226
10.4 案例二:網(wǎng)頁(yè)域名分區(qū)統(tǒng)計(jì) 233
10.4.1需求概述 233
10.4.2 數(shù)據(jù)描述 234
10.4.3 設(shè)計(jì)思路分析 238
10.4.4 功能實(shí)現(xiàn) 238
10.5 案例三:電商平臺(tái)商品評(píng)價(jià)數(shù)據(jù)分析 244
10.5.1需求描述 244
10.5.2 數(shù)據(jù)描述 245
10.5.3 設(shè)計(jì)思路分析 245
10.5.4 功能實(shí)現(xiàn) 246
本章小結(jié) 252
習(xí)題 252