基礎(chǔ)篇
第1章Hadoop基礎(chǔ)
1.1Hadoop簡介
1.1.1什么是Hadoop
1.1.2Hadoop項(xiàng)目及其結(jié)構(gòu)
1.1.3Hadoop體系結(jié)構(gòu)
1.1.4Hadoop與分布式開發(fā)
1.1.5Hadoop計(jì)算模型MapReduce on Yarn
1.1.6Hadoop數(shù)據(jù)管理
1.1.7Hadoop集群安全策略
1.2Hadoop的安裝與配置
1.2.1安裝JDK 1.8與配置SSH免密碼登錄
1.2.2安裝并運(yùn)行Hadoop
第2章Hadoop存儲: HDFS
2.1HDFS的基本操作
2.1.1HDFS的命令行操作
2.1.2HDFS的Web界面
2.1.3通過distcp進(jìn)行并行復(fù)制
2.1.4使用Hadoop歸檔文件
2.2WebHDFS
2.2.1WebHDFS的配置
2.2.2WebHDFS命令
2.3HDFS常見的Java API介紹
2.3.1使用Hadoop URL讀取數(shù)據(jù)
2.3.2使用FileSystem API讀取數(shù)據(jù)
2.3.3創(chuàng)建目錄
2.3.4寫數(shù)據(jù)
2.3.5刪除數(shù)據(jù)
2.3.6文件系統(tǒng)查詢
第3章Hadoop計(jì)算: MapReduce
3.1MapReduce應(yīng)用程序編寫
3.1.1實(shí)例描述
3.1.2設(shè)計(jì)思路
3.1.3代碼數(shù)據(jù)流
3.1.4程序代碼
3.1.5代碼解讀
3.1.6程序執(zhí)行
3.1.7代碼結(jié)果
3.2使用MapReduce求每年最低溫度
3.2.1作業(yè)描述
3.2.2程序代碼
3.2.3準(zhǔn)備輸入數(shù)據(jù)
3.2.4運(yùn)行程序
高級篇
第4章數(shù)據(jù)倉庫: Hive
4.1Hive的安裝和配置
4.1.1安裝詳細(xì)步驟
4.1.2Hive內(nèi)部是什么
4.2數(shù)據(jù)定義
4.2.1Hive中的數(shù)據(jù)庫
4.2.2修改數(shù)據(jù)庫
4.2.3創(chuàng)建表
4.2.4分區(qū)表
4.2.5刪除表
4.2.6修改表
第5章Hive數(shù)據(jù)操作與查詢
5.1數(shù)據(jù)操作
5.1.1向管理表中裝載數(shù)據(jù)
5.1.2通過查詢語句向表中插入數(shù)據(jù)
5.1.3單個查詢語句中創(chuàng)建表并加載數(shù)據(jù)
5.1.4導(dǎo)出數(shù)據(jù)
5.2數(shù)據(jù)查詢
5.2.1SELECT…FROM語句
5.2.2WHERE語句
5.2.3GROUP BY語句
5.2.4HAVING語句
5.2.5JOIN語句
5.2.6ORDER BY和SORT BY
5.2.7含有SORT BY 的DISTRIBUTE BY
5.2.8CLUSTER BY
5.2.9類型轉(zhuǎn)換
5.2.10抽樣查詢
5.2.11UNION ALL
5.3Hive實(shí)戰(zhàn)
5.3.1背景
5.3.2實(shí)戰(zhàn)數(shù)據(jù)及要求
5.3.3實(shí)驗(yàn)步驟
第6章Hadoop數(shù)據(jù)庫: HBase
6.1HBase概述
6.1.1HBase的發(fā)展歷史
6.1.2HBase的發(fā)行版本
6.1.3HBase的特性
6.1.4HBase與Hadoop的關(guān)系
6.1.5HBase的核心功能模塊
6.2HBase的安裝和配置
6.2.1HBase的運(yùn)行模式
6.2.2HBase的Web UI
6.2.3Hbase Shell工具使用
6.2.4停止HBase集群
第7章HBase數(shù)據(jù)操作
7.1Shell工具的使用
7.1.1命令分類
7.1.2常規(guī)命令
7.1.3DDL命令
7.1.4DML命令
7.1.5工具命令Tools
7.1.6復(fù)制命令
7.1.7安全命令
7.2Java客戶端的使用
7.2.1客戶端配置
7.2.2創(chuàng)建表
7.2.3刪除表
7.2.4插入數(shù)據(jù)
7.2.5查詢數(shù)據(jù)
7.2.6刪除數(shù)據(jù)
第8章并行數(shù)據(jù)流處理引擎: Pig
8.1Pig概述
8.1.1Pig是什么
8.1.2Pig的發(fā)展簡史
8.2Pig的安裝和使用
8.2.1下載和安裝Pig
8.2.2命令行使用以及配置選項(xiàng)介紹
8.2.3返回碼
8.3命令行交互工具
8.3.1Grunt概述
8.3.2在Grunt中輸入Pig Latin腳本
8.3.3在Grunt中使用HDFS命令
8.3.4在Grunt中控制Pig
第9章Pig Latin的使用
9.1Pig Latin概述
9.1.1基礎(chǔ)知識
9.1.2輸入和輸出
9.2關(guān)系操作
9.2.1foreach
9.2.2Filter
9.2.3Group
9.2.4Order by
9.2.5distinct
9.2.6Join
9.2.7Limit
9.2.8Sample
9.2.9Parallel
9.3用戶自定義函數(shù)UDF
9.3.1注冊UDF
9.3.2define命令和UDF
9.3.3調(diào)用靜態(tài)Java函數(shù)
第10章SQL to Hadoop: Sqoop
10.1Sqoop概述
10.1.1Sqoop的產(chǎn)生背景
10.1.2Sqoop是什么
10.1.3為什么選擇Sqoop
10.1.4Sqoop1和 Sqoop2的異同
10.1.5Sqoop1與Sqoop2的架構(gòu)圖
10.1.6Sqoop1與Sqoop2的優(yōu)缺點(diǎn)
10.2Sqoop安裝部署
10.2.1下載Sqoop
10.2.2設(shè)置/etc/profile參數(shù)
10.2.3設(shè)置bin/configuresqoop配置文件
10.2.4設(shè)置conf/sqoopenv.sh配置文件
10.2.5驗(yàn)證安裝完成
10.3Sqoop常用命令介紹
10.3.1如何列出幫助
10.3.2Export
10.3.3Import
10.3.4Job作業(yè)
10.4數(shù)據(jù)操作
10.4.1MySQL數(shù)據(jù)導(dǎo)入到HDFS中
10.4.2HDFS數(shù)據(jù)導(dǎo)入到MySQL中
實(shí)戰(zhàn)篇
第11章項(xiàng)目實(shí)戰(zhàn)
11.1項(xiàng)目背景與數(shù)據(jù)情況
11.1.1項(xiàng)目概述
11.1.2項(xiàng)目分析指標(biāo)
11.1.3項(xiàng)目開發(fā)步驟
11.1.4表結(jié)構(gòu)設(shè)計(jì)
11.2環(huán)境搭建
11.2.1MySQL的安裝
11.2.2Eclipse的安裝
11.3數(shù)據(jù)清洗
11.3.1數(shù)據(jù)分析
11.3.2數(shù)據(jù)清洗流程
11.4數(shù)據(jù)統(tǒng)計(jì)分析
11.4.1建立分區(qū)表
11.4.2使用HQL統(tǒng)計(jì)關(guān)鍵指標(biāo)
11.4.3使用Sqoop將數(shù)據(jù)導(dǎo)入到MySQL數(shù)據(jù)表
11.5定時(shí)任務(wù)處理
11.5.1日志數(shù)據(jù)定時(shí)上傳
11.5.2日志數(shù)據(jù)定期清理
11.5.3數(shù)據(jù)定時(shí)統(tǒng)計(jì)分析
參考文獻(xiàn)