實戰(zhàn)大數據—— 分布式大數據分析處理系統(tǒng)開發(fā)與應用
定 價:79.9 元
當前圖書已被 37 所學校薦購過!
查看明細
- 作者:井超 楊俊 喬鋼柱
- 出版時間:2023/2/1
- ISBN:9787111720652
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:230
- 紙張:
- 版次:
- 開本:16
實戰(zhàn)大數據——分布式大數據分析處理系統(tǒng)開發(fā)與應用,從大數據技術基礎概念出發(fā),介紹了大數據分析的流程和大數據分析處理系統(tǒng)的組成,以及大數據集群的搭建,并在此基礎上講解了多種不同技術構成的離線/實時數據分析系統(tǒng)實戰(zhàn)項目。全書共10章,包括大數據概述、大數據分析的基本流程與工具、分布式大數據分析處理系統(tǒng)概述、構建大數據集群環(huán)境、構建基于LayUI的集群管理系統(tǒng)、基于HBase的大數據離線分析系統(tǒng)、基于Hive+Hadoop+Spark的大數據離線分析系統(tǒng)、基于MySQL+Spark的大數據離線分析系統(tǒng)、基于Redis+Kafka+Spark的大數據實時分析系統(tǒng)、基于Flume+Kafka+Flink的大數據實時分析系統(tǒng)。
實戰(zhàn)大數據—— 分布式大數據分析處理系統(tǒng)開發(fā)與應用,適合從事大數據系統(tǒng)搭建與運維、大數據分析等崗位的技術人員閱讀,也適合高等院校大數據相關專業(yè)的學生使用。
前言
第1章 大數據概述1
1.1 大數據的基本概念1
1.1.1 何謂大數據1
1.1.2 大數據的產生階段2
1.1.3 大數據的核心技術和計算模式2
1.2 大數據的應用2
1.2.1 大數據的應用場景2
1.2.2 大數據系統(tǒng)的作用2
1.3 大數據技術生態(tài)圈3
1.3.1 Linux操作系統(tǒng)3
1.3.2 Hadoop生態(tài)系統(tǒng)6
1.3.3 Spark對Hadoop的完善8
1.4 大數據技術的新發(fā)展9
1.4.1 Hadoop 3.0的新特性9
1.4.2 大數據引擎Flink10
1.4.3 智能化大數據分析處理11
本章小結12
第2章 大數據分析的基本流程與工具13
2.1 數據采集13
2.1.1 網絡爬蟲采集數據13
2.1.2 使用Excel爬取數據14
2.2 數據存儲16
2.2.1 關系型數據的存儲—基于MySQL16
2.2.2 非關系型數據的存儲—基于
Redis、HBase17
2.3 數據分析與數據處理18
2.3.1 數據分析常用工具—pandas19
2.3.2 分布式計算框架19
2.3.3 分布式數據挖掘和深度學習20
2.4 數據可視化22
2.4.1 Python數據可視化庫Matplotlib22
2.4.2 Python數據可視化庫pyecharts22
2.4.3 數據可視化圖表庫ECharts23
2.4.4 數據可視化工具Apache Superset24
本章小結24
第3章 分布式大數據分析處理系統(tǒng)
概述25
3.1 什么是分布式大數據分析處理
系統(tǒng)25
3.2 分布式大數據分析處理系統(tǒng)的
作用26
3.3 分布式大數據分析處理系統(tǒng)的
應用場景26
3.4 分布式大數據分析處理系統(tǒng)的
構成30
3.4.1 數據采集子系統(tǒng)30
3.4.2 數據存儲系統(tǒng)30
3.4.3 數據分析處理系統(tǒng)31
3.4.4 數據可視化系統(tǒng)32
3.5 分布式大數據分析處理系統(tǒng)的
實現32
3.5.1 系統(tǒng)前端—HTML、CSS、jQuery32
3.5.2 系統(tǒng)后端—SpringBoot、SSM33
3.5.3 Web服務器端—Tomcat35
本章小結35
第4章 構建大數據集群環(huán)境36
4.1 部署大數據處理環(huán)境36
4.1.1 搭建Hadoop集群36
4.1.2 ZooKeeper的安裝部署42
4.1.3 Kafka的安裝部署45
4.1.4 Spark集群搭建47
4.2 部署大數據存儲環(huán)境49
4.2.1 MySQL的安裝部署49
4.2.2 Hive的安裝部署50
4.2.3 HBase的安裝部署51
4.2.4 Redis的安裝部署55
本章小結57
第5章 構建基于LayUI的集群管理
系統(tǒng)58
5.1 集群管理系統(tǒng)概述58
5.1.1 需求分析58
5.1.2 系統(tǒng)架構—系統(tǒng)+集群+UI59
5.2 系統(tǒng)開發(fā)的前期準備操作60
5.2.1 本機環(huán)境配置60
5.2.2 集群環(huán)境配置62
5.2.3 構建項目工程結構74
5.3 系統(tǒng)的代碼實現75
5.3.1 Controller層實現75
5.3.2 構造系統(tǒng)所需工具包90
5.3.3 核心類實現97
5.4 構造系統(tǒng)UI界面—基于
LayUI100
本章小結105
第6章 基于HBase的大數據離線分析
系統(tǒng)106
6.1 系統(tǒng)架構概述106
6.1.1 需求分析106
6.1.2 系統(tǒng)架構—HBase+SpringBoot+
ECharts107
6.2 采集股份轉讓數據108
6.2.1 使用爬蟲抓取數據108
6.2.2 數據采集模塊測試111
6.3 數據存儲和處理模塊實現113
6.3.1 數據庫設計113
6.3.2 使用HBase存儲并處理數據114
6.3.3 數據存儲和處理模塊測試119
6.4 數據可視化模塊實現120
6.4.1 數據可視化模塊后端設計—
基于SpringBoot120
6.4.2 數據可視化模塊前端設計—
基于ECharts122
6.4.3 數據可視化頁面展示125
本章小結126
第7章 基于Hive+Hadoop+Spark的
大數據離線分析系統(tǒng)127
7.1 系統(tǒng)架構概述127
7.1.1 需求分析127
7.1.2 數據存儲—Hive+Hadoop129
7.1.3 數據處理與可視化—
Spark+SSM+ECharts129
7.2 采集旅游相關數據130
7.2.1 使用爬蟲采集城市、景點數據130
7.2.2 數據采集模塊測試133
7.3 數據存儲模塊實現135
7.3.1 數據庫設計135
7.3.2 使用HDFS和Hive存儲數據137
7.3.3 數據存儲模塊測試138
7.4 數據分析處理模塊實現139
7.4.1 Spark處理數據139
7.4.2 分詞處理和情感分析—
基于jieba+SnowNLP庫139
7.4.3 數據分析處理模塊測試142
7.5 數據可視化模塊實現143
7.5.1 數據可視化模塊后端設計—
基于SSM143
7.5.2 數據可視化模塊前端設計—
基于ECharts154
7.5.3 數據可視化頁面展示161
本章小結167
第8章 基于MySQL+Spark的大數據
離線分析系統(tǒng)168
8.1 系統(tǒng)架構概述168
8.1.1 需求分析168
8.1.2 數據存儲—MySQL170
8.1.3 數據處理與可視化—
Spark Streaming +Apache Superset170
8.2 采集電商數據170
8.2.1 使用爬蟲爬取商品信息170
8.2.2 數據采集模塊測試182
8.3 數據分析處理模塊實現183
8.3.1 數據庫設計183
8.3.2 Spark處理商品數據185
8.3.3 數據分析處理模塊測試192
8.4 數據可視化模塊實現193
8.4.1 使用Apache Superset繪制數據
可視化圖表193
8.4.2 數據可視化頁面展示193
本章小結196
第9章 基于Redis+Kafka+Spark的
大數據實時分析系統(tǒng)197
9.1 系統(tǒng)架構概述197
9.1.1 需求分析197
9.1.2 數據存儲—Redis198
9.1.3 數據處理與可視化—Kafka+
Spark Streaming+SSM+ECharts199
9.2 采集汽車網站數據199
9.2.1 使用爬蟲獲取汽車和用戶
數據199
9.2.2 數據采集模塊測試201
9.3 數據存儲模塊實現201
9.3.1 數據庫設計201
9.3.2 使用MySQL存儲汽車
數據202
9.3.3 數據存儲模塊測試202
9.4 數據分析處理模塊實現202
9.4.1 實時發(fā)送數據至Kafka203
9.4.2 Spark處理汽車數據203
9.4.3 Redis數據庫存儲處理結果204
9.4.4 數據分析處理模塊測試204
9.5 數據可視化模塊205
9.5.1 數據可視化模塊后端設計—
基于SSM206
9.5.2 數據可視化模塊前端設計—
基于ECharts208
9.5.3 數據可視化頁面展示209
本章小結212
第10章 基于Flume+Kafka+Flink的
大數據實時分析系統(tǒng)213
10.1 系統(tǒng)架構概述213
10.1.1 需求分析213
10.1.2 數據存儲—MySQL214
10.1.3 數據處理與可視化—Kafka+
Flink +SpringBoot+ECharts215
10.2 采集直播審計數據215
10.2.1 模擬直播審計數據215
10.2.2 使用Flume采集直播審計數據217
10.2.3 數據采集模塊測試219
10.3 數據分析處理模塊實現219
10.3.1 實時發(fā)送數據至Kafka220
10.3.2 Flink處理直播審計數據220
10.3.3 MySQL數據庫存儲處理結果222
10.3.4 數據分析處理模塊測試223
10.4 數據可視化模塊224
10.4.1 數據可視化模塊后端設計—
基于SpringBoot224
10.4.2 數據可視化模塊前端設計—
基于ECharts226
10.4.3 數據可視化頁面展示230
本章小結230