Spark大數(shù)據(jù)實(shí)時(shí)分析實(shí)戰(zhàn)
《Spark大數(shù)據(jù)實(shí)時(shí)分析實(shí)戰(zhàn)》分為六個(gè)項(xiàng)目,通過(guò)真實(shí)大數(shù)據(jù)實(shí)時(shí)分析項(xiàng)目的導(dǎo)入,引導(dǎo)讀者完成大數(shù)據(jù)實(shí)時(shí)分析平臺(tái)Spark的搭建,通過(guò)對(duì)基于Hadoop生態(tài)圈中Yarn資源調(diào)度框架,搭建Spark日志管理系統(tǒng),搭建Kafka分布式消息系統(tǒng),在工作中實(shí)現(xiàn)使用SparkStreaming實(shí)時(shí)讀取Kafka中的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。
《Spark大數(shù)據(jù)實(shí)時(shí)分析實(shí)戰(zhàn)》適用于大數(shù)據(jù)技術(shù)與應(yīng)用、數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)等電子信息類(lèi)專業(yè)教學(xué)的教材,也可作為工程技術(shù)人員的參考書(shū)。
近年來(lái),智能設(shè)備和智能應(yīng)用迅猛發(fā)展,極大地方便了人們的工作和日常生活,同時(shí),也產(chǎn)生了大量的數(shù)據(jù)。這些應(yīng)用和服務(wù)的成功得益于大數(shù)據(jù)和日益完善的實(shí)時(shí)分析技術(shù)。大數(shù)據(jù)實(shí)時(shí)分析技術(shù)的出現(xiàn),可以對(duì)這些數(shù)據(jù)進(jìn)行快速的分析,讓決策者能夠迅速地把握用戶的關(guān)鍵需求,并能夠及時(shí)響應(yīng)用戶的需求變化。未來(lái)幾年,將有數(shù)以億計(jì)的智能設(shè)備接人互聯(lián)網(wǎng),從智能手機(jī)、臺(tái)式機(jī)、汽車(chē)到智能家居,都會(huì)接入互聯(lián)網(wǎng)。未來(lái)的數(shù)據(jù)分析將對(duì)實(shí)時(shí)性要求越來(lái)越高。
針對(duì)大數(shù)據(jù)的迅猛發(fā)展,本書(shū)結(jié)合實(shí)際應(yīng)用案例,選用高性能的Spark技術(shù)作為大數(shù)據(jù)實(shí)時(shí)分析的工具,介紹了實(shí)時(shí)大數(shù)據(jù)分析的實(shí)現(xiàn)過(guò)程,為讀者提供了快速安裝、搭建大數(shù)據(jù)分析集群和進(jìn)行實(shí)時(shí)數(shù)據(jù)分析所需的技術(shù)。
本書(shū)采用項(xiàng)目驅(qū)動(dòng)的編寫(xiě)方式,精心設(shè)計(jì)了6個(gè)項(xiàng)目,覆蓋了Spark大數(shù)據(jù)實(shí)時(shí)分析技術(shù)所涉及的基礎(chǔ)技術(shù)介紹、集群搭建,以及日志服務(wù)器搭建等知識(shí)技能點(diǎn)。書(shū)中深入淺出地介紹了Spark技術(shù)的基本原理、集群的構(gòu)建與安裝、基于Yam的Spark集群搭建、Spark日志服務(wù)器的搭建、Kafka集群的構(gòu)建與安裝,并通過(guò)案例對(duì)Kafka集群進(jìn)行了測(cè)試。具體內(nèi)容為:
項(xiàng)目一從數(shù)據(jù)存儲(chǔ)技術(shù)、分析技術(shù)、批數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)等數(shù)據(jù)分析背景知識(shí)人手,介紹了實(shí)時(shí)數(shù)據(jù)處理的價(jià)值、Spark實(shí)時(shí)數(shù)據(jù)分析技術(shù)。
項(xiàng)目二通過(guò)具體的案例操作,詳細(xì)介紹了Spark集群規(guī)劃、安裝準(zhǔn)備、集群搭建、驗(yàn)證及客戶端應(yīng)用的搭建。
項(xiàng)目三通過(guò)案例介紹了基于Yarn的Spark集群的搭建、配置和驗(yàn)證的方法。
項(xiàng)目四介紹了Spark日志服務(wù)器的配置及驗(yàn)證日志服務(wù)器的方法。
項(xiàng)目五和項(xiàng)目六通過(guò)案例介紹了集群搭建、集群規(guī)劃、安裝配置,并對(duì)Kafka集群進(jìn)行了測(cè)試。
本書(shū)由重慶電子工程職業(yè)學(xué)院付雯、聶強(qiáng)擔(dān)任主編,重慶電子工程職業(yè)學(xué)院武春嶺、李俊翰、王寧憶、李清蓮、譚博文及濰坊職業(yè)學(xué)院鄭偉擔(dān)任副主編,來(lái)自重慶課外島科技發(fā)展有限公司的文紅亞高級(jí)工程師也參與了本書(shū)的部分編寫(xiě)工作。
項(xiàng)目一 初識(shí)Spark技術(shù)
任務(wù)1.1 數(shù)據(jù)處理系統(tǒng)
1.1.1 數(shù)據(jù)存儲(chǔ)技術(shù)
1.1.2 數(shù)據(jù)分析技術(shù)
1.1.3 批數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)
1.1.4 數(shù)據(jù)價(jià)值挖掘
任務(wù)1.2 實(shí)時(shí)數(shù)據(jù)處理
1.2.1 實(shí)時(shí)數(shù)據(jù)的價(jià)值
1.2.2 實(shí)時(shí)數(shù)據(jù)處理技術(shù)
1.2.3 Spark實(shí)時(shí)數(shù)據(jù)處理
項(xiàng)目二 Spark集群的構(gòu)建與安裝
任務(wù)2.1 Spark集群搭建
2.1.1 平臺(tái)選擇
2.1.2 軟件選擇
2.1.3 Spark集群構(gòu)建流程
任務(wù)2.2 Spark集群規(guī)劃
2.2.1 Spark集群節(jié)點(diǎn)劃分
2.2.2 軟件要求
2.2.3 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)規(guī)劃
任務(wù)2.3 Spark安裝準(zhǔn)備
2.3.1 JDK安裝
2.3.2 節(jié)點(diǎn)間的配置
2.3.3 Spark安裝包下載
任務(wù)2.4 Spark集群搭建
2.4.1 配置Master節(jié)點(diǎn)
2.4.2 配置Worker節(jié)點(diǎn)
2.4.3 分發(fā)安裝包
2.4.4 啟動(dòng)集群
任務(wù)2.5 驗(yàn)證Spark
2.5.1 驗(yàn)證Spark進(jìn)程
2.5.2 驗(yàn)證WEBUI界面
2.5.3 驗(yàn)證集群功能
任務(wù)2.6 Spark客戶端搭建
2.6.1 客戶端介紹
2.6.2 客戶端搭建及使用
項(xiàng)目三 Spark基于Yarn搭建
任務(wù)3.1 基于Yarn構(gòu)建介紹
3.1.1 基于Yarn搭建環(huán)境配置
3.1.2 Hadoop集群
3.1.3 啟動(dòng)Hadoop集群
3.1.4 驗(yàn)證Hadoop集群節(jié)點(diǎn)
任務(wù)3.2 基于Yam搭建
3.2.1 節(jié)點(diǎn)劃分配置
3.2.2 配置Spark on Yarn
3.2.3 驗(yàn)證Spark on Yarn
項(xiàng)目四 日志服務(wù)器搭建
任務(wù)4.1 日志服務(wù)器配置
4.1.1 HDFS配置
4.1.2 Spark配置
4.1.3 啟動(dòng)日志服務(wù)器
4.1.4 查看日志
任務(wù)4.2 驗(yàn)證日志服務(wù)器
4.2.1 Spark-Shell介紹
4.2.2 查看運(yùn)行日志
4.2.3 啟動(dòng)日志服務(wù)器
4.2.4 查看日志
……
項(xiàng)目五 Kafka集群的構(gòu)建與安裝
項(xiàng)目六 Kafka集群測(cè)試