Hadoop大數(shù)據(jù)分布式計算框架--原理與應(yīng)用
定 價:65 元
叢書名:無
當前圖書已被 10 所學(xué)校薦購過!
查看明細
- 作者:楊成偉,祝翠玲,劉位龍
- 出版時間:2023/9/1
- ISBN:9787521845655
- 出 版 社:經(jīng)濟科學(xué)出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
討論大數(shù)據(jù)技術(shù)時,首先需要了解大數(shù)據(jù)的基本處理流程,主要包括數(shù)據(jù)采集、存儲、分析和結(jié)果呈現(xiàn)等環(huán)節(jié)。數(shù)據(jù)無處不在,互聯(lián)網(wǎng)網(wǎng)站、政務(wù)系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動化生產(chǎn)系統(tǒng)、監(jiān)控攝像頭、傳感器等,每時每刻都在不斷產(chǎn)生數(shù)據(jù)。這些分散在各處的數(shù)據(jù),需要采用相應(yīng)的設(shè)備或軟件進行采集。采集到的數(shù)據(jù)通常無法直接用于后續(xù)的數(shù)據(jù)分析,因為對于來源眾多、類型多樣的數(shù)據(jù)而言,數(shù)據(jù)缺失和語義模糊等問題是不可避免的,因而必須采取相應(yīng)的措施有效解決這些問題,這就需要一個被稱為數(shù)據(jù)預(yù)處理的過程,把數(shù)據(jù)變成一個可用的狀態(tài)。數(shù)據(jù)預(yù)處理以后,會被存放到文件系統(tǒng)或數(shù)據(jù)庫系統(tǒng)中進行存儲與管理,然后采用數(shù)據(jù)挖掘工具對數(shù)據(jù)進行處理分析,最后采用可視化工具為用戶呈現(xiàn)結(jié)果。在整個數(shù)據(jù)處理過程中,還必須注意隱私保護和數(shù)據(jù)安全等問題。
因此,從數(shù)據(jù)分析全流程的角度,大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲和管理、數(shù)據(jù)處理與分析、數(shù)據(jù)安全和隱私保護等幾個層面的內(nèi)容。
第1章 Hadoop大數(shù)據(jù)分布式計算框架概述
1.1 大數(shù)據(jù)基礎(chǔ)
1.2 Hadoop概述
1.3 Hadoop關(guān)鍵技術(shù)
1.4 Hadoop的優(yōu)勢與不足
1.5 本章小結(jié)
本章習(xí)題
本章主要參考文獻
第2章 Hadoop大數(shù)據(jù)分布式環(huán)境
2.1 大數(shù)據(jù)Linux基礎(chǔ)
2.2 Hadoop系統(tǒng)部署方式
2.3 Hadoop3.x環(huán)境搭建
2.4 本章小結(jié)
本章習(xí)題
本章主要參考文獻
第3章 Hadoop分布式文件系統(tǒng)原理
3.1 集群與分布式文件系統(tǒng)
3.2 HDFS架構(gòu)和組件
3.3 HDFS的高可用機制
3.4 HDFS的數(shù)據(jù)讀寫
3.5 HDFS聯(lián)邦機制
3.6 本章小結(jié)
本章習(xí)題
本章主要參考文獻
第4章 分布式調(diào)度系統(tǒng)YARN
4.1 YARN分布式資源管理
4.2 YARN體系結(jié)構(gòu)
4.3 YARN作業(yè)調(diào)度
4.4 YARN高級特性
4.5 YARN的應(yīng)用實踐
4.6 本章小結(jié)
本章習(xí)題
本章主要參考文獻
第5章 MapReduce分布式計算框架
5.1 MapReduce概述
5.2 MapReduce工作原理
5.3 Shuffle過程
5.4 MapReduce設(shè)計模式
5.5 MapReduce的應(yīng)用實踐
5.6 MapReduce優(yōu)化
5.7 本章小結(jié)
本章習(xí)題
本章主要參考文獻
第6章 分布式大數(shù)據(jù)分析項目案例
6.1 項目背景
6.2 功能需求
6.3 系統(tǒng)設(shè)計
6.4 項目實施
6.5 本章小結(jié)
本章習(xí)題