大數(shù)據(jù)平臺(tái)應(yīng)用
定 價(jià):39 元
- 作者:張靖
- 出版時(shí)間:2020/3/1
- ISBN:9787121385407
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:196
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)是結(jié)合職業(yè)教育的實(shí)際情況開(kāi)發(fā)的云計(jì)算技術(shù)與應(yīng)用專(zhuān)業(yè)系列教材之一。對(duì)云計(jì)算技術(shù)與應(yīng)用專(zhuān)業(yè)、大數(shù)據(jù)技術(shù)與應(yīng)用專(zhuān)業(yè)或者大數(shù)據(jù)初學(xué)者是一本不錯(cuò)的入門(mén)教程。本書(shū)強(qiáng)調(diào)理論知識(shí)以夠用為度,注重動(dòng)手能力,在動(dòng)手中逐漸掌握大數(shù)據(jù)相關(guān)技術(shù)。本書(shū)內(nèi)容包括大數(shù)據(jù)概述、Hadoop基礎(chǔ)知識(shí)、大數(shù)據(jù)平臺(tái)搭建、數(shù)據(jù)的獲取、數(shù)據(jù)清理、數(shù)據(jù)分析、數(shù)據(jù)可視化、大數(shù)據(jù)管理平臺(tái)Ambari等知識(shí)。涵蓋內(nèi)容較為廣泛,但注重點(diǎn)到為止,方便讀者迅速入門(mén)。
張靖(1988.6—),男,重慶大學(xué)軟件工程碩士畢業(yè),重慶電子工程職業(yè)學(xué)院云計(jì)算技術(shù)與應(yīng)用專(zhuān)業(yè)專(zhuān)職教師。近幾年來(lái),獲得中國(guó)通信工業(yè)協(xié)會(huì)第一屆教學(xué)成果獎(jiǎng)一等獎(jiǎng);實(shí)用新型專(zhuān)利2項(xiàng);發(fā)表論文3篇;云數(shù)據(jù)庫(kù)應(yīng)用(MySQL)副主編;2018年全國(guó)職業(yè)院校技能大賽云計(jì)算技術(shù)與應(yīng)用賽項(xiàng)二等獎(jiǎng)指導(dǎo)老師,2018年全國(guó)職業(yè)技能競(jìng)賽大數(shù)據(jù)技術(shù)與應(yīng)用一等獎(jiǎng)指導(dǎo)老師;指導(dǎo)學(xué)生參加重慶市技能競(jìng)賽獲一等獎(jiǎng)1項(xiàng),2等獎(jiǎng)1項(xiàng),3等獎(jiǎng)2項(xiàng)。
第1章 感知大數(shù)據(jù) 1
任務(wù)1 認(rèn)知大數(shù)據(jù) 1
子任務(wù)1 定義大數(shù)據(jù) 2
子任務(wù)2 洞悉大數(shù)據(jù)的特征 2
任務(wù)2 探究大數(shù)據(jù)常用的技術(shù) 3
任務(wù)3 窺視大數(shù)據(jù)的商業(yè)應(yīng)用 4
課后練習(xí) 5
第2章 環(huán)視Hadoop 6
任務(wù)1 溯源Hadoop 6
子任務(wù)1 較量Hadoop與傳統(tǒng)文件系統(tǒng) 8
子任務(wù)2 發(fā)現(xiàn)Hadoop的核心和特點(diǎn) 9
子任務(wù)3 初訪MapReduce 10
任務(wù)2 查究Hadoop分布式文件系統(tǒng) 12
子任務(wù)1 探究HDFS工作機(jī)制 12
子任務(wù)2 厘清HDFS的前提和設(shè)計(jì)目標(biāo) 15
子任務(wù)3 深挖HDFS的核心機(jī)制 19
任務(wù)3 構(gòu)建MapReduce編程模型 22
子任務(wù)1 解構(gòu)MapReduce編程模型 22
子任務(wù)2 揭秘YARN與MapReduce 24
任務(wù)4 漫游Hadoop系統(tǒng)及其生態(tài)圈 25
課后練習(xí) 32
第3章 部署Hadoop大數(shù)據(jù)平臺(tái) 34
任務(wù)1 掌控Hadoop平臺(tái)的部署模式 34
任務(wù)2 部署Hadoop集群 36
任務(wù)3 編寫(xiě)首個(gè)MapReduce程序 59
任務(wù)4 初次運(yùn)行MapReduce程序 60
課后練習(xí) 64
本章附錄 65
第4章 設(shè)計(jì)爬蟲(chóng)獲取數(shù)據(jù)源 69
任務(wù)1 初探大數(shù)據(jù) 69
任務(wù)2 剖析大數(shù)據(jù) 74
任務(wù)3 爬取大數(shù)據(jù) 76
任務(wù)4 活用Scrapy框架高效編制爬蟲(chóng) 79
任務(wù)5 運(yùn)用Scrapy 81
課后練習(xí) 89
第5章 清洗數(shù)據(jù)與存儲(chǔ)結(jié)構(gòu)化 91
任務(wù)1 揭示數(shù)據(jù)清洗 91
任務(wù)2 清洗數(shù)據(jù) 92
子任務(wù)1 熟知數(shù)據(jù)的基本操作 92
子任務(wù)2 處理數(shù)據(jù)缺失 94
子任務(wù)3 規(guī)范化數(shù)據(jù) 96
子任務(wù)4 處理數(shù)據(jù)表結(jié)構(gòu)的錯(cuò)誤 97
子任務(wù)5 處理日期數(shù)據(jù)的問(wèn)題 102
任務(wù)3 使用分布式數(shù)據(jù)庫(kù)系統(tǒng)和結(jié)構(gòu)存儲(chǔ)數(shù)據(jù) 104
子任務(wù)1 安裝并使用Hive數(shù)據(jù)倉(cāng)庫(kù) 104
子任務(wù)2 安裝并使用HBase分布式數(shù)據(jù)庫(kù) 110
課后練習(xí) 114
第6章 分析大數(shù)據(jù) 115
任務(wù)1 透視數(shù)據(jù)分析 115
任務(wù)2 構(gòu)建分析模型 116
子任務(wù)1 厘清數(shù)據(jù)分析過(guò)程 116
子任務(wù)2 數(shù)據(jù)機(jī)器學(xué)習(xí)模型 117
任務(wù)3 運(yùn)用大數(shù)據(jù)分析算法分析數(shù)據(jù) 119
子任務(wù)1 運(yùn)用K-Means聚類(lèi)算法分析數(shù)據(jù) 120
子任務(wù)2 運(yùn)用線性回歸算法分析數(shù)據(jù) 123
子任務(wù)3 運(yùn)用決策樹(shù)算法分析數(shù)據(jù) 127
課后練習(xí) 130
第7章 可視化大數(shù)據(jù) 131
任務(wù)1 洞察pyecharts庫(kù) 131
任務(wù)2 活用可視化 132
子任務(wù)1 活用柱狀圖/條形圖(Bar) 132
子任務(wù)2 活用散點(diǎn)圖(EffectScatter) 139
子任務(wù)3 活用漏斗圖(Funnel) 142
子任務(wù)4 活用儀表盤(pán)(Gauge) 143
子任務(wù)5 活用地理坐標(biāo)圖(Geo) 144
子任務(wù)6 活用關(guān)系圖(Graph) 145
子任務(wù)7 活用熱力圖(HeatMap) 148
子任務(wù)8 活用K線圖(Kline/Candlestick) 150
子任務(wù)9 活用折線圖/面積圖(Line) 152
子任務(wù)10 活用水球圖(Liquid) 153
子任務(wù)11 活用地圖(Map) 154
子任務(wù)12 活用餅圖(Pie) 155
子任務(wù)13 活用平行坐標(biāo)系(Parallel) 156
子任務(wù)14 活用雷達(dá)圖(Radar) 159
子任務(wù)15 活用詞云(WordCloud)圖 160
課后練習(xí) 161
第8章 平臺(tái)化快速部署Hadoop 163
任務(wù)1 探尋大數(shù)據(jù)管理平臺(tái) 163
任務(wù)2 配置基礎(chǔ)環(huán)境 165
子任務(wù)1 配置Linux系統(tǒng) 165
子任務(wù)2 禁用Transparent Huge Pages 169
子任務(wù)3 安裝并配置JDK 170
任務(wù)3 安裝并配置Ambari 170
任務(wù)4 快速部署Hadoop大數(shù)據(jù)集群 173
課后練習(xí) 178
附錄A 課后練習(xí)參考答案 179