国产在线高清伦免费理视频,国产精品一区21p,国产三级理论电影在线观看网址

本書詳細(xì)闡述了大數(shù)據(jù)領(lǐng)域數(shù)據(jù)采集與預(yù)處理的相關(guān)理論和技術(shù)。全書共8章，內(nèi)容包括概述、大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建、網(wǎng)絡(luò)數(shù)據(jù)采集、分布式消息系統(tǒng)Kafka、日志采集系統(tǒng)Flume、數(shù)據(jù)倉庫中的數(shù)據(jù)集成、ETL工具Kettle、使用pandas進(jìn)行數(shù)據(jù)清洗。本書在第3章至第8章中安排了豐富的實(shí)踐操作，以便讀者更好地學(xué)習(xí)和掌握數(shù)據(jù)采集與預(yù)處理的關(guān)鍵技術(shù)。本書可以作為高等院校大數(shù)據(jù)專業(yè)的大數(shù)據(jù)課程教材，也可供相關(guān)技術(shù)人員參考。

第 1 章概述.
1.1 數(shù)據(jù)
1.1.1 數(shù)據(jù)的概念.
1.1.2 數(shù)據(jù)類型
1.1.3 數(shù)據(jù)的組織形式.
1.1.4 數(shù)據(jù)的價(jià)值
1.1.5 數(shù)據(jù)爆炸.
1.2 數(shù)據(jù)分析過程.
1.3 數(shù)據(jù)采集與預(yù)處理的任務(wù)
1.4 數(shù)據(jù)采集
1.4.1 數(shù)據(jù)采集的概念
1.4.2 數(shù)據(jù)采集的三大要點(diǎn)
1.4.3 數(shù)據(jù)采集的數(shù)據(jù)源.
1.4.4 數(shù)據(jù)采集方法.
1.5 數(shù)據(jù)清洗
1.5.1 數(shù)據(jù)清洗的應(yīng)用領(lǐng)域
1.5.2 數(shù)據(jù)清洗的實(shí)現(xiàn)方式.
1.5.3 數(shù)據(jù)清洗的內(nèi)容.
1.5.4 數(shù)據(jù)清洗的注意事項(xiàng)
1.5.5 數(shù)據(jù)清洗的基本.流.程.
1.5.6 數(shù)據(jù)清洗的評(píng)價(jià)標(biāo).
1.6 數(shù)據(jù)集成.
1.7 數(shù)據(jù)轉(zhuǎn)換.
1.7.1 數(shù)據(jù)轉(zhuǎn)換策略.
1.7.2 平滑處理
1.7.3 規(guī)范化處理.
1.8 數(shù)據(jù)脫敏.
1.8.1 數(shù)據(jù)脫敏原則.
1.8.2 數(shù)據(jù)脫敏方法.
1.9 本章小結(jié).
1.10 習(xí)題
第 2 章大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建.
2.1 Python 的安裝和使用.
2.1.1 Python 簡(jiǎn)介
2.1.2 Python 的安裝
2.1.3 Python 的基本使用方法
2.1.4 Python 基礎(chǔ)語法知識(shí)
2.1.5 Python 第三方模塊的安裝。
2.2 JDK 的安裝.
2.3 MySQL 數(shù)據(jù)庫的安裝和使用
2.3.1 關(guān)系數(shù)據(jù)庫
2.3.2 關(guān)系數(shù)據(jù)庫標(biāo)準(zhǔn)語言SQL
2.3.3 安裝MySQL
2.3.4 MySQL 數(shù)據(jù)庫的使用方法
2.3.5 使用 Ppython操作MySQL數(shù)據(jù)庫
2.4 Hadoop的安裝和使用
2.4.1 Hadoop簡(jiǎn)介
2.4.2分布式系統(tǒng)HDFS
2.4.3 Hadoop安裝
2.4.4 Hadoop的基本使用方法
第 3 章網(wǎng)絡(luò)數(shù)據(jù)采集.
3.1 網(wǎng)絡(luò)爬蟲概述.
3.1.1 什么是網(wǎng)絡(luò)爬蟲
3.1.2網(wǎng)絡(luò)爬蟲的類型
3.1.3反爬機(jī)制
3.2 網(wǎng)頁基礎(chǔ)知識(shí)
3.2.1超文本和HTML
3.2.2 HTTP.
3.3 用 Python 實(shí)現(xiàn)HTTP請(qǐng)求
3.3.1 urllib模塊
3.3.2 urllib3 模塊.
3.3.3 requests 模塊.
3.4 定制 request.s.
3.4.1 傳遞 URL參數(shù)，
3.4.2 定制請(qǐng)求頭,
3.4.3 網(wǎng)絡(luò)超時(shí)
3.5 解析網(wǎng)頁
3.5.1 BeautifulSoup 簡(jiǎn)介.
3.5.2 BeautifulSoup 四大對(duì)象
3.5.3 遍歷文件樹
3.5.4 搜索文檔樹
3.5.5 CSS選擇器
3.6 綜合實(shí)例
實(shí)例1:采集網(wǎng)頁數(shù)據(jù)保存到文本
實(shí)例2:采集網(wǎng)頁數(shù)據(jù)保存到MYSQL數(shù)據(jù)庫
3.7 Scrapy 框架
3.7.1 Scrapy 框架概述
3.7.2 XPath 語言
3.7.3 Scrapy 框架應(yīng)用實(shí)例,
3.8 本章小結(jié)
3.9 習(xí)題.
實(shí)驗(yàn) 2 網(wǎng)絡(luò)爬蟲初級(jí)實(shí)踐
第 4 章分布式消息系統(tǒng) afu.a .
4.1 Kafka 簡(jiǎn)介
4.1.1 Kafk的特性
4.1.2 Kafka 的應(yīng)用場(chǎng)景.
4.1.3 Kafka 的消息傳遞模式….
4.2 Kafka 在大數(shù)據(jù)生態(tài)系統(tǒng)中的作-用
4.3 Kafka 與 Flume 的區(qū)別與聯(lián)
4.4 Kafka 相關(guān)概念
4.5 Kafka 的安裝和使用
4.5.1 安裝Kafk
4.5.2 使用 Kafka
4.6 使用 Python 操作 Kafka
4.7 Kafka 與 MysQL 的組合使用，
4.8 本章小結(jié)
4.9 習(xí)題
實(shí)驗(yàn) 3 熟悉 Kafka 的基本使用方法
第 5 章日志采集統(tǒng)Flume
5.1 Flume 簡(jiǎn)介.
5.2 Flume 的安裝和使用
5.2.1 Flume 的安裝.
5.2.2 Flume 的使用.
5.3 Flume 和 Kafka 的組合使用.
5.4 采集日志文件到 HDFS.
5.4.1 采集目錄到 HDFS
5.4.2 采集文件到 HDFS.
5.5 采集 MySQL 數(shù)據(jù)到 HDFS
5.5.1 準(zhǔn)備工作
5.5.2 創(chuàng)建 MysQL 數(shù)據(jù)庫.
5.6 本章小結(jié).
5.7 習(xí)題
實(shí)驗(yàn) 4熟悉 Flume 的基本使用方法
第 6 章數(shù)據(jù)倉庫中的數(shù)據(jù)集成
6.1數(shù)據(jù)倉庫的概念
6.1.1傳統(tǒng)的數(shù)據(jù)倉庫
6.1.2 實(shí)時(shí)主動(dòng)數(shù)據(jù)倉庫
6.2 數(shù)據(jù)集成
6.2.1 數(shù)據(jù)集成方式
6.2.2 數(shù)據(jù)分發(fā)方式
6.2.3 數(shù)據(jù)集成技術(shù)
6.3 ETL.
6.3.1 ETL 簡(jiǎn)介.
6.3.2 ETL基本模塊
6.3.3 ETL工具
6.4 CDC .
6.4.1 CDC 的特性
6.4.2 CDC 的組成
6.4.3 CDC 的應(yīng)用場(chǎng)景
6.4.4 CDC 需要考慮的問題
6.5 本章小結(jié)
6.6 習(xí)題
第7章 ETL工具的Kettle
7.1 Kettle 的基本概念！
7.2 Kettle 的基本功能
7.3 安裝 Kettle. .
7.4 數(shù)據(jù)抽取
7.4.1 把文本文件導(dǎo)入Excel 文件
7.4.2 把文本文件導(dǎo)入 MySQL 數(shù)據(jù)庫
7.4.3 把 Excel 文件導(dǎo)入MySQL數(shù)據(jù)庫
7.5 數(shù)據(jù)清洗與轉(zhuǎn)換
7.5.1 使用 Kettle 實(shí)現(xiàn)數(shù)據(jù)排序
7.5.2 在 Kettle 中用正則表達(dá)式清洗數(shù)據(jù)
7.5.3 使用 Kettle 去除缺失值
7.5.4 使用 Kettle 轉(zhuǎn)化 MySQL 數(shù)據(jù)庫中的數(shù)據(jù)
7.6 數(shù)據(jù)加載
7.6.1 把本地文件加載到 HDFS 中
7.6.2 把 HDFS 文件加載到 MySQL 數(shù)庫
7.7 本章.小結(jié).
7.8 習(xí)題
實(shí)驗(yàn) 5 熟悉 Kettle 的基本使用方法
第 8 章使用 pandas 進(jìn)行數(shù)據(jù)清洗
8.1 NumPy 的基本使用方法
8.1.1 數(shù)組創(chuàng)建
8.1.2數(shù)組索引和切片
8.1.3 數(shù)組運(yùn)算
8.2 pandas的數(shù)據(jù)結(jié)構(gòu)
8.2.2 Series
8.2.2 DataFrame
8.2.3索引對(duì)象
8.3 pandas的基本功能
8.3.1 重新索引.
8.3.2 丟棄指定軸上的項(xiàng)
8.3.3 索引、選取和濾.
8.3.4 算術(shù)運(yùn)算.
8.3.5 DataFrame 和 Series 之間的運(yùn)算.
8.3.6 函數(shù)應(yīng)用和映射
8.3.7 排序和排名
8.3.8 分組
8.3.9 shape函數(shù)
8.3.10 info()函數(shù)
8.3.11 cut()函數(shù)
8.4 匯總和描述統(tǒng)計(jì)
8.4.1 與描述統(tǒng)計(jì)相關(guān)的函數(shù)
8.4.2 值、值計(jì)數(shù)以及成員資格,
8.5 處理缺失數(shù)據(jù)
8.5.1 檢查缺失值
8.5.2 清理填充缺失值.
8.5.3 排除缺少的值
8.6 綜合實(shí)例
8.6.1 Matplotlib 的使用方法
8.6.2 實(shí)例 1：對(duì)一個(gè)數(shù)據(jù)集進(jìn)行基本操作
8.6.3 實(shí)例 2:百度搜索指數(shù)分析
8.6.4 實(shí)例 3:電影評(píng)分?jǐn)?shù)據(jù)分析
8.6.5 實(shí)例 4:App行為數(shù)據(jù)預(yù)處理
8.7 本章小結(jié)
8.8 習(xí)題
實(shí)驗(yàn)6 pandas數(shù)據(jù)清洗初級(jí)實(shí)踐
參考文獻(xiàn)

你還可能感興趣

我要評(píng)論