本書詳細(xì)闡述了大數(shù)據(jù)領(lǐng)域數(shù)據(jù)采集與預(yù)處理的相關(guān)理論和技術(shù)。全書共8章,內(nèi)容包括概述、大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建、網(wǎng)絡(luò)數(shù)據(jù)采集、分布式消息系統(tǒng)Kafka、日志采集系統(tǒng)Flume、數(shù)據(jù)倉庫中的數(shù)據(jù)集成、ETL工具Kettle、使用pandas進(jìn)行數(shù)據(jù)清洗。本書在第3章至第8章中安排了豐富的實(shí)踐操作,以便讀者更好地學(xué)習(xí)和掌握數(shù)據(jù)采集與預(yù)處理的關(guān)鍵技術(shù)。 本書可以作為高等院校大數(shù)據(jù)專業(yè)的大數(shù)據(jù)課程教材,也可供相關(guān)技術(shù)人員參考。
1.本書作者為大數(shù)據(jù)領(lǐng)域的知名作者廈門大學(xué)林子雨,作者長期從事大數(shù)據(jù)教學(xué),在大數(shù)據(jù)教育領(lǐng)域有較高的知名度和較大的影響力,其編著的《大數(shù)據(jù)技術(shù)原理與應(yīng)用 概念、存儲、處理、 分析與應(yīng)用(第3版)》一書今年銷售預(yù)計(jì)超過5萬冊;
2.本書內(nèi)容全面,配套資源豐富:PPT、教學(xué)大綱、授課視頻、實(shí)驗(yàn)指南、課后習(xí)題答案等;
3.有服務(wù)平臺:作者教學(xué)團(tuán)隊(duì)打造了在線的高校大數(shù)據(jù)課程公共服務(wù)平臺,為全國高校師生提供相關(guān)教學(xué)服務(wù)并經(jīng)常更新。目前該平臺已經(jīng)成為國內(nèi)高校大數(shù)據(jù)教學(xué)品牌,平臺累計(jì)訪問量超過1300萬次;
4.有教師服務(wù)QQ群:916443807。
林子雨 博士,國內(nèi)高校知名大數(shù)據(jù)教師,廈門大學(xué)計(jì)算機(jī)科學(xué)系副教授,廈門大學(xué)信息學(xué)院實(shí)驗(yàn)教學(xué)中心主任,廈門大學(xué)數(shù)據(jù)庫實(shí)驗(yàn)室負(fù)責(zé)人,中國高校首個(gè)數(shù)字教師提出者和建設(shè)者。2013年開始在廈門大學(xué)開設(shè)大數(shù)據(jù)課程,建設(shè)了國內(nèi)高校首個(gè)大數(shù)據(jù)課程公共服務(wù)平臺,平臺累計(jì)網(wǎng)絡(luò)訪問量超過1000萬次,成為全國高校大數(shù)據(jù)教學(xué)知名品牌,并榮獲2018年福建省教學(xué)成果二等獎(jiǎng)和2018年廈門大學(xué)教學(xué)成果特等獎(jiǎng),主持的課程大數(shù)據(jù)技術(shù)原理與應(yīng)用獲評2018年國家精品在線開放課程和2020年線上一流本科課程。
第 1 章概述.
1.1 數(shù)據(jù)
1.1.1 數(shù)據(jù)的概念.
1.1.2 數(shù)據(jù)類型
1.1.3 數(shù)據(jù)的組織形式.
1.1.4 數(shù)據(jù)的價(jià)值
1.1.5 數(shù)據(jù)爆炸.
1.2 數(shù)據(jù)分析過程.
1.3 數(shù)據(jù)采集與預(yù)處理的任務(wù)
1.4 數(shù)據(jù)采集
1.4.1 數(shù)據(jù)采集的概念
1.4.2 數(shù)據(jù)采集的三大要點(diǎn)
1.4.3 數(shù)據(jù)采集的數(shù)據(jù)源.
1.4.4 數(shù)據(jù)采集方法.
1.5 數(shù)據(jù)清洗
1.5.1 數(shù)據(jù)清洗的應(yīng)用領(lǐng)域
1.5.2 數(shù)據(jù)清洗的實(shí)現(xiàn)方式.
1.5.3 數(shù)據(jù)清洗的內(nèi)容.
1.5.4 數(shù)據(jù)清洗的注意事項(xiàng)
1.5.5 數(shù)據(jù)清洗的基本.流.程.
1.5.6 數(shù)據(jù)清洗的評價(jià)標(biāo).
1.6 數(shù)據(jù)集成.
1.7 數(shù)據(jù)轉(zhuǎn)換.
1.7.1 數(shù)據(jù)轉(zhuǎn)換策略.
1.7.2 平滑處理
1.7.3 規(guī)范化處理.
1.8 數(shù)據(jù)脫敏.
1.8.1 數(shù)據(jù)脫敏原則.
1.8.2 數(shù)據(jù)脫敏方法.
1.9 本章小結(jié).
1.10 習(xí)題
第 2 章 大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建.
2.1 Python 的安裝和使用.
2.1.1 Python 簡介
2.1.2 Python 的安裝
2.1.3 Python 的基本使用方法
2.1.4 Python 基礎(chǔ)語法知識
2.1.5 Python 第三方模塊的安裝。
2.2 JDK 的安裝.
2.3 MySQL 數(shù)據(jù)庫的安裝和使用
2.3.1 關(guān)系數(shù)據(jù)庫
2.3.2 關(guān)系數(shù)據(jù)庫標(biāo)準(zhǔn)語言SQL
2.3.3 安裝MySQL
2.3.4 MySQL 數(shù)據(jù)庫的使用方法
2.3.5 使用 Ppython操作MySQL數(shù)據(jù)庫
2.4 Hadoop的安裝和使用
2.4.1 Hadoop簡介
2.4.2分布式系統(tǒng)HDFS
2.4.3 Hadoop安裝
2.4.4 Hadoop的基本使用方法
第 3 章網(wǎng)絡(luò)數(shù)據(jù)采集.
3.1 網(wǎng)絡(luò)爬蟲概述.
3.1.1 什么是網(wǎng)絡(luò)爬蟲
3.1.2網(wǎng)絡(luò)爬蟲的類型
3.1.3反爬機(jī)制
3.2 網(wǎng)頁基礎(chǔ)知識
3.2.1超文本和HTML
3.2.2 HTTP.
3.3 用 Python 實(shí)現(xiàn)HTTP請求
3.3.1 urllib模塊
3.3.2 urllib3 模塊.
3.3.3 requests 模塊.
3.4 定制 request.s.
3.4.1 傳遞 URL參數(shù),
3.4.2 定制請求頭,
3.4.3 網(wǎng)絡(luò)超時(shí)
3.5 解析網(wǎng)頁
3.5.1 BeautifulSoup 簡介.
3.5.2 BeautifulSoup 四大對象
3.5.3 遍歷文件樹
3.5.4 搜索文檔樹
3.5.5 CSS選擇器
3.6 綜合實(shí)例
實(shí)例1:采集網(wǎng)頁數(shù)據(jù)保存到文本
實(shí)例2:采集網(wǎng)頁數(shù)據(jù)保存到MYSQL數(shù)據(jù)庫
3.7 Scrapy 框架
3.7.1 Scrapy 框架概述
3.7.2 XPath 語言
3.7.3 Scrapy 框架應(yīng)用實(shí)例,
3.8 本章小結(jié)
3.9 習(xí)題.
實(shí)驗(yàn) 2 網(wǎng)絡(luò)爬蟲初級實(shí)踐
第 4 章分布式消息系統(tǒng) afu.a .
4.1 Kafka 簡介
4.1.1 Kafk的特性
4.1.2 Kafka 的應(yīng)用場景.
4.1.3 Kafka 的消息傳遞模式….
4.2 Kafka 在大數(shù)據(jù)生態(tài)系統(tǒng)中的作-用
4.3 Kafka 與 Flume 的區(qū)別與聯(lián)
4.4 Kafka 相關(guān)概念
4.5 Kafka 的安裝和使用
4.5.1 安裝Kafk
4.5.2 使用 Kafka
4.6 使用 Python 操作 Kafka
4.7 Kafka 與 MysQL 的組合使用,
4.8 本章小結(jié)
4.9 習(xí)題
實(shí)驗(yàn) 3 熟悉 Kafka 的基本使用方法
第 5 章日志采集統(tǒng)Flume
5.1 Flume 簡介.
5.2 Flume 的安裝和使用
5.2.1 Flume 的安裝.
5.2.2 Flume 的使用.
5.3 Flume 和 Kafka 的組合使用.
5.4 采集日志文件到 HDFS.
5.4.1 采集目錄到 HDFS
5.4.2 采集文件到 HDFS.
5.5 采集 MySQL 數(shù)據(jù)到 HDFS
5.5.1 準(zhǔn)備工作
5.5.2 創(chuàng)建 MysQL 數(shù)據(jù)庫.
5.6 本章小結(jié).
5.7 習(xí)題
實(shí)驗(yàn) 4熟悉 Flume 的基本使用方法
第 6 章 數(shù)據(jù)倉庫中的數(shù)據(jù)集成
6.1數(shù)據(jù)倉庫的概念
6.1.1傳統(tǒng)的數(shù)據(jù)倉庫
6.1.2 實(shí)時(shí)主動(dòng)數(shù)據(jù)倉庫
6.2 數(shù)據(jù)集成
6.2.1 數(shù)據(jù)集成方式
6.2.2 數(shù)據(jù)分發(fā)方式
6.2.3 數(shù)據(jù)集成技術(shù)
6.3 ETL.
6.3.1 ETL 簡介.
6.3.2 ETL基本模塊
6.3.3 ETL工具
6.4 CDC .
6.4.1 CDC 的特性
6.4.2 CDC 的組成
6.4.3 CDC 的應(yīng)用場景
6.4.4 CDC 需要考慮的問題
6.5 本章小結(jié)
6.6 習(xí)題
第7章 ETL工具的Kettle
7.1 Kettle 的基本概念!
7.2 Kettle 的基本功能
7.3 安裝 Kettle. .
7.4 數(shù)據(jù)抽取
7.4.1 把文本文件導(dǎo)入Excel 文件
7.4.2 把文本文件導(dǎo)入 MySQL 數(shù)據(jù)庫
7.4.3 把 Excel 文件導(dǎo)入MySQL數(shù)據(jù)庫
7.5 數(shù)據(jù)清洗與轉(zhuǎn)換
7.5.1 使用 Kettle 實(shí)現(xiàn)數(shù)據(jù)排序
7.5.2 在 Kettle 中用正則表達(dá)式清洗數(shù)據(jù)
7.5.3 使用 Kettle 去除缺失值
7.5.4 使用 Kettle 轉(zhuǎn)化 MySQL 數(shù)據(jù)庫中的數(shù)據(jù)
7.6 數(shù)據(jù)加載
7.6.1 把本地文件加載到 HDFS 中
7.6.2 把 HDFS 文件加載到 MySQL 數(shù)庫
7.7 本章.小結(jié).
7.8 習(xí)題
實(shí)驗(yàn) 5 熟悉 Kettle 的基本使用方法
第 8 章 使用 pandas 進(jìn)行數(shù)據(jù)清洗
8.1 NumPy 的基本使用方法
8.1.1 數(shù)組創(chuàng)建
8.1.2數(shù)組索引和切片
8.1.3 數(shù)組運(yùn)算
8.2 pandas的數(shù)據(jù)結(jié)構(gòu)
8.2.2 Series
8.2.2 DataFrame
8.2.3索引對象
8.3 pandas的基本功能
8.3.1 重新索引.
8.3.2 丟棄指定軸上的項(xiàng)
8.3.3 索引、選取和濾.
8.3.4 算術(shù)運(yùn)算.
8.3.5 DataFrame 和 Series 之間的運(yùn)算.
8.3.6 函數(shù)應(yīng)用和映射
8.3.7 排序和排名
8.3.8 分組
8.3.9 shape函數(shù)
8.3.10 info()函數(shù)
8.3.11 cut()函數(shù)
8.4 匯總和描述統(tǒng)計(jì)
8.4.1 與描述統(tǒng)計(jì)相關(guān)的函數(shù)
8.4.2 值、值計(jì)數(shù)以及成員資格,
8.5 處理缺失數(shù)據(jù)
8.5.1 檢查缺失值
8.5.2 清理 填充缺失值.
8.5.3 排除缺少的值
8.6 綜合實(shí)例
8.6.1 Matplotlib 的使用方法
8.6.2 實(shí)例 1:對一個(gè)數(shù)據(jù)集進(jìn)行基本操作
8.6.3 實(shí)例 2:百度搜索指數(shù)分析
8.6.4 實(shí)例 3:電影評分?jǐn)?shù)據(jù)分析
8.6.5 實(shí)例 4:App行為數(shù)據(jù)預(yù)處理
8.7 本章小結(jié)
8.8 習(xí)題
實(shí)驗(yàn)6 pandas數(shù)據(jù)清洗初級實(shí)踐
參考文獻(xiàn)