定 價(jià):58 元
叢書(shū)名:大數(shù)據(jù)類(lèi)專(zhuān)業(yè)規(guī)劃教材 , 大數(shù)據(jù)技術(shù)與應(yīng)用叢書(shū)
- 作者:黑馬程序員 著
- 出版時(shí)間:2020/4/1
- ISBN:9787302550877
- 出 版 社:清華大學(xué)出版社
- 中圖法分類(lèi):TP274
- 頁(yè)碼:394
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16開(kāi)
數(shù)據(jù)清洗是大數(shù)據(jù)預(yù)處理的關(guān)鍵環(huán)節(jié)。面對(duì)錯(cuò)綜復(fù)雜的數(shù)據(jù),傳統(tǒng)的清洗“臟”數(shù)據(jù)工作單調(diào)且異常辛苦,如果能利用正確的工具和方法,可以讓數(shù)據(jù)清洗工作變得事半功倍。
《數(shù)據(jù)清洗》講解數(shù)據(jù)清洗的理論知識(shí)和實(shí)際應(yīng)用,《數(shù)據(jù)清洗》共8章:第1章主要帶領(lǐng)大家簡(jiǎn)單認(rèn)識(shí)數(shù)據(jù)清洗;第2章主要講解ETL技術(shù)相關(guān)的知識(shí);第3章講解Kettle工具的基本使用;第4章主要講解數(shù)據(jù)清洗的一步——數(shù)據(jù)抽;第5章主要講解數(shù)據(jù)清洗與檢驗(yàn);第6章主要講解數(shù)據(jù)轉(zhuǎn)換相關(guān)的知識(shí);第7章主要講解數(shù)據(jù)加載相關(guān)的知識(shí);第8章利用前面章節(jié)所學(xué)的知識(shí)構(gòu)建一個(gè)DVD租賃商店數(shù)據(jù)倉(cāng)庫(kù),目的是實(shí)現(xiàn)定期從源數(shù)據(jù)庫(kù)sakila中抽取增量數(shù)據(jù),轉(zhuǎn)換成F合DVD租賃業(yè)務(wù)的數(shù)據(jù),最后加載到DVD租賃商店數(shù)據(jù)倉(cāng)庫(kù)中,便于后續(xù)在線DVD租賃商店的決策者對(duì)數(shù)據(jù)進(jìn)行分析得出商業(yè)決策。
《數(shù)據(jù)清洗》附有配套視頻、源代碼、習(xí)題、教學(xué)設(shè)計(jì)、教學(xué)課件等資源。同時(shí),為了幫助初學(xué)者更好地學(xué)習(xí)《數(shù)據(jù)清洗》中的內(nèi)容,還提供了在線答疑,歡迎讀者關(guān)注。
《數(shù)據(jù)清洗》可作為高等院校本專(zhuān)科計(jì)算機(jī)、信息管理等相關(guān)專(zhuān)業(yè)的大數(shù)據(jù)課程教材,也可供相關(guān)技術(shù)人員參考,是一本適合廣大計(jì)算機(jī)編程愛(ài)好者的優(yōu)秀讀物。
近年來(lái),大數(shù)據(jù)技術(shù)掀起了計(jì)算機(jī)領(lǐng)域的一個(gè)新浪潮,無(wú)論是數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)可視化,還是機(jī)器學(xué)習(xí)、人工智能,它們都繞不開(kāi)“數(shù)據(jù)”這個(gè)主題。從統(tǒng)計(jì)學(xué)家到軟件開(kāi)發(fā)人員,再到圖形設(shè)計(jì)師,越來(lái)越多的人對(duì)數(shù)據(jù)科學(xué)產(chǎn)生了興趣,廉價(jià)的硬件、可靠的數(shù)據(jù)處理工具和數(shù)據(jù)可視化工具以及海量的數(shù)據(jù),這些資源使我們能夠輕松地、精確地發(fā)現(xiàn)趨勢(shì)、預(yù)測(cè)未來(lái)。
由于海量數(shù)據(jù)的來(lái)源是廣泛的,數(shù)據(jù)類(lèi)型也是多而繁雜的,因此數(shù)據(jù)中會(huì)夾雜著不完整的、重復(fù)的以及錯(cuò)誤的數(shù)據(jù),如果直接使用這些原始數(shù)據(jù),會(huì)嚴(yán)重影響數(shù)據(jù)決策的效率。因此,對(duì)原始數(shù)據(jù)進(jìn)行有效的清洗是大數(shù)據(jù)分析和應(yīng)用過(guò)程中的關(guān)鍵環(huán)節(jié)。
本書(shū)共分為8章,各章內(nèi)容介紹如下:
第1章主要是帶領(lǐng)大家簡(jiǎn)單認(rèn)識(shí)數(shù)據(jù)清洗的背景、定義、原理、基本流程、清洗策略以及常見(jiàn)的數(shù)據(jù)清洗方法。通過(guò)本章的學(xué)習(xí),讀者可以對(duì)數(shù)據(jù)清洗有基本的認(rèn)識(shí),便于后續(xù)章節(jié)的學(xué)習(xí)。
第2章主要講解ETL技術(shù)相關(guān)的知識(shí),即基于ETL的數(shù)據(jù)清洗(ETL的概念、體系結(jié)構(gòu))、ETL關(guān)鍵技術(shù)(抽取數(shù)據(jù)的技術(shù)、數(shù)據(jù)清洗轉(zhuǎn)換的技術(shù)以及數(shù)據(jù)加載的技術(shù))和ETL常見(jiàn)工具。通過(guò)本章的學(xué)習(xí),讀者可以認(rèn)識(shí)ETL,并熟悉ETL的關(guān)鍵技術(shù)和ETL常見(jiàn)的工具。
第3章主要講解數(shù)據(jù)清洗工具Kettle的相關(guān)知識(shí),即Kettle的概述、設(shè)計(jì)原則、下載安裝以及基本概念和基本功能。通過(guò)本章的學(xué)習(xí),讀者可以使用Kettle工具對(duì)ETL數(shù)據(jù)進(jìn)行相關(guān)處理(抽取、清洗轉(zhuǎn)換以及加載)。
第4章主要講解數(shù)據(jù)清洗的第一步——數(shù)據(jù)抽取,即抽取文本數(shù)據(jù)、Web數(shù)據(jù)以及數(shù)據(jù)庫(kù)數(shù)據(jù)的相關(guān)知識(shí)。通過(guò)本章的學(xué)習(xí),讀者可以掌握抽取各種形式的數(shù)據(jù)并保存至數(shù)據(jù)庫(kù)中,便于后續(xù)對(duì)數(shù)據(jù)進(jìn)行相關(guān)清洗轉(zhuǎn)換和分析。
第5章主要講解數(shù)據(jù)的清洗與檢驗(yàn)相關(guān)的知識(shí),即數(shù)據(jù)去重、缺失值處理、異常值處理以及數(shù)據(jù)檢驗(yàn)知識(shí)。通過(guò)本章的學(xué)習(xí),讀者可以掌握對(duì)重復(fù)數(shù)據(jù)、缺失值數(shù)據(jù)、異常值數(shù)據(jù)的處理,也可以掌握對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)的操作。
第6章主要講解數(shù)據(jù)轉(zhuǎn)換相關(guān)的知識(shí),即多數(shù)據(jù)源合并、不一致數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換、數(shù)據(jù)的商務(wù)規(guī)則計(jì)算的知識(shí)。通過(guò)本章的學(xué)習(xí),讀者可以掌握數(shù)據(jù)轉(zhuǎn)換操作,實(shí)現(xiàn)將企業(yè)中的數(shù)據(jù)進(jìn)行規(guī)范化處理。
第1章 數(shù)據(jù)清洗概述
1.1 數(shù)據(jù)清洗的背景
1.1.1 數(shù)據(jù)質(zhì)量概述
1.1.2 數(shù)據(jù)質(zhì)量的評(píng)價(jià)指標(biāo)
1.1.3 數(shù)據(jù)質(zhì)量的問(wèn)題分類(lèi)
1.2 數(shù)據(jù)清洗的定義
1.3 數(shù)據(jù)清洗的原理
1.4 數(shù)據(jù)清洗的基本流程
1.5 數(shù)據(jù)清洗的策略
1.6 常見(jiàn)的數(shù)據(jù)清洗方法
1.7 本章小結(jié)
1.8 本章習(xí)題
第2章 初識(shí)ETL
2.1 基于ETL的數(shù)據(jù)清洗
2.1.1 ETL的概念
2.1.2 ETL的體系結(jié)構(gòu)
2.2 ETL關(guān)鍵技術(shù)
2.2.1 數(shù)據(jù)的抽取
2.2.2 數(shù)據(jù)的清洗轉(zhuǎn)換
2.2.3 數(shù)據(jù)的加載
2.3 ETL常見(jiàn)工具介紹
2.4 本章小結(jié)
2.5 本章習(xí)題
第3章 Kettle工具的基本使用
3.1 Kettle簡(jiǎn)介
3.1.1 Kettle概述
3.1.2 Kettle的設(shè)計(jì)原則
3.2 Kettle的下載安裝
3.3 Kettle的基本概念
3.3.1 轉(zhuǎn)換
3.3.2 作業(yè)
3.4 Kettle的基本功能
3.4.1 轉(zhuǎn)換管理
3.4.2 作業(yè)管理
3.4.3 數(shù)據(jù)庫(kù)連接
3.5 本章小結(jié)
3.6 本章習(xí)題
第4章 數(shù)據(jù)抽取
4.1 抽取文本數(shù)據(jù)
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web數(shù)據(jù)
4.2.1 HTML網(wǎng)頁(yè)的數(shù)據(jù)抽取
4.2.2 XML文件的數(shù)據(jù)抽取
4.2.3 JSON文件的數(shù)據(jù)抽取
4.3 抽取數(shù)據(jù)庫(kù)數(shù)據(jù)
4.3.1 抽取關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)
4.3.2 抽取非關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)
4.4 本章小結(jié)
4.5 本章習(xí)題
……
第5章 數(shù)據(jù)的清洗與檢驗(yàn)
第6章 數(shù)據(jù)轉(zhuǎn)換
第7章 數(shù)據(jù)加載
第8章 綜合案例——構(gòu)建DVD租賃商店數(shù)據(jù)倉(cāng)庫(kù)