亚洲国产2021乱码,欧美香蕉

本書概要介紹了如何使用Hadoop和Spark處理數(shù)據(jù)科學(xué)涉及的一系列主題：數(shù)據(jù)提取、數(shù)據(jù)再加工（datamunging，通常包含數(shù)據(jù)清洗和整合）、特征提取、機器學(xué)習(xí)、預(yù)測建模、異常檢測和自然語言處理。整書側(cè)重于具體的例子，并通過不同方式來提供對商業(yè)價值的洞察，全書共分三部分，第一部分包括第1、2、3章，第二部分包括第4、5、6章，第三部分包括第7、8、9、10、11、12章，后在附錄中提供了本書參考材料。

前　　言數(shù)據(jù)科學(xué)和機器學(xué)習(xí)作為許多創(chuàng)新技術(shù)和產(chǎn)品的核心，預(yù)計在可預(yù)見的未來將繼續(xù)顛覆全球許多行業(yè)和商業(yè)模式。早幾年，這些創(chuàng)新大多受限于數(shù)據(jù)的可用性。
隨著Apache Hadoop的引入，所有這一切都發(fā)生了變化。 Hadoop提供了一個平臺，可以廉價且大規(guī)模地存儲、管理和處理大型數(shù)據(jù)集，從而使大數(shù)據(jù)集的數(shù)據(jù)科學(xué)分析變得實際可行。在這個大規(guī)模數(shù)據(jù)深層分析的新世界，數(shù)據(jù)科學(xué)是核心競爭力，它使公司或組織得以超越傳統(tǒng)的商業(yè)模式，并在競爭和創(chuàng)新方面保持優(yōu)勢。在Hortonworks工作期間，我們有機會看到各種公司和組織如何利用這些新的機會，幫助它們使用 Hadoop和Spark進行規(guī)�；瘮�(shù)據(jù)科學(xué)實現(xiàn)。在本書中，我們想分享一些這樣的經(jīng)驗。
另外值得強調(diào)的是，Apache Hadoop已經(jīng)從早期的初始形態(tài)演變成整體強大的MapReduce引擎（Hadoop版本1），再到目前可運行在YARN上的多功能數(shù)據(jù)分析平臺（Hadoop版本2）。目前 Hadoop 不僅支持MapReduce，還支持Tez和Spark作為處理引擎。當(dāng)前版本的Hadoop為許多數(shù)據(jù)科學(xué)應(yīng)用程序提供了一個強大而高效的平臺，并為以前不可想象的新業(yè)務(wù)開辟了大有可為的新天地。
本書重點本書著重于在Hadoop和Spark環(huán)境中數(shù)據(jù)科學(xué)的實際應(yīng)用。由于數(shù)據(jù)科學(xué)的范圍非常廣泛，而且其中的每一個主題都是深入且復(fù)雜的，所以全面闡述數(shù)據(jù)科學(xué)極其困難。為此，我們嘗試在每個用例中覆蓋理論并在實際實現(xiàn)時輔以樣例，以期在理論和實踐之間達到平衡。
本書的目的不是深入了解每個機器學(xué)習(xí)或統(tǒng)計學(xué)方法的諸多數(shù)學(xué)細節(jié)，而是提供重要概念的高級描述以及在業(yè)務(wù)問題背景下踐行的指導(dǎo)原則。我們提供了一些參考文獻，這些參考文獻對書中技術(shù)的數(shù)學(xué)細節(jié)進行了更深入的介紹，附錄C中還提供了相關(guān)資源列表。
在學(xué)習(xí)Hadoop 時，訪問 Hadoop 集群環(huán)境可能會成為一個問題。找到一種有效的方式來“把玩”Hadoop 和 Spark對有些人來說可能是一個挑戰(zhàn)。如果要搭建最基礎(chǔ)的環(huán)境，建議使用 Hortonworks 虛擬機上的沙箱（sandbox），以便輕松開始使用Hadoop。沙箱是在虛擬機內(nèi)部可運行的完整的單節(jié)點Hadoop。虛擬機可以在 Windows、Mac OS 和 Linux 下運行。有關(guān)如何下載和安裝沙箱的更多信息，請參閱http://hortonworks.com/products/sandbox。有關(guān)Hadoop的進一步幫助信息，建議閱讀《Hadoop 2 Quick-Start Guide: Learn the Essentials of Big Data Computation in the Apache Hadoop 2 Ecosystem》一書并查看相關(guān)視頻，在附錄C中也可以找到這些信息。
誰應(yīng)該讀這本書本書面向那些有興趣了解數(shù)據(jù)科學(xué)且有意涉獵大規(guī)模數(shù)據(jù)集下的應(yīng)用的讀者。如果讀者想要更多地了解如何實現(xiàn)各種用例，找到最適合的工具和常見架構(gòu)，本書也提供了強大的技術(shù)基礎(chǔ)。本書還提供了一個業(yè)務(wù)驅(qū)動的觀點，即何時何地在大型數(shù)據(jù)集上應(yīng)用數(shù)據(jù)科學(xué)更有利，這可以幫助利益相關(guān)者了解自己的公司能產(chǎn)生什么樣的價值，以及在何處投資資源來進行大規(guī)模機器學(xué)習(xí)。
本書需要讀者有一定的經(jīng)驗。對于不熟悉數(shù)據(jù)科學(xué)的人來說，需要一些基本知識以了解不同的方法，包括統(tǒng)計概念（如均值和標準差），也需要一些編程背景（主要是Python，一點點Java或 Scala）以理解書中的例子。
對于有數(shù)據(jù)科學(xué)背景的人員，可能會碰到一些如熟悉眾多Apache項目的實際問題，但是大體上應(yīng)該對書中的內(nèi)容游刃有余。此外，所有示例都是基于文本的，并且需要熟悉Linux命令行。需要特別注意的是，我們沒有使用（或測試）Windows環(huán)境的示例。但是，沒有理由假定它們不會在其他環(huán)境中正常運行（Hortonworks支持Windows）。
在具體的Hadoop環(huán)境方面，所有示例和代碼都是在Hortonworks HDP Linux Hadoop版本（筆記本電腦或集群都適用）下運行的。開發(fā)環(huán)境在發(fā)布版本（Cloudera、MapR、Apache Source）或操作系統(tǒng)（Windows）上可能有所不同。但是，所有這些工具在兩種環(huán)境中都可使用。
如何使用本書本書有幾種不同類型的讀者：
數(shù)據(jù)科學(xué)家開發(fā)人員/數(shù)據(jù)工程師商業(yè)利益相關(guān)者雖然這些想?yún)⑴cHadoop分析的讀者具有不同背景，但他們的目標肯定是相同的：使用Hadoop和Spark處理大規(guī)模的數(shù)據(jù)分析。為此，我們設(shè)計了后續(xù)章節(jié)，以滿足所有讀者的需求。因此，對于在某領(lǐng)域具有良好實踐經(jīng)驗的讀者，可以選擇跳過相應(yīng)的章節(jié)。最后，我們也希望新手讀者將本書作為理解規(guī)�；臄�(shù)據(jù)科學(xué)的第一步。我們相信，即使你看得一頭霧水，書中的例子也是有價值的�？梢詤⒖己竺娴谋尘安牧蟻砑由罾斫�。
第一部分包括前3章。
第1章概述了數(shù)據(jù)科學(xué)及其歷史演變，闡述了常見的數(shù)據(jù)科學(xué)家成長之路。對于那些不熟悉數(shù)據(jù)科學(xué)的人，該章將幫助你了解為什么數(shù)據(jù)科學(xué)會發(fā)展成為一個強大的學(xué)科，并深入探討數(shù)據(jù)科學(xué)家是如何設(shè)計和優(yōu)化項目的。該章還會討論是什么造就了數(shù)據(jù)科學(xué)家，以及如何規(guī)劃這個方向的職業(yè)發(fā)展。
第2章概述了業(yè)務(wù)用例如何受現(xiàn)代數(shù)據(jù)流量、多樣性和速度的影響，并涵蓋了一些現(xiàn)實的數(shù)據(jù)科學(xué)用例，以幫助讀者了解其在各個行業(yè)和各種應(yīng)用中的優(yōu)勢。
第3章快速概述了Hadoop及其演變歷史，以及Hadoop生態(tài)系統(tǒng)中的各種工具等。對于

你還可能感興趣

我要評論