99久久夜色精品国产亚洲,一级黄色片在线看,最新免费精品无码片

本書系統(tǒng)介紹了大數(shù)據(jù)基礎(chǔ)知識和相關(guān)技術(shù)，全書分為大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲與管理篇、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實(shí)踐與應(yīng)用案例5篇,共17章，主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺Hadoop基礎(chǔ)、大數(shù)據(jù)存儲與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、大數(shù)據(jù)采集與預(yù)處理技術(shù)、大數(shù)據(jù)采集工具、大數(shù)據(jù)計算模式、大數(shù)據(jù)MapReduce計算模型、大數(shù)據(jù)Spark計算模型、大數(shù)據(jù)Flink計算模型、大數(shù)據(jù)MapReduce基礎(chǔ)算法、大數(shù)據(jù)挖掘算法、Hadoop大數(shù)據(jù)平臺實(shí)踐、開敞式碼頭系泊纜力預(yù)測應(yīng)用案例以及曙光XData大數(shù)據(jù)平臺及應(yīng)用案例。全書提供了大量應(yīng)用實(shí)例，且大多章后附有習(xí)題。本書特色在于融會貫通大數(shù)據(jù)基本概念與大數(shù)據(jù)技術(shù)及應(yīng)用，很好地將大數(shù)據(jù)概念、技術(shù)及應(yīng)用融合在一起，便于讀者更好地理解大數(shù)據(jù)基本概念，更快掌握大數(shù)據(jù)前沿技術(shù)及其應(yīng)用。

本書適合作為高等院校計算機(jī)、軟件工程、信息管理等相關(guān)專業(yè)的本科生及研究生大數(shù)據(jù)技術(shù)課程的教學(xué)用書，也可作為相關(guān)IT工程技術(shù)人員的參考用書。
本書適合機(jī)器學(xué)習(xí)初學(xué)者，包括本科生、研究生以及未來有意向從事人工智能領(lǐng)域工作的人員學(xué)習(xí)使用。

《大數(shù)據(jù)技術(shù)基礎(chǔ)》第1版于2019年8月完成，距今已有4年多的時間。在過去的4年時間里，一方面，大數(shù)據(jù)技術(shù)發(fā)展迅猛，諸如Flink流計算等新技術(shù)迅速崛起，為大數(shù)據(jù)采集、存儲、處理和計算帶來眾多新概念、新框架和新方法。因此，我們對第1版內(nèi)容進(jìn)行了補(bǔ)充和修訂，例如，有關(guān)Kafka消息隊列、Flink流計算模型等內(nèi)容，以適應(yīng)大數(shù)據(jù)技術(shù)的快速發(fā)展，保持本書的先進(jìn)性。另一方面，我們結(jié)合廣大一線教師在使用本教材進(jìn)行教學(xué)過程中的收獲與體會，以及提出的寶貴意見和修改建議，對第1版中有關(guān)大數(shù)據(jù)HBase數(shù)據(jù)庫和大數(shù)據(jù)Hive數(shù)據(jù)倉庫操作實(shí)踐等內(nèi)容進(jìn)行了補(bǔ)充和修訂，以適應(yīng)廣大師生實(shí)踐大數(shù)據(jù)操作需求，保持本書的實(shí)用性。

本書依然保持融會貫通大數(shù)據(jù)概念與大數(shù)據(jù)技術(shù)及應(yīng)用特色，很好地將大數(shù)據(jù)概念、技術(shù)及應(yīng)用融合在一起，便于讀者更好地理解大數(shù)據(jù)基本概念，更快掌握大數(shù)據(jù)前沿技術(shù)及其應(yīng)用。本書依然沿用第1版的篇幅設(shè)計，全書分為5篇：大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實(shí)踐與應(yīng)用案例。

在章節(jié)部分，新增加一章，即第12章大數(shù)據(jù)Flink計算模型，被安排在第4篇大數(shù)據(jù)分析與挖掘中。新增加的Kafka消息隊列大數(shù)據(jù)采集系統(tǒng)，被安排在第3篇大數(shù)據(jù)采集與預(yù)處理的第8章大數(shù)據(jù)采集工具中的第3節(jié)。新增加的大數(shù)據(jù)回歸分析算法被安排在第4篇大數(shù)據(jù)分析與挖掘的第14章大數(shù)據(jù)挖掘算法中的第4節(jié)。除此之外，對本書的第1章大數(shù)據(jù)基本概念、第2章大數(shù)據(jù)平臺Hadoop基礎(chǔ)、第4章大數(shù)據(jù)分布式文件系統(tǒng)HDFS、第5章大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、第6章大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、第8章第2節(jié)Flume日志大數(shù)據(jù)采集系統(tǒng)和第10章大數(shù)據(jù)MapReduce計算模型等進(jìn)行了內(nèi)容更新和補(bǔ)充。

修訂后，全書共17章，主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺Hadoop基礎(chǔ)、大數(shù)據(jù)存儲與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、大數(shù)據(jù)采集與預(yù)處理技術(shù)、大數(shù)據(jù)采集工具、大數(shù)據(jù)計算模式、大數(shù)據(jù)MapReduce計算模型、大數(shù)據(jù)Spark計算模型、大數(shù)據(jù)Flink計算模型、大數(shù)據(jù)MapReduce基礎(chǔ)算法、大數(shù)據(jù)挖掘算法、Hadoop大數(shù)據(jù)平臺實(shí)踐、開敞式碼頭系泊纜力預(yù)測應(yīng)用案例以及曙光XData大數(shù)據(jù)平臺及應(yīng)用案例。全書提供了大量應(yīng)用實(shí)例，每章后附有習(xí)題。

本書適合作為高等院校計算機(jī)、軟件工程、信息管理等相關(guān)專業(yè)的本科生及研究生學(xué)習(xí)大數(shù)據(jù)技術(shù)的教學(xué)用書，也可作為相關(guān)IT工程技術(shù)人員的參考用書。

本書修訂由大連交通大學(xué)宋旭東擔(dān)任主編，劉月凡、宋亮、王立娟、李修飛擔(dān)任副主編，路文靜、路旭明、王春爽、于林林參編完成。在本書撰寫過程中，陳煜、李帥陽、許翰文等做了大量輔助工作。在此，衷心感謝上述編寫參與人員在本書寫作過程中的共同努力和辛苦付出！

在本書撰寫過程中，參考了大量國內(nèi)外教材、論文、技術(shù)論壇等相關(guān)資料，對相應(yīng)的作者表示感謝。由于作者水平有限，書中不足之處在所難免，敬請廣大讀者批評指正。

編者
2024年5月

前言(第1版)
隨著大數(shù)據(jù)時代的來臨，大數(shù)據(jù)相關(guān)概念和技術(shù)被人們廣泛關(guān)注。目前，大數(shù)據(jù)已廣泛應(yīng)用在包括科研、交通、通信、醫(yī)療、金融、制造、體育、個性化生活、安全等在內(nèi)的各行各業(yè)中，它對人們的思維模式及科學(xué)研究方法帶來深遠(yuǎn)影響，已被列為國家重大發(fā)展戰(zhàn)略。社會各界對具有大數(shù)據(jù)專業(yè)素養(yǎng)的高級人才求賢若渴。鑒于此，國內(nèi)外一些高校先后開設(shè)了數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)，旨在培養(yǎng)一批具備大數(shù)據(jù)技術(shù)的高級人才以滿足社會需求。

為滿足相關(guān)技術(shù)人員學(xué)習(xí)大數(shù)據(jù)相關(guān)技術(shù)的需求，我們在總結(jié)近幾年在大數(shù)據(jù)技術(shù)課程教學(xué)經(jīng)驗和項目成果的基礎(chǔ)上，同時引入中科曙光XData大數(shù)據(jù)相關(guān)技術(shù)及應(yīng)用案例，從理論結(jié)合實(shí)踐的角度，將大數(shù)據(jù)基本概念與大數(shù)據(jù)技術(shù)相結(jié)合，精心組織設(shè)計完成了本書。

本書全面系統(tǒng)地介紹了大數(shù)據(jù)基礎(chǔ)知識和相關(guān)技術(shù)，全書分為：大數(shù)據(jù)基礎(chǔ)、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)采集與預(yù)處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實(shí)踐與應(yīng)用案例5篇,共16章，主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)存儲與管理概念及技術(shù)、大數(shù)據(jù)采集及預(yù)處理技術(shù)、大數(shù)據(jù)計算模式、大數(shù)據(jù)分布式并行處理框架Hadoop、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、大數(shù)據(jù)MapReduce分布式并行計算模型、大數(shù)據(jù)Spark內(nèi)存計算模型、大數(shù)據(jù)處理基礎(chǔ)算法、大數(shù)據(jù)關(guān)聯(lián)分析、分類、聚類典型數(shù)據(jù)挖掘算法、大數(shù)據(jù)Hadoop平臺操作實(shí)踐、大數(shù)據(jù)預(yù)測應(yīng)用案例分析以及中科曙光XData大數(shù)據(jù)平臺架構(gòu)、關(guān)鍵技術(shù)及其應(yīng)用案例。全書提供了大量應(yīng)用實(shí)例，每章后附有習(xí)題。本書特色在于融會貫通大數(shù)據(jù)基本概念與大數(shù)據(jù)技術(shù)及應(yīng)用，很好地將大數(shù)據(jù)概念、技術(shù)及應(yīng)用融合在一起，便于讀者更好地理解大數(shù)據(jù)基本概念，更快掌握大數(shù)據(jù)前沿技術(shù)及其應(yīng)用。

第一篇大數(shù)據(jù)基礎(chǔ)：本篇著重介紹大數(shù)據(jù)基本概念和大數(shù)據(jù)Hadoop平臺組件，旨在幫助讀者正確理解大數(shù)據(jù)的核心概念及其應(yīng)用技術(shù)，為讀者后續(xù)章節(jié)的學(xué)習(xí)奠定基礎(chǔ)。本篇包括2章：

第1章主要介紹了大數(shù)據(jù)產(chǎn)生的背景及其發(fā)展歷程，大數(shù)據(jù)給我們科學(xué)研究及思維模式帶來的影響，大數(shù)據(jù)的4V特征及在科研、交通、通信、醫(yī)療、金融、制造、體育、個性化生活、安全等領(lǐng)域的應(yīng)用。同時也簡要介紹了大數(shù)據(jù)框架體系和關(guān)鍵技術(shù)，包括數(shù)據(jù)采集與預(yù)處理技術(shù)、數(shù)據(jù)存儲和管理技術(shù)、數(shù)據(jù)分析與挖掘技術(shù)、數(shù)據(jù)可視化技術(shù)、數(shù)據(jù)安全保護(hù)技術(shù)、云計算、物聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)等技術(shù)。

第2章主要介紹了大數(shù)據(jù)并行計算框架Hadoop平臺，包括Hadoop的項目來源、發(fā)展歷程、主要用途、分布式存儲和并行計算基本原理，以及對Hadoop平臺核心組件(HDFS、MapReduce、ZooKeeper、Yarn、HBase、Hive、Spark、Mahout等)的簡要描述。

第二篇大數(shù)據(jù)存儲與管理：本篇著重介紹大數(shù)據(jù)存儲與管理基本概念和常用的大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive，旨在幫助讀者正確理解大數(shù)據(jù)存儲與管理的核心概念及其相關(guān)軟件技術(shù)。本篇包括4章：

第3章主要介紹了大數(shù)據(jù)存儲與管理的基本概念和技術(shù)，包括數(shù)據(jù)管理技術(shù)發(fā)展回顧，大數(shù)據(jù)數(shù)據(jù)類型，大數(shù)據(jù)分布式系統(tǒng)基礎(chǔ)理論，NoSQL數(shù)據(jù)庫的興起，以及與大數(shù)據(jù)存儲和管理密切相關(guān)的分布式存儲技術(shù)、虛擬化技術(shù)和云存儲技術(shù)。

第4章主要介紹了大數(shù)據(jù)分布式文件系統(tǒng)HDFS，包括HDFS的設(shè)計特點(diǎn)，體系結(jié)構(gòu)和工作組件，闡述了HDFS工作流程，分析了在HDFS下讀寫數(shù)據(jù)的過程，圍繞HDFS基本操作，詳細(xì)介紹了HDFS文件操作命令，并對HDFS API主要編程接口進(jìn)行介紹，給出了編程實(shí)例。

第5章主要介紹了大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase，重點(diǎn)描述了HBase列式數(shù)據(jù)庫的邏輯模型和物理模型的基本概念，給出了HBase體系結(jié)構(gòu)及其工作原理。結(jié)合實(shí)例介紹了操作HBase表及其數(shù)據(jù)的操作命令，并對HBase API主要編程接口進(jìn)行介紹，給出了編程實(shí)例。

第6章主要介紹了大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive，包括Hive的工作原理和執(zhí)行流程、Hive的數(shù)據(jù)類型與數(shù)據(jù)模型，常用的Hive SQL語句及其操作示例，以及Hive主要訪問接口等。

第三篇大數(shù)據(jù)采集與預(yù)處理：本篇著重介紹大數(shù)據(jù)采集與預(yù)處理技術(shù)，對常用大數(shù)據(jù)采集工具進(jìn)行了簡單介紹。本篇包括2章：

第7章主要介紹了大數(shù)據(jù)采集與預(yù)處理相關(guān)技術(shù)，包括數(shù)據(jù)抽取、轉(zhuǎn)換和加載技術(shù)，數(shù)據(jù)爬蟲技術(shù)、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約的方法和技術(shù)。

第8章主要介紹了幾個常用的大數(shù)據(jù)采集工具，包括Sqoop關(guān)系型大數(shù)據(jù)采集工具，F(xiàn)lume日志大數(shù)據(jù)采集工具和分布式大數(shù)據(jù)Nutch爬蟲系統(tǒng)。

第四篇大數(shù)據(jù)分析與挖掘：本篇著重介紹了大數(shù)據(jù)計算模式，大數(shù)據(jù)MapReduce計算模型，大數(shù)據(jù)Spark內(nèi)存計算模型，以及大數(shù)據(jù)MapReduce基礎(chǔ)算法和挖掘算法，旨在幫助讀者全面理解大數(shù)據(jù)分析與挖掘的核心思想與編程技術(shù)。本篇包括5章：

第9章主要介紹了5種大數(shù)據(jù)計算模式，包括大數(shù)據(jù)批處理、大數(shù)據(jù)查詢分析計算、大數(shù)據(jù)流計算、大數(shù)據(jù)迭代計算、大數(shù)據(jù)圖計算。

第10章主要介紹了大數(shù)據(jù)MapReduce計算模型，包括MapReduce的由來、主要功能、技術(shù)特征，MapReduce的模型框架和數(shù)據(jù)處理過程，MapReduce程序執(zhí)行過程，以及MapReduce主要編程接口及WordCount實(shí)例分析。

第11章主要介紹了大數(shù)據(jù)Spark計算模型，包括Spark的產(chǎn)生、技術(shù)特征，Spark的工作流程與運(yùn)行模式，以及Spark主要訪問接口并給出了三種WordCount編程實(shí)現(xiàn)。

第12章主要介紹了大數(shù)據(jù)MapReduce基礎(chǔ)算法，包括關(guān)系代數(shù)運(yùn)算的MapReduce設(shè)計與實(shí)現(xiàn)，矩陣乘法的MapReduce設(shè)計與實(shí)現(xiàn)。

第13章主要介紹了大數(shù)據(jù)MapReduce挖掘算法，包括大數(shù)據(jù)關(guān)聯(lián)規(guī)則Apriori算法的MapReduce設(shè)計與實(shí)現(xiàn)，大數(shù)據(jù)KNN分類算法的MapReduce設(shè)計與實(shí)現(xiàn)，大數(shù)據(jù)KMeans聚類算法的MapReduce設(shè)計與實(shí)現(xiàn)。

第五篇大數(shù)據(jù)平臺Hadoop實(shí)踐與應(yīng)用案例：本篇著重介紹大數(shù)據(jù)Hadoop平臺的實(shí)踐操作，給出了大數(shù)據(jù)技術(shù)在開敞式碼頭系泊纜力預(yù)測中的應(yīng)用，以及中科曙光XData大數(shù)據(jù)平臺架構(gòu)、關(guān)鍵技術(shù)及其應(yīng)用案例，旨在幫助讀者理解如何將大數(shù)據(jù)的方法和技術(shù)運(yùn)用到實(shí)際項目需求中，促進(jìn)大數(shù)據(jù)技術(shù)在各領(lǐng)域行業(yè)中的應(yīng)用。本篇包括3章：

第14章主要介紹了Hadoop大數(shù)據(jù)平臺操作實(shí)踐，包括Hadoop系統(tǒng)的安裝與配置詳細(xì)操作，Hadoop平臺文件操作及程序運(yùn)行命令，以及Hadoop平臺下程序開發(fā)方法和過程。

第15章主要介紹了大數(shù)據(jù)方法和技術(shù)在開敞式碼頭系泊纜力預(yù)測中的應(yīng)用，給出了大數(shù)據(jù)系泊纜力相似性查詢預(yù)測方法，并基于Hadoop大數(shù)據(jù)平臺完成了系泊纜力預(yù)測的相似性查詢方法MapReduce設(shè)計與實(shí)現(xiàn)。

第16章主要介紹了中科曙光XData大數(shù)據(jù)方法的架構(gòu)及關(guān)鍵技術(shù)，包括曙光XData大數(shù)據(jù)集成與數(shù)據(jù)治理組件、大數(shù)據(jù)存儲與數(shù)據(jù)計算組件、大數(shù)據(jù)分析與數(shù)據(jù)智能組件、大數(shù)據(jù)可視化分析組件、大數(shù)據(jù)安全管控與管理運(yùn)維組件，并給出了基于曙光XData大數(shù)據(jù)平臺的智能交通應(yīng)用案例。

本書適合作為高等院校計算機(jī)、軟件工程、信息管理等相關(guān)專業(yè)的本科生及研究生大數(shù)據(jù)技術(shù)課程的教材，也可作為相關(guān)IT工程技術(shù)人員的參考用書。

本書由大連交通大學(xué)宋旭東教授擔(dān)任主編、并輔助全書內(nèi)容的組織和編審。宋亮、王立娟、張鵬擔(dān)任副主編。本書第一篇、第四篇、第五篇由宋旭東編寫，第二篇由宋亮編寫，第7章由王立娟編寫，第8章由張鵬編寫。在本書撰寫過程中，叢郁洋、楊杰、朱大杰等研究生做了大量輔助工作。中科曙光大數(shù)據(jù)部副總經(jīng)理郭慶先生、曙光大數(shù)據(jù)團(tuán)隊工程師參編了第16章工作。張旗教授對全書進(jìn)行了審閱！在此，衷心感謝上述著作編寫參與人員在本書寫作過程中的共同努力和辛苦付出！感謝中科曙光公司對本書出版給予的大力支持和幫助！

在本書撰寫過程中，參考了大量國內(nèi)外教材、論文、技術(shù)論壇等相關(guān)資料。由于作者水平有限，書中不足之處在所難免，敬請廣大讀者批評指正。

編者
2019年8月

你還可能感興趣

我要評論