關于我們
書單推薦
新書推薦
|
大數(shù)據(jù)技術基礎(第2版) 本書系統(tǒng)介紹了大數(shù)據(jù)基礎知識和相關技術,全書分為大數(shù)據(jù)基礎、大數(shù)據(jù)存儲與管理篇、大數(shù)據(jù)采集與預處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實踐與應用案例5篇,共17章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺Hadoop基礎、大數(shù)據(jù)存儲與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、大數(shù)據(jù)采集與預處理技術、大數(shù)據(jù)采集工具、大數(shù)據(jù)計算模式、大數(shù)據(jù)MapReduce計算模型、大數(shù)據(jù)Spark計算模型、大數(shù)據(jù)Flink計算模型、大數(shù)據(jù)MapReduce基礎算法、大數(shù)據(jù)挖掘算法、Hadoop大數(shù)據(jù)平臺實踐、開敞式碼頭系泊纜力預測應用案例以及曙光XData大數(shù)據(jù)平臺及應用案例。全書提供了大量應用實例,且大多章后附有習題。本書特色在于融會貫通大數(shù)據(jù)基本概念與大數(shù)據(jù)技術及應用,很好地將大數(shù)據(jù)概念、技術及應用融合在一起,便于讀者更好地理解大數(shù)據(jù)基本概念,更快掌握大數(shù)據(jù)前沿技術及其應用。 本書適合作為高等院校計算機、軟件工程、信息管理等相關專業(yè)的本科生及研究生大數(shù)據(jù)技術課程的教學用書,也可作為相關IT工程技術人員的參考用書。 本書全面系統(tǒng)地介紹了大數(shù)據(jù)基礎知識和相關技術。 《大數(shù)據(jù)技術基礎》第1版于2019年8月完成,距今已有4年多的時間。在過去的4年時間里,一方面,大數(shù)據(jù)技術發(fā)展迅猛,諸如Flink流計算等新技術迅速崛起,為大數(shù)據(jù)采集、存儲、處理和計算帶來眾多新概念、新框架和新方法。因此,我們對第1版內(nèi)容進行了補充和修訂,例如,有關Kafka消息隊列、Flink流計算模型等內(nèi)容,以適應大數(shù)據(jù)技術的快速發(fā)展,保持本書的先進性。另一方面,我們結合廣大一線教師在使用本教材進行教學過程中的收獲與體會,以及提出的寶貴意見和修改建議,對第1版中有關大數(shù)據(jù)HBase數(shù)據(jù)庫和大數(shù)據(jù)Hive數(shù)據(jù)倉庫操作實踐等內(nèi)容進行了補充和修訂,以適應廣大師生實踐大數(shù)據(jù)操作需求,保持本書的實用性。 本書依然保持融會貫通大數(shù)據(jù)概念與大數(shù)據(jù)技術及應用特色,很好地將大數(shù)據(jù)概念、技術及應用融合在一起,便于讀者更好地理解大數(shù)據(jù)基本概念,更快掌握大數(shù)據(jù)前沿技術及其應用。本書依然沿用第1版的篇幅設計,全書分為5篇: 大數(shù)據(jù)基礎、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)采集與預處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實踐與應用案例。
修訂后,全書共17章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)平臺Hadoop基礎、大數(shù)據(jù)存儲與管理基本概念、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、大數(shù)據(jù)采集與預處理技術、大數(shù)據(jù)采集工具、大數(shù)據(jù)計算模式、大數(shù)據(jù)MapReduce計算模型、大數(shù)據(jù)Spark計算模型、大數(shù)據(jù)Flink計算模型、大數(shù)據(jù)MapReduce基礎算法、大數(shù)據(jù)挖掘算法、Hadoop大數(shù)據(jù)平臺實踐、開敞式碼頭系泊纜力預測應用案例以及曙光XData大數(shù)據(jù)平臺及應用案例。全書提供了大量應用實例,每章后附有習題。 本書適合作為高等院校計算機、軟件工程、信息管理等相關專業(yè)的本科生及研究生學習大數(shù)據(jù)技術的教學用書,也可作為相關IT工程技術人員的參考用書。 本書修訂由大連交通大學宋旭東擔任主編,劉月凡、宋亮、王立娟、李修飛擔任副主編,路文靜、路旭明、王春爽、于林林參編完成。在本書撰寫過程中,陳煜、李帥陽、許翰文等做了大量輔助工作。在此,衷心感謝上述編寫參與人員在本書寫作過程中的共同努力和辛苦付出!
前言(第1版) 為滿足相關技術人員學習大數(shù)據(jù)相關技術的需求,我們在總結近幾年在大數(shù)據(jù)技術課程教學經(jīng)驗和項目成果的基礎上,同時引入中科曙光XData大數(shù)據(jù)相關技術及應用案例,從理論結合實踐的角度,將大數(shù)據(jù)基本概念與大數(shù)據(jù)技術相結合,精心組織設計完成了本書。 本書全面系統(tǒng)地介紹了大數(shù)據(jù)基礎知識和相關技術,全書分為: 大數(shù)據(jù)基礎、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)采集與預處理、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)平臺Hadoop實踐與應用案例5篇,共16章,主要內(nèi)容包括大數(shù)據(jù)基本概念、大數(shù)據(jù)存儲與管理概念及技術、大數(shù)據(jù)采集及預處理技術、大數(shù)據(jù)計算模式、大數(shù)據(jù)分布式并行處理框架Hadoop、大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive、大數(shù)據(jù)MapReduce分布式并行計算模型、大數(shù)據(jù)Spark內(nèi)存計算模型、大數(shù)據(jù)處理基礎算法、大數(shù)據(jù)關聯(lián)分析、分類、聚類典型數(shù)據(jù)挖掘算法、大數(shù)據(jù)Hadoop平臺操作實踐、大數(shù)據(jù)預測應用案例分析以及中科曙光XData大數(shù)據(jù)平臺架構、關鍵技術及其應用案例。全書提供了大量應用實例,每章后附有習題。本書特色在于融會貫通大數(shù)據(jù)基本概念與大數(shù)據(jù)技術及應用,很好地將大數(shù)據(jù)概念、技術及應用融合在一起,便于讀者更好地理解大數(shù)據(jù)基本概念,更快掌握大數(shù)據(jù)前沿技術及其應用。 第一篇大數(shù)據(jù)基礎: 本篇著重介紹大數(shù)據(jù)基本概念和大數(shù)據(jù)Hadoop平臺組件,旨在幫助讀者正確理解大數(shù)據(jù)的核心概念及其應用技術,為讀者后續(xù)章節(jié)的學習奠定基礎。本篇包括2章: 第1章主要介紹了大數(shù)據(jù)產(chǎn)生的背景及其發(fā)展歷程,大數(shù)據(jù)給我們科學研究及思維模式帶來的影響,大數(shù)據(jù)的4V特征及在科研、交通、通信、醫(yī)療、金融、制造、體育、個性化生活、安全等領域的應用。同時也簡要介紹了大數(shù)據(jù)框架體系和關鍵技術,包括數(shù)據(jù)采集與預處理技術、數(shù)據(jù)存儲和管理技術、數(shù)據(jù)分析與挖掘技術、數(shù)據(jù)可視化技術、數(shù)據(jù)安全保護技術、云計算、物聯(lián)網(wǎng)和機器學習等技術。 第2章主要介紹了大數(shù)據(jù)并行計算框架Hadoop平臺,包括Hadoop的項目來源、發(fā)展歷程、主要用途、分布式存儲和并行計算基本原理,以及對Hadoop平臺核心組件(HDFS、MapReduce、ZooKeeper、Yarn、HBase、Hive、Spark、Mahout等)的簡要描述。 第二篇大數(shù)據(jù)存儲與管理: 本篇著重介紹大數(shù)據(jù)存儲與管理基本概念和常用的大數(shù)據(jù)分布式文件系統(tǒng)HDFS、大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase、大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive,旨在幫助讀者正確理解大數(shù)據(jù)存儲與管理的核心概念及其相關軟件技術。本篇包括4章: 第3章主要介紹了大數(shù)據(jù)存儲與管理的基本概念和技術,包括數(shù)據(jù)管理技術發(fā)展回顧,大數(shù)據(jù)數(shù)據(jù)類型,大數(shù)據(jù)分布式系統(tǒng)基礎理論,NoSQL數(shù)據(jù)庫的興起,以及與大數(shù)據(jù)存儲和管理密切相關的分布式存儲技術、虛擬化技術和云存儲技術。 第4章主要介紹了大數(shù)據(jù)分布式文件系統(tǒng)HDFS,包括HDFS的設計特點,體系結構和工作組件,闡述了HDFS工作流程,分析了在HDFS下讀寫數(shù)據(jù)的過程,圍繞HDFS基本操作,詳細介紹了HDFS文件操作命令,并對HDFS API主要編程接口進行介紹,給出了編程實例。 第5章主要介紹了大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase,重點描述了HBase列式數(shù)據(jù)庫的邏輯模型和物理模型的基本概念,給出了HBase體系結構及其工作原理。結合實例介紹了操作HBase表及其數(shù)據(jù)的操作命令,并對HBase API主要編程接口進行介紹,給出了編程實例。
第三篇大數(shù)據(jù)采集與預處理: 本篇著重介紹大數(shù)據(jù)采集與預處理技術,對常用大數(shù)據(jù)采集工具進行了簡單介紹。本篇包括2章: 第7章主要介紹了大數(shù)據(jù)采集與預處理相關技術,包括數(shù)據(jù)抽取、轉(zhuǎn)換和加載技術,數(shù)據(jù)爬蟲技術、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約的方法和技術。 第8章主要介紹了幾個常用的大數(shù)據(jù)采集工具,包括Sqoop關系型大數(shù)據(jù)采集工具,F(xiàn)lume日志大數(shù)據(jù)采集工具和分布式大數(shù)據(jù)Nutch爬蟲系統(tǒng)。 第四篇大數(shù)據(jù)分析與挖掘: 本篇著重介紹了大數(shù)據(jù)計算模式,大數(shù)據(jù)MapReduce計算模型,大數(shù)據(jù)Spark內(nèi)存計算模型,以及大數(shù)據(jù)MapReduce基礎算法和挖掘算法,旨在幫助讀者全面理解大數(shù)據(jù)分析與挖掘的核心思想與編程技術。本篇包括5章: 第9章主要介紹了5種大數(shù)據(jù)計算模式,包括大數(shù)據(jù)批處理、大數(shù)據(jù)查詢分析計算、大數(shù)據(jù)流計算、大數(shù)據(jù)迭代計算、大數(shù)據(jù)圖計算。 第10章主要介紹了大數(shù)據(jù)MapReduce計算模型,包括MapReduce的由來、主要功能、技術特征,MapReduce的模型框架和數(shù)據(jù)處理過程,MapReduce程序執(zhí)行過程,以及MapReduce主要編程接口及WordCount實例分析。 第11章主要介紹了大數(shù)據(jù)Spark計算模型,包括Spark的產(chǎn)生、技術特征,Spark的工作流程與運行模式,以及Spark主要訪問接口并給出了三種WordCount編程實現(xiàn)。 第12章主要介紹了大數(shù)據(jù)MapReduce基礎算法,包括關系代數(shù)運算的MapReduce設計與實現(xiàn),矩陣乘法的MapReduce設計與實現(xiàn)。 第13章主要介紹了大數(shù)據(jù)MapReduce挖掘算法,包括大數(shù)據(jù)關聯(lián)規(guī)則Apriori算法的MapReduce設計與實現(xiàn),大數(shù)據(jù)KNN分類算法的MapReduce設計與實現(xiàn),大數(shù)據(jù)KMeans聚類算法的MapReduce設計與實現(xiàn)。 第五篇大數(shù)據(jù)平臺Hadoop實踐與應用案例: 本篇著重介紹大數(shù)據(jù)Hadoop平臺的實踐操作,給出了大數(shù)據(jù)技術在開敞式碼頭系泊纜力預測中的應用,以及中科曙光XData大數(shù)據(jù)平臺架構、關鍵技術及其應用案例,旨在幫助讀者理解如何將大數(shù)據(jù)的方法和技術運用到實際項目需求中,促進大數(shù)據(jù)技術在各領域行業(yè)中的應用。本篇包括3章: 第14章主要介紹了Hadoop大數(shù)據(jù)平臺操作實踐,包括Hadoop系統(tǒng)的安裝與配置詳細操作,Hadoop平臺文件操作及程序運行命令,以及Hadoop平臺下程序開發(fā)方法和過程。 第15章主要介紹了大數(shù)據(jù)方法和技術在開敞式碼頭系泊纜力預測中的應用,給出了大數(shù)據(jù)系泊纜力相似性查詢預測方法,并基于Hadoop大數(shù)據(jù)平臺完成了系泊纜力預測的相似性查詢方法MapReduce設計與實現(xiàn)。 第16章主要介紹了中科曙光XData大數(shù)據(jù)方法的架構及關鍵技術,包括曙光XData大數(shù)據(jù)集成與數(shù)據(jù)治理組件、大數(shù)據(jù)存儲與數(shù)據(jù)計算組件、大數(shù)據(jù)分析與數(shù)據(jù)智能組件、大數(shù)據(jù)可視化分析組件、大數(shù)據(jù)安全管控與管理運維組件,并給出了基于曙光XData大數(shù)據(jù)平臺的智能交通應用案例。 本書適合作為高等院校計算機、軟件工程、信息管理等相關專業(yè)的本科生及研究生大數(shù)據(jù)技術課程的教材,也可作為相關IT工程技術人員的參考用書。 本書由大連交通大學宋旭東教授擔任主編、并輔助全書內(nèi)容的組織和編審。宋亮、王立娟、張鵬擔任副主編。本書第一篇、第四篇、第五篇由宋旭東編寫,第二篇由宋亮編寫,第7章由王立娟編寫,第8章由張鵬編寫。在本書撰寫過程中,叢郁洋、楊杰、朱大杰等研究生做了大量輔助工作。中科曙光大數(shù)據(jù)部副總經(jīng)理郭慶先生、曙光大數(shù)據(jù)團隊工程師參編了第16章工作。張旗教授對全書進行了審閱!在此,衷心感謝上述著作編寫參與人員在本書寫作過程中的共同努力和辛苦付出!感謝中科曙光公司對本書出版給予的大力支持和幫助! 在本書撰寫過程中,參考了大量國內(nèi)外教材、論文、技術論壇等相關資料。由于作者水平有限,書中不足之處在所難免,敬請廣大讀者批評指正。
第1篇大數(shù)據(jù)基礎 第1章大數(shù)據(jù)基本概念
1.1.1大數(shù)據(jù)有多大 1.1.2大數(shù)據(jù)的產(chǎn)生 1.1.3大數(shù)據(jù)的發(fā)展歷程 1.1.4大數(shù)據(jù)對科學研究的影響 1.1.5大數(shù)據(jù)對思維模式的影響 1.2大數(shù)據(jù)的定義與特征 1.2.1大數(shù)據(jù)的定義 1.2.2大數(shù)據(jù)的數(shù)據(jù)特征 1.3大數(shù)據(jù)的應用 1.3.1大數(shù)據(jù)在科研領域的應用 1.3.2大數(shù)據(jù)在交通領域的應用 1.3.3大數(shù)據(jù)在通信領域的應用 1.3.4大數(shù)據(jù)在醫(yī)療領域的應用 1.3.5大數(shù)據(jù)在金融領域的應用 1.3.6大數(shù)據(jù)在制造領域的應用 1.3.7大數(shù)據(jù)在體育領域的應用 1.3.8大數(shù)據(jù)在個性化生活領域的應用 1.3.9大數(shù)據(jù)在安全領域的應用 1.4大數(shù)據(jù)框架體系 1.4.1大數(shù)據(jù)基礎設施層 1.4.2大數(shù)據(jù)采集層 1.4.3大數(shù)據(jù)存儲層 1.4.4大數(shù)據(jù)處理層 1.4.5大數(shù)據(jù)交互展示層 1.4.6大數(shù)據(jù)應用層
1.5.1數(shù)據(jù)采集與預處理技術 1.5.2數(shù)據(jù)存儲和管理技術 1.5.3數(shù)據(jù)分析與挖掘技術 1.5.4數(shù)據(jù)可視化技術 1.5.5數(shù)據(jù)安全和隱私保護技術 1.6大數(shù)據(jù)支撐技術 1.6.1云計算 1.6.2物聯(lián)網(wǎng) 1.6.3人工智能 習題
2.1大數(shù)據(jù)平臺Hadoop概述 2.1.1Hadoop簡介 2.1.2Hadoop項目起源 2.1.3Hadoop發(fā)展歷程 2.1.4Hadoop特性 2.1.5Hadoop主要用途 2.2大數(shù)據(jù)平臺Hadoop原理 2.2.1分布式計算原理 2.2.2MapReduce原理 2.2.3Yarn原理 2.3大數(shù)據(jù)平臺Hadoop組件 2.3.1HDFS組件 2.3.2MapReduce組件 2.3.3ZooKeeper組件 2.3.4Yarn組件 2.3.5HBase組件 2.3.6Hive組件 2.3.7Spark組件 2.3.8Mahout組件 2.3.9Flume組件 2.3.10Sqoop組件 2.3.11Kafka組件 2.3.12Pig組件 2.3.13Ambari組件 2.3.14Tez組件 2.3.15Common組件 習題 第2篇大數(shù)據(jù)存儲與管理 第3章大數(shù)據(jù)存儲與管理基本概念 3.1大數(shù)據(jù)的數(shù)據(jù)類型 3.1.1結構化數(shù)據(jù) 3.1.2半結構化數(shù)據(jù) 3.1.3非結構化數(shù)據(jù) 3.2數(shù)據(jù)管理技術的發(fā)展 3.2.1文件系統(tǒng)階段 3.2.2數(shù)據(jù)庫系統(tǒng)階段 3.2.3數(shù)據(jù)倉庫階段 3.2.4分布式系統(tǒng)階段 3.3分布式系統(tǒng)基礎理論 3.3.1CAP理論 3.3.2BASE思想 3.4NoSQL數(shù)據(jù)庫 3.4.1NoSQL數(shù)據(jù)庫的興起 3.4.2NoSQL數(shù)據(jù)庫與關系數(shù)據(jù)庫的比較 3.4.3NoSQL數(shù)據(jù)庫的4大類型 3.5大數(shù)據(jù)存儲與管理技術 3.5.1分布式存儲技術 3.5.2虛擬化技術 3.5.3云存儲技術 習題 第4章大數(shù)據(jù)分布式文件系統(tǒng)HDFS 4.1HDFS概述 4.1.1HDFS簡介 4.1.2HDFS設計特點 4.2HDFS工作原理 4.2.1HDFS體系結構 4.2.2HDFS工作組件 4.3HDFS工作流程 4.3.1讀數(shù)據(jù)的過程 4.3.2寫數(shù)據(jù)的過程 4.4HDFS基本操作 4.4.1HDFS文件操作 4.4.2HDFS管理命令 4.5HDFS編程接口 4.5.1HDFS常用Java API 4.5.2HDFS API編程實例 習題 第5章大數(shù)據(jù)分布式數(shù)據(jù)庫系統(tǒng)HBase 5.1HBase概述 5.1.1HBase簡介 5.1.2HBase特性 5.1.3HBase與傳統(tǒng)關系數(shù)據(jù)庫對比 5.1.4HBase應用場景 5.2HBase數(shù)據(jù)模型 5.2.1HBase數(shù)據(jù)模型術語 5.2.2HBase數(shù)據(jù)邏輯模型 5.2.3HBase數(shù)據(jù)物理模型 5.3HBase工作原理 5.3.1HBase體系結構 5.3.2HBase工作組件 5.4HBase安裝 5.4.1下載HBase 5.4.2安裝HBase 5.4.3啟動HBase 5.4.4關閉HBase 5.5HBase操作命令 5.5.1HBase表操作 5.5.2HBase數(shù)據(jù)操作 5.6HBase編程接口 5.6.1HBase常用Java API 5.6.2HBase API編程實例 習題 第6章大數(shù)據(jù)分布式數(shù)據(jù)倉庫系統(tǒng)Hive 6.1Hive概述 6.1.1Hive特性 6.1.2Hive工作原理 6.1.3Hive執(zhí)行流程 6.2Hive數(shù)據(jù)類型及數(shù)據(jù)模型 6.2.1Hive數(shù)據(jù)類型 6.2.2Hive數(shù)據(jù)模型 6.3安裝Hive 6.3.1下載Hive 6.3.2安裝配置Hive 6.3.3安裝MySQL 6.3.4配置MySQL允許Hive接入 6.3.5啟動Hive 6.3.6關閉Hive 6.4Hive SQL 6.4.1DDL語句 6.4.2DML語句 6.4.3DQL語句 6.4.4Hive操作實例 6.5Hive訪問接口 6.5.1Hive CLI訪問接口 6.5.2JDBC訪問接口 習題 第3篇大數(shù)據(jù)采集與預處理 第7章大數(shù)據(jù)采集與預處理技術 7.1數(shù)據(jù)抽取、轉(zhuǎn)換、加載技術 7.1.1ETL概述 7.1.2數(shù)據(jù)抽取 7.1.3數(shù)據(jù)轉(zhuǎn)換 7.1.4數(shù)據(jù)加載 7.1.5ETL工具 7.2數(shù)據(jù)爬蟲技術 7.2.1爬蟲流程 7.2.2爬蟲分類 7.2.3大數(shù)據(jù)爬蟲技術 7.3數(shù)據(jù)預處理技術 7.3.1數(shù)據(jù)清理 7.3.2數(shù)據(jù)集成 7.3.3數(shù)據(jù)變換 7.3.4數(shù)據(jù)歸約 習題 第8章大數(shù)據(jù)采集工具 8.1Sqoop關系型大數(shù)據(jù)采集系統(tǒng) 8.1.1Sqoop簡介 8.1.2Sqoop工作原理 8.2Flume日志大數(shù)據(jù)采集系統(tǒng) 8.2.1Flume簡介 8.2.2Flume工作原理 8.2.3Flume的配置與啟動 8.3Kafka消息隊列大數(shù)據(jù)采集系統(tǒng) 8.3.1Kafka簡介 8.3.2Kafka工作原理 8.3.3Kafka的配置與啟動
8.4.1Nutch簡介 8.4.2Nutch工作原理 習題 第4篇大數(shù)據(jù)分析與挖掘 第9章大數(shù)據(jù)計算模式 9.1大數(shù)據(jù)批處理 9.1.1大數(shù)據(jù)批處理概述 9.1.2大數(shù)據(jù)批處理常用組件 9.2大數(shù)據(jù)查詢分析計算 9.2.1大數(shù)據(jù)查詢分析計算概述 9.2.2大數(shù)據(jù)查詢分析計算組件 9.3大數(shù)據(jù)流計算 9.3.1大數(shù)據(jù)流計算概述 9.3.2大數(shù)據(jù)流計算組件 9.4大數(shù)據(jù)迭代計算 9.4.1大數(shù)據(jù)迭代計算概述 9.4.2迭代計算組件 9.5大數(shù)據(jù)圖計算 9.5.1大數(shù)據(jù)圖計算概述 9.5.2圖計算組件 習題
10.1MapReduce概述 10.1.1MapReduce簡介 10.1.2MapReduce由來 10.1.3MapReduce主要功能 10.1.4MapReduce技術特征 10.2MapReduce模型框架 10.2.1MapReduce設計思想 10.2.2MapReduce模型架構 10.3MapReduce數(shù)據(jù)處理過程 10.3.1MapReduce運行原理 10.3.2數(shù)據(jù)輸入輸出流程 10.4MapReduce程序執(zhí)行過程 10.4.1作業(yè)提交 10.4.2作業(yè)初始化 10.4.3作業(yè)分配 10.4.4任務執(zhí)行 10.4.5過程和狀態(tài)更新 10.4.6作業(yè)完成 10.5MapReduce編程接口 10.5.1數(shù)據(jù)讀入 10.5.2Mapper類和Reducer類 10.5.3數(shù)據(jù)處理 10.5.4數(shù)據(jù)輸出 10.6MapReduce實例分析 10.6.1WordCount MapReduce設計 10.6.2WordCount編程實現(xiàn) 習題 第11章大數(shù)據(jù)Spark計算模型 11.1Spark概述 11.1.1Spark產(chǎn)生 11.1.2Spark的相關概念及其組件 11.1.3Spark特性 11.2Spark工作原理 11.2.1RDD原理 11.2.2Spark工作流程 11.2.3Spark集群架構及運行模式 11.2.4Spark Streaming工作原理 11.3Spark訪問接口 11.3.1Spark訪問接口概述 11.3.2SparkContext 訪問接口 11.3.3RDD 訪問接口 11.4Spark實例分析 11.4.1Spark Shell WordCount編程實現(xiàn) 11.4.2Scala WordCount編程實現(xiàn) 11.4.3Java WordCount編程實現(xiàn) 習題 第12章大數(shù)據(jù)Flink計算模型 12.1Flink概述 12.1.1Flink簡介 12.1.2Flink的由來 12.1.3Flink流處理 12.1.4Flink的核心特性 12.2Flink工作原理 12.2.1Flink的計算框架 12.2.2Flink的體系結構 12.2.3Flink的運行架構 12.3Flink編程接口 12.3.1Flink的編程模型 12.3.2Flink的編程結構 12.4Flink實例分析 12.4.1Scala WordCount編程實現(xiàn) 12.4.2Java WordCount編程實現(xiàn) 習題 第13章大數(shù)據(jù)MapReduce基礎算法 13.1關系代數(shù)運算 13.1.1關系代數(shù)運算規(guī)則 13.1.2關系代數(shù)運算的MapReduce設計與實現(xiàn) 13.2矩陣乘法 13.2.1矩陣乘法原理 13.2.2矩陣乘法MapReduce設計 13.2.3矩陣乘法MapReduce實現(xiàn) 習題 第14章大數(shù)據(jù)挖掘算法 14.1大數(shù)據(jù)關聯(lián)分析算法 14.1.1Apriori算法簡介 14.1.2Apriori算法MapReduce設計 14.1.3Apriori算法MapReduce實現(xiàn) 14.2大數(shù)據(jù)KNN分類算法 14.2.1KNN分類算法簡介 14.2.2KNN算法MapReduce設計 14.2.3KNN算法MapReduce實現(xiàn) 14.3大數(shù)據(jù)KMeans聚類算法 14.3.1KMeans聚類算法簡介 14.3.2基于MapReduce的KMeans算法的設計 14.3.3基于MapReduce的KMeans算法的實現(xiàn) 14.4大數(shù)據(jù)回歸分析算法 14.4.1大數(shù)據(jù)回歸分析算法簡介 14.4.2基于MapReduce的多元回歸分析算法設計 14.4.3基于MapReduce的多元回歸分析算法的實現(xiàn) 習題
第15章Hadoop大數(shù)據(jù)平臺實踐 15.1Hadoop系統(tǒng)的安裝與配置 15.1.1安裝前的準備工作 15.1.2Linux虛擬機的安裝 15.1.3安裝和配置JDK 15.1.4下載安裝Hadoop 15.1.5SSH免密登錄 15.1.6虛擬機克隆 15.1.7Hadoop運行 15.1.8查看集群狀態(tài) 15.2Hadoop平臺基本操作 15.2.1Hadoop啟動與關閉命令 15.2.2Hadoop文件操作 15.2.3Hadoop程序運行命令 15.3Hadoop平臺程序開發(fā)過程 15.3.1開發(fā)環(huán)境配置 15.3.2程序開發(fā)流程 習題
16.1開敞式碼頭系泊纜力預測背景描述 16.1.1開敞式碼頭系泊作業(yè)背景描述 16.1.2開敞式碼頭系泊纜力預測背景 16.2大數(shù)據(jù)系泊纜力相似性查詢預測方法 16.2.1模糊相似性查詢基本方法 16.2.2系泊纜力相似性查詢預測模型 16.3相似性查詢預測方法MapReduce設計 16.3.1相似性查詢預測方法Map設計 16.3.2相似性查詢預測方法Reduce設計 16.4相似性查詢預測方法MapReduce實現(xiàn) 16.4.1系泊纜力預測結果展示 16.4.2系泊纜力預測結果分析 第17章曙光XData大數(shù)據(jù)平臺及應用案例 17.1曙光XData大數(shù)據(jù)平臺簡介 17.1.1曙光XData大數(shù)據(jù)平臺概述 17.1.2曙光XData大數(shù)據(jù)平臺特點及應用 17.2曙光大數(shù)據(jù)平臺架構及關鍵技術 17.2.1曙光XData大數(shù)據(jù)平臺架構 17.2.2曙光XData大數(shù)據(jù)平臺關鍵技術 17.3曙光XData大數(shù)據(jù)平臺組件 17.3.1曙光XData大數(shù)據(jù)集成與數(shù)據(jù)治理組件 17.3.2曙光XData大數(shù)據(jù)存儲與數(shù)據(jù)計算組件 17.3.3曙光XData大數(shù)據(jù)分析與數(shù)據(jù)智能組件 17.3.4曙光XData大數(shù)據(jù)可視化分析組件 17.3.5曙光XData大數(shù)據(jù)安全管控與管理運維組件 17.4曙光XData大數(shù)據(jù)平臺操作實踐 17.4.1曙光XData大數(shù)據(jù)平臺安裝與配置概述 17.4.2曙光XData大數(shù)據(jù)平臺基本操作 17.5基于曙光XData大數(shù)據(jù)平臺的智能交通應用案例 17.5.1曙光XData智能交通應用項目背景 17.5.2曙光XData智能交通應用方案設計 17.5.3曙光XData智能交通功能實現(xiàn)及應用效果 參考文獻
你還可能感興趣
我要評論
|