公与媳一区二区三区,久久久青草青青亚洲国产免观

本書分兩部分，共8章，介紹了如何使用開源工具和技術開發(fā)與實現(xiàn)大規(guī)模分布式處理系統(tǒng)，涵蓋構建高性能分布式計算系統(tǒng)的方法和佳實踐。第一部分（第1~4章）介紹了高性能分布式計算編程的基礎知識，包括分布式系統(tǒng)、Hadoop入門、Spark入門、Scalding入門等；第二部分（第5~8章）給出了使用Hadoop、Spark、Scalding的案例研究，涉及數(shù)據(jù)聚類、數(shù)據(jù)分類、回歸分析、推薦系統(tǒng)等。本書適合作為高等院校計算機相關專業(yè)的教材，也適合作為軟件工程師、應用開發(fā)人員、科研人員的參考書。

前　　言過去的二十年中，隨著計算機的使用越來越廣泛，產(chǎn)生了大量的數(shù)據(jù)。生產(chǎn)與生活中各類設備和工具的數(shù)字化也促進了數(shù)據(jù)的增長。市場中，對這些龐大且不斷增長的數(shù)據(jù)進行存儲、處理和分析的需求應運而生。在硬件層面，每秒進行萬億次浮點運算的高性能計算（HPC）系統(tǒng)可以對龐大的數(shù)據(jù)進行管理。由于單個計算機無法應對其操作的復雜性，因此HPC系統(tǒng)需要在分布式環(huán)境中運行�？梢酝ㄟ^兩種趨勢實現(xiàn)萬億次浮點的分布式運算。一種是通過全球網(wǎng)絡連接計算機，實現(xiàn)復雜數(shù)據(jù)的分布式管理。另一種是采用專用的處理器，并集中存放，這樣可以縮短機器之間的數(shù)據(jù)傳輸時間。這兩種趨勢正在呈現(xiàn)快速的融合之勢，必然會為浩繁的數(shù)據(jù)處理問題帶來更為迅捷和有效的硬件解決方案。
在軟件層面，Apache Hadoop在解決龐大數(shù)據(jù)的管理問題方面已經(jīng)是久負盛名。Hadoop的生態(tài)系統(tǒng)包括Hadoop分布式文件系統(tǒng)（HDFS）、MapReduce框架（支持多種數(shù)據(jù)格式和數(shù)據(jù)源）、單元測試、對變體和項目進行聚類（如Pig、Hive等）。它能夠?qū)崿F(xiàn)包括存儲和處理在內(nèi)的全生命周期的數(shù)據(jù)管理。Hadoop的優(yōu)勢在于，它通過分布式模塊處理大型數(shù)據(jù)。它還可以處理非結構化數(shù)據(jù)，這使其更具吸引力。與HPC骨干網(wǎng)結合，Hadoop可以使處理海量數(shù)據(jù)的任務變得非常簡單。
如今，很多高級的Hadoop框架，如Pig、Hive、Scoobi、Scrunch、Cascalog、Scald-ing和Spark，使得Hadoop易于操作。它們中大多數(shù)都得到著名企業(yè)的支持，如Yahoo（Pig）、Facebook（Hive）、Cloudera（Scrunch）和Twitter（Scalding），這說明Hadoop在工業(yè)領域得到了廣泛支持。這些框架使用的是Hadoop的基礎模塊，例如HDFS和MapReduce，但是通過創(chuàng)建一個抽象來隱藏Hadoop模塊的復雜性，為復雜的數(shù)據(jù)處理提供了一種簡單的方法。這個抽象的一個例證就是Cascading。許多具體的語言是使用Cascading的框架創(chuàng)建的。其中一個實例就是Twitter的Scalding，它用來查詢存儲在HDFS中的大型數(shù)據(jù)集，如Twitter上的推文。
Hadoop和Scalding中的數(shù)據(jù)存儲大多基于磁盤。這一結構因其較長的數(shù)據(jù)尋道和傳輸時間影響了運行速率。如果數(shù)據(jù)從磁盤中讀取然后保持在內(nèi)存中，運行速率會提高數(shù)倍。Spark實現(xiàn)了這一概念，并宣稱其效率較之MapReduce在內(nèi)存中快100倍，在磁盤上快10倍。Spark使用了彈性分布式數(shù)據(jù)集的基本抽象，這些數(shù)據(jù)集是分布式的不可變集合。由于Spark將數(shù)據(jù)存儲在內(nèi)存中，因此迭代算法可以在數(shù)據(jù)挖掘和機器學習方面更有效地發(fā)揮作用。
目標本書旨在介紹使用自由和開放源碼的工具和技術（如Hadoop、Scalding、Spark等）構建分布式處理系統(tǒng)的方法，關鍵目標包括以下幾點。
使讀者掌握當前使用Hadoop、Scalding和Spark構建高性能分布式計算系統(tǒng)的新發(fā)展。
為讀者提供相關理論的軟件框架和實踐途徑。
為學生和實踐者使用自由及開放源碼軟件技術（如Hadoop、Scalding和Spark）提供指導和實例。
使讀者加深對與高性能分布式計算（HPDC）相關的新興范式在構建可擴展軟件系統(tǒng)以供大規(guī)模數(shù)據(jù)處理方面的理解。
本書結構本書共8章，分成兩部分，各章內(nèi)容概述如下。
第一部分　高性能分布式計算編程基礎第1章闡述構成現(xiàn)代HPDC范式（如云計算、網(wǎng)格和集群系統(tǒng)等）主體的分布式系統(tǒng)的基本知識。從討論各種形式的分布式系統(tǒng)開始，解析它們的通用架構，也談及其設計的核心，即分布式文件系統(tǒng)。此外，還通過相關的示例說明其在發(fā)展過程中遇到的技術難題和該領域近年來的發(fā)展趨勢。
第2章概述Hadoop生態(tài)系統(tǒng)，一步步地介紹系統(tǒng)的安裝、編程和實現(xiàn)。第3章描述Spark的核心—彈性分布式數(shù)據(jù)集，談及其安裝、API編程，并給出一些范例。第4章重點闡述Hadoop流，也涉及Scalding的應用，并討論Python在Hadoop和Spark中的應用。
第二部分　使用Hadoop、Scalding和Spark的案例研究本書并不局限于解釋基本的理論常識，它的優(yōu)勢在于提供了程序范例。書中給出四個案例，內(nèi)容涉及很多應用領域和計算方法，足以令懷疑論者變成Scalding和Spark的信眾。第5章講述K均值聚類算法的實現(xiàn)，第6章講述使用樸素貝葉斯分類器進行數(shù)據(jù)分類。第7章進一步闡述使用Scalding和Spark的分布式系統(tǒng)中進行數(shù)據(jù)挖掘和機器學習的方法，并概述回歸分析。
當前，推薦系統(tǒng)在諸多領域都非常受歡迎。它自動充當了兩個不相交實體的中間人，在購物、檢索、出版領域的現(xiàn)代網(wǎng)絡應用中正日趨流行。一個可運行的推薦系統(tǒng)不僅需要有強大的計算引擎，還應該能夠?qū)崟r擴展。第8章闡釋使用Scalding和Spark創(chuàng)建這樣一個推薦系統(tǒng)的過程。
目標受眾本書的目標受眾主要包括：
軟件工程師和應用開發(fā)者學生和大學講師自由和開放源碼軟件的貢獻者研究人員代碼庫書中使用的源碼和數(shù)據(jù)集可以從https://github.com/4ni1/hpdc-scalding-spark下載。
致謝感謝以下人員在本書的準備過程中提供的支持和幫助：
M. S.拉邁阿理工學院董事M. R. Seetharam先生M. S.拉邁阿理工學院董事M. R. Ramaiah先生M. S.拉邁阿理工學院行政主管S. M. Acharya先生M. S.拉邁阿理工學院院長S. Y. Kulkarni博士M. S.拉邁阿

你還可能感興趣

我要評論