欧美精品人妻aⅴ在线观视频免费,91超碰国产一级,一级做a爱片久久毛

在本書中，你將學(xué)到：

·使用App Engine應(yīng)用實(shí)現(xiàn)自動(dòng)化定期數(shù)據(jù)攝取。

·在Google Data Studio中創(chuàng)建并生成數(shù)據(jù)儀表板。

·構(gòu)建實(shí)時(shí)數(shù)據(jù)分析管道，實(shí)現(xiàn)流式數(shù)據(jù)分析。

·使用Google BigQuery實(shí)現(xiàn)可交互式數(shù)據(jù)探索。

·在Cloud Dataproc群集上創(chuàng)建貝葉斯模型。

·使用Spark構(gòu)建邏輯回歸機(jī)器學(xué)習(xí)模型。

·使用Cloud Dataflow數(shù)據(jù)管道計(jì)算時(shí)間聚合特征。

·使用TensorFlow構(gòu)建高性能預(yù)測模型。

·將你的模型部署為微服務(wù)，并且從批處理和實(shí)時(shí)數(shù)據(jù)管道中使用它。

前言

我目前在Google擔(dān)任的角色使我可以與很多領(lǐng)域的數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師共同工作，將數(shù)據(jù)處理和分析流程遷移到公有云上。對(duì)于很多工作來說，與在本地部署

上所做的都一樣，方法也相同，區(qū)別只是將環(huán)境換成了租用的計(jì)算資源。盡管如此，目光長遠(yuǎn)的用戶依然會(huì)重新思考他們的系統(tǒng)設(shè)計(jì)，改變使用數(shù)據(jù)的方式，從而能夠更快地推動(dòng)創(chuàng)新。

早在 2011 年，《哈佛商業(yè)評(píng)論》（Harvard Business Review）的一篇文章就提到，云計(jì)算最大的收益之一，是幫助組織和機(jī)構(gòu)以前所未有的方式共同工作�，F(xiàn)在，這一觀點(diǎn)已得到廣泛認(rèn)可。麻省理工學(xué)院2017年的一項(xiàng)調(diào)查發(fā)現(xiàn)，通過向公有云轉(zhuǎn)移，更多受訪者（45%）表示提高了敏捷性，而不是節(jié)約成本（34%）。

在本書中，我們將用示例向你展示這種全新、具有變革性，且更具協(xié)作性的數(shù)據(jù)科學(xué)實(shí)踐方法。通過本書，你將學(xué)習(xí)如何實(shí)現(xiàn)端到端的數(shù)據(jù)管道。首先，我們會(huì)以無服務(wù)器的方式攝取數(shù)據(jù)，然后介紹數(shù)據(jù)探索、儀表板、關(guān)系型數(shù)據(jù)庫、流數(shù)據(jù)，并最終展示如何訓(xùn)練并運(yùn)行一個(gè)機(jī)器學(xué)習(xí)模型。本書涵蓋了數(shù)據(jù)服務(wù)的所有方面，因?yàn)閷?duì)于數(shù)據(jù)工程師來說，他們不僅要參與服務(wù)設(shè)計(jì)、開發(fā)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型，還要掌握如何在大規(guī)模生產(chǎn)環(huán)境中實(shí)時(shí)部署和實(shí)施。

這本書適合誰

如果你使用計(jì)算機(jī)處理數(shù)據(jù)，那么這本書會(huì)適合你。本書針對(duì)的讀者可以是數(shù)據(jù)分析師、數(shù)據(jù)庫管理員、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家，也可以是系統(tǒng)程序員。即使你現(xiàn)在的工作范圍比較有限（也許只進(jìn)行數(shù)據(jù)分析或構(gòu)建模型，或者只是DevOps），但只要你想進(jìn)一步提升自己，那么就應(yīng)該了解如何實(shí)現(xiàn)數(shù)據(jù)科學(xué)建模，以及如何在

生產(chǎn)系統(tǒng)下規(guī)�；瘜�(shí)施。

Google 云計(jì)算平臺(tái)旨在讓你忽略基礎(chǔ)架構(gòu)的存在。無論是 Google BigQuery、Cloud Dataflow、Cloud Pub/Sub，還是 Cloud ML引擎，所有這些受歡迎的數(shù)據(jù)服務(wù)都是無服務(wù)器且支持自動(dòng)縮放的。你在 BigQuery 上提交的查詢會(huì)在成千上萬的節(jié)點(diǎn)上運(yùn) 行，然后返回處理結(jié)果，你也無需啟動(dòng)群集或安裝任何軟件。同樣，當(dāng)你在Cloud Dataflow 中提交數(shù)據(jù)管道，或是在 Cloud Machine Learning Engine 中提交機(jī)器學(xué)習(xí) 任務(wù)時(shí)，你可以對(duì)數(shù)據(jù)進(jìn)行大規(guī)模處理，并實(shí)現(xiàn)大規(guī)模模型訓(xùn)練，且無需擔(dān)心集群管理或故障恢復(fù)。Cloud Pub/Sub 是一項(xiàng)全球消息服務(wù)，該服務(wù)可以在無需人工干預(yù) 的情況下自動(dòng)對(duì)訂閱者和發(fā)布者的吞吐量和數(shù)量進(jìn)行縮放。即使是開源解決方案（如 Apache Spark），Google云計(jì)算平臺(tái)也可以輕松滿足你的要求。你可以將數(shù)據(jù)保存在 Google Cloud Storage上，而不是保存在 HDFS中，然后專門針對(duì)你的 Spark任務(wù)啟動(dòng)一個(gè)群集即可。當(dāng)任務(wù)執(zhí)行完成，你可以毫無顧慮地刪除該群集。由于這些群集的基礎(chǔ)架構(gòu)專門針對(duì)特定任務(wù)，因此你無需擔(dān)心硬件會(huì)過度配置，也不必?fù)?dān)心性能不足等問題。另外，在 Google 云計(jì)算平臺(tái)上，無論是存儲(chǔ)中還是傳輸中的數(shù)據(jù) 都會(huì)被加密，以確保數(shù)據(jù)安全。這種能夠讓數(shù)據(jù)科學(xué)家從基礎(chǔ)設(shè)施管理工作中得以解放的工作方式，無疑是令人難以置信的。

在 Google云計(jì)算平臺(tái)上執(zhí)行數(shù)據(jù)任務(wù)時(shí)，我們之所以能忘記虛擬機(jī)和群集的原因是云計(jì)算平臺(tái)上的網(wǎng)絡(luò)連接性能。Google云計(jì)算平臺(tái)數(shù)據(jù)中心內(nèi)的網(wǎng)絡(luò)單向帶寬為 1 PBps，因此可以持續(xù)、高速地讀取 Cloud Storage 中的數(shù)據(jù)。這就意味著你不需要像傳統(tǒng)的 MapReduce作業(yè)那樣分割數(shù)據(jù)。相應(yīng)的，Google云計(jì)算平臺(tái)可以根據(jù)需要將數(shù)據(jù)移動(dòng)到新的計(jì)算節(jié)點(diǎn)，從而實(shí)現(xiàn)對(duì)計(jì)算任務(wù)的自動(dòng)伸縮。因此，在 Google 云計(jì)算平臺(tái)上開展數(shù)據(jù)科學(xué)工作時(shí)，你可以從群集管理中解放出來。

這些自動(dòng)縮放、全面托管的云服務(wù)使大規(guī)模實(shí)施數(shù)據(jù)科學(xué)模型變得更加容易，這就是數(shù)據(jù)科學(xué)家不再需要將模型交給數(shù)據(jù)工程師的原因。相反，他們可以自己編寫數(shù)據(jù)科學(xué)任務(wù)、提交到云端，然后這些任務(wù)就能以自動(dòng)伸縮的方式自動(dòng)執(zhí)行。這種方式同時(shí)也讓數(shù)據(jù)科學(xué)軟件包變得越來越簡單。因此，對(duì)于工程師來說，利用唾手可得的數(shù)據(jù)，結(jié)合預(yù)先準(zhǔn)備好的模型來實(shí)現(xiàn)并運(yùn)行自己的原始（通常已經(jīng)是非常高質(zhì)量的）模型已經(jīng)變得非常容易。通過精心設(shè)計(jì)的軟件包和易于使用的API，你無需了解數(shù)據(jù)科學(xué)算法的深?yuàn)W細(xì)節(jié)，所有你需要知道的，只有每種算法的作用以及如何將這些算法連接起來解決實(shí)際問題。通過對(duì)數(shù)據(jù)科學(xué)和數(shù)據(jù)工程進(jìn)行這種融合，你就可以將自己的翅膀伸展到目前角色之外了。

在閱讀本書時(shí)，我強(qiáng)烈建議你嘗試使用示例代碼，而不是簡單地閱讀文字內(nèi)容。本書提供了用于構(gòu)建端到端管道的完整代碼，你可以在 GitHub（https://github.com/ GoogleCloudPlatform/data-science-on-gcp）上獲取。你可以創(chuàng)建一個(gè) Google云計(jì) 算平臺(tái)項(xiàng)目，在閱讀完每一章之后，嘗試參考示例代碼和每個(gè)文件夾下的說明文件 README.md 注 1 來重復(fù)我們?cè)跁兴龅牟僮鳌?/p>

本書內(nèi)容約定

本書使用以下排版約定：

斜體（italic）表示新術(shù)語、網(wǎng)址、電子郵件地址、文件名和文件擴(kuò)展名等。

等寬字體（constant width）表示程序代碼以及段落內(nèi)用于引用的代碼內(nèi)容，如變量或函數(shù)名、數(shù)據(jù)庫、數(shù)

據(jù)類型、環(huán)境變量、聲明語句和關(guān)鍵字等。

等寬粗體（constant width bold）

表示應(yīng)由用戶逐字輸入的命令或其他文本。

等寬斜體（constant width italic）表示應(yīng)由用戶提供的值或根據(jù)上下文確定的值而替換的文本。

使用代碼示例更多補(bǔ)充資料（包括示例代碼、練習(xí)等）可以從這里下載https://github.com/ GoogleCloudPlatform/data-science-on-gcp。

本書的目的是幫助你完成工作任務(wù)。通常，對(duì)于書中提供的示例代碼，你可以直接在自己的程序和文檔中使用，無需聯(lián)系我們獲取授權(quán)，除非你要再次分發(fā)大量示例代碼。舉例來說，如果你在編寫程序時(shí)使用了本書提供的一部分代碼，不用擔(dān)心授權(quán)問題；但如果你要以CD-ROM等方式銷售或分發(fā)O’Reilly系列圖書中的示例代碼，則需要獲得我們的授權(quán)；在解答問題時(shí)如需引用本書提供的代碼，你不需要取得授權(quán)；但如果你在自己的產(chǎn)品文檔中使用本書的任意代碼，則必須獲得授權(quán)。

如果你認(rèn)為在使用示例代碼時(shí)超出了合理范圍或上述許可范圍，請(qǐng)隨時(shí)與我們聯(lián)系：

permissions@oreilly.com。

聯(lián)系我們

任何有關(guān)本書的意見或疑問，請(qǐng)按照以下地址聯(lián)系出版社。

美國：

O’Reilly Media, Inc. 1005 Gravenstein Highway North Sebastopol, CA 95472

中國：

北京市西城區(qū)西直門南大街 2 號(hào)成銘大廈 C 座 807 室（100035）奧萊利技術(shù)咨詢（北京）有限公司

我們?yōu)楸緯峁┝藢ｉT的網(wǎng)頁，用于發(fā)布內(nèi)容勘誤、范例和其他相關(guān)信息。你可以通過這里訪問 http://bit.ly/datasci_GCP。

有關(guān)本書的任何評(píng)論或技術(shù)問題，請(qǐng)發(fā)送電子郵件至 bookquestions@oreilly.com。

了解與本書相關(guān)的更多信息、課程、會(huì)議和新聞，請(qǐng)?jiān)L問我們的網(wǎng)站http://www. oreilly.com。

我們的 Facebook：http://facebook.com/oreilly。

我們的 Twitter：http://twitter.com/oreillymedia。

我們的 YouTube： http://www.youtube.com/oreillymedia。

致謝

大約一年前，我在 Google 工作時(shí)，我曾經(jīng)簡單地使用公有云作為租賃基礎(chǔ)設(shè)施的一種方式，配置自己的虛擬機(jī)，并在虛擬機(jī)上安裝我要用的軟件，然后跟平時(shí)的工作流程一樣運(yùn)行我的數(shù)據(jù)處理任務(wù)。幸好，我意識(shí)到Google的大數(shù)據(jù)技術(shù)棧與眾不同，所以我開始學(xué)習(xí)如何充分利用 Google 云計(jì)算平臺(tái)提供的數(shù)據(jù)和機(jī)器學(xué)習(xí)工具。

對(duì)我來說，最好的學(xué)習(xí)方法是編寫代碼，我也的確在這么做。在一次 Python小組聚會(huì)上，大家讓我講一講 Google 云計(jì)算平臺(tái)，當(dāng)時(shí)我用自己的代碼做了展示和介紹。后來的事實(shí)證明，在數(shù)據(jù)科學(xué)領(lǐng)域，在對(duì)比不同解決方法時(shí)，對(duì)聽眾來說，使用代碼來展示如何構(gòu)建端到端系統(tǒng)是頗具教育意義的。后來，我就把那次演講的主要內(nèi) 容寫成本書的出版計(jì)劃，并發(fā)給了 O’Reilly Media。

當(dāng)然，本書的內(nèi)容會(huì)比 60 分鐘的代碼演示深入許多。想象這樣的場景，有一天在你上班時(shí)收到了一封來自公司新員工發(fā)來的電子郵件，他在你們公司工作的時(shí)間還不到 6 個(gè)月，但不知何故，他決定將你負(fù)責(zé)構(gòu)建的一套復(fù)雜的系統(tǒng)平臺(tái)寫成一本書，并尋求你的幫助。他和你既不在同一個(gè)團(tuán)隊(duì)，幫助他也不屬于你的工作職責(zé)，你們

甚至不在同一個(gè)辦公室工作。你會(huì)如何回應(yīng)？你愿意嗎？

Google之所以能成為理想的工作場所，都是因?yàn)檫@里的同事。這也是 Google公司文化的一個(gè)證明，這里的許多人，無論是工程師、技術(shù)主管、產(chǎn)品經(jīng)理、解決方案

架構(gòu)師、數(shù)據(jù)科學(xué)家、法律顧問，還是總監(jiān)，他們都可以跨越不同團(tuán)隊(duì)，愉快地將自己的專業(yè)知識(shí)分享給他們從未見過的人（實(shí)際上我也從未見過其中很多人）。這本書也因?yàn)樗麄兊呢暙I(xiàn)而變得更好，讓本書受益無窮，這些人包括（按字母順序排列）William Brockman、Mike Dahlin、Tony Diloreto、Bob Evans、Roland Hess、 Brett Hesterberg、Dennis Huo、Chad Jennings、Puneith Kaul、Dinesh Kulkarni、 Manish Kurse、Reuven Lax、Jonathan Liu、James Malone、Dave Oleson、Mosha Pasumansky、Kevin Peterson、Olivia Puerta、Reza Rokni、Karn Seth、Sergei Sokolenko 及 Amy Unruh。同時(shí)，我還要特別感謝 Mike Dahlin、Manish Kurse和 Olivia Puerta 對(duì)本書每章內(nèi)容的精心校對(duì)。在本書預(yù)覽時(shí)，我收到了來自 Anthonios Partheniou和 David Schwantner的錯(cuò)誤報(bào)告，這些報(bào)告很有價(jià)值。不用多說，任何遺留的錯(cuò)誤都由我負(fù)責(zé)。

在寫作本書時(shí)，我曾一度陷入困境。有時(shí)候，遇到的是技術(shù)問題，對(duì)此我要感謝（按字母順序排列）Ahmet Altay、Eli Bixby、Ben Chambers、Slava Chernyak、 Marian Dvorsky、Robbie Haertel、Felipe Hoffa、Amir Hormati、Qi-ming (Bradley) Jiang、Kenneth Knowles、Nikhil Kothari 和 Chris Meyers 為我指引了前進(jìn)方向。而在有些時(shí)候，我需要搞清楚公司的政策或需要與正確的團(tuán)隊(duì)建立聯(lián)系，獲取所需的文檔或統(tǒng)計(jì)數(shù)據(jù)。對(duì)此，我感謝那些在關(guān)鍵時(shí)刻為我提供幫助的同事，如果沒有他們，本書會(huì)遜色很多（也是按字母順序排列）：Louise Byrne、Apurva Desai、 Rochana Golani、Fausto Ibarra、Jason Martin、Neal Mueller、Philippe Poutonnet、 Brad Svee、Jordan Tigani、William Vampenebe和Miles Ward。謝謝大家的幫助和鼓勵(lì)。

同時(shí)，我還要感謝 O’Reilly 團(tuán)隊(duì)的 Marie Beaugureau、Kristen Brown、Ben Lorica、 Tim McGovern、Rachel Roumeliotis 和 Heather Scherer 對(duì)我的信任，從而讓本書從草稿到出版沒有遇到問題。

最后，也是最重要的，我要感謝 Abirami、Sidharth和 Sarada的理解和耐心，當(dāng)我專注于寫作和編碼時(shí)，他們亦是如此。是你們，讓這一切變得有價(jià)值。

你還可能感興趣

我要評(píng)論