在互聯(lián)網+時代,數據是炙手可熱的重要資源,網絡使用基礎的提升,數據流量增大,用戶需求多樣化和多變對架構設計提出嚴峻考驗,而Hadoop為快速響應用戶需求提供了重要技術支撐。作者Rajiv Tiwari從事數據研究近15年,在Hadoop應用方面有許多實戰(zhàn)經驗,他通過實際案例幫助讀者學習如何借助Hadoop來處理巨大數據信息,對于開發(fā)者、分析師、架構師、管理者等都具有很好的指導。
你將從本書中得到什么?
了解大數據和Hadoop基礎,包括實際的金融使用案例。
了解基于Hadoop的金融項目的闡述和解決方案、大數據監(jiān)管,以及如何保持Hadoop的勢頭。
在Hadoop平臺上開發(fā)一系列從小規(guī)模到大規(guī)模的數據項目的解決方案。
了解如何從云上掌握大數據。
在當前的實際業(yè)務情況下,在企業(yè)級管理上擴大現有平臺。
數據正以驚人的速度增加,而公司要么疲于應付,要么急于利用這些數據進行分析。Hadoop是一個優(yōu)秀的開源框架,可以應付這些大數據問題。
在過去的幾年里,我一直在金融部門使用Hadoop,但在使用的過程中,一直沒有發(fā)現有關Hadoop在金融應用中的任何案例資源或書籍。我遇到的關于Hadoop、Hive或一些MapReduce模式的書籍大都是用各種各樣的方式統(tǒng)計單詞數量或分析Twitter信息。
我寫這本書旨在解釋Hadoop和其他相關產品在處理金融案例大數據中的基本應用。在書中,介紹了很多案例并提供了一個非常實用的方法。
這本書包含什么
第1章,大數據回顧。本章包含大數據概覽、前景和技術演變,也介紹了Hadoop架構的基本知識、組成部分和分布式框架。如果你之前已經了解Hadoop,這一章可以忽略。
第2章,金融服務中的大數據。本章將延伸到站在一個金融機構的角度去看大數據。主要介紹大數據在金融部門的演進故事,在項目落地時的一些挑戰(zhàn),以及利用相關工具和技術處理金融案例的應用。
第3章,在云端使用Hadoop。本章包含大數據在云端使用的概覽,以及基于端到端數據處理的樣本投資組合風險模擬項目。
第4章,使用Hadoop進行數據遷移。本章討論了將歷史數據從傳統(tǒng)數據源遷到Hadoop上的幾種常用項目。
第5章,入門。本章包含了一個非常大的企業(yè)數據平臺的實施項目,以支持各種風險和監(jiān)管要求。
第6章,變得有經驗。本章給出了實時分析的概覽和檢測欺詐交易的樣本項目。
第7章,深入擴展Hadoop的企業(yè)級應用。本章包含的主題擴展到Hadoop在公司中的使用,如企業(yè)數據湖、Lambda架構和數據管理。還介紹了更多基本的財務案例與簡短的解決方案。
第8章,Hadoop的快速增長。本章討論了Hadoop分布式架構的升級周期,并用最佳實踐和標準完成此書。
閱讀這本書你需要哪些基礎知識
因為Hadoop是一個數據處理和分析的技術框架,因此在數據庫、項目和分析工具上有一些經驗對讀者會有幫助。
這本書是一個入門指南,包含了大量外部引用的大數據產品。因此,如果在任何時候需要深入了解Hadoop,我們鼓勵讀者參考書中提到的外部資源。
哪些人適合讀這本書
本書主要面向致力于使用Hadoop的金融部門工作人員,包含數據項目開發(fā)人員、分析師、架構師和管理人員。
它也有助于來自其他行業(yè)最近轉換或想將業(yè)務領域轉向金融部門的技術專業(yè)人士。
王小寧,中國人民大學統(tǒng)計學院14級碩士、16級博士,統(tǒng)計之都副主編,中國人民大學數據挖掘中心分布式計算負責人,中國人民大學中國調查與數據中心研究員,研究興趣包括統(tǒng)計機器學習、缺失數據處理和數據流抽樣。
Rajiv Tiwari,是一位有著超過 15年經驗的自由大數據架構師,他的研究方向包括大數據、數據分析、數據管理、數據架構、數據清洗 /數據整合、數據倉庫,以及銀行和其他金融組織中的數據智能等。
他畢業(yè)于瓦拉納西印度理工學院( IIT)電子工程專業(yè),在英國工作了 10年有余,大部分時間居住在英國金融城——倫敦。從 2010年起, Rajiv 就開始使用 Hadoop,當時銀行部門使用 Hadoop 的還很少。他目前正在幫助 1級投資銀行( Tier 1 Investment Bank)在 Hadoop平臺上實施一個大型風險分析項目。
目 錄
第 1章 大數據回顧. ...................................................................... 1
大數據是什么 ........ 1
數據量 ............ 2
數據速度 .......... 2
數據類型 .......... 3
大數據技術的演 ...... 3
過去 ................... 3
現在 .................... 4
未來 ................ 5
大數據愿景 ............ 5
存儲 .................. 6
NoSQL ............ 6
NoSQL數據庫類型 ....... 7
資源管理 ........... 7
數據治理 ............ 8
批量計算 ............ 8
實時計算 ............. 8
數據整合工具 ........... 9
機器學習 ........... 9
商務智能和可視化 ......... 9
大數據相關的職業(yè) ........ 10
Hadoop架構 ..............11
HDFS集群 ............. 12
MapReduce V1 ........ 14
MapReduce V2——YARN ......... 15
Hadoop生態(tài)圈簡介 ...... 18
馴服大數據 .... 18
Hadoop——英雄 ......... 19
HDFS——Hadoop分布式系統(tǒng) ............ 19
Hadoop版本 .... 23
發(fā)行版——本地部署 .......... 25
發(fā)行版——云端 ................. 27
總結 .............................. 28
第 2章 金融服務中的大數據.................. 29
各個行業(yè)的大數據使用情況 .......................... 29
衛(wèi)生保健 ............................. 30
人類科學 ............................. 30
電信 ..................................... 31
在線零售商 ......................... 31
為什么金融部門需要大數據 31
金融部門的大數據應用案例 34
HDFS上的數據歸檔 ......... 34
監(jiān)管 ..................................... 35
欺詐檢測 .............................. 35
交易數據 .............................. 36
風險管理 ............................. 36
客戶行為預測 ...................... 36
情感分析——非結構化 ..... 36
其他應用案例 ..................... 37
金融大數據的演進過程 ........ 37
應該如何學習金融大數據 .... 41
把你的數據上傳到 HDFS上 .................... 41
從 HDFS上查詢數據 ........ 42
在 Hadoop上的 SQL............. 43
實時 ..................................... 44
數據治理和運營 ................. 44
ETL工具 .............................. 45
數據分析和商業(yè)智能 ......... 45
金融大數據的實現 ................ 46
關鍵挑戰(zhàn) ............................. 46
克服挑戰(zhàn) .............................. 47
總結 ........................................ 50
第 3章 在云端使用 Hadoop........ 51
大數據云的故事 .................... 51
原因 ...................................... 52
時機 ...................................... 53
收獲 ..................................... 54
項目細節(jié)——在云中進行風險模擬 .............................. 54
解決方案 ............................. 55
現實世界 ............................. 55
目標世界 ............................. 57
數據轉換 ............................. 60
數據分析 ............................. 62
總結 ........................................ 63
第 4章 使用 Hadoop進行數據遷移. ............. 65
項目細節(jié)——歸檔你的交易數據 ................. 65
解決方案 ............................. 67
項目第一階段——分裂交易數據到數據倉庫和 Hadoop ......... 68
項目第二階段——完成數據從關系型數據倉庫到 Hadoop的遷移 ..... 77
總結 ......................................... 83
第 5章 入門. .............................. 85
項目詳細信息——風險和監(jiān)管報告 ............. 86
解決方案 .............................. 87
現實世界 ............................. 87
目標世界 ............................. 88
數據收集 ............................. 89
數據轉換 ............................. 97
數據分析 ............................112
總結 .......................................116
第 6章 變得有經驗. ....... 117
實時大數據 ...........................117
項目細節(jié)——識別欺詐交易 ....................119
解決方案 ........................... 120
現實世界 ............................... 120
目標世界 ............................ 120
馬爾科夫鏈模型執(zhí)行——批處理模式 ............... 121
數據收集 ............................. 126
數據轉換 ........................... 128
總結 .......................... 132
第 7章 深入擴展 Hadoop的企業(yè)級應用................ 133
擴展開來——實際上的水平 ..................... 134
更多的大數據使用案例 ................................. 135
使用案例——再談欺詐問題 ................. 136
解決方案 ........................................... 136
使用案例——用戶投訴 ........................ 137
解決方案 ........................................ 137
使用案例——算法交易 ................... 137
解決方案 ................ 138
使用案例——外匯交易 .................................. 138
解決方案...................... 138
使用案例——基于社交媒體的交易數據 ......... 139
解決方案 ........................................ 139
使用案例——非大數據 ................... 140
解決方案 ............................. 140
數據湖 .................................. 140
Lambda架構 ........................ 143
大數據管理 .......................... 144
Apache Falcon概覽 ......... 146
安全性 .................................. 147
總結 ...................................... 149
第 8章 Hadoop的快速增長..................... 151
Hadoop發(fā)行版的升級周期 .................. 151
最佳實踐和標準 ...................................... 154
環(huán)境 ............................................... 154
與 BI和 ETL工具的集成 ................ 155
提示 ............................................. 155
新的趨勢 ................................... 157
總結 ................ 158