《大數(shù)據(jù)分析》旨在為組織采用大數(shù)據(jù)技術(shù)提供一系列實(shí)施策略,建立一個(gè)堅(jiān)實(shí)的基礎(chǔ),即,總體上把握大數(shù)據(jù)能是什么,為什么大數(shù)據(jù)能增值,哪種類型的問題適合用大數(shù)據(jù)方法,以及如何合理規(guī)劃去確定需求,如何在機(jī)構(gòu)中安排合適的人力,如何進(jìn)行系統(tǒng)集成策劃。
另一方面,《大數(shù)據(jù)分析》不是介紹如何做大數(shù)據(jù)應(yīng)用開發(fā)的,如MapReduce編程、Hadoop實(shí)現(xiàn)等,但各章都會(huì)提供一個(gè)概述,來(lái)說(shuō)明采用大數(shù)據(jù)的生態(tài)系統(tǒng)相關(guān)內(nèi)容或采用大數(shù)據(jù)的過程。
導(dǎo)語(yǔ)
在技術(shù)方面,似乎是“風(fēng)水輪流轉(zhuǎn)”,至少以我的經(jīng)驗(yàn)看來(lái),它確實(shí)是這樣。最近,“大數(shù)據(jù)”和“大數(shù)據(jù)分析”的概念已經(jīng)變得無(wú)處不在——據(jù)說(shuō)要訪問一個(gè)Web站點(diǎn),打開一份報(bào)紙,或閱讀一本雜志,都會(huì)提及一個(gè)或兩個(gè)諸如此類的短語(yǔ)。然而大數(shù)據(jù)所包含的大規(guī)模并行處理、海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分布、高速網(wǎng)絡(luò)、高性能計(jì)算、任務(wù)和線程管理以及數(shù)據(jù)挖掘和分析等都不是新的技術(shù)。
我的職業(yè)生涯的第一階段是在20世紀(jì)80年代末和90年代初,那時(shí)我作為軟件開發(fā)人員,為某公司超級(jí)計(jì)算機(jī)做編程語(yǔ)言編譯器。大多數(shù)這樣的高端系統(tǒng)是多處理器系統(tǒng),采用大規(guī)模并行處理,由大數(shù)據(jù)集(按那時(shí)的標(biāo)準(zhǔn))驅(qū)動(dòng)。我的具體職責(zé)是查看代碼優(yōu)化,工作重點(diǎn)是提升處理器的數(shù)據(jù)帶寬和充分利用系統(tǒng)中設(shè)計(jì)和安裝的多級(jí)內(nèi)存。有趣的是,大部分用于硬件設(shè)計(jì)和軟件開發(fā)的架構(gòu)和技術(shù)都不是新的,多來(lái)自早期的超級(jí)計(jì)算機(jī)的貢獻(xiàn),如在20世紀(jì)70年代初開發(fā)的第一個(gè)大規(guī)模并行計(jì)算系統(tǒng)IlliacIV。
這就是大數(shù)據(jù)現(xiàn)象讓我如此著迷的原因:不是新技術(shù)的出現(xiàn),而是已知的技術(shù)最終如何成為主流。當(dāng)20年前的前沿技術(shù),其技術(shù)細(xì)節(jié)定期地出現(xiàn)在《紐約時(shí)報(bào)》《華爾街日?qǐng)?bào)》和《經(jīng)濟(jì)學(xué)人》雜志上時(shí),你就會(huì)知道它終于到來(lái)了。采用新技術(shù)面臨的挑戰(zhàn)
很多人對(duì)新技術(shù)有天然的喜好——總有一種直覺就是最新最閃亮的“銀彈”不僅會(huì)解決組織中存在的所有問題,而且還能成為完善整個(gè)組織的一條金幣鑄造流。同時(shí),在那些不適應(yīng)新技術(shù)變革的組織中,有被拋棄的揮之不去的恐懼——即使起初新技術(shù)沒有明確的價(jià)值取向,如果他們不采用,將會(huì)遠(yuǎn)遠(yuǎn)落在后面。
第1章 大數(shù)據(jù)分析的市場(chǎng)和業(yè)務(wù)驅(qū)動(dòng)力
1.1 區(qū)分大數(shù)據(jù)的炒作和現(xiàn)實(shí)
1.2 理解業(yè)務(wù)驅(qū)動(dòng)因素
1.3 降低準(zhǔn)入門檻
1.4 注意事項(xiàng)
1.5 思考練習(xí)
第2章 適用大數(shù)據(jù)分析的業(yè)務(wù)問題
2.1 反對(duì)炒作:組織適應(yīng)能力
2.2 大數(shù)據(jù)價(jià)值帶來(lái)的提升
2.3 大數(shù)據(jù)用例
2.4 大數(shù)據(jù)應(yīng)用的特點(diǎn)
2.5 大數(shù)據(jù)價(jià)值的感知和量化
2.6 關(guān)于價(jià)值的進(jìn)一步思考
2.7 思考練習(xí)
第3章 實(shí)現(xiàn)大數(shù)據(jù)分析的組織合作
3.1 兩個(gè)關(guān)鍵問題
3.2 大數(shù)據(jù)分析和報(bào)告的歷史視角
3.3 文化沖突的挑戰(zhàn)
3.4 采用大數(shù)據(jù)技術(shù)的考慮因素
3.5 合適的決策人
3.6 組織協(xié)調(diào)的角色
3.7 思考練習(xí)
第4章 制定企業(yè)集成大數(shù)據(jù)分析的戰(zhàn)略
4.1 決定采用大數(shù)據(jù)技術(shù)的內(nèi)容、方式和時(shí)機(jī)
4.2 采用大數(shù)據(jù)技術(shù)的戰(zhàn)略規(guī)劃
4.3 規(guī)范征求業(yè)務(wù)用戶需求的做法
4.4 采用新技術(shù)的可接受性:明確用或不用的原則
4.5 為可擴(kuò)展性準(zhǔn)備數(shù)據(jù)環(huán)境
4.6 促進(jìn)數(shù)據(jù)重用
4.7 建立適當(dāng)?shù)谋O(jiān)督和管理
4.8 為主流技術(shù)提供管理過程
4.9 企業(yè)集成的考慮事項(xiàng)
4.10 思考練習(xí)
第5章 大數(shù)據(jù)分析的數(shù)據(jù)治理策略與過程
5.1 數(shù)據(jù)治理的演變
5.2 大數(shù)據(jù)和數(shù)據(jù)治理
5.3 與大數(shù)據(jù)集的區(qū)別
5.4 大數(shù)據(jù)監(jiān)管的5個(gè)關(guān)鍵理念
5.4.1 管理使用者數(shù)據(jù)預(yù)期
5.4.2 確定數(shù)據(jù)質(zhì)量的關(guān)鍵維度
5.4.3 實(shí)體提取的元數(shù)據(jù)和參考數(shù)據(jù)的一致性
5.4.4 重新調(diào)整用途和重新解釋
5.4.5 數(shù)據(jù)充實(shí)和強(qiáng)化
5.5 考慮事項(xiàng)
5.6 思考練習(xí)
……
第6章 大數(shù)據(jù)管理的高性能設(shè)備
第7章 大數(shù)據(jù)工具和技術(shù)
第8章 大數(shù)據(jù)應(yīng)用開發(fā)
第9章 大數(shù)據(jù)的NoSQL數(shù)據(jù)管理
第10章 大數(shù)據(jù)圖分析
第11章 開發(fā)大數(shù)據(jù)路線圖