本書作為大數(shù)據(jù)基礎教材,包括七章內(nèi)容。前面五章系統(tǒng)、全面地介紹了關于大數(shù)據(jù)技術及應用的基本知識和技能,后面兩章是大數(shù)據(jù)平臺的具體應用和案例實戰(zhàn)。第1章主要介紹大數(shù)據(jù)相關概念及基礎知識;第2章介紹大數(shù)據(jù)與人工智能的關系,以及大數(shù)據(jù)在人工智能中的典型應用;第3章闡述大數(shù)據(jù)開發(fā)各環(huán)節(jié)典型技術,使讀者能夠?qū)Υ髷?shù)據(jù)系統(tǒng)開發(fā)流程及關鍵技術建立一個相對系統(tǒng)的認知;第4章較系統(tǒng)地介紹了大數(shù)據(jù)開發(fā)系列平臺,并講解了依托平臺的完整大數(shù)據(jù)應用開發(fā)過程;第5章詳細分析了幾個典型大數(shù)據(jù)應用案例的實現(xiàn)過程;第6章和第7章是結合前五章內(nèi)容的具體實驗,其中第6章介紹了Noah大數(shù)據(jù)基礎引擎管理平臺、Dana Studio數(shù)智開發(fā)平臺及PandaBI數(shù)智決策平臺的操作應用,第7章詳細講解了基于Dana Studio和PandaBI實現(xiàn)政務輿情分析大數(shù)據(jù)應用的實驗過程。
本書遵循理實一體的內(nèi)容組織原則。理論部分通過大量案例加以演示說明,力求降低讀者的閱讀門檻;實驗部分圍繞真實應用案例展開,讓讀者能夠?qū)Υ髷?shù)據(jù)應用開發(fā)建立系統(tǒng)的認知。
本書是大數(shù)據(jù)相關專業(yè)的基礎通識教材,可作為高職高專及應用型本科院校計算機類和電子信息類相關專業(yè)的專業(yè)教材,也可作為其他專業(yè)的參考教材,同時也是大數(shù)據(jù)技術人員的參考讀物。
隨著物聯(lián)網(wǎng)、云計算和人工智能等新一代信息技術的迅猛發(fā)展,大數(shù)據(jù)以勢不可擋的趨勢向我們襲來,并影響和改變著人類的生活方式。當今,無處不在的移動終端、各類智能交互軟件、監(jiān)控傳感器等每分每秒都在產(chǎn)生著大量的數(shù)據(jù)。與此同時,數(shù)據(jù)的價值也在不斷凸顯,如何更好地發(fā)現(xiàn)和利用海量數(shù)據(jù)產(chǎn)生的價值,成為大數(shù)據(jù)時代面臨的重要課題。
從本質(zhì)上來說,大數(shù)據(jù)代表了一種新型的能力。人們通過分析海量數(shù)據(jù),可以從中獲得巨大的價值。在當今大數(shù)據(jù)的時代,數(shù)據(jù)已經(jīng)轉(zhuǎn)型為一種新的經(jīng)濟資產(chǎn),猶如在日常生活中所需要的貨幣和黃金。目前,大數(shù)據(jù)的競爭已經(jīng)引領著全球商業(yè)展開一場新的變革。傳統(tǒng)的數(shù)據(jù)處理技術已經(jīng)不能滿足對海量數(shù)據(jù)的處理需求,大數(shù)據(jù)處理技術如雨后春筍般涌現(xiàn)。
本書針對計算機、電子信息、信息管理等相關專業(yè)高職高專學生的發(fā)展需求,從初學者易于理解的角度,用通俗易懂的語言、簡單明了的圖表等將大數(shù)據(jù)基礎知識如數(shù)家珍地呈現(xiàn)出來。
本書的主要特點如下:
(1) 語言精練易懂,圖文并茂。本書采用通俗易懂的語言將晦澀的理論知識娓娓道來,通過搭配清晰明了的圖片將知識更形象、更清楚地展現(xiàn)出來。
(2) 以平臺為依托,結合案例分析。本書以一些主流的軟件平臺為依托,介紹具體知識的應用,案例設計力求典型、創(chuàng)新,案例分析詳細具體、清楚到位。
(3) 理論與實踐結合緊密,相輔相成。本書使用理論解決實際問題,對知識進一步擴展,做到理論不再抽象,實踐不再盲目,讓學生不僅能夠理解理論知識,而且可以熟練地動手進行操作。
(4) 注重立體化教材建設。通過主教材、電子課件、電子教案、實訓指導、配套視頻和習題等教學資源的有機結合,提高教學服務水平,為高素質(zhì)技能人才的培養(yǎng)創(chuàng)造良好條件。
由于大數(shù)據(jù)技術發(fā)展日新月異,加上編者水平有限,書中難免存在疏漏之處,懇請廣大同行、專家及讀者批評指正。
第1章 大數(shù)據(jù)基礎 1
1.1 理解大數(shù)據(jù) 2
1.1.1 人類與大數(shù)據(jù) 3
1.1.2 概念與術語 4
1.2 大數(shù)據(jù)的特征 5
1.3 大數(shù)據(jù)的類型 6
1.4 大數(shù)據(jù)的發(fā)展趨勢 8
本章小結 9
課后作業(yè) 9
第2章 大數(shù)據(jù)智能 11
2.1 大數(shù)據(jù)與人工智能概述 12
2.1.1 人工智能概述 12
2.1.2 大數(shù)據(jù)與人工智能的關系 14
2.2 基于大數(shù)據(jù)的人工智能實例 16
2.2.1 阿爾法狗 16
2.2.2 人臉支付 17
2.2.3 無人駕駛汽車 19
2.3 大數(shù)據(jù)支撐的智能應用 21
2.3.1 大數(shù)據(jù)提升社會管理效能 21
2.3.2 大數(shù)據(jù)促成智慧交通 24
2.3.3 大數(shù)據(jù)實現(xiàn)網(wǎng)絡安全態(tài)勢感知 26
2.3.4 大數(shù)據(jù)助力精準營銷 28
2.3.5 大數(shù)據(jù)輔助醫(yī)療服務 29
本章小結 31
課后作業(yè) 31
第3章 大數(shù)據(jù)開發(fā)流程 33
3.1 大數(shù)據(jù)采集與預處理 35
3.1.1 大數(shù)據(jù)來源 35
3.1.2 大數(shù)據(jù)采集方法 37
3.1.3 大數(shù)據(jù)預處理 43
3.2 大數(shù)據(jù)存儲 44
3.2.1 大數(shù)據(jù)存儲相關概念 44
3.2.2 大數(shù)據(jù)存儲技術 48
3.3 大數(shù)據(jù)處理 51
3.3.1 大數(shù)據(jù)處理方式 52
3.3.2 大數(shù)據(jù)處理典型系統(tǒng)介紹 54
3.4 大數(shù)據(jù)分析 59
3.4.1 大數(shù)據(jù)分析類型 60
3.4.2 數(shù)據(jù)挖掘的典型算法介紹 64
3.5 大數(shù)據(jù)可視化 73
3.5.1 大數(shù)據(jù)可視化的基本思想 73
3.5.2 大數(shù)據(jù)可視化工具 74
本章小結 82
課后作業(yè) 82
第4章 大數(shù)據(jù)開發(fā)平臺 85
4.1 大數(shù)據(jù)開發(fā)平臺概述 86
4.1.1 相關概念 86
4.1.2 大數(shù)據(jù)開發(fā)平臺的基本架構 86
4.1.3 平臺架構的要素 88
4.2 DDP大數(shù)據(jù)基礎引擎平臺 90
4.2.1 DDP平臺簡介 90
4.2.2 DDP平臺功能和優(yōu)勢 91
4.2.3 DDP平臺搭建 94
4.3 Dana Studio大數(shù)據(jù)開發(fā)平臺 98
4.3.1 Dana Studio平臺簡介 98
4.3.2 Dana Studio平臺功能和優(yōu)勢 98
4.3.3 Dana Studio平臺搭建 104
4.4 PandaBI數(shù)智決策平臺 106
4.4.1 PandaBI平臺簡介 106
4.4.2 PandaBI平臺功能和優(yōu)勢 107
4.4.3 PandaBI平臺搭建 112
4.5 其他大數(shù)據(jù)開發(fā)平臺 114
4.5.1 百度數(shù)智平臺(Baidu DI) 114
4.5.2 H3C大數(shù)據(jù)平臺(Data Engine) 116
本章小結 118
課后作業(yè) 118
第5章 大數(shù)據(jù)應用案例分析 119
5.1 大數(shù)據(jù)平臺應用概述 120
5.2 平臺應用案例分析 121
5.2.1 政務輿情分析大數(shù)據(jù)平臺應用 122
5.2.2 交通運營車輛大數(shù)據(jù)平臺應用 122
5.2.3 出入境管理局風險評估大數(shù)據(jù)平臺應用 136
本章小結 139
課后作業(yè) 140
第6章 大數(shù)據(jù)平臺實戰(zhàn) 141
6.1 實驗目的 142
6.2 實驗內(nèi)容 142
6.3 實驗小結 154
第7章 政務輿情分析大數(shù)據(jù)應用案例實戰(zhàn) 155
7.1 實驗目的 156
7.2 實驗內(nèi)容 156
7.3 實驗小結 171
參考文獻 172