《大數據導論》內容包括大數據基礎、大數據下的云計算、大數據處理、數據統計與分析、大數據安全、數據可視化、大數據與社交媒體的融合、大數據促進電子病歷的改革、大數據在旅游業(yè)中的應用、大數據在金融業(yè)的應用和大數據在制造業(yè)的應用,既包括大數據的基本知識,也涵蓋大數據在典型行業(yè)的具體應用,讀者通過學習能更深入地認識和掌握大數據的應用價值。書中每章都設有習題與實踐,便于鞏固所學內容。
《大數據導論》是為高等院校各專業(yè)學習大數據基本課程而設計編寫的,既能滿足人文社會科學學科的相關專業(yè)需求,也可以滿足理工科的需要,同時也可作為各行各業(yè)在職人士的參考用書。
本書努力讓非技術專業(yè)的人看懂數據科學的知識和理論及方法。
在應用部分特別關注醫(yī)療、旅游、金融和制造業(yè)的典型行業(yè)的應用。
大量應用了直觀的圖表說明,這些都使本書的邏輯更加清晰,便于理解。
回顧過去的十年,科技產品和成果不斷涌現,沖擊著人類的生活方式和思維方式:智能移動設備、人工智能、云計算、物聯網、社交網絡和各種各樣的“共享”等,使人類認知世界的方式和方法發(fā)生了巨大變化。在這些平臺和技術的運用中,流淌、堆積著一個強大的資源——大數據!人們對數據的認識和運用由此發(fā)生了根本性變化,大數據從技術變成了產業(yè)和科學,數據的價值因其“大”而“全”受到前所未有的重視。如果說過去人類社會的發(fā)展是由機械驅動、電力驅動或網絡驅動的話,那么現在和未來就是由大數據來驅動人類社會的進步。大數據的快速發(fā)展和多樣性給人們帶來巨大的挑戰(zhàn),同時大數據又給各方面帶來意想不到的價值和機遇。
大數據涌現:大數據之繁在于其“大”,不僅指其容量的數據單位由TB級別跨越到了DB級別,還體現在多樣性、處理速度和復雜度等方面,海量的數據已如決堤之洪流涌入人們的生活,大量信息源產生的數據已遠遠超越目前人力所能處理的范圍,需要人們探索如何對這些數據進行管理及運用;大數據的根本在于“數據”,在互聯網及相關平臺上利用新技術來采集、存儲和分析激增的數據。
大數據價值:大數據之重在于其“全”,蘊含在大數據中的價值使得大數據已經成為信息產業(yè)中最具潛力的藍海,人們賦予數據更多的意義,使數據成為信息資源的載體,具有了資本特性;大數據的價值在于運用,大數據在各個行業(yè)的廣泛應用,促進社會價值的快速提升才是其最終目的。這也使得學習及掌握大數據處理工具和獲得解決方案顯得十分迫切。大數據的出現將會對社會各個領域產生深刻影響,“用數據來說話、用數據來管理、用數據來決策、用數據來創(chuàng)新”是這個時代的鮮明特征。大數據技術將對社會各層面的現在和未來產生巨大價值,包括決策、預測和洞見等。
大數據人才:大數據時代需要一大批具備大數據知識和技能的人才,一方面,要有一部分專業(yè)人才,不斷研究大數據科學和技術;另一方面,其他領域的人才也應該能充分了解大數據并能和自己的專業(yè)領域結合,有效地將大數據科學和各行業(yè)的應用相結合,推動新技術和新應用的發(fā)展,這兩個方面的人才都是不可或缺的。因此,以不同的需求,從不同的角度學習和了解大數據是本書編寫的基本出發(fā)點。
本書的讀者對象是社會科學類的高等院校相關專業(yè)開設“大數據”有關課程的本科生、研究生,以及各行各業(yè)的經濟、管理人員。此外,本書對于信息技術專業(yè)和理工科類專業(yè)的學生,以及有一定實踐經驗的IT技術人員,也具有一定的參考價值。
本書的編寫力求理論聯系實際,結合一系列了解和熟悉大數據理念、技術與應用的學習和實踐活動,把大數據的相關概念、基礎知識和技術技巧融入在實踐中,使學生保持濃厚的學習熱情,加深對大數據技術和運用的興趣、認識、理解和掌握。努力讓非技術專業(yè)的人看懂數據科學的知識和理論及方法。本書在應用部分特別關注醫(yī)療、旅游、金融和制造業(yè)的典型行業(yè)的應用。例如,電子病歷的改革、大數據在旅游業(yè)中的應用、大數據在金融業(yè)中的應用,以及大數據在制造業(yè)中的應用,具有較強的行業(yè)實踐性。為相關章節(jié)的知識應用提供了現實場景,以加深讀者對大數據實際應用的認識。另外,本書大量應用了直觀的圖表說明,這些都使本書的邏輯更加清晰,便于理解。
本書由天津財經大學教師和研究生團隊編寫。參加編寫工作的人員具體分工為:楊尊琦、林海負責大綱的制定、全書的校改和第1章的撰寫等工作;朱笑笑負責第2章和第8章的撰寫;潘婧煒負責第3章和第9章的撰寫;王雅萌負責第4章和第5章的撰寫;張琳負責第6章和第7章的撰寫;劉君玲負責第10章和第11章的撰寫。本書在編寫過程中參考了很多優(yōu)秀的教材、專著和網上資料,在此對所有被引用文獻的作者表示衷心的感謝。
特別要感謝機械工業(yè)出版社的鼎力支持,以及本書編輯的辛勤工作。由于編者水平和能力有限,書中難免有不當之處,希望讀者朋友給予指正,不吝賜教。
前言
第1章大數據基礎
1.1大數據時代
1.1.1大數據時代的技術基礎
1.1.2大數據時代的變革
1.1.3信息技術(IT)向數據技術
(DT)的轉變
1.2什么是大數據
1.2.1數據的基本知識
1.2.2大數據定義
1.2.3大數據的特征
1.3大數據結構類型
1.4大數據的應用
1.4.1大數據在個人生活中的應用
1.4.2大數據在企業(yè)中的應用
1.4.3大數據在政府部門中的運用
1.5數據科學和大數據技術
1.5.1數據科學
1.5.2大數據技術與工具
1.6習題與實踐
參考文獻
第2章大數據下的云計算
2.1云計算概述
2.1.1云計算的定義
2.1.2云計算的特征
2.1.3云計算的體系架構
2.1.4云計算的類型劃分
2.1.5云計算的服務模式
2.2云計算技術
2.2.1虛擬化技術
2.2.2并行計算技術
2.2.3海量數據管理技術
2.2.4海量數據存儲技術
2.3云計算與云存儲
2.3.1云存儲概述
2.3.2云存儲的存儲方式
2.3.3云存儲與云計算的關系
2.4云計算與大數據
2.4.1云計算與大數據的關系
2.4.2云計算與大數據的結合
2.5案例——基于云計算的智慧
城市建設框架
2.5.1智慧城市的內涵
2.5.2智慧城市的支撐技術
2.5.3智慧城市的體系架構
2.5.4智慧城市的應用
2.6習題與實踐
參考文獻
第3章大數據處理
3.1數據采集
3.1.1數據采集方法
3.1.2數據質量評估
3.1.3數據質量的影響因素
3.2數據清洗
3.2.1處理殘缺數據
3.2.2處理噪聲數據
3.2.3處理冗余數據
3.3數據變換
3.3.1屬性類型變換
3.3.2屬性值變換
3.4數據集成
3.4.1模式匹配與數據值沖突
3.4.2數據冗余
3.5數據歸約
3.5.1維歸約
3.5.2數值歸約
3.6習題與實踐
參考文獻
第4章數據統計與分析
4.1統計分析方法
4.1.1分類與預測
4.1.2聚類分析
4.1.3關聯分析
4.1.4異常分析
4.2數據挖掘的基本概念
4.2.1數據挖掘的定義
4.2.2數據挖掘的分類
4.2.3數據挖掘的過程
4.3數據挖掘經典算法
4.3.1K-Means算法
4.3.2KNN算法
4.3.3ID3算法
4.4案例——用大數據來挖掘
《小時代》
4.5習題與實踐
參考文獻
第5章大數據安全
5.1安全與隱私問題凸顯
5.1.1網絡安全漏洞
5.1.2個人隱私泄露
5.2大數據時代的安全挑戰(zhàn)
5.2.1信息安全的發(fā)展歷程
5.2.2云計算技術帶來的安全挑戰(zhàn)
5.3如何解決大數據安全問題
5.3.1大數據安全防護對策
5.3.2大數據安全防護關鍵技術
5.4如何解決隱私保護問題
5.4.1隱私保護的政策法規(guī)
5.4.2隱私保護技術
5.5案例——百度大數據安全
實踐
5.6習題與實踐
參考文獻
第6章數據可視化
6.1數據可視化類型
6.1.1科學可視化
6.1.2信息可視化
6.1.3可視分析學
6.2數據可視化流程及步驟
6.2.1數據可視化流程
6.2.2數據處理和變換
6.2.3視覺編碼
6.2.4統計圖表
6.2.5視覺隱喻
6.3可視化評估
6.3.1評估分類
6.3.2評估方法
6.4習題與實踐
參考文獻
第7章大數據與社交媒體的融合
7.1什么是社交媒體
7.1.1社交媒體的定義
7.1.2社交媒體的發(fā)展
7.2社交媒體大數據的分析與
挖掘
7.2.1基于用戶的大數據分析
7.2.2基于關系的大數據分析
7.2.3基于內容的大數據分析
7.3社交媒體大數據的未來挑戰(zhàn)
7.4社交媒體大數據信息安全
問題
7.4.1社交媒體導致的信息風險類型和
形成原因
7.4.2社交媒體的信息風險治理
方案
7.5習題與實踐
參考文獻
第8章大數據促進電子病歷的
改革
8.1醫(yī)療病歷的問題與挑戰(zhàn)
8.1.1病歷共享和追溯問題
8.1.2病歷責任意識薄弱
8.1.3病歷遺失現象
8.1.4電子病歷的出現
8.2大數據與電子病歷
8.2.1電子病歷的大數據定義
8.2.2基于大數據的標準化電子
病歷
8.2.3“大數據+云計算”的電子病歷
存儲
8.2.4基于大數據的電子病歷共享和
追溯
8.3電子病歷與數據挖掘
8.3.1電子病歷數據的深度利用
8.3.2電子病歷的數據預處理
8.3.3多維電子病歷數據分析
8.3.4電子病歷數據挖掘
8.4我國居民終身電子病歷
8.4.1背景分析
8.4.2實施方案
8.4.3技術支持
8.5習題與實踐
參考文獻
第9章大數據在旅游業(yè)中的應用
9.1旅游數據的問題與發(fā)展
9.1.1旅游數據收集問題
9.1.2旅游數據分析問題
9.1.3旅游數據應用問題
9.1.4旅游數據的發(fā)展方向
9.2大數據與旅游業(yè)
9.2.1智慧旅游+大數據
9.2.2定制旅游+大數據
9.2.3精準營銷+大數據
9.3旅游與數據挖掘
9.3.1鎖定客戶人群、關注客戶
需求
9.3.2社交媒體挖掘、增加客戶
忠誠
9.4旅游平臺
9.4.1旅游平臺的模式
9.4.2旅游平臺的技術
9.5習題與實踐
參考文獻
第10章大數據在金融業(yè)中的應用
——金融大數據
10.1金融大數據概述
10.1.1什么是金融大數據
10.1.2金融大數據對金融業(yè)的
影響
10.1.3金融大數據應用的實施
戰(zhàn)略
10.2金融大數據的應用
10.2.1金融大數據的業(yè)務應用
10.2.2金融大數據的應用舉例
10.3大數據與金融創(chuàng)新
10.3.1金融創(chuàng)新的四個維度
10.3.2金融創(chuàng)新的應用舉例
10.4習題與實踐
參考文獻
第11章大數據在制造業(yè)中的應用
——工業(yè)大數據
11.1大數據下的工業(yè)革命
11.1.1工業(yè)4.0
11.1.2“新工業(yè)革命”和“中國制
造2025”
11.2工業(yè)大數據
11.3大數據與智能工廠
11.3.1智能工廠的概念、