數(shù)據(jù)科學(xué)概論——從概念到應(yīng)用
定 價(jià):79 元
- 作者:薛薇
- 出版時(shí)間:2022/8/1
- ISBN:9787121441332
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁(yè)碼:448
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)引導(dǎo)讀者從數(shù)據(jù)科學(xué)基本概念出發(fā),全面了解數(shù)據(jù)科學(xué)相關(guān)知識(shí),掌握數(shù)據(jù)科學(xué)中數(shù)據(jù)處理的流程和方法。本書(shū)在理論上突出可讀性和完整性,力求兼具一定的廣度和深度;在實(shí)踐上強(qiáng)調(diào)對(duì)常用技術(shù)工具的操作性,力求體現(xiàn)數(shù)據(jù)科學(xué)應(yīng)用的多樣性和代表性。全書(shū)共12章,可分為三大部分:第1、2章是數(shù)據(jù)科學(xué)概述部分;第3~6章是數(shù)據(jù)科學(xué)理論基礎(chǔ)和重點(diǎn)工具部分;第7~12章是數(shù)據(jù)科學(xué)全流程的技術(shù)與方法部分(包括數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)可視化、數(shù)據(jù)分析、數(shù)據(jù)安全與倫理,以及數(shù)據(jù)科學(xué)的應(yīng)用與案例)。登錄華信教育資源網(wǎng)(www.hxedu.com.cn)可下載本書(shū)涉及的案例與示例的全部代碼和數(shù)據(jù)集,以及各章PPT和教學(xué)大綱等資料。本書(shū)可作為高等院校數(shù)據(jù)科學(xué)相關(guān)專業(yè)的教學(xué)用書(shū),也可作為數(shù)據(jù)科學(xué)相關(guān)研究從業(yè)人員的參考用書(shū)。
薛薇,工學(xué)碩士,經(jīng)濟(jì)學(xué)博士,中國(guó)人民大學(xué)應(yīng)用統(tǒng)計(jì)學(xué)科研究中心研究員,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院副教授。主要研究領(lǐng)域:機(jī)器學(xué)習(xí)和文本挖掘、復(fù)雜網(wǎng)絡(luò)建模等。關(guān)注統(tǒng)計(jì)和數(shù)據(jù)挖掘算法及軟件應(yīng)用。涉足企業(yè)客戶終身價(jià)值測(cè)算,基于文本挖掘的熱點(diǎn)事件主題提取和分類,金融、貿(mào)易等復(fù)雜網(wǎng)絡(luò)動(dòng)態(tài)建模等方面。主要代表性教材:《SPSS統(tǒng)計(jì)分析方法及應(yīng)用》《R語(yǔ)言數(shù)據(jù)挖掘方法及應(yīng)用》《R語(yǔ)言:大數(shù)據(jù)分析中的統(tǒng)計(jì)方法及應(yīng)用》《SPSS Modeler數(shù)據(jù)挖掘方法及應(yīng)用》《數(shù)據(jù)科學(xué)概論——從概念到應(yīng)用》等。
目錄
第1章 數(shù)據(jù)與信息概述 1
1.1 數(shù)據(jù)的概念、特征和作用 1
1.1.1 數(shù)據(jù)的概念 1
1.1.2 數(shù)據(jù)的特征 2
1.1.3 數(shù)據(jù)的作用 3
1.2 數(shù)據(jù)的尺度與類型 3
1.2.1 定性數(shù)據(jù)和定量數(shù)據(jù) 4
1.2.2 離散數(shù)據(jù)和連續(xù)數(shù)據(jù) 5
1.2.3 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 5
1.3 數(shù)據(jù)的表格化 8
1.3.1 個(gè)體數(shù)據(jù)的表格化 8
1.3.2 批量匯總數(shù)據(jù)的表格化 9
1.3.3 統(tǒng)計(jì)指標(biāo) 11
1.4 數(shù)據(jù)的數(shù)字化 12
1.4.1 二進(jìn)制與數(shù)字化 12
1.4.2 文本的數(shù)字化 13
1.4.3 數(shù)字的數(shù)字化 15
1.4.4 多媒體的數(shù)字化 17
1.4.5 數(shù)字化轉(zhuǎn)型與數(shù)字化經(jīng)濟(jì) 18
1.5 信息與信息熵 19
1.5.1 信息熵:不確定性的度量 19
1.5.2 信息增益:不確定性減少的度量 20
第2章 數(shù)據(jù)科學(xué)概述 22
2.1 數(shù)據(jù)科學(xué)的科學(xué)觀 22
2.1.1 從科學(xué)高度看數(shù)據(jù)科學(xué) 22
2.1.2 通過(guò)案例初識(shí)數(shù)據(jù)科學(xué) 23
2.2 數(shù)據(jù)科學(xué)概念 25
2.2.1 數(shù)據(jù)科學(xué)產(chǎn)生的重大技術(shù)背景 25
2.2.2 數(shù)據(jù)科學(xué)產(chǎn)生的典型應(yīng)用背景 25
2.2.3 數(shù)據(jù)科學(xué)的定義 27
2.3 歷史觀察:探討數(shù)據(jù)科學(xué)的發(fā)展歷程 27
2.3.1 古代:從結(jié)繩記事到阿拉伯?dāng)?shù)字 27
2.3.2 古典:政治算術(shù)和國(guó)勢(shì)學(xué) 29
2.3.3 近代:隨機(jī)現(xiàn)象、概率論與數(shù)理統(tǒng)計(jì) 29
2.3.4 現(xiàn)代:抽樣與推斷統(tǒng)計(jì) 31
2.3.5 計(jì)算機(jī)時(shí)代:技術(shù)革命帶來(lái)的繁榮 32
2.3.6 大數(shù)據(jù)時(shí)代:奠定數(shù)據(jù)科學(xué)基礎(chǔ) 33
2.4 數(shù)據(jù)世界:探討數(shù)據(jù)科學(xué)的對(duì)象 37
2.4.1 數(shù)據(jù)世界和數(shù)據(jù)科學(xué) 37
2.4.2 數(shù)據(jù)世界和數(shù)字孿生 38
2.5 DIKW模型:探討數(shù)據(jù)科學(xué)中的若干基本概念 39
2.5.1 DIKW模型 39
2.5.2 從DIKW模型看數(shù)據(jù)科學(xué) 41
2.6 維恩圖:探討數(shù)據(jù)科學(xué)的學(xué)科交叉性 42
2.6.1 文獻(xiàn)中的數(shù)據(jù)科學(xué)維恩圖 42
2.6.2 數(shù)據(jù)科學(xué)學(xué)科交叉性的總結(jié) 43
2.7 從數(shù)據(jù)到模型:探討數(shù)據(jù)科學(xué)的一般方法 45
2.7.1 反問(wèn)題的方法 45
2.7.2 數(shù)據(jù)驅(qū)動(dòng)的方法 46
2.7.3 模型化的方法 47
2.8 數(shù)據(jù)處理流程:探討數(shù)據(jù)科學(xué)方法論 53
2.8.1 傳統(tǒng)理念下的數(shù)據(jù)處理方法論 53
2.8.2 計(jì)算機(jī)時(shí)代的數(shù)據(jù)處理方法論 54
2.8.3 大數(shù)據(jù)時(shí)代的數(shù)據(jù)處理方法論 56
2.9 三維視角:總覽數(shù)據(jù)科學(xué) 58
2.9.1 從三維視角看數(shù)據(jù)科學(xué) 58
2.9.2 理論方法維度 58
2.9.3 處理流程維度 60
2.9.4 應(yīng)用領(lǐng)域維度 60
第3章 數(shù)據(jù)科學(xué)中的計(jì)算機(jī)基礎(chǔ) 61
3.1 計(jì)算機(jī)系統(tǒng)概述 61
3.1.1 計(jì)算機(jī)的發(fā)展 62
3.1.2 計(jì)算機(jī)的種類 62
3.2 計(jì)算機(jī)硬件 63
3.2.1 計(jì)算機(jī)硬件的組成 63
3.2.2 計(jì)算機(jī)硬件的工作原理 64
3.3 計(jì)算機(jī)軟件 65
3.3.1 操作系統(tǒng) 65
3.3.2 計(jì)算機(jī)語(yǔ)言 66
3.3.3 應(yīng)用軟件 68
3.4 計(jì)算機(jī)網(wǎng)絡(luò) 68
3.4.1 局域網(wǎng)、廣域網(wǎng)和因特網(wǎng) 69
3.4.2 計(jì)算機(jī)網(wǎng)絡(luò)的通信協(xié)議 71
3.5 計(jì)算機(jī)應(yīng)用的技術(shù)模式 72
3.5.1 主機(jī)/終端模式 72
3.5.2 客戶機(jī)/服務(wù)器模式 73
3.5.3 瀏覽器/服務(wù)器模式 74
3.5.4 云計(jì)算模式 75
3.5.5 對(duì)等模式 78
3.6 計(jì)算機(jī)應(yīng)用 79
3.6.1 科學(xué)計(jì)算 79
3.6.2 數(shù)據(jù)處理與大數(shù)據(jù) 80
3.6.3 人工智能 81
3.6.4 過(guò)程控制 85
第4章 數(shù)據(jù)科學(xué)中的數(shù)學(xué)與統(tǒng)計(jì)學(xué)基礎(chǔ) 86
4.1 微積分與數(shù)據(jù)科學(xué)應(yīng)用 87
4.1.1 微積分的產(chǎn)生背景 87
4.1.2 微積分的基本思想方法 88
4.1.3 梯度下降法及數(shù)據(jù)科學(xué)應(yīng)用示例 90
4.2 線性代數(shù)與數(shù)據(jù)科學(xué)應(yīng)用 93
4.2.1 向量與向量空間及應(yīng)用示例 93
4.2.2 矩陣與線性變換及應(yīng)用示例 95
4.2.3 特征值與奇異值及數(shù)據(jù)科學(xué)應(yīng)用示例 99
4.3 統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)應(yīng)用 103
4.3.1 描述統(tǒng)計(jì)要點(diǎn) 104
4.3.2 概率與概率分布要點(diǎn) 107
4.3.3 推斷統(tǒng)計(jì)和多元統(tǒng)計(jì)分析要點(diǎn) 108
4.3.4 貝葉斯思維在數(shù)據(jù)科學(xué)中的應(yīng)用 109
4.4 集合論與數(shù)據(jù)科學(xué)的應(yīng)用 113
4.4.1 集合論與羅素悖論 113
4.4.2 粗糙集與數(shù)據(jù)科學(xué)應(yīng)用示例 115
4.5 圖論與數(shù)據(jù)科學(xué)的應(yīng)用 120
4.5.1 歐拉和哥尼斯堡七橋問(wèn)題 120
4.5.2 圖論的發(fā)展沿革 121
4.5.3 圖論與數(shù)據(jù)科學(xué)應(yīng)用示例 122
第5章 數(shù)據(jù)科學(xué)中的SQL基礎(chǔ) 125
5.1 SQL概述 125
5.1.1 SQL的優(yōu)點(diǎn) 125
5.1.2 MySQL和SQL入門(mén) 127
5.2 SQL的數(shù)據(jù)定義和應(yīng)用 130
5.2.1 SQL數(shù)據(jù)定義語(yǔ)句 131
5.2.2 SQL數(shù)據(jù)定義應(yīng)用 133
5.3 SQL的數(shù)據(jù)操縱和應(yīng)用 137
5.3.1 SQL數(shù)據(jù)操縱語(yǔ)句 137
5.3.2 SQL數(shù)據(jù)操縱應(yīng)用 137
5.4 SQL的數(shù)據(jù)查詢 139
5.4.1 SELECT語(yǔ)句的簡(jiǎn)單應(yīng)用 139
5.4.2 SELECT語(yǔ)句的進(jìn)階應(yīng)用 145
5.4.3 SELECT語(yǔ)句的其他應(yīng)用 150
5.5 MySQL的系統(tǒng)管理 151
5.5.1 MySQL的用戶管理 151
5.5.2 MySQL的權(quán)限管理 152
5.5.3 MySQL的事務(wù)管理 153
5.5.4 MySQL的文件存儲(chǔ)和日志管理 155
5.5.5 MySQL的客戶端數(shù)據(jù)庫(kù)管理工具Navicat 158
第6章 數(shù)據(jù)科學(xué)中的Python基礎(chǔ) 160
6.1 Python概述 160
6.1.1 Python的特點(diǎn) 160
6.1.2 Python的安裝和啟動(dòng) 161
6.1.3 第一個(gè)Python程序與幫助 162
6.2 Python基礎(chǔ) 164
6.2.1 Python的基本數(shù)據(jù)類型和組織 164
6.2.2 Python的程序結(jié)構(gòu)和流程控制 169
6.2.3 異常處理結(jié)構(gòu) 173
6.3 Python語(yǔ)言進(jìn)階 176
6.3.1 面向?qū)ο蟪绦蛟O(shè)計(jì) 176
6.3.2 模塊與包 177
6.3.3 Python綜合:chaos混沌態(tài) 178
6.4 NumPy入門(mén) 181
6.4.1 NumPy數(shù)組的創(chuàng)建 182
6.4.2 NumPy數(shù)組的訪問(wèn) 185
6.4.3 NumPy數(shù)組的計(jì)算 186
6.5 Pandas入門(mén) 190
6.5.1 Pandas的數(shù)據(jù)組織 191
6.5.2 Pandas的數(shù)據(jù)加工處理 194
6.6 Matplotlib入門(mén) 196
6.6.1 Matplotlib的基本繪圖 196
6.6.2 Matplotlib的參數(shù)配置 198
6.6.3 Matplotlib的子圖設(shè)置 200
6.6.4 Matplotlib的常見(jiàn)統(tǒng)計(jì)圖 201
6.7 Python綜合應(yīng)用示例:對(duì)空氣質(zhì)量監(jiān)測(cè)數(shù)據(jù)的分析 206
6.7.1 空氣質(zhì)量數(shù)據(jù)的預(yù)處理 207
6.7.2 空氣質(zhì)量數(shù)據(jù)的基本分析 209
6.7.3 空氣質(zhì)量數(shù)據(jù)的可視化 212
第7章 數(shù)據(jù)采集 217
7.1 傳統(tǒng)數(shù)據(jù)采集方式和技術(shù) 218
7.1.1 普查和統(tǒng)計(jì)報(bào)表制度 218
7.1.2 抽樣調(diào)查和問(wèn)卷調(diào)查 220
7.1.3 觀察法和實(shí)驗(yàn)法 221
7.1.4 傳統(tǒng)數(shù)據(jù)采集技術(shù) 224
7.2 互聯(lián)網(wǎng)數(shù)據(jù)采集 226
7.2.1 互聯(lián)網(wǎng)數(shù)據(jù)采集概述 227
7.2.2 網(wǎng)站運(yùn)營(yíng)數(shù)據(jù)庫(kù)和數(shù)據(jù)分析及采集 227
7.2.3 網(wǎng)頁(yè)埋點(diǎn)和數(shù)據(jù)采集 229
7.2.4 開(kāi)放數(shù)據(jù)庫(kù)和數(shù)據(jù)采集 231
7.2.5 搜索引擎和數(shù)據(jù)采集 233
7.2.6 網(wǎng)頁(yè)爬蟲(chóng)和數(shù)據(jù)采集 236
7.3 物聯(lián)網(wǎng)數(shù)據(jù)采集 240
7.3.1 物聯(lián)網(wǎng)數(shù)據(jù)采集概述 240
7.3.2 傳感器和數(shù)據(jù)采集 241
7.3.3 衛(wèi)星通信和數(shù)據(jù)采集 242
7.3.4 射頻識(shí)別技術(shù)、條形碼和數(shù)據(jù)采集 244
7.4 數(shù)據(jù)采集與人工智能 245
7.4.1 數(shù)據(jù)標(biāo)注與數(shù)據(jù)采集 246
7.4.2 文本數(shù)據(jù)采集和挖掘 248
7.4.3 圖像數(shù)據(jù)采集和識(shí)別 249
第8章 數(shù)據(jù)存儲(chǔ)與管理 251
8.1 數(shù)據(jù)文件和數(shù)據(jù)庫(kù)系統(tǒng) 251
8.1.1 數(shù)據(jù)文件 251
8.1.2 數(shù)據(jù)庫(kù)系統(tǒng)的概念 254
8.1.3 關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)和聯(lián)機(jī)事務(wù)處理 255
8.1.4 數(shù)據(jù)庫(kù)索引技術(shù) 257
8.2 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng) 260
8.2.1 數(shù)據(jù)倉(cāng)庫(kù)的概念 260
8.2.2 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基本結(jié)構(gòu) 261
8.2.3 聯(lián)機(jī)分析處理 264
8.2.4 知識(shí)發(fā)現(xiàn)與商業(yè)智能 266
8.3 數(shù)據(jù)庫(kù)系統(tǒng)的技術(shù)發(fā)展 268
8.3.1 并行數(shù)據(jù)庫(kù)技術(shù) 269
8.3.2 分布式數(shù)據(jù)庫(kù)技術(shù) 271
8.3.3 NoSQL數(shù)據(jù)庫(kù)系統(tǒng)和NewSQL數(shù)據(jù)庫(kù)系統(tǒng) 272
8.4 Hadoop大數(shù)據(jù)系統(tǒng) 275
8.4.1 什么是Hadoop 275
8.4.2 HDFS 276
8.4.3 MapReduce計(jì)算框架 279
8.4.4 Hadoop大數(shù)據(jù)生態(tài)系統(tǒng) 280
8.5 Spark大數(shù)據(jù)系統(tǒng) 286
8.5.1 什么是Spark 287
8.5.2 Spark大數(shù)據(jù)生態(tài)系統(tǒng) 288
8.5.3 Spark大數(shù)據(jù)平臺(tái)databricks應(yīng)用 290
8.6 Flink大數(shù)據(jù)系統(tǒng) 294
8.6.1 流數(shù)據(jù) 294
8.6.2 Flink大數(shù)據(jù)生態(tài)系統(tǒng) 297
8.7 數(shù)據(jù)湖系統(tǒng) 300
8.7.1 什么是數(shù)據(jù)湖系統(tǒng) 300
8.7.2 數(shù)據(jù)湖系統(tǒng)的基本功能 301
8.7.3 典型的數(shù)據(jù)湖系統(tǒng) 302
第9章 數(shù)據(jù)可視化 305
9.1 數(shù)據(jù)可視化概述 305
9.1.1 數(shù)據(jù)可視化起源和發(fā)展 305
9.1.2 數(shù)據(jù)可視化元素 307
9.1.3 數(shù)據(jù)可視化步驟和原則 308
9.2 數(shù)據(jù)可視化一般方法 309
9.2.1 電子地圖及地圖圖表 309
9.2.2 高維數(shù)據(jù)的可視化展現(xiàn) 312
9.3 數(shù)據(jù)可視化實(shí)現(xiàn)和Tableau應(yīng)用 315
9.3.1 數(shù)據(jù)可視化實(shí)現(xiàn)方式 316
9.3.2 Tableau及其應(yīng)用 317
9.4 數(shù)據(jù)可視化的新發(fā)展 325
9.4.1 計(jì)算機(jī)圖形學(xué) 326
9.4.2 虛擬現(xiàn)實(shí)及相關(guān)技術(shù) 327
9.4.3 增強(qiáng)現(xiàn)實(shí)技術(shù) 329
第10章 數(shù)據(jù)分析 332
10.1 數(shù)據(jù)分析方法、目標(biāo)及軟件工具 332
10.1.1 數(shù)據(jù)分析方法 332
10.1.2 數(shù)據(jù)分析目標(biāo) 337
10.1.3 數(shù)據(jù)分析軟件工具:sklearn簡(jiǎn)介 338
10.2 數(shù)據(jù)預(yù)處理 340
10.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化處理 340
10.2.2 缺失值處理 342
10.2.3 特征選擇與特征提取 344
10.3 經(jīng)典聚類算法 347
10.3.1 聚類分析概述 347
10.3.2 層次聚類 349
10.3.3 K-均值聚類 351
10.3.4 DBSCAN聚類 353
10.3.5 聚類分析應(yīng)用實(shí)例 355
10.4 數(shù)據(jù)預(yù)測(cè):經(jīng)典統(tǒng)計(jì)方法 360
10.4.1 數(shù)據(jù)預(yù)測(cè)中的一般問(wèn)題 360
10.4.2 一般線性回歸分析 362
10.4.3 二項(xiàng)邏輯回歸分析 365
10.4.4 數(shù)據(jù)預(yù)測(cè)應(yīng)用實(shí)例 367
10.5 數(shù)據(jù)預(yù)測(cè):經(jīng)典機(jī)器學(xué)習(xí)方法 370
10.5.1 K-近鄰分析 370
10.5.2 決策樹(shù)算法 373
10.5.3 支持向量機(jī) 377
10.5.4 分類算法的對(duì)比 379
第11章 數(shù)據(jù)安全與倫理 384
11.1 數(shù)據(jù)安全概述 384
11.1.1 什么是數(shù)據(jù)安全 384
11.1.2 數(shù)據(jù)安全的分類 385
11.2 數(shù)據(jù)安全體系 388
11.2.1 數(shù)據(jù)安全管理系統(tǒng) 388
11.2.2 數(shù)據(jù)安全法律法規(guī)系統(tǒng) 389
11.2.3 數(shù)據(jù)安全技術(shù)系統(tǒng) 391
11.3 傳統(tǒng)數(shù)據(jù)安全技術(shù) 393
11.3.1 數(shù)據(jù)加密 393
11.3.2 數(shù)據(jù)脫敏 394
11.4 大數(shù)據(jù)時(shí)代的數(shù)據(jù)安全技術(shù) 396
11.4.1 區(qū)塊鏈 396
11.4.2 聯(lián)邦學(xué)習(xí) 398
11.5 數(shù)據(jù)倫理和算法倫理 402
11.5.1 數(shù)據(jù)倫理與案例 403
11.5.2 算法倫理與案例 405
第12章 數(shù)據(jù)科學(xué)的應(yīng)用與案例 408
12.1 數(shù)據(jù)科學(xué)的商業(yè)應(yīng)用:RFM分析與客戶終身價(jià)值 408
12.1.1 客戶購(gòu)買(mǎi)行為的RFM分析 408
12.1.2 客戶終身價(jià)值 409
12.1.3 客戶終身價(jià)值的計(jì)算和應(yīng)用案例 411
12.1.4 應(yīng)用啟示:理解業(yè)務(wù)才能做好分析 415
12.2 數(shù)據(jù)科學(xué)的海關(guān)應(yīng)用:抽樣方案升級(jí) 416
12.2.1 海關(guān)稽查案例 417
12.2.2 海關(guān)稽查抽樣的數(shù)據(jù)模擬 418
12.2.3 應(yīng)用啟示:數(shù)據(jù)治理體系 424
12.3 數(shù)據(jù)科學(xué)的企業(yè)應(yīng)用:數(shù)字化轉(zhuǎn)型 426
12.3.1 數(shù)字化轉(zhuǎn)型概述 426
12.3.2 數(shù)字化轉(zhuǎn)型案例 427
12.3.3 應(yīng)用啟示:數(shù)字化轉(zhuǎn)型的評(píng)估模型 430
附錄A MySQL函數(shù)列表 432