本書分為三大部分,共計14章,主要內(nèi)容包括:探索性數(shù)據(jù)分析入門、概率論基礎(chǔ)、推斷統(tǒng)計基礎(chǔ)、相關(guān)性和回歸、數(shù)據(jù)分析棧、R中的數(shù)據(jù)結(jié)構(gòu)、使用R進行數(shù)據(jù)處理與可視化、使用R進行數(shù)據(jù)分析、Python中的數(shù)據(jù)結(jié)構(gòu)、使用Python進行數(shù)據(jù)分析等。
前言
第 一部分 Excel數(shù)據(jù)分析基礎(chǔ)
第 1章 探索性數(shù)據(jù)分析入門 3
1.1 什么是探索性數(shù)據(jù)分析 3
1.1.1 觀測值 5
1.1.2 變量 5
1.2 演示:對變量進行分類 8
1.3 小結(jié):變量類型 10
1.4 在Excel 中探索變量 10
1.4.1 探索分類變量 10
1.4.2 探索定量變量 13
1.5 本章小結(jié) 22
1.6 練習(xí) 23
第 2章 概率論基礎(chǔ) 25
2.1 概率與隨機性 25
2.2 概率與樣本空間 26
2.3 概率與實驗 26
2.4 非條件概率與條件概率 26
2.5 概率分布 27
2.5.1 離散概率分布 27
2.5.2 連續(xù)概率分布 30
2.6 本章小結(jié) 37
2.7 練習(xí) 37
第3章 推斷統(tǒng)計基礎(chǔ) 39
3.1 推斷統(tǒng)計框架 40
3.1.1 收集有代表性的樣本 40
3.1.2 陳述假設(shè) 41
3.1.3 制訂分析計劃 42
3.1.4 分析數(shù)據(jù) 44
3.1.5 做出決定 46
3.2 數(shù)據(jù)由你主宰 52
3.3 本章小結(jié) 53
3.4 練習(xí) 53
第4章 相關(guān)性和回歸 55
4.1 “相關(guān)并不等于因果” 55
4.2 相關(guān)性簡介 56
4.3 從相關(guān)性到回歸 60
4.4 Excel 中的線性回歸 62
4.5 反思結(jié)果:虛假關(guān)系 67
4.6 本章小結(jié) 68
4.7 高階編程階段 68
4.8 練習(xí) 69
第5章 數(shù)據(jù)分析棧 71
5.1 統(tǒng)計學(xué)、數(shù)據(jù)分析和數(shù)據(jù)科學(xué) 71
5.1.1 統(tǒng)計學(xué) 71
5.1.2 數(shù)據(jù)分析 71
5.1.3 商業(yè)分析 72
5.1.4 數(shù)據(jù)科學(xué) 72
5.1.5 機器學(xué)習(xí) 72
5.1.6 獨特,但不排他 73
5.2 數(shù)據(jù)分析棧的重要性 73
5.2.1 電子表格 74
5.2.2 數(shù)據(jù)庫 76
5.2.3 商業(yè)智能平臺 77
5.2.4 數(shù)據(jù)編程語言 77
5.3 本章小結(jié) 79
5.4 下一步 79
5.5 練習(xí) 79
第二部分 從Excel 到R
第6章 使用R 之前的準(zhǔn)備工作 83
6.1 下載R 83
6.2 RStudio 入門 83
6.3 R 包 92
6.4 升級R、RStudio 和R 包 93
6.5 本章小結(jié) 93
6.6 練習(xí) 94
第7章 R 中的數(shù)據(jù)結(jié)構(gòu)97
7.1 向量 97
7.2 索引向量和提取子集 99
7.3 從Excel 表格到R 數(shù)據(jù)框 100
7.4 在R 中導(dǎo)入數(shù)據(jù) 102
7.5 探索R 數(shù)據(jù)框 106
7.6 索引R 數(shù)據(jù)框和提取子集 107
7.7 將數(shù)據(jù)寫入R 數(shù)據(jù)框 108
7.8 本章小結(jié) 109
7.9 練習(xí) 109
第8章 使用R 進行數(shù)據(jù)處理與可視化 111
8.1 使用dplyr 包處理數(shù)據(jù) 112
8.1.1 按列操作 112
8.1.2 按行操作 114
8.1.3 聚合和連接數(shù)據(jù) 117
8.1.4 dplyr 包和管道運算符 119
8.1.5 使用tidyr 包重塑數(shù)據(jù) 121
8.2 使用ggplot2 包可視化數(shù)據(jù) 123
8.3 本章小結(jié) 129
8.4 練習(xí) 129
第9章 使用R 進行數(shù)據(jù)分析131
9.1 探索性數(shù)據(jù)分析 132
9.2 假設(shè)檢驗 135
9.2.1 獨立樣本t 檢驗 136
9.2.2 線性回歸 138
9.2.3 訓(xùn)練集/ 測試集分離和驗證 139
9.3 本章小結(jié) 142
9.4 練習(xí) 142
第三部分 從Excel 到Python
第 10章 使用Python 之前的準(zhǔn)備工作 145
10.1 下載Python145
10.2 Jupyter Notebook 入門 146
10.3 Python 中的模塊154
10.4 升級Python、Anaconda 和Python 包 156
10.5 本章小結(jié) 156
10.6 練習(xí) 156
第 11章 Python 中的數(shù)據(jù)結(jié)構(gòu) 157
11.1 numpy 數(shù)組 158
11.2 索引numpy 數(shù)組和提取子集 159
11.3 pandas 數(shù)據(jù)框 161
11.4 在Python 中導(dǎo)入數(shù)據(jù) 162
11.5 探索pandas 數(shù)據(jù)框 163
11.5.1 索引pandas 數(shù)據(jù)框和提取子集 165
11.5.2 把pandas 數(shù)據(jù)框?qū)懭胛募?166
11.6 本章小結(jié) 166
11.7 練習(xí) 166
第 12章 使用Python 進行數(shù)據(jù)處理與可視化 167
12.1 按列操作 168
12.2 按行操作 170
12.3 聚合和連接數(shù)據(jù) 171
12.4 重塑數(shù)據(jù) 173
12.5 可視化數(shù)據(jù) 174
12.6 本章小結(jié) 179
12.7 練習(xí) 179
第 13章 使用Python 進行數(shù)據(jù)分析 181
13.1 探索性數(shù)據(jù)分析 182
13.2 假設(shè)檢驗 184
13.2.1 獨立樣本t 檢驗 185
13.2.2 線性回歸 186
13.2.3 訓(xùn)練集/ 測試集分離和驗證 187
13.3 本章小結(jié) 189
13.4 練習(xí) 189
第 14章 結(jié)論和展望 191
14.1 進一步學(xué)習(xí)的方向 191
14.2 研究設(shè)計和商業(yè)實驗 191
14.3 進一步學(xué)習(xí)統(tǒng)計方法 192
14.4 數(shù)據(jù)科學(xué)和機器學(xué)習(xí) 192
14.5 版本控制 192
14.6 道德準(zhǔn)則 193
14.7 勇往直前 193
14.8 告別的話 193