本書循序漸進、深入講解了R語言數(shù)據(jù)統(tǒng)計分析與應(yīng)用的核心知識,并通過具體實例的實現(xiàn)過程演練了知識點的用法和流程。全書共16章,分別講解了R語言基礎(chǔ)、R語言數(shù)據(jù)統(tǒng)計語法基礎(chǔ)、數(shù)據(jù)獲取和處理、繪制可視化統(tǒng)計圖、描述性統(tǒng)計分析、探索性數(shù)據(jù)分析、推論統(tǒng)計、回歸分析、方差分析、非參數(shù)統(tǒng)計分析、主成分分析、聚類分析、生存分析、因子分析、基于機器學(xué)習(xí)的患者再入院預(yù)測分析系統(tǒng)和中概科技指數(shù)統(tǒng)計分析與投資系統(tǒng)。全書簡潔而不失其技術(shù)深度,內(nèi)容豐富全面,歷史資料翔實齊全。同時,本書易于閱讀,以極簡的文字介紹了復(fù)雜的案例,同時涵蓋了其他同類圖書中很少涉及的歷史參考資料,是學(xué)習(xí)R語言數(shù)據(jù)統(tǒng)計分析與應(yīng)用的實用教程。
張良康
----------------------------
張良康,浙江大學(xué)統(tǒng)計學(xué)博士,現(xiàn)就職于恒瑞醫(yī)藥,負責醫(yī)藥臨床試驗數(shù)據(jù)分析和統(tǒng)計工作,參與臨床試驗方案設(shè)計溝通和討論,為臨床試驗方案中的統(tǒng)計學(xué)相關(guān)內(nèi)容提供技術(shù)支持,包括研究設(shè)計方法的選擇、樣本量計算、隨機和盲法、統(tǒng)計方法的選擇等。使用R語言、SAS、SPSS等統(tǒng)計分析技術(shù)8年以上,擅長數(shù)據(jù)挖掘、分析和統(tǒng)計工作。具有多年的數(shù)據(jù)統(tǒng)計分析經(jīng)驗,對商務(wù)數(shù)據(jù)、銷售數(shù)據(jù)、科研數(shù)據(jù)、醫(yī)學(xué)數(shù)據(jù)和金融數(shù)據(jù)的統(tǒng)計分析工作也頗有研究。
目 錄
第1章R語言基礎(chǔ)
1.1 R語言的發(fā)展歷程2
1.2 R 語言的特點2
1.3 獲取并安裝R語言運行環(huán)境3
1.3.1 在Windows操作系統(tǒng)安裝R語言3
1.3.2 在Linux操作系統(tǒng)和macOS操作系統(tǒng)安裝R語言5
1.4 R語言開發(fā)工具:R GUI5
1.4.1 命令行方式運行R語言程序6
1.4.2 文件方式運行R語言程序6
1.5 R語言開發(fā)工具:RStudio7
1.5.1 安裝RStudio7
1.5.2 RStudio界面簡介9
1.5.3 使用RStudio開發(fā)R語言程序10
1.6 認識第一個R語言程序:簡易數(shù)據(jù)統(tǒng)計與格式化輸出11
1.6.1 新建R語言工程11
1.6.2 編寫程序文件12
1.7 R語言和數(shù)據(jù)處理14
1.7.1 R語言的優(yōu)勢14
1.7.2 數(shù)據(jù)處理和數(shù)據(jù)分析的區(qū)別14
第2章R語言數(shù)據(jù)統(tǒng)計語法基礎(chǔ)
2.1 基本的內(nèi)置函數(shù)17
2.1.1 數(shù)學(xué)和統(tǒng)計函數(shù)17
2.1.2 字符和字符串處理函數(shù)19
2.1.3 文件操作函數(shù)21
2.1.4 概率分布函數(shù)25
2.1.5 日期函數(shù)和時間函數(shù)27
2.2 內(nèi)置數(shù)據(jù)處理函數(shù)33
2.2.1 查看、篩選和編輯數(shù)據(jù)33
2.2.2 合并數(shù)據(jù)35
2.2.3 分組和匯總38
2.2.4 排序40
2.2.5 轉(zhuǎn)換42
2.3 apply函數(shù)族43
2.3.1 apply函數(shù)族中的函數(shù)43
2.3.2 函數(shù)apply()44
2.3.3 函數(shù)lapply()45
2.3.4 函數(shù)sapply()46
2.3.5 函數(shù)vapply()47
2.3.6 函數(shù)mapply()49
2.4 數(shù)據(jù)重塑與變形50
2.5 數(shù)據(jù)查詢與過濾51
2.5.1 使用dplyr包進行數(shù)據(jù)查詢和過濾52
2.5.2 使用sqldf包進行SQL風(fēng)格的查詢53
第3章數(shù)據(jù)獲取和處理
3.1 數(shù)據(jù)獲取和處理簡介56
3.2 使用鍵盤輸入數(shù)據(jù)57
3.3 處理CSV數(shù)據(jù)58
3.3.1 讀取CSV文件59
3.3.2 寫入CSV文件60
3.3.3 數(shù)據(jù)轉(zhuǎn)換和處理61
3.4 處理Excel數(shù)據(jù)64
3.4.1 R語言和Excel文件64
3.4.2 使用readxl包64
3.4.3 使用openxlsx包66
3.5 處理XML數(shù)據(jù)67
3.5.1 使用XML包68
3.5.2 使用xml2包 70
3.6 處理JSON數(shù)據(jù)72
3.6.1 JSON包72
3.6.2 使用jsonlite包73
3.6.3 使用RJSONIO包75
3.6.4 使用tidyjson包76
3.7 處理MySQL數(shù)據(jù)78
3.7.1 和MySQL相關(guān)的包78
3.7.2 使用RMySQL包78
3.7.3 使用RMariaDB包80
3.7.4 使用DBI包81
3.7.5 dplyr包和dbplyr包82
3.8 從網(wǎng)頁抓取數(shù)據(jù)84
3.8.1 使用rvest包抓取數(shù)據(jù)84
3.8.2 使用httr包抓取數(shù)據(jù)85
3.8.3 使用XML包抓取數(shù)據(jù)87
3.8.4 使用jsonlite包抓取數(shù)據(jù)88
3.9 數(shù)據(jù)準備與清洗88
3.9.1 缺失數(shù)據(jù)處理89
3.9.2 異常值檢測和處理91
3.9.3 異常值檢測方法小結(jié)93
第4章繪制可視化統(tǒng)計圖
4.1 R語言繪圖系統(tǒng)簡介97
4.1.1 常用的繪圖包97
4.1.2 基本繪圖函數(shù)plot()97
4.2 單變量繪圖99
4.2.1 繪制直方圖99
4.2.2 繪制條形圖102
4.2.3 繪制餅形圖106
4.2.4 繪制箱線圖107
4.2.5 繪制密度圖109
4.3 雙變量繪圖112
4.3.1 繪制雙變量條形圖112
4.3.2 繪制散點圖116
4.3.3 繪制折線圖118
4.3.4 繪制箱線圖(雙變量)120
4.4 繪制多變量圖122
4.4.1 繪制氣泡圖123
4.4.2 繪制熱力圖125
4.5 文件數(shù)據(jù)的可視化128
4.5.1 CSV文件數(shù)據(jù)的可視化128
4.5.2 Excel文件數(shù)據(jù)的可視化130
4.5.3 XML文件數(shù)據(jù)的可視化131
4.5.4 JSON文件數(shù)據(jù)的可視化132
4.5.5 MySQL數(shù)據(jù)庫數(shù)據(jù)的可視化134
第5章描述性統(tǒng)計分析
5.1 描述性統(tǒng)計分析簡介137
5.2 平均數(shù)、中位數(shù)和眾數(shù)137
5.2.1 計算平均數(shù)138
5.2.2 計算中位數(shù)140
5.2.3 計算眾數(shù)142
5.3 方差和標準差143
5.3.1 計算方差144
5.3.2 計算標準差145
5.4 百分位數(shù)147
5.4.1 常見的百分位數(shù)147
5.4.2 計算百分位數(shù)148
第6章探索性數(shù)據(jù)分析
6.1 EDA簡介151
6.2 檢測重復(fù)值151
6.2.1 檢測重復(fù)值簡介151
6.2.2 R語言檢測重復(fù)值的方法152
6.3 數(shù)據(jù)可視化方法155
6.4 相關(guān)性分析162
6.4.1 相關(guān)性分析的基本信息162
6.4.2 皮爾遜相關(guān)系數(shù)163
6.4.3 斯皮爾曼相關(guān)系數(shù)165
6.4.4 肯德爾相關(guān)系數(shù)166
第7章 推論統(tǒng)計
7.1 抽樣和抽樣分布169
7.2 置信區(qū)間169
7.2.1 置信區(qū)間的概念169
7.2.2 總體均值的置信區(qū)間170
7.2.3 總體比例的置信區(qū)間173
7.2.4 總體方差的置信區(qū)間176
7.3 假設(shè)檢驗177
7.3.1 假設(shè)檢驗的基本步驟178
7.3.2 假設(shè)檢驗中的錯誤類型179
7.4 抽樣方法181
7.4.1 隨機抽樣181
7.4.2 系統(tǒng)抽樣183
7.4.3 分層抽樣184
7.4.4 多階段抽樣185
7.5 推論統(tǒng)計的方向小結(jié)185
7.5.1 參數(shù)推斷185
7.5.2 非參數(shù)推斷186
第8章 回歸分析
8.1 回歸分析簡介189
8.2 線性回歸和多元線性回歸189
8.2.1 線性回歸189
8.2.2 多元線性回歸194
8.3 邏輯回歸197
8.3.1 邏輯回歸簡介197
8.3.2 邏輯回歸的應(yīng)用領(lǐng)域197
8.3.3 使用邏輯回歸模型198
8.4 非線性回歸201
8.4.1 非線性回歸簡介201
8.4.2 使用非線性回歸模型202
8.5 條件回歸203
8.5.1 條件回歸簡介203
8.5.2 使用條件回歸模型204
第9章 方差分析
9.1 方差分析簡介207
9.2 單因素方差分析208
9.2.1 單因素方差分析的步驟208
9.2.2 單因素方差分析的應(yīng)用209
9.3 多因素方差分析212
9.3.1 多因素方差分析簡介212
9.3.2 兩因素方差分析213
9.3.3 多因素方差分析216
9.4 協(xié)方差分析218
9.4.1 協(xié)方差分析方法簡介218
9.4.2 協(xié)方差分析的應(yīng)用218
第10章 非參數(shù)統(tǒng)計分析
10.1 非參數(shù)統(tǒng)計的方法233
10.2 秩和檢驗233
10.2.1 秩和檢驗簡介233
10.2.2 使用秩和檢驗234
10.3 Wilcoxon符號秩檢驗236
10.3.1 Wilcoxon符號秩檢驗簡介236
10.3.2 使用Wilcoxon符號秩檢驗236
10.4 Kruskal-Wallis檢驗239
10.4.1 Kruskal-Wallis檢驗簡介240
10.4.2 使用Kruskal-Wallis檢驗240
10.5 Friedman檢驗247
10.5.1 Friedman檢驗簡介248
10.5.2 使用Friedman檢驗248
10.6 卡方檢驗250
10.6.1 卡方檢驗簡介250
10.6.2 卡方擬合度檢驗251
10.6.3 卡方獨立性檢驗252
10.7 符號檢驗254
10.7.1 符號檢驗簡介254
10.7.2 使用符號檢驗254
第11章 主成分分析
11.1 PCA簡介257
11.1.1 PCA的概念257
11.1.2 PCA的應(yīng)用領(lǐng)域257
11.2 PCA的數(shù)學(xué)原理258
11.2.1 主成分的提取258
11.2.2 PCA的可解釋性259
11.3 PCA的應(yīng)用:信用卡欺詐檢測260
11.3.1 準備R語言包260
11.3.2 導(dǎo)入數(shù)據(jù)集261
11.3.3 計算ROC和AUC262
11.3.4 可視化處理263
11.3.5 顯示混淆矩陣265
11.3.6 探索數(shù)據(jù)265
11.3.7 相關(guān)性分析267
11.3.8 使用隨機森林模型268
11.3.9 欺詐預(yù)測270
11.3.10 結(jié)論272
第12章 聚類分析
12.1 聚類分析簡介274
12.1.1 聚類分析的基本概念274
12.1.2 聚類分析的方法274
12.1.3 聚類分析的應(yīng)用領(lǐng)域275
12.2 K均值聚類276
12.2.1 K均值聚類簡介276
12.2.2 K均值聚類的應(yīng)用277
12.3 層次聚類280
12.3.1 層次聚類簡介280
12.3.2 層次聚類的應(yīng)用281
12.4 DBSCAN聚類285
12.4.1 DBSCAN簡介285
12.4.2 DBSCAN的應(yīng)用領(lǐng)域286
12.4.3 使用DBSCAN聚類算法286
12.5 高斯混合模型聚類289
12.5.1 高斯混合模型聚類簡介289
12.5.2 高斯混合模型聚類的應(yīng)用289
12.6 譜聚類295
12.6.1 譜聚類簡介295
12.6.2 譜聚類的應(yīng)用295
第13章 生存分析
13.1 生存分析簡介299
13.1.1 生存分析的基本概念299
13.1.2 生存分析的應(yīng)用領(lǐng)域300
13.1.3 用R語言實現(xiàn)生存分析300
13.2 Kaplan-Meier生存曲線302
13.2.1 Kaplan-Meier生存曲線的解釋303
13.2.2 Kaplan-Meier生存曲線的構(gòu)建303
13.3 Cox比例風(fēng)險模型307
13.3.1 Cox比例風(fēng)險模型簡介307
13.3.2 Cox比例風(fēng)險模型的應(yīng)用307
13.4 心血管疾病的生存分析實戰(zhàn)309
13.4.1 數(shù)據(jù)集簡介309
13.4.2 數(shù)據(jù)預(yù)處理310
13.4.3 二元變量分布315
13.4.4 連續(xù)變量分布317
13.4.5 死亡事件計數(shù)與生存時間324
13.4.6 相關(guān)性分析328
13.4.7 變量選擇的機器學(xué)習(xí)模型331
13.4.8 生存分析337
13.4.9 總結(jié)343
第14章 因子分析
14.1 因子分析簡介345
14.1.1 因子分析的基本概念345
14.1.2 因子分析的應(yīng)用領(lǐng)域346
14.2 因子分析方法346
14.2.1 常用的因子分析方法346
14.2.2 最大似然估計法347
14.2.3 最小二乘法349
14.2.4 廣義最小二乘法351
14.2.5 主軸因子分析353
14.2.6 因子旋轉(zhuǎn)355
14.2.7 因子得分估計357
14.3 因子分析的應(yīng)用:心血管疾病風(fēng)險因素分析系統(tǒng)358
14.3.1 設(shè)置環(huán)境358
14.3.2 數(shù)據(jù)準備和探索359
14.3.3 相關(guān)性分析362
14.3.4 總結(jié)371
第15章 基于機器學(xué)習(xí)的患者再入院預(yù)測分析系統(tǒng)
15.1 背景簡介373
15.2 需求分析373
15.3 系統(tǒng)分析374
15.4 系統(tǒng)簡介375
15.4.1 系統(tǒng)功能簡介375
15.4.2 系統(tǒng)模塊結(jié)構(gòu)375
15.5 技術(shù)分析376
15.5.1 dplyr:數(shù)據(jù)預(yù)處理376
15.5.2 psych:心理學(xué)和社會科學(xué)研究376
15.5.3 ROSE:不平衡處理377
15.5.4 caret模型訓(xùn)練和評估377
15.6 數(shù)據(jù)處理378
15.6.1 導(dǎo)入數(shù)據(jù)集378
15.6.2 數(shù)據(jù)預(yù)處理380
15.7 第一方案389
15.7.1 劃分訓(xùn)練集和測試集390
15.7.2 數(shù)據(jù)集平衡390
15.7.3 交叉驗證391
15.7.4 模型比較394
15.8 第二方案396
15.8.1 數(shù)據(jù)集拆分和數(shù)據(jù)平衡396
15.8.2 邏輯回歸模型擬合和預(yù)測397
15.8.3 計算處理397
15.8.4 邏輯回歸模型的擬合、預(yù)測和評估398
15.8.5 使用交叉驗證方法訓(xùn)練決策樹模型399
15.8.6 使用交叉驗證方法訓(xùn)練隨機森林模型400
15.8.7 實現(xiàn)樸素貝葉斯模型401
15.9 模型訓(xùn)練和評估402
15.9.1 數(shù)據(jù)預(yù)處理402
15.9.2 邏輯回歸模型的訓(xùn)練和評估403
15.9.3 決策樹模型的訓(xùn)練和評估404
15.9.4 隨機森林模型的訓(xùn)練和評估404
15.9.5 樸素貝葉斯模型的訓(xùn)練和評估405
15.10 結(jié)論406
第16章 中概科技指數(shù)統(tǒng)計分析與投資系統(tǒng)
16.1 背景簡介409
16.2 需求分析409
16.3 系統(tǒng)分析410
16.3.1 系統(tǒng)目標410
16.3.2 系統(tǒng)模塊410
16.3.3 數(shù)據(jù)處理流程411
16.4 技術(shù)棧411
16.4.1 Tidyquant:財務(wù)數(shù)據(jù)分析411
16.4.2 Tidyverse:數(shù)據(jù)處理工具412
16.4.3 Loess平滑算法:非參數(shù)統(tǒng)計方法412
16.5 數(shù)據(jù)處理412
16.6 中概股技術(shù)分析413
16.6.1 股票價格和收益分析413
16.6.2 配對分析統(tǒng)計圖420
16.6.3 MACD技術(shù)分析統(tǒng)計圖422
16.6.4 OBV技術(shù)分析統(tǒng)計圖424
16.6.5 CCI技術(shù)分析統(tǒng)計圖430
16.6.6 Chaikin AD Line技術(shù)分析統(tǒng)計圖436
16.6.7 相對表現(xiàn)比率統(tǒng)計圖437
16.6.8 RSI技術(shù)分析統(tǒng)計圖439
16.6.9 交易差價技術(shù)分析統(tǒng)計圖444
16.6.10 CCI密度圖446
16.6.11 自定義指數(shù)技術(shù)分析統(tǒng)計圖448