R統(tǒng)計與數據可視化:社會科學數據分析實踐(全彩)
定 價:169 元
- 作者:(美)David S. Brown(戴維 S · 布朗)
- 出版時間:2023/9/1
- ISBN:9787121461910
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:C819
- 頁碼:504
- 紙張:
- 版次:01
- 開本:16開
書的目的是講解數據分析的方法、邏輯、藝術與實踐。全書共17章,第1章介紹了R、RStudio和R Markdown的安裝和使用,第2章介紹了數據分析的動機和四個構成要素:①描述數據并形成假設②模型的構建與估計③診斷④提出下一個問題,后續(xù)章節(jié)將按照數據分析構成要素的順序來組織;對數據了解得越多,我們就越能夠提出更好的問題,形成更好的假設,描述數據相關的概念和所需的工具,將在第3~9章中詳述;模型的構建與估計是一個應該在理論和證據間來回往復迭代的過程,關于構建模型的練習將在第10~14章中進行;診斷既能幫助我們發(fā)現(xiàn)問題,又能幫助我們發(fā)掘有意義的關聯(lián),形成額外的解釋或假設,關于診斷將會在第15章和第16章中詳述;第17章將討論許多涉及二元因變量的問題,附錄將提供創(chuàng)建其他新假設的技巧和竅門。
David S. Brown(戴維 S · 布朗):科羅拉多大學博爾德分校政治學教授和社會科學系主任。獲得了加利福尼亞大學洛杉磯分校的政治學博士學位,并且是科羅拉多大學博爾德分校行為科學研究所肯尼斯·博爾。ㄋ_辟了多個經濟學和社會科學研究領域)的首屆博士后研究員。在加入科羅拉多大學政治學系之前,他曾在萊斯大學擔任助理教授。他研究的是比較政治學,側重于體制及其對經濟發(fā)展的影響。他的研究成果已發(fā)表在《美國政治科學評論》(American Political Science Review)、《美國政治學期刊》(American Journal of Political Science)、《英國政治學期刊》(British Journal of Political Science)和《美國地理學家協(xié)會年鑒》(Annals of the Association of American Geographers)上。
李嘉平:曾在華大基因從事生物信息分析相關工作,目前就職于廣西醫(yī)科大學第一附屬醫(yī)院(廣西心腦血管疾病防治精準醫(yī)學重點實驗室)。他是R布道師,希望能夠通過翻譯傳播和推廣R的應用與價值;亦是R鐵桿用戶,具有豐富的生物信息分析經驗,擅長使用R和Python進行各類數據處理以及數據可視化。曾負責生物信息培訓中所有R相關課程的設計與授課。對新技術始終抱有極大的熱情,喜歡去體驗那些目前仍不完善但有前景的新技術,并享受這個過程帶來的樂趣與啟發(fā)。
第1 章 ? 入門指南 001
概述 001
R、RStudio 和R Markdown 002
對象與函數 004
RStudio 入門 006
RStudio 的R Markdown 導覽 012
R Markdown 文件與R 腳本 017
小練習 019
第2 章 ? 數據分析導論 027
概述 027
數據分析的動機 028
大數據越來越大 028
數據分析是一項有市場需求的技能 029
數據分析是一種公益 030
數據分析的構成要素 031
描述數據并形成假設 033
假設一:民族語言碎片化 034
假設二:女性選舉權 040
假設三:人力資本 046
假設四:政治穩(wěn)定 048
模型的構建與估計 052
診斷 054
結果的穩(wěn)定性 054
殘差圖 056
提出下一個問題 059
目錄
X R統(tǒng)計與數據可視化:社會科學數據分析實踐
第3 章 ? 描述數據 065
概述 065
數據集和變量 067
不同類型的變量 069
連續(xù)變量 070
分類變量 070
有序分類變量 071
描述數據可以節(jié)省時間和精力 074
數據的形狀 074
數據的極差 078
辨識困惑、問題、假設和線索 080
困惑和問題:重要的區(qū)別 080
描述數據以改進問題 082
描述數據披露了更多線索 085
度量 087
有效性 087
可靠性 089
第4 章 ? 集中趨勢和離散程度 095
概述 095
集中趨勢的度量:眾數、平均數和中位數 096
眾數 097
平均數 098
中位數 102
平均數與中位數 105
離散程度的度量:極差、四分位距和標準差 108
極差 109
四分位距 111
標準差 112
四__________分位距與標準差 118
關于方差的說明 119
第5 章 ? 數據的單變量和雙變量描述 125
概述 125
好的、差的和離群值 126
目錄 _目錄 XI
單變量數據的5 種視圖 127
頻率表 128
條形圖 129
箱線圖(或盒須圖) 130
直方圖 133
莖葉圖 137
變量間是否相關 140
散點圖 141
箱線圖(雙變量) 147
馬賽克圖 147
交叉表 150
氣泡圖 150
第6 章 ? 數據變換 159
概述 159
數據變換的理論原因 160
變換數據確保符合理論 160
數據和問題都要變換以相互匹配 161
數據變換的實際原因 162
數據變換——從連續(xù)變量到分類變量 166
數據變換——改變類別 171
Box-Cox 變換 177
第7 章 ? 數據展示的一些原則 189
概述 189
一些風格要素 190
消除雜亂 191
聚焦 193
整合圖文 195
一圖應該勝千言 198
了解你的受眾 204
了解你的目的:解釋性、探索性或信息性 206
故事的基本要素 211
文檔(樹立講述者的可信度) 212
建立直覺(設定背景) 214
XII R統(tǒng)計與數據可視化:社會科學數據分析實踐
展示因果關系(旅程) 214
從因果到行動(決議) 216
第8 章 ? 概率論精要 221
概述 221
總體和樣本 222
樣本偏差與隨機樣本 223
大數定律 225
大數定律的可視化 226
中心極限定理 230
平均數的抽樣分布隨著n 的增加而接近正態(tài)分布 231
和的抽樣分布是正態(tài)的 233
從正態(tài)分布中抽取時的觀測數量 234
中心極限定理的一個有用性質 235
從不同的分布中抽樣 236
標準正態(tài)分布 242
標準正態(tài)分布與臨界z 分數 245
第9 章 ? 置信區(qū)間與假設檢驗 253
概述 253
大樣本的置信區(qū)間 254
求總體比例 254
求總體平均數 259
小樣本與t- 分布 263
自由度 266
小樣本的樣本標準差 267
用小樣本構建置信區(qū)間 272
例子:女性薪酬與男性薪酬 273
比較兩個樣本的平均數 275
例子:兩個群體和兩種收入 276
例子:種族和對警察的看法 278
例子:收入和對特朗普的支持 278
置信水平 280
關于統(tǒng)計推斷和因果關系的簡要說明 283
目錄 _目錄 XIII
第10 章 ? 進行比較 289
概述 289
為什么要進行比較 290
需要比較的問題 291
比較兩個分類變量 293
例子:對警察的看法 293
例子:哪些人去教堂 296
比較連續(xù)變量和分類變量 298
例子:奧巴馬情感量表 298
比較兩個連續(xù)變量 301
例子:性別與教育 301
例子:性別與政策制定 302
探索性數據分析:調查美國的墮胎率 305
重述要點 307
好的分析引出新的問題 312
第11 章 ? 受控比較 317
概述 317
什么是受控比較 318
比較兩個分類變量,同時控制第三個變量 319
例子:對警察的看法 319
例子:對移民的看法 325
比較兩個連續(xù)變量,同時控制第三個變量 332
例子:嬰兒死亡率 333
例子:兇殺率 336
論點與受控比較 339
第12 章 ? 線性回歸 345
概述 345
線性回歸的優(yōu)點 346
線性回歸中的斜率和截距 347
對斜率和截距的解讀 348
例子:選民投票率和教育 348
擬合優(yōu)度(R2 統(tǒng)計量) 353
XIV R統(tǒng)計與數據可視化:社會科學數據分析實踐
統(tǒng)計顯著性 357
計算t- 比率 358
二元回歸的例子 360
一個州的宗教信仰水平是否會影響墮胎率 361
宗教信仰是否會影響槍支法案 363
暴力會導致政治不穩(wěn)定嗎 364
收入(人均 GDP)與投票率有關嗎 366
第13 章 ? 多元回歸 373
概述 373
什么是多元回歸 374
為什么要使用多元回歸 375
回歸模型和論點 376
回歸模型、理論和證據 377
解讀多元回歸中的估計值 381
實質顯著性 381
統(tǒng)計顯著性 382
擬合優(yōu)度:R2 383
例子:兇殺率與教育 384
理論 384
描述數據 385
估計 389
經驗蘊涵 391
討論 394
第14 章 ? 虛擬變量和交互作用 399
概述 399
什么是虛擬變量 400
加性模型與交互作用模型 401
二元虛擬變量回歸 402
多元回歸與虛擬變量 403
多元回歸中的交互作用 403
例子:伯尼.桑德斯,教育和收入 405
例子:外援,人均GDP 和民主 410
目錄 _目錄 XV
第15 章 ? 診斷1 :普通最小二乘法是否適用 419
概述 417
回歸分析中的診斷 417
統(tǒng)計量與估計量的性質 420
高斯- 馬爾可夫假設 425
殘差圖 431
第16 章 ? 診斷2 :殘差、杠桿值與影響力的度量 445
概述 445
離群值 446
杠桿值 449
影響力的度量 455
庫克距離 455
dfbeta 456
增加變量圖 461
第17 章 ? 邏輯回歸 469
概述 469
需要邏輯回歸解決的議題與難題 470
邏輯回歸違反了高斯- 馬爾可夫假設 471
使用對數發(fā)生比 474
使用預測概率 477
二元邏輯回歸 477
多元邏輯回歸 479
例子:2012 年奧巴馬贏得的選舉人團 480
邏輯回歸模型擬合 483
例子:奧巴馬,收入和教育 483
接收者操作特征曲線和曲線下面積 484
附錄A ? 形成經驗蘊涵