一本書(shū)如果沒(méi)有作者自己的觀(guān)點(diǎn),而只是知識(shí)的堆疊,那么這類(lèi)書(shū)是沒(méi)有太大價(jià)值的。尤其在當(dāng)前網(wǎng)絡(luò)發(fā)達(dá)的時(shí)代,幾乎任何概念和知識(shí)點(diǎn)都可以從網(wǎng)絡(luò)上查到。但是有一點(diǎn)你很難查到,那就是統(tǒng)計(jì)分析的思路和觀(guān)點(diǎn)。比如,你可以很容易地在網(wǎng)上查到什么是線(xiàn)性回歸,但你卻查不到怎么“做”線(xiàn)性回歸分析,在你遇到實(shí)際數(shù)據(jù)時(shí)仍然不知道如何分析。在《白話(huà)統(tǒng)計(jì)》中,你可以獲得這些思路和觀(guān)點(diǎn)。盡管這些觀(guān)點(diǎn)未必是所有人都認(rèn)可的,但根據(jù)筆者多年的分析經(jīng)驗(yàn),它們?cè)趯?shí)踐中通常是奏效的。《白話(huà)統(tǒng)計(jì)》凝結(jié)了作者十多年來(lái)對(duì)統(tǒng)計(jì)分析的理解,對(duì)各種方法的介紹采用全新的理念和思路,不再是介紹方法本身,而是試圖將各種方法之間的聯(lián)系闡述清楚;不再是介紹方法如何計(jì)算出結(jié)果,而是盡量說(shuō)明方法背后的思想。當(dāng)然,本書(shū)同時(shí)提供了如何實(shí)現(xiàn)結(jié)果的軟件(涉及Excel、SAS、R、JMP、SPSS 等)操作。
一本能讓人看明白的“白話(huà)”統(tǒng)計(jì)書(shū) ,一本提供數(shù)據(jù)分析思路而非公式的統(tǒng)計(jì)書(shū)
行家張文彤博士帶頭點(diǎn)贊
涉及Excel、SPSS、R、SAS、JMP等常用工具軟件
馮國(guó)雙博士另著有《小白學(xué)SAS一書(shū)》
馮國(guó)雙,北京大學(xué)醫(yī)學(xué)部博士,具有十多年的數(shù)據(jù)統(tǒng)計(jì)分析經(jīng)驗(yàn),知名統(tǒng)計(jì)學(xué)平臺(tái)“小白學(xué)統(tǒng)計(jì)”的創(chuàng)始者與維護(hù)者。已主編多部統(tǒng)計(jì)學(xué)專(zhuān)著,出版《小白學(xué)SAS》,同時(shí)兼任多個(gè)與統(tǒng)計(jì)有關(guān)的學(xué)術(shù)委員會(huì)委員。興趣愛(ài)好:在熱愛(ài)統(tǒng)計(jì)分析之余,還對(duì)古玩奇石、盆景制作和詩(shī)詞鑒賞略有心得。
第 1 篇 基礎(chǔ)篇
第1 章 為什么要學(xué)統(tǒng)計(jì) 2
1.1 統(tǒng)計(jì)學(xué)有什么用 3
1.2 生活世事皆統(tǒng)計(jì) 4
1.3 如何學(xué)統(tǒng)計(jì) 4
第 2 章 變異――統(tǒng)計(jì)學(xué)存在的基礎(chǔ) 6
2.1 隨機(jī)與變異 6
2.2 特朗普與羅斯福的勝出――抽樣調(diào)查到底可不可靠 8
2.3 什么是抽樣誤差 9
第 3 章 郭靖的內(nèi)力能支撐多久――談概率分布 11
3.1 累積分布與概率密度的通俗理解 12
3.2 是生存還是死亡?這是一個(gè)問(wèn)題――用Weibull 分布尋找生存規(guī)律 16
3.3 2003 年的那場(chǎng)SARS――用Logistic 分布探索疾病流行規(guī)律 20
3.4 “普通”的正態(tài)分布 23
3.5 幾個(gè)常用分布――t 分布、χ2 分布、F 分布 28
第 4 章 關(guān)于統(tǒng)計(jì)資料類(lèi)型的思考 35
4.1 計(jì)數(shù)資料等于分類(lèi)資料嗎 36
4.2 計(jì)數(shù)資料可否采用連續(xù)資料的方法進(jìn)行分析 37
4.3 分類(lèi)資料中的無(wú)序和有序是如何確定的 38
4.4 連續(xù)資料什么時(shí)候需要轉(zhuǎn)換為分類(lèi)資料 39
4.5 連續(xù)資料如何分組――尋找cut-off 值的多種方法 41
4.6 什么是虛擬變量/啞變量 47
第 5 章 如何正確展示你的數(shù)據(jù) 52
5.1 均數(shù)和中位數(shù)――你被平均了嗎 53
5.2 方差與標(biāo)準(zhǔn)差――變異的度量 54
5.3 自由度――你有多少自由活動(dòng)的范圍 56
5.4 百分位數(shù)――利用百分?jǐn)?shù)度量相對(duì)位置 57
5.5 如何比較蘋(píng)果和橘子――利用Z 值度量相對(duì)位置 59
5.6 某百歲老人調(diào)查報(bào)告說(shuō):少運(yùn)動(dòng)才能活得久――談一下比例和率 61
5.7 在文章中如何正確展示百分比 63
第 6 章 尋找失蹤的運(yùn)動(dòng)員――中心極限定理 64
6.1 中心極限定理針對(duì)的是樣本統(tǒng)計(jì)量而非原始數(shù)據(jù) 65
6.2 樣本量大于30 就可以認(rèn)為是正態(tài)分布了嗎 67
第 7 章 從“女士品茶”中領(lǐng)會(huì)假設(shè)檢驗(yàn)的思想 70
7.1 女士品茶的故事 70
7.2 零假設(shè)和備擇假設(shè) . 72
7.3 假設(shè)檢驗(yàn)中的兩類(lèi)錯(cuò)誤 73
7.4 P 值的含義 76
7.5 為什么P 值小于0.05(而不是0.02)才算有統(tǒng)計(jì)學(xué)意義 78
7.6 為什么零假設(shè)要設(shè)定兩組相等而不是兩組不等 79
第 8 章 參數(shù)估計(jì)――一葉落而知秋 81
8.1 點(diǎn)估計(jì) 81
8.2 最小二乘估計(jì) 82
8.3 最大似然估計(jì) 84
8.4 貝葉斯估計(jì) 86
第 9 章 置信區(qū)間估計(jì)――給估計(jì)留點(diǎn)余地 88
9.1 置信區(qū)間的理論與實(shí)際含義 88
9.2 置信區(qū)間與P 值的關(guān)系 90
9.3 利用標(biāo)準(zhǔn)誤計(jì)算置信區(qū)間 91
9.4 利用Bootstrap 法估計(jì)置信區(qū)間 92
第 2 篇 實(shí)用篇
第10 章 常用統(tǒng)計(jì)方法大串講 98
10.1 一般線(xiàn)性模型――方差分析與線(xiàn)性回歸的統(tǒng)一 99
10.2 廣義線(xiàn)性模型――線(xiàn)性回歸與Logistic 回歸的統(tǒng)一 103
10.3 廣義可加模型――脫離“線(xiàn)性”束縛 107
10.4 多水平模型――打破“獨(dú)立”條件 112
10.5 結(jié)構(gòu)方程模型――從單因單果到多因多果 119
第 11 章 正態(tài)性與方差齊性 127
11.1 用統(tǒng)計(jì)檢驗(yàn)方法判斷正態(tài)性 127
11.2 用描述的方法判斷正態(tài)性 130
11.3 方差分析中的方差齊性判斷 133
11.4 理解線(xiàn)性回歸中的方差齊性 135
第 12 章 t 檢驗(yàn)――不僅是兩組比較 138
12.1 從另一個(gè)角度來(lái)理解t 檢驗(yàn) 138
12.2 如何正確應(yīng)用t 檢驗(yàn) 140
12.3 t 檢驗(yàn)用于回歸系數(shù)的檢驗(yàn) 141
12.4 t 檢驗(yàn)的替代――Wilcoxon 秩和檢驗(yàn) 142
第 13 章 方差分析與變異分解 145
13.1 方差分析中變異分解的思想 145
13.2 為什么回歸分析中也有方差分析 147
13.3 鐵打的方差分析,流水的實(shí)驗(yàn)設(shè)計(jì) 148
13.4 方差分析后為什么要進(jìn)行兩兩比較 152
13.5 多重比較方法的選擇建議 154
13.6 所有的多組都需要做兩兩比較嗎――兼談固定效應(yīng)和隨機(jī)效應(yīng) 164
13.7 重復(fù)測(cè)量方差分析詳解 166
13.8 方差分析的替代――Kruskal-Wallis 秩和檢驗(yàn) 176
13.9 多組秩和檢驗(yàn)后的兩兩比較方法 178
第 14 章 卡方檢驗(yàn)――有“卡”未必走遍天下 181
14.1 卡方檢驗(yàn)用于分類(lèi)資料組間比較的思想 181
14.2 卡方用于擬合優(yōu)度評(píng)價(jià)――從Hardy-Weinberg 定律談起 184
14.3 似然比χ2、M-H χ2、校正χ2 與Fisher 精確檢驗(yàn) 186
14.4 等級(jí)資料到底可不可以用卡方檢驗(yàn) 191
14.5 卡方檢驗(yàn)的兩兩比較 193
14.6 Cochran-Armitage 趨勢(shì)檢驗(yàn) 194
14.7 分類(lèi)變量的賦值是如何影響分析結(jié)果的 196
第 15 章 相關(guān)分析與一致性檢驗(yàn) 200
15.1 從協(xié)方差到線(xiàn)性相關(guān)系數(shù) 200
15.2 線(xiàn)性相關(guān)系數(shù)及其置信區(qū)間 203
15.3 如何比較兩個(gè)線(xiàn)性相關(guān)系數(shù)有無(wú)差異 206
15.4 分類(lèi)資料的相關(guān)系數(shù) 207
15.5 基于秩次的相關(guān)系數(shù) 210
15.6 相關(guān)分析中的幾個(gè)陷阱 213
15.7 用ICC 和CCC 指標(biāo)判斷一致性 215
15.8 用Bland-Altman 圖判斷一致性 218
15.9 Kappa 檢驗(yàn)在一致性分析中的應(yīng)用 219
第 16 章 線(xiàn)性回歸及其分析思路 222
16.1 殘差――識(shí)別回歸模型好壞的關(guān)鍵 223
16.2 回歸系數(shù)的正確理解 226
16.3 回歸系數(shù)檢驗(yàn)VS 模型檢驗(yàn) 227
16.4 均值的置信區(qū)間VS 個(gè)體的預(yù)測(cè)區(qū)間 228
16.5 逐步回歸篩選變量到底可不可靠――談變量篩選策略 230
16.6 如何評(píng)價(jià)模型是好還是壞――交叉驗(yàn)證思路 237
16.7 線(xiàn)性回歸的應(yīng)用條件――你的數(shù)據(jù)能用線(xiàn)性回歸嗎 240
16.8 如何處理非正態(tài)――Box-Cox 變換 247
16.9 如何處理非線(xiàn)性――Box-Tidwell 變換 248
16.10 方差不齊怎么辦――加權(quán)最小二乘法 250
16.11 當(dāng)共線(xiàn)性導(dǎo)致結(jié)果異常時(shí)怎么辦――嶺回歸、Lasso 回歸 254
16.12 發(fā)現(xiàn)異常值應(yīng)該刪除嗎――談幾種處理異常值的方法 260
16.13 如何處理缺失值――是刪除還是填補(bǔ) 268
16.14 一個(gè)非教材的非典型案例――線(xiàn)性回歸的綜合分析 276