關(guān)于我們
書(shū)單推薦
新書(shū)推薦
|
用Python動(dòng)手學(xué)統(tǒng)計(jì)學(xué)
《用Python動(dòng)手學(xué)統(tǒng)計(jì)學(xué)》是面向零基礎(chǔ)讀者的統(tǒng)計(jì)學(xué)入門(mén)書(shū),對(duì)同一個(gè)知識(shí)點(diǎn)分別使用文字、公式和Python 示例代碼加以講解,循序漸進(jìn)地介紹了統(tǒng)計(jì)學(xué)和Python 的基礎(chǔ)知識(shí)、使用Python 進(jìn)行統(tǒng)計(jì)分析的方法、正態(tài)線性模型和廣義線性模型等統(tǒng)計(jì)模型,以及機(jī)器學(xué)習(xí)等。通過(guò)閱讀本書(shū),讀者不僅可以通過(guò)書(shū)中例子深刻理解統(tǒng)計(jì)學(xué)術(shù)語(yǔ)、統(tǒng)計(jì)分析方法和預(yù)測(cè)方法等,還可以學(xué)到十分前沿的機(jī)器學(xué)習(xí)知識(shí),以及如何使用Python 實(shí)現(xiàn)數(shù)據(jù)可視化和建模等。
《用Python動(dòng)手學(xué)統(tǒng)計(jì)學(xué)》結(jié)構(gòu)清晰、直觀易懂,適合統(tǒng)計(jì)學(xué)和Python初學(xué)者以及對(duì)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)感興趣的讀者使用,也可作為高等院校計(jì)算機(jī)、統(tǒng)計(jì)等專(zhuān)業(yè)學(xué)生的入門(mén)書(shū)。
1.日本統(tǒng)計(jì)學(xué)博主傾力打造
2.文科生也能學(xué)會(huì)的統(tǒng)計(jì)學(xué)入門(mén)書(shū)
3.支持Jupyter Notebook交互式編程,結(jié)合書(shū)中配套代碼達(dá)成愉快編碼體驗(yàn)
4.文字+公式+代碼,多角度解析,讓統(tǒng)計(jì)學(xué)不再難
5.基礎(chǔ)知識(shí)與應(yīng)用齊頭并進(jìn),理論與實(shí)踐兩不誤!
[日]馬場(chǎng)真哉(作者)
出生于日本神戶市,畢業(yè)于北海道大學(xué)。經(jīng)常在個(gè)人網(wǎng)站Logics of Blue分享統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析與編程知識(shí)。著有《決策分析和預(yù)測(cè)的活用:從基礎(chǔ)理論懂啊Python實(shí)現(xiàn)》《R語(yǔ)言編程和數(shù)據(jù)分析》《基于貝葉斯統(tǒng)計(jì)建模的數(shù)據(jù)分析入門(mén):使用R和Stan》等。
吳昊天(譯者)
2017年畢業(yè)于同濟(jì)大學(xué),研究方向是車(chē)載軟件。目前在汽車(chē)行業(yè)從事代碼遷移工作,業(yè)余參與一些游戲軟件的國(guó)際化工作。
目 錄
第 1章 統(tǒng)計(jì)學(xué)基礎(chǔ)
1.1 統(tǒng)計(jì)學(xué) 2
1.1.1 統(tǒng)計(jì)學(xué)的目標(biāo)①:描述現(xiàn)有數(shù)據(jù) 2
1.1.2 統(tǒng)計(jì)學(xué)的目標(biāo)②:估計(jì)未知數(shù)據(jù) 3
1.1.3 術(shù)語(yǔ) 樣本與總體 3
1.1.4 1.2節(jié)及之后的內(nèi)容 4
1.2 獲取樣本的過(guò)程 5
1.2.1 術(shù)語(yǔ) 隨機(jī)變量 5
1.2.2 湖中釣魚(yú)的例子 5
1.2.3 從總體中獲取樣本的過(guò)程 6
1.2.4 術(shù)語(yǔ) 樣本值 7
1.2.5 術(shù)語(yǔ) 抽樣 7
1.2.6 術(shù)語(yǔ) 簡(jiǎn)單隨機(jī)抽樣 7
1.2.7 術(shù)語(yǔ) 樣本容量 7
1.2.8 術(shù)語(yǔ) 普查與抽樣調(diào)查 8
1.3 抽樣過(guò)程的抽象描述 9
1.3.1 符號(hào) 概率 9
1.3.2 術(shù)語(yǔ) 概率分布 9
1.3.3 術(shù)語(yǔ) 服從概率分布 10
1.3.4 術(shù)語(yǔ) 總體分布 10
1.3.5 作為抽樣過(guò)程的總體分布 10
1.3.6 無(wú)限總體的含義與總體分布 11
1.3.7 總結(jié):抽樣過(guò)程 12
1.3.8 補(bǔ)充 甕模型 13
1.4 描述統(tǒng)計(jì)基礎(chǔ) 14
1.4.1 術(shù)語(yǔ) 定量變量 14
1.4.2 術(shù)語(yǔ) 離散變量與連續(xù)變量 14
1.4.3 術(shù)語(yǔ) 分類(lèi)變量 15
1.4.4 術(shù)語(yǔ) 組、組中值 15
1.4.5 術(shù)語(yǔ) 頻數(shù)、頻數(shù)分布、頻率 15
1.4.6 術(shù)語(yǔ) 累積頻數(shù)、累積頻率 16
1.4.7 術(shù)語(yǔ) 直方圖 17
1.4.8 術(shù)語(yǔ) 統(tǒng)計(jì)量 19
1.4.9 術(shù)語(yǔ) 均值 19
1.4.10 術(shù)語(yǔ) 期望值 20
1.4.11 術(shù)語(yǔ) 方差 21
1.4.12 補(bǔ)充 均值、方差與數(shù)據(jù)范圍 21
1.5 總體分布的推斷 23
1.5.1 總體分布與總體的頻率分布 23
1.5.2 更現(xiàn)實(shí)一些的湖中釣魚(yú) 24
1.5.3 做假設(shè) 24
1.6 概率質(zhì)量函數(shù)與概率密度函數(shù) 27
1.6.1 術(shù)語(yǔ) 概率質(zhì)量函數(shù) 27
1.6.2 術(shù)語(yǔ) 概率密度 27
1.6.3 補(bǔ)充 積分與加法的關(guān)系 28
1.6.4 術(shù)語(yǔ) 概率密度函數(shù) 28
1.6.5 術(shù)語(yǔ) 正態(tài)分布 29
1.6.6 術(shù)語(yǔ) 參數(shù)(概率分布的參數(shù)) 30
1.6.7 補(bǔ)充 各種各樣的概率分布 30
1.6.8 推斷總體分布 =確定分布 +估計(jì)參數(shù) 31
1.6.9 把樣本的統(tǒng)計(jì)量看作參數(shù)的估計(jì)值 32
1.6.10 補(bǔ)充 估計(jì)誤差 32
1.6.11 總結(jié):統(tǒng)計(jì)學(xué)基礎(chǔ) 33
1.7 統(tǒng)計(jì)量的計(jì)算 35
1.7.1 為什么要使用數(shù)學(xué)式 35
1.7.2 符號(hào) 樣本 35
1.7.3 符號(hào) 均值 36
1.7.4 符號(hào) 期望值 36
1.7.5 術(shù)語(yǔ) 總體均值與樣本均值 37
1.7.6 符號(hào) 樣本方差 37
1.7.7 術(shù)語(yǔ) 無(wú)偏方差 38
1.7.8 為什么樣本方差會(huì)偏離 38
1.7.9 術(shù)語(yǔ) 標(biāo)準(zhǔn)差 39
1.8 概率論基礎(chǔ) 41
1.8.1 術(shù)語(yǔ) 集合 41
1.8.2 術(shù)語(yǔ) 元素 41
1.8.3 集合的兩種表示方法 42
1.8.4 術(shù)語(yǔ) 子集 42
1.8.5 術(shù)語(yǔ) 維恩圖 43
1.8.6 術(shù)語(yǔ) 交集與并集 43
1.8.7 術(shù)語(yǔ) 差集 44
1.8.8 術(shù)語(yǔ) 空集 44
1.*8.*9 術(shù)語(yǔ) 全集 44
1.8.10 術(shù)語(yǔ) 補(bǔ)集 45
1.8.11 術(shù)語(yǔ) 樣本點(diǎn)、樣本空間、事件 45
1.8.12 術(shù)語(yǔ) 互斥事件 46
1.8.13 通過(guò)擲骰子可以聯(lián)想到的各種概率分布 47
1.8.14 概率的公理化定義 47
1.8.15 用頻率解釋概率 48
1.8.16 主觀概率 48
1.8.17 術(shù)語(yǔ) 概率的加法公式 49
1.8.18 術(shù)語(yǔ) 條件概率 49
1.8.19 術(shù)語(yǔ) 概率的乘法公式 50
1.8.20 術(shù)語(yǔ) 獨(dú)立事件 50
1.9 隨機(jī)變量與概率分布 51
1.9.1 隨機(jī)變量與樣本值 51
1.9.2 離散型概率分布與概率質(zhì)量函數(shù) 52
1.9.3 概率密度 52
1.9.4 連續(xù)型概率分布與概率密度函數(shù) 53
1.9.5 概率的總和與概率密度的積分 53
1.9.6 補(bǔ)充 積分與面積的關(guān)系 54
1.9.7 正態(tài)分布的概率密度函數(shù) 56
1.9.8 符號(hào) 服從概率分布 56
1.9.9 獨(dú)立同分布 57
1.9.10 使用正態(tài)分布的概率密度函數(shù)計(jì)算概率的方法 57
1.9.11 使用概率密度計(jì)算期望值的方法 57
第 2章 Python與 Jupyter Notebook基礎(chǔ) 59
2.1 環(huán)境搭建 60
2.1.1 什么是 Python 60
2.1.2 Python的版本 60
2.1.3 Python與 Anaconda 60
2.1.4 Jupyter Notebook 61
2.1.5 下載和安裝 61
2.1.6 補(bǔ)充 Python編程術(shù)語(yǔ) 61
2.2 認(rèn)識(shí) Jupyter Notebook 63
2.2.1 啟動(dòng) Jupyter Notebook 63
2.2.2 創(chuàng)建新文件 64
2.2.3 執(zhí)行代碼 65
2.2.4 保存執(zhí)行結(jié)果 65
2.2.5 Markdown的用法 65
2.2.6 退出 Jupyter Notebook 66
2.3 Python編程基礎(chǔ) 67
2.3.1 實(shí)現(xiàn) 四則運(yùn)算 67
2.3.2 實(shí)現(xiàn) 編寫(xiě)注釋 68
2.3.3 實(shí)現(xiàn) 數(shù)據(jù)類(lèi)型 69
2.3.4 實(shí)現(xiàn) 比較運(yùn)算符 70
2.3.5 實(shí)現(xiàn) 變量 71
2.3.6 實(shí)現(xiàn) 函數(shù) 71
2.3.7 實(shí)現(xiàn) 類(lèi)與實(shí)例 73
2.3.8 實(shí)現(xiàn) 基于 if語(yǔ)句的程序分支 75
2.3.9 實(shí)現(xiàn) 基于 for語(yǔ)句的循環(huán) 76
2.3.10 編寫(xiě)易用程序的竅門(mén) 77
2.4 認(rèn)識(shí) numpy與 pandas 78
2.4.1 導(dǎo)入用于分析的功能 78
2.4.2 numpy與 pandas 79
2.4.3 實(shí)現(xiàn) 列表 79
2.4.4 術(shù)語(yǔ) 行與列 79
2.4.5 實(shí)現(xiàn) 數(shù)組 81
2.4.6 實(shí)現(xiàn) 生成等差數(shù)列的方法 82
2.4.7 實(shí)現(xiàn) 多種生成數(shù)組的方式 83
2.4.8 實(shí)現(xiàn) 切片 84
2.4.9 實(shí)現(xiàn) 數(shù)據(jù)幀 85
2.4.10 實(shí)現(xiàn) 讀取文件中的數(shù)據(jù) 87
2.4.11 實(shí)現(xiàn) 連接數(shù)據(jù)幀 87
2.4.12 實(shí)現(xiàn) 數(shù)據(jù)幀的列操作 88
2.4.13 實(shí)現(xiàn) 數(shù)據(jù)幀的行操作 90
2.4.14 補(bǔ)充 序列 91
2.4.15 補(bǔ)充 函數(shù)文檔 92
第3 章 使用Python 進(jìn)行數(shù)據(jù)分析 95
3.*1 使用Python 進(jìn)行描述統(tǒng)計(jì):?jiǎn)巫兞?96
3*.1*.1 統(tǒng)計(jì)分析與scipy 96
3*.1.*2 單變量數(shù)據(jù)的操作 96
3*.1.*3 實(shí)現(xiàn) 總和與樣本容量 97
3.*1*.4 實(shí)現(xiàn) 均值(期望值) 98
3.*1.*5 實(shí)現(xiàn) 樣本方差 98
3.*1.*6 實(shí)現(xiàn) 無(wú)偏方差 100
3*.1.*7 實(shí)現(xiàn) 標(biāo)準(zhǔn)差 101
3.*1.*8 補(bǔ)充 標(biāo)準(zhǔn)化 101
3.*1.*9 補(bǔ)充 其他統(tǒng)計(jì)量 103
3*.1.*10 實(shí)現(xiàn) scipy.stats 與四分位數(shù) 104
3.2 使用 Python進(jìn)行描述統(tǒng)計(jì):多變量 106
3.2.1 術(shù)語(yǔ) 整潔數(shù)據(jù) 106
3.2.2 術(shù)語(yǔ) 雜亂數(shù)據(jù) 107
3.2.3 術(shù)語(yǔ) 列聯(lián)表(交叉分類(lèi)表) 108
3.2.4 多變量數(shù)據(jù)的管理 109
3.2.5 實(shí)現(xiàn) 求各分組的統(tǒng)計(jì)量 110
3.2.6 實(shí)現(xiàn) 列聯(lián)表 111
3.2.7 術(shù)語(yǔ) 協(xié)方差 112
3.2.8 術(shù)語(yǔ) 協(xié)方差矩陣 114
3.2.9 實(shí)現(xiàn) 協(xié)方差 114
3.2.10 實(shí)現(xiàn) 協(xié)方差矩陣 115
3.2.11 術(shù)語(yǔ) 皮爾遜積矩相關(guān)系數(shù) 116
3.2.12 術(shù)語(yǔ) 相關(guān)矩陣 116
3.2.13 實(shí)現(xiàn) 皮爾遜積矩相關(guān)系數(shù) 117
3.2.14 補(bǔ)充 相關(guān)系數(shù)無(wú)效的情況 118
3.3 基于 matplotlib、seaborn的數(shù)據(jù)可視化 119
3.3.1 Python中的數(shù)據(jù)可視化 119
3.3.2 實(shí)現(xiàn) 數(shù)據(jù)可視化的環(huán)境準(zhǔn)備 119
3.3.3 實(shí)現(xiàn) 用 pyplot繪制折線圖 120
3.3.4 實(shí)現(xiàn) 用 seaborn和 pyplot繪制折線圖 121
3.3.5 實(shí)現(xiàn) 用 seaborn繪制直方圖 122
3.3.6 實(shí)現(xiàn) 通過(guò)核密度估計(jì)將直方圖平滑化 123
3.3.7 實(shí)現(xiàn) 兩個(gè)變量的直方圖 125
3.3.8 將多變量可視化的代碼 127
3.3.9 實(shí)現(xiàn) 箱形圖 128
3.3.10 實(shí)現(xiàn) 小提琴圖 129
3.3.11 實(shí)現(xiàn) 條形圖 130
3.3.12 實(shí)現(xiàn) 散點(diǎn)圖 131
3.3.13 實(shí)現(xiàn) 散點(diǎn)圖矩陣 132
3.4 用 Python模擬抽樣 135
3.4.1 環(huán)境準(zhǔn)備 135
3.4.2 抽樣過(guò)程 136
3.4.3 在只有 5條魚(yú)的湖中抽樣 136
3.4.4 術(shù)語(yǔ) 隨機(jī)數(shù) 138
3.4.5 術(shù)語(yǔ) 放回抽樣、不放回抽樣 138
3.4.6 從魚(yú)較多的湖中抽樣 139
3.4.7 總體分布 140
3.4.8 對(duì)比總體分布和正態(tài)分布的概率密度函數(shù) 141
3.4.9 抽樣過(guò)程的抽象描述 143
3.4.10 補(bǔ)充 有限總體校正 144
3.4.11 補(bǔ)充 假設(shè)總體服從正態(tài)分布是否恰當(dāng) 145
3.5 樣本統(tǒng)計(jì)量的性質(zhì) 146
3.5.1 術(shù)語(yǔ) 試驗(yàn) 146
3.5.2 術(shù)語(yǔ) 樣本分布 146
3.5.3 導(dǎo)入所需的庫(kù) 147
3.5.4 多次計(jì)算樣本均值 148
3.5.5 樣本均值的均值與總體均值相近 149
3.5.6 樣本容量越大,樣本均值越接近總體均值 150
3.5.7 定義用來(lái)計(jì)算樣本均值的函數(shù) 152
3.5.8 不同樣本容量所得的樣本均值的分布 153
3.5.9 樣本均值的標(biāo)準(zhǔn)差小于總體標(biāo)準(zhǔn)差 154
3.5.10 術(shù)語(yǔ) 標(biāo)準(zhǔn)誤差 156
3.5.11 標(biāo)準(zhǔn)誤差的直觀解釋 158
3.5.12 樣本方差的均值偏離總體方差 158
3.5.13 采用無(wú)偏方差消除偏離 159
3.5.14 樣本容量越大,其無(wú)偏方差越接近總體方差 160
3.5.15 術(shù)語(yǔ) 無(wú)偏性 161
3.5.16 術(shù)語(yǔ) 一致性 161
3.5.17 較好的參數(shù)估計(jì)量 162
3.5.18 補(bǔ)充 大數(shù)定律 162
3.5.19 補(bǔ)充 中心極限定理 162
3.6 正態(tài)分布及其應(yīng)用 165
3.6.1 導(dǎo)入函數(shù)庫(kù) 165
3.6.2 實(shí)現(xiàn) 概率密度 166
3.6.3 樣本小于等于某值的比例 168
3.6.4 術(shù)語(yǔ) 累積分布函數(shù) 168
3.6.5 實(shí)現(xiàn) 累積分布函數(shù) 169
3.6.6 術(shù)語(yǔ) 左側(cè)概率與百分位數(shù) 170
3.6.7 實(shí)現(xiàn) 百分位數(shù) 170
3.6.8 術(shù)語(yǔ) 標(biāo)準(zhǔn)正態(tài)分布 171
3.6.9 術(shù)語(yǔ) t值 171
3.6.10 t值的樣本分布 172
3.6.11 術(shù)語(yǔ) t分布 174
3.6.12 實(shí)現(xiàn) t分布 175
3.7 參數(shù)估計(jì) 177
3.7.1 本節(jié)任務(wù) 177
3.7.2 環(huán)境準(zhǔn)備 177
3.7.3 術(shù)語(yǔ) 點(diǎn)估計(jì) 178
3.7.4 實(shí)現(xiàn) 點(diǎn)估計(jì) 179
3.7.5 術(shù)語(yǔ) 區(qū)間估計(jì) 179
3.7.6 術(shù)語(yǔ) 置信水平、置信區(qū)間 180
3.7.7 術(shù)語(yǔ) 置信界限 180
3.7.8 置信區(qū)間的計(jì)算 180
3.7.9 實(shí)現(xiàn) 區(qū)間估計(jì) 180
3.7.10 補(bǔ)充 置信區(qū)間的求解細(xì)節(jié) 181
3.7.11 決定置信區(qū)間大小的因素 183
3.7.12 區(qū)間估計(jì)結(jié)果的解讀 184
3.8 假設(shè)檢驗(yàn) 187
3.8.1 術(shù)語(yǔ) 假設(shè)檢驗(yàn) 187
3.8.2 單樣本 t檢驗(yàn) 187
3.8.3 顯著性差異 188
3.8.4 t檢驗(yàn)的直觀解釋 188
3.8.5 均值差異大不代表存在顯著性差異 189
3.8.6 t值 189
3.8.7 假設(shè)檢驗(yàn)的結(jié)構(gòu):零假設(shè)與備擇假設(shè) 190
3.8.8 術(shù)語(yǔ) p值 191
3.8.9 術(shù)語(yǔ) 顯著性水平 191
3.8.10 t檢驗(yàn)與 t分布的關(guān)系 191
3.8.11 術(shù)語(yǔ) 單側(cè)檢驗(yàn)與雙側(cè)檢驗(yàn) 192
3.8.12 p值的計(jì)算 192
3.8.13 t檢驗(yàn)的實(shí)現(xiàn):環(huán)境準(zhǔn)備 193
3.8.14 t檢驗(yàn)的實(shí)現(xiàn):計(jì)算 t值 194
3.8.15 t檢驗(yàn)的實(shí)現(xiàn):計(jì)算 p值 195
3.8.16 通過(guò)模擬實(shí)驗(yàn)計(jì)算 p值 196
3.9 均值差的檢驗(yàn) 198
3.9.1 雙樣本 t檢驗(yàn) 198
3.9.2 配對(duì)樣本 t檢驗(yàn) 198
3.9.3 環(huán)境準(zhǔn)備 199
3.9.4 實(shí)現(xiàn) 配對(duì)樣本 t檢驗(yàn) 200
3.9.5 獨(dú)立樣本 t檢驗(yàn) 201
3.9.6 實(shí)現(xiàn) 獨(dú)立樣本 t檢驗(yàn) 202
3.9.7 補(bǔ)充 獨(dú)立樣本 t檢驗(yàn)(同方差) 203
3.9.8 補(bǔ)充 p值操縱 203
3.10 列聯(lián)表檢驗(yàn) 205
3.10.1 使用列聯(lián)表的好處 205
3.10.2 本節(jié)例題 206
3.10.3 計(jì)算期望頻數(shù) 207
3.10.4 計(jì)算觀測(cè)頻數(shù)和期望頻數(shù)的差 208
3.10.5 實(shí)現(xiàn) 計(jì)算 p值 209
3.10.6 實(shí)現(xiàn) 列聯(lián)表檢驗(yàn) 209
3.11 檢驗(yàn)結(jié)果的解讀 211
3.11.1 p值小于 0.05時(shí)的表述方法 211
3.11.2 p值大于 0.05時(shí)的表述方法 211
3.11.3 關(guān)于假設(shè)檢驗(yàn)的常見(jiàn)誤區(qū) 212
3.11.4 p值小不代表差異大 212
3.11.5 p值大于 0.05不代表沒(méi)有差異 213
3.11.6 術(shù)語(yǔ) 第 一類(lèi)錯(cuò)誤與第二類(lèi)錯(cuò)誤 213
3.11.7 術(shù)語(yǔ) 假設(shè)檢驗(yàn)的非對(duì)稱性 213
3.11.8 在檢驗(yàn)之前確定顯著性水平 214
3.11.9 補(bǔ)充 統(tǒng)計(jì)模型的選擇 214
3.11.10 假設(shè)檢驗(yàn)有什么用 214
3.11.11 假設(shè)是否正確 215
第 4章 統(tǒng)計(jì)模型基礎(chǔ) 217
4.1 統(tǒng)計(jì)模型 218
4.1.1 術(shù)語(yǔ) 模型 218
4.1.2 術(shù)語(yǔ) 建模 218
4.1.3 模型有什么用 218
4.1.4 簡(jiǎn)化復(fù)雜的世界 219
4.1.5 從某個(gè)角度觀察復(fù)雜的現(xiàn)象 219
4.1.6 術(shù)語(yǔ) 數(shù)學(xué)模型 220
4.1.7 術(shù)語(yǔ) 概率模型 220
4.1.8 術(shù)語(yǔ) 統(tǒng)計(jì)模型 221
4.1.9 概率分布與統(tǒng)計(jì)模型 221
4.1.10 基于統(tǒng)計(jì)模型的預(yù)測(cè) 222
4.1.11 統(tǒng)計(jì)模型與經(jīng)典數(shù)據(jù)分析的對(duì)比 222
4.1.12 統(tǒng)計(jì)模型應(yīng)用 223
4.2 建模方法 224
4.2.1 本節(jié)例題 224
4.2.2 術(shù)語(yǔ) 響應(yīng)變量和解釋變量 224
4.2.3 術(shù)語(yǔ) 參數(shù)模型 224
4.2.4 術(shù)語(yǔ) 非參數(shù)模型 224
4.2.5 術(shù)語(yǔ) 線性模型 224
4.2.6 術(shù)語(yǔ) 系數(shù)與權(quán)重 226
4.2.7 建模 = 模型選擇 + 參數(shù)估計(jì) 227
4.2.8 線性模型的建模方法 227
4.2.9 術(shù)語(yǔ) 變量選擇 228
4.2.10 術(shù)語(yǔ) 空模型 228
4.2.11 通過(guò)假設(shè)檢驗(yàn)選擇變量 229
4.2.12 通過(guò)信息量準(zhǔn)則選擇變量 229
4.2.13 模型評(píng)估 230
4.2.14 補(bǔ)充 在建模之前確定分析目的 230
4.3 數(shù)據(jù)表示與模型名稱 231
4.3.1 術(shù)語(yǔ) 正態(tài)線性模型 231
4.3.2 術(shù)語(yǔ) 回歸分析(經(jīng)典術(shù)語(yǔ)) 231
4.3.3 術(shù)語(yǔ) 多元回歸分析(經(jīng)典術(shù)語(yǔ)) 232
4.3.4 術(shù)語(yǔ) 方差分析(經(jīng)典術(shù)語(yǔ)) 232
4.3.5 術(shù)語(yǔ) 廣義線性模型 232
4.3.6 補(bǔ)充 機(jī)器學(xué)習(xí)中的叫法 232
4.4 參數(shù)估計(jì):最大似然估計(jì) 234
4.4.1 為什么要學(xué)習(xí)參數(shù)估計(jì) 234
4.4.2 術(shù)語(yǔ) 似然 234
4.4.3 術(shù)語(yǔ) 似然函數(shù) 235
4.4.4 術(shù)語(yǔ) 對(duì)數(shù)似然 235
4.4.5 術(shù)語(yǔ) 對(duì)數(shù)的性質(zhì) 235
4.4.6 術(shù)語(yǔ) 最大似然法 238
4.4.7 術(shù)語(yǔ) 最大似然估計(jì)量 238
4.4.8 術(shù)語(yǔ) 最大對(duì)數(shù)似然 239
4.4.9 服從正態(tài)分布的數(shù)據(jù)的似然 239
4.4.10 術(shù)語(yǔ) 多余參數(shù) 239
4.4.11 正態(tài)線性模型的似然 240
4.4.12 補(bǔ)充 最大似然法計(jì)算舉例 241
4.4.13 補(bǔ)充 最大似然估計(jì)量的性質(zhì) 243
4.5 參數(shù)估計(jì):最小化損失 244
4.5.1 術(shù)語(yǔ) 損失函數(shù) 244
4.5.2 術(shù)語(yǔ) 殘差 244
4.5.3 為什么不把殘差之和作為損失指標(biāo) 245
4.5.4 術(shù)語(yǔ) 殘差平方和 246
4.5.5 術(shù)語(yǔ) 最小二乘法 247
4.5.6 補(bǔ)充 最小二乘法與最大似然法的關(guān)系 247
4.5.7 術(shù)語(yǔ) 誤差函數(shù) 248
4.5.8 多種損失函數(shù) 248
4.6 預(yù)測(cè)精度的評(píng)估與變量選擇 249
4.6.1 術(shù)語(yǔ) 擬合精度與預(yù)測(cè)精度 249
4.6.2 術(shù)語(yǔ) 過(guò)擬合 249
4.6.3 變量選擇的意義 250
4.6.4 術(shù)語(yǔ) 泛化誤差 250
4.6.5 術(shù)語(yǔ) 訓(xùn)練集與測(cè)試集 250
4.6.6 術(shù)語(yǔ) 交叉驗(yàn)證 250
4.6.7 術(shù)語(yǔ) 赤池信息量準(zhǔn)則 251
4.6.8 術(shù)語(yǔ) 相對(duì)熵 252
4.6.9 最小化相對(duì)熵與平均對(duì)數(shù)似然 252
4.6.10 AIC與平均對(duì)數(shù)似然中的偏離 253
4.6.11 AIC與交叉驗(yàn)證 254
4.6.12 使用 AIC進(jìn)行變量選擇 254
4.6.13 用變量選擇代替假設(shè)檢驗(yàn) 254
4.6.14 使用假設(shè)檢驗(yàn)還是 AIC 255
第 5章 正態(tài)線性模型 257
5.1 含有單個(gè)連續(xù)型解釋變量的模型(一元回歸) 258
5.1.1 環(huán)境準(zhǔn)備 258
5.1.2 實(shí)現(xiàn) 讀入數(shù)據(jù)并繪制其圖形 259
5.1.3 建模 260
5.1.4 實(shí)現(xiàn) 使用 statsmodels實(shí)現(xiàn)模型化 261
5.1.5 實(shí)現(xiàn) 打印估計(jì)結(jié)果并檢驗(yàn)系數(shù) 261
5.1.6 關(guān)于 summary函數(shù)的輸出的說(shuō)明 263
5.1.7 實(shí)現(xiàn) 使用 AIC進(jìn)行模型選擇 264
5.1.8 術(shù)語(yǔ) 回歸直線 266
5.1.9 實(shí)現(xiàn) 用 seaborn繪制回歸直線 266
5.1.10 實(shí)現(xiàn) 使用模型進(jìn)行預(yù)測(cè) 267
5.1.11 實(shí)現(xiàn) 獲取殘差 269
5.1.12 術(shù)語(yǔ) 決定系數(shù) 270
5.1.13 實(shí)現(xiàn) 決定系數(shù) 270
5.1.14 術(shù)語(yǔ) 修正決定系數(shù) 272
5.1.15 實(shí)現(xiàn) 修正決定系數(shù) 272
5.1.16 實(shí)現(xiàn) 殘差的直方圖和散點(diǎn)圖 273
5.1.17 術(shù)語(yǔ) 分位圖 274
5.1.18 實(shí)現(xiàn) 分位圖 275
5.1.19 根據(jù) summary函數(shù)的輸出分析殘差 277
5.2 方差分析 279
5.2.1 本節(jié)例題 279
5.2.2 什么時(shí)候應(yīng)該使用方差分析 279
5.2.3 術(shù)語(yǔ) 多重假設(shè)檢驗(yàn) 280
5.2.4 方差分析的直觀理解:F比 280
5.2.5 顯著性差異與小提琴圖 281
5.2.6 方差分析的直觀理解:分離效應(yīng)和誤差 283
5.2.7 術(shù)語(yǔ) 組間差異與組內(nèi)差異 283
5.2.8 環(huán)境準(zhǔn)備 284
5.2.9 生成數(shù)據(jù)并可視化 284
5.2.10 實(shí)現(xiàn) 方差分析①:計(jì)算組間偏差平方和與組內(nèi)偏差平方和 286
5.2.11 實(shí)現(xiàn) 方差分析②:計(jì)算組間方差與組內(nèi)方差 287
5.2.12 實(shí)現(xiàn) 方差分析③:計(jì)算 p值 288
5.2.13 解釋變量為分類(lèi)變量的正態(tài)線性模型 289
5.2.14 術(shù)語(yǔ) 虛擬變量 289
5.2.15 實(shí)現(xiàn) statsmodels中的方差分析 290
5.2.16 術(shù)語(yǔ) 方差分析表 290
5.2.17 模型系數(shù)的含義 290
5.2.18 使用模型分離效應(yīng)和誤差 291
5.2.19 回歸模型中的方差分析 292
5.3 含有多個(gè)解釋變量的模型 295
5.3.1 環(huán)境準(zhǔn)備 295
5.3.2 實(shí)現(xiàn) 數(shù)據(jù)可視化 296
5.3.3 錯(cuò)誤的分析:建立只有 1個(gè)變量的模型 297
5.3.4 分析解釋變量之間的關(guān)系 299
5.3.5 實(shí)現(xiàn) 多解釋變量的模型 301
5.3.6 錯(cuò)誤的分析:使用普通方差分析 301
5.3.7 實(shí)現(xiàn) 回歸系數(shù)的 t檢驗(yàn) 303
5.3.8 術(shù)語(yǔ) Type II ANOVA 304
5.3.9 模型選擇與方差分析 304
5.3.10 Type II ANOVA與調(diào)整平方和 307
5.3.11 實(shí)現(xiàn) Type II ANOVA 308
5.3.12 Type II ANOVA的含義 310
5.3.13 實(shí)現(xiàn) 變量選擇與模型選擇 310
5.3.14 使用 AIC進(jìn)行變量選擇 311
5.3.15 補(bǔ)充 多重共線性 312
第 6章 廣義線性模型 313
6.1 各種概率分布 314
6.1.1 術(shù)語(yǔ) 二值隨機(jī)變量 314
6.1.2 術(shù)語(yǔ) 伯努利試驗(yàn) 314
6.1.3 術(shù)語(yǔ) 成功概率 315
6.1.4 術(shù)語(yǔ) 伯努利分布 315
6.1.5 術(shù)語(yǔ) 二項(xiàng)分布 315
6.1.6 二項(xiàng)分布的應(yīng)用 316
6.1.7 二項(xiàng)分布的概率質(zhì)量函數(shù) 316
6.1.8 環(huán)境準(zhǔn)備 317
6.1.9 實(shí)現(xiàn) 二項(xiàng)分布 318
6.1.10 術(shù)語(yǔ) 泊松分布 319
6.1.11 泊松分布的應(yīng)用 319
6.1.12 泊松分布的概率質(zhì)量函數(shù) 320
6.1.13 補(bǔ)充 二項(xiàng)分布與泊松分布的關(guān)系 320
6.1.14 實(shí)現(xiàn) 泊松分布 320
6.1.15 補(bǔ)充 其他概率分布 323
6.1.16 補(bǔ)充 指數(shù)分布族 323
6.2 廣義線性模型基礎(chǔ) 325
6.2.1 廣義線性模型的組成 325
6.2.2 概率分布 326
6.2.3 術(shù)語(yǔ) 線性預(yù)測(cè)算子 326
6.2.4 術(shù)語(yǔ) 聯(lián)系函數(shù) 326
6.2.5 聯(lián)系函數(shù)與概率分布的關(guān)系 327
6.2.6 廣義線性模型的參數(shù)估計(jì) 328
6.2.7 補(bǔ)充 廣義線性模型的檢驗(yàn)方法 328
6.3 logistic回歸 329
6.3.1 術(shù)語(yǔ) logistic回歸 329
6.3.2 本節(jié)例題 329
6.3.3 二值分類(lèi)問(wèn)題 329
6.3.4 術(shù)語(yǔ) logit函數(shù) 330
6.3.5 術(shù)語(yǔ) 反函數(shù) 330
6.3.6 術(shù)語(yǔ) logistic函數(shù) 330
6.3.7 logistic函數(shù)的性質(zhì) 331
6.3.8 logistic回歸的推導(dǎo) 331
6.3.9 logistic回歸的似然函數(shù) 332
6.3.10 環(huán)境準(zhǔn)備 333
6.3.11 實(shí)現(xiàn) 讀取數(shù)據(jù)并可視化 334
6.3.12 實(shí)現(xiàn) logistic回歸 335
6.3.13 實(shí)現(xiàn) logistic 回歸的結(jié)果 336
6.3.14 實(shí)現(xiàn) 模型選擇 337
6.3.15 實(shí)現(xiàn) 回歸曲線 337
6.3.16 實(shí)現(xiàn) 預(yù)測(cè)成功概率 338
6.3.17 術(shù)語(yǔ) 優(yōu)勢(shì) 339
6.3.18 術(shù)語(yǔ) 優(yōu)勢(shì)比 340
6.3.19 logistic回歸的系數(shù)與優(yōu)勢(shì)比的關(guān)系 340
6.4 廣義線性模型的評(píng)估 342
6.4.1 環(huán)境準(zhǔn)備 342
6.4.2 術(shù)語(yǔ) 皮爾遜殘差 343
6.4.3 皮爾遜殘差的含義 343
6.4.4 實(shí)現(xiàn) 皮爾遜殘差 344
6.4.5 術(shù)語(yǔ) 模型偏差 345
6.4.6 模型偏差的含義 345
6.4.7 補(bǔ)充 模型偏差與似然比檢驗(yàn) 346
6.4.8 術(shù)語(yǔ) 偏差殘差 346
6.4.9 實(shí)現(xiàn) 偏差殘差 346
6.4.10 補(bǔ)充 交叉熵誤差 347
6.5 泊松回歸 349
6.5.1 術(shù)語(yǔ) 泊松回歸 349
6.5.2 本節(jié)例題 349
6.5.3 泊松回歸的推導(dǎo) 349
6.5.4 環(huán)境準(zhǔn)備 350
6.5.5 實(shí)現(xiàn) 泊松回歸 351
6.5.6 實(shí)現(xiàn) 模型選擇 352
6.5.7 實(shí)現(xiàn) 回歸曲線 352
6.5.8 回歸系數(shù)的含義 353
第 7章 統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí) 355
7.1 機(jī)器學(xué)習(xí)基礎(chǔ) 356
7.1.1 術(shù)語(yǔ) 機(jī)器學(xué)習(xí) 356
7.1.2 術(shù)語(yǔ) 有監(jiān)督學(xué)習(xí) 356
7.1.3 術(shù)語(yǔ) 無(wú)監(jiān)督學(xué)習(xí) 357
7.1.4 補(bǔ)充 強(qiáng)化學(xué)習(xí) 357
7.1.5 補(bǔ)充 規(guī)則學(xué)習(xí) 357
7.1.6 統(tǒng)計(jì)學(xué)與機(jī)器學(xué)習(xí)無(wú)法徹底分離 357
7.1.7 統(tǒng)計(jì)學(xué)注重過(guò)程,機(jī)器學(xué)習(xí)注重結(jié)果 358
7.2 正則化、Ridge回歸與 Lasso回歸 359
7.2.1 術(shù)語(yǔ) 正則化 359
7.2.2 術(shù)語(yǔ) Ridge回歸 359
7.2.3 術(shù)語(yǔ) Lasso回歸 361
7.2.4 確定正則化強(qiáng)度 361
7.2.5 將解釋變量標(biāo)準(zhǔn)化 361
7.2.6 Ridge回歸與 Lasso回歸的估計(jì)結(jié)果對(duì)比 362
7.2.7 變量選擇與正則化的對(duì)比 363
7.2.8 正則化的意義 363
7.3 Python中的 Ridge回歸與 Lasso回歸 365
7.3.1 scikit.learn 365
7.3.2 環(huán)境準(zhǔn)備 365
7.3.3 實(shí)現(xiàn) 標(biāo)準(zhǔn)化 366
7.3.4 定義響應(yīng)變量 368
7.3.5 實(shí)現(xiàn) 普通最小二乘法 369
7.3.6 實(shí)現(xiàn) 使用 sklearn實(shí)現(xiàn)線性回歸 370
7.3.7 實(shí)現(xiàn) Ridge回歸:懲罰指標(biāo)的影響 370
7.3.8 實(shí)現(xiàn) Ridge回歸:確定最佳正則化強(qiáng)度 373
7.3.9 實(shí)現(xiàn) Lasso回歸:懲罰指標(biāo)的影響 374
7.3.10 實(shí)現(xiàn) Lasso回歸:確定最佳正則化強(qiáng)度 376
7.4 線性模型與神經(jīng)網(wǎng)絡(luò) 378
7.4.1 本節(jié)例題 378
7.4.2 術(shù)語(yǔ) 輸入向量、目標(biāo)向量、權(quán)重、偏置 378
7.4.3 術(shù)語(yǔ) 單層感知機(jī) 379
7.4.4 術(shù)語(yǔ) 激活函數(shù) 379
7.4.5 從線性模型到神經(jīng)網(wǎng)絡(luò) 380
7.4.6 術(shù)語(yǔ) 隱藏層 381
7.4.7 術(shù)語(yǔ) 神經(jīng)網(wǎng)絡(luò) 381
7.4.8 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 381
7.4.9 神經(jīng)網(wǎng)絡(luò)中的 L2正則化 382
7.4.10 環(huán)境準(zhǔn)備 382
7.4.11 實(shí)現(xiàn) 讀入數(shù)據(jù)并整理 383
7.4.12 實(shí)現(xiàn) logistic 回歸 385
7.4.13 實(shí)現(xiàn) 標(biāo)準(zhǔn)化 387
7.4.14 實(shí)現(xiàn) 神經(jīng)網(wǎng)絡(luò) 388
7.4.15 線性模型與神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn) 389
7.5 擴(kuò)展內(nèi)容 390
7.5.1 數(shù)學(xué)原理 390
7.5.2 經(jīng)典統(tǒng)計(jì)學(xué) 390
7.5.3 統(tǒng)計(jì)模型 391
7.5.4 機(jī)器學(xué)習(xí) 391
7.5.5 模型評(píng)估 392
7.5.6 數(shù)據(jù)科學(xué) 392
參考文獻(xiàn) 394
你還可能感興趣
我要評(píng)論
|