基于機器學習的數(shù)據(jù)缺失值填補:理論與方法
定 價:79 元
叢書名:智能系統(tǒng)與技術(shù)叢書
- 作者:賴曉晨 張立勇 劉輝 吳霞
- 出版時間:2020/9/1
- ISBN:9787111663058
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:
- 紙張:膠版紙
- 版次:1
- 開本:16K
內(nèi)容介紹
這是一部講解如何基于機器學習技術(shù)實現(xiàn)數(shù)據(jù)缺失值填補的專著,與傳統(tǒng)的基于統(tǒng)計學的缺失值填補方法相比,效率上得到了較大的提升。作者基于多年的研究和實踐成果,創(chuàng)新性地提出了基于神經(jīng)網(wǎng)絡(luò)的缺失值填補方法和基于TS模型的缺失值填補方法。
全書共8章,可分為4個部分。
第壹部分(第1~3章):首先介紹缺失值填補領(lǐng)域的缺失數(shù)據(jù)機制、基本概念、性能度量等基礎(chǔ)知識,隨后詳細闡述目前基于統(tǒng)計學、機器學習的缺失值填補理論與方法。
第二部分(第4~5章):對目前神經(jīng)網(wǎng)絡(luò)在缺失值填補領(lǐng)域的研究成果進行歸納總結(jié),并從網(wǎng)絡(luò)模型、填補方案角度闡述神經(jīng)網(wǎng)絡(luò)填補方法的設(shè)計及應(yīng)用。
第三部分(第6~7章):詳細介紹面向不完整數(shù)據(jù)的TS建模過程,隨后通過特征選擇算法處理TS建模中的特征冗余問題,并從前提參數(shù)優(yōu)化和結(jié)論參數(shù)優(yōu)化兩個角度改進TS模型。
第四部分(第8章):以缺失值填補方法在我國貧困問題研究中的應(yīng)用為例,展現(xiàn)缺失值填補方法的現(xiàn)實意義。
前言
第1章 緒論 1
1.1 缺失值填補的背景與意義 1
1.2 缺失值填補方法的研究現(xiàn)狀概述 3
1.2.1 基于統(tǒng)計學的缺失值填補方法 3
1.2.2 基于機器學習的缺失值填補方法 4
1.3 缺失值填補的應(yīng)用 7
1.4 本章小結(jié) 10
參考文獻 11
第2章 缺失數(shù)據(jù)的處理方法 14
2.1 數(shù)據(jù)缺失機制 14
2.1.1 完全隨機缺失 15
2.1.2 隨機缺失 15
2.1.3 非隨機缺失 16
2.2 缺失數(shù)據(jù)的處理 17
2.2.1 不做處理 17
2.2.2 不完整樣本刪除 19
2.2.3 缺失值填補 20
2.3 缺失值填補概述 22
2.3.1 基本概念 22
2.3.2 方法分類 24
2.3.3 性能度量 26
2.4 本章小結(jié) 29
參考文獻 29
第3章 缺失值填補方法 31
3.1 基于樣本間相似度的填補方法 31
3.1.1 均值填補法 31
3.1.2 熱平臺填補法 34
3.1.3 K最近鄰填補法 36
3.1.4 基于聚類的填補方法 39
3.2 基于屬性間相關(guān)性的填補方法 46
3.2.1 基于線性回歸的填補方法 46
3.2.2 基于非線性回歸的填補方法 51
3.2.3 基于神經(jīng)網(wǎng)絡(luò)的填補方法 54
3.3 基于參數(shù)估計的期望最大化填補方法 60
3.3.1 參數(shù)估計法 60
3.3.2 期望最大化填補法 63
3.4 針對缺失數(shù)據(jù)不確定性的填補方法 66
3.4.1 多重填補法 67
3.4.2 基于證據(jù)理論的填補方法 72
3.5 本章小結(jié) 78
參考文獻 79
第4章 面向不完整數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)填補方法 81
4.1 基于自組織映射網(wǎng)絡(luò)的填補方法 81
4.1.1 自組織映射網(wǎng)絡(luò)理論 81
4.1.2 自組織映射網(wǎng)絡(luò)的缺失值處理 85
4.2 基于單層感知機的填補方法 87
4.2.1 單層感知機理論 87
4.2.2 傳統(tǒng)單層感知機的改進 88
4.2.3 單層感知機填補模型 89
4.3 基于多層感知機的填補方法 91
4.3.1 多層感知機理論 91
4.3.2 基于多層感知機集群的填補方法 93
4.3.3 基于多層感知機簡化集群的填補方法 95
4.4 基于自編碼器及其變體的填補方法 96
4.4.1 基于自編碼器的填補法 97
4.4.2 基于徑向基函數(shù)自編碼器的填補法 99
4.4.3 基于廣義回歸自編碼器的填補法 102
4.4.4 基于對偶傳播自編碼器的填補法 104
4.4.5 基于極限學習機自編碼器的填補法 106
4.5 面向不完整數(shù)據(jù)的屬性關(guān)聯(lián)型神經(jīng)元建模與填補方法 107
4.5.1 基于去跟蹤自編碼器的填補法 108
4.5.2 基于關(guān)聯(lián)增強型自編碼器的填補法 112
4.5.3 基于多任務(wù)學習的填補方法 114
4.6 典型神經(jīng)網(wǎng)絡(luò)填補模型實驗 117
4.6.1 實驗設(shè)計 118
4.6.2 不同網(wǎng)絡(luò)模型的填補精度 120
4.6.3 自編碼器的自跟蹤性 121
4.6.4 去跟蹤自編碼器的去跟蹤性 123
4.7 本章小結(jié) 124
參考文獻 124
第5章 神經(jīng)網(wǎng)絡(luò)填補方法的優(yōu)化設(shè)計 127
5.1 面向不完整數(shù)據(jù)的代價函數(shù) 127
5.2 兩階段式填補方案 131
5.2.1 訓練階段 132
5.2.2 填補階段 135
5.3 融合式填補方案 143
5.3.1 基于缺失值變量的神經(jīng)網(wǎng)絡(luò)動態(tài)填補方案 143
5.3.2 缺失值變量與模型參數(shù)的動態(tài)更新 144
5.3.3 時間復雜度 147
5.4 典型神經(jīng)網(wǎng)絡(luò)填補方案實驗 149
5.4.1 實驗設(shè)計 149
5.4.2 不同填補方案的填補精度 152
5.4.3 MVPT填補方案的收斂性 154
5.5 本章小結(jié) 155
參考文獻 156
第6章 基于TS建模的非線性回歸填補法 157
6.1 模糊數(shù)學基礎(chǔ) 157
6.1.1 模糊數(shù)學與模糊集合 157
6.1.2 模糊數(shù)學在缺失值填補中的應(yīng)用 158
6.2 TS模型 159
6.2.1 TS模型基本結(jié)構(gòu) 159
6.2.2 TS模型研究與應(yīng)用現(xiàn)狀 160
6.3 基于TS模型的填補方法 163
6.3.1 基于TS模型的填補方法概述 163
6.3.2 前提參數(shù)獲取 165
6.3.3 結(jié)論參數(shù)獲取 168
6.3.4 缺失值填補 169
6.4 基于特征選擇的TS模型填補法 170
6.4.1 特征選擇算法概述 170
6.4.2 基于特征選擇的TS模型填補法 177
6.5 TS模型填補方法實驗 178
6.5.1 實驗設(shè)計 178
6.5.2 TS模型與回歸模型的填補效果對比 179
6.5.3 特征選擇對TS模型擬合精度的影響 181
6.5.4 特征選擇對TS模型填補精度的影響 183
6.6 本章小結(jié) 186
參考文獻 186
第7章 TS模型填補方法的優(yōu)化設(shè)計 188
7.1 面向類不均衡數(shù)據(jù)的TS模型優(yōu)化 188
7.1.1 TS模型中的FCM算法 188
7.1.2 FCM算法存在的問題 190
7.1.3 DPC算法 192
7.1.4 類不均衡數(shù)據(jù)的MDF算法 195
7.1.5 MDF算法實驗 196
7.2 基于交替學習策略的TS模型填補方法 204
7.2.1 TS結(jié)論參數(shù)與填補值的交替學習策略 206
7.2.2 交替學習策略的迭代收斂性 208
7.2.3 交替學習策略下線性回歸填補法實驗 209
7.2.4 交替學習策略下TS模型填補法實驗 210
7.3 本章小結(jié) 212
參考文獻 212
第8章 基于缺失值填補的中國貧困家庭特征分析 213
8.1 精準扶貧過程中的數(shù)據(jù)缺失問題 213
8.1.1 我國貧困問題研究 213
8.1.2 中國家庭追蹤調(diào)查中的數(shù)據(jù)缺失問題 214
8.2 CFPS數(shù)據(jù)集缺失值填補 216
8.2.1 基于去跟蹤自編碼器的動態(tài)缺失值填補 216
8.2.2 缺失值填補精度 217
8.3 貧困家庭識別 219
8.3.1 多維貧困測度 219
8.3.2 貧困的維度指標及臨界剝奪值 220
8.3.3 基于層次分析法的多維貧困指標權(quán)重計算 223
8.3.4 CFPS2016數(shù)據(jù)集的多維貧困家庭識別 227
8.4 基于聚類算法的貧困家庭類別劃分 229
8.4.1 層次聚類算法 229
8.4.2 貧困家庭聚類 230
8.5 貧困家庭典型特征分析 232
8.5.1 多重聚類特征選擇算法 232
8.5.2 貧困家庭典型特征選擇 233
8.6 本章小結(jié) 235
參考文獻 236