在實際應用中,需要處理的數(shù)據(jù)常常具有類別不平衡的特點.例如,用于信用卡欺詐檢測、垃圾郵件過濾、機械故障診斷、疾病診斷、極端天氣預測預報等的數(shù)據(jù)都是類別非平衡數(shù)據(jù).研究非平衡數(shù)據(jù)分類問題具有重要意義和實際應用價值,引起機器學習領域研究人員的廣泛關注.本書結合作者團隊在非平衡數(shù)據(jù)分類中的研究成果,系統(tǒng)介紹非平衡數(shù)據(jù)分類的理論基礎、模型評價、數(shù)據(jù)級方法、算法級方法和集成學習方法.
更多科學出版社服務,請掃碼獲取。
目錄
“信息科學技術學術著作叢書”序
前言
第1章 理論基礎1
1.1 數(shù)據(jù)分類1
1.2 K-近鄰4
1.3 決策樹5
1.3.1 離散值決策樹6
1.3.2 連續(xù)值決策樹19
1.4 神經(jīng)網(wǎng)絡25
1.4.1 神經(jīng)元模型25
1.4.2 梯度下降算法26
1.4.3 多層感知器模型29
1.4.4 卷積神經(jīng)網(wǎng)絡33
1.5 極限學習機43
1.6 支持向量機46
1.6.1 線性可分支持向量機46
1.6.2 近似線性可分支持向量機50
1.6.3 線性不可分支持向量機51
1.7 集成學習54
1.7.1 集成學習簡介54
1.7.2 Bagging算法55
1.7.3 Boosting算法56
1.7.4 隨機森林算法57
1.7.5 模糊積分集成算法60
第2章 模型評價63
2.1 基本度量63
2.2 ROC曲線與AUC面積65
2.2.1 ROC曲線65
2.2.2 AUC面積68
2.3 損失函數(shù)71
2.4 偏差與方差80
2.5 多樣性度量81
2.5.1 成對多樣性度量82
2.5.2 非成對多樣性度量83
2.5.3 分類器集成的多樣性和分類精度之間的關系85
第3章 數(shù)據(jù)級方法86
3.1 數(shù)據(jù)級方法概述86
3.2 SMOTE算法88
3.3 B-SMOTE算法89
3.4 基于生成模型上采樣的兩類非平衡數(shù)據(jù)分類算法89
3.4.1 基于極限學習機自動編碼器的上采樣算法91
3.4.2 基于生成對抗網(wǎng)絡的上采樣算法93
3.4.3 算法實現(xiàn)及與其他算法的比較98
3.5 基于自適應聚類和模糊數(shù)據(jù)約簡下采樣的兩類非平衡大數(shù)據(jù)分類算法109
3.5.1 大數(shù)據(jù)概述109
3.5.2 大數(shù)據(jù)處理系統(tǒng)110
3.5.3 聚類分析127
3.5.4 兩類非平衡大數(shù)據(jù)分類算法134
3.5.5 算法實現(xiàn)及與其他算法的比較138
第4章 算法級方法144
4.1 算法級方法概述144
4.2 基于代價敏感性學習的非平衡數(shù)據(jù)分類方法146
4.2.1 代價敏感性學習基礎146
4.2.2 代價敏感性支持向量機151
4.2.3 代價敏感Boosting算法151
4.3 基于深度學習的非平衡圖像數(shù)據(jù)分類方法153
4.3.1 針對非平衡圖像數(shù)據(jù)的深度表示學習153
4.3.2 針對長尾識別的目標監(jiān)督對比學習156
4.3.3 針對長尾識別的深度嵌入和數(shù)據(jù)增廣學習方法159
第5章 集成學習方法163
5.1 集成學習方法概述163
5.2 SMOTEBoost算法與SMOTEBagging算法164
5.3 基于改進D2 GAN上采樣和分類器融合的兩類非平衡數(shù)據(jù)分類166
5.3.1 基于改進D2 GAN的上采樣方法166
5.3.2 基于改進D2 GAN上采樣和分類器融合的兩類非平衡數(shù)據(jù)分類169
5.3.3 算法實現(xiàn)及與其他算法的比較172
5.4 基于MapReduce和極限學習機集成的兩類非平衡大數(shù)據(jù)分類179
5.4.1 交替上采樣方法179
5.4.2 基于交替上采樣和集成學習的兩類非平衡大數(shù)據(jù)分類180
5.4.3 算法實現(xiàn)及與其他算法的比較182
5.5 基于異類最近鄰超球上采樣和集成學習的兩類非平衡大數(shù)據(jù)分類186
5.5.1 基于MapReduce和異類最近鄰超球的上采樣186
5.5.2 基于異類最近鄰超球上采樣和模糊積分集成的兩類非平衡大數(shù)據(jù)分類188
5.5.3 算法實現(xiàn)及與其他算法的比較188
參考文獻194