主要研究內(nèi)容與特色: (1) 利用文本挖掘和專家經(jīng)驗構(gòu)建機器學習關(guān)鍵問題分析框架,總結(jié)機器學習在醫(yī)療大數(shù)據(jù)挖掘中面臨的若干關(guān)鍵問題。 (2) 利用簡約核構(gòu)建面向不完整視角問題的高效機器學習方法。 (3) 利用非對稱損失函數(shù)構(gòu)建面向類別不平衡問題的機器學習與深度學習方法。讀者對象: 從事人工智能、機器學習、醫(yī)療大數(shù)據(jù)分析方向的學術(shù)界與工業(yè)界的相關(guān)人士。 (4)圍繞不完整視角與類別不平衡這兩個關(guān)鍵問題展開深入研究,有效提升了醫(yī)學診斷的決策效率。
本書圍繞醫(yī)療大數(shù)據(jù)挖掘中的熱點問題,展開深入的理論與應(yīng)用研究,可有效地輔助醫(yī)學診斷。有助于減少專業(yè)醫(yī)師的培訓成本,為醫(yī)學診斷提供有效的輔助工具,進而改善醫(yī)療資源分配不均的現(xiàn)象,并為人類的生命健康做出重要貢獻。
隨著計算機技術(shù)的飛速發(fā)展,醫(yī)療信息的規(guī)模性和豐富性顯著增強,機器學習成為賦能醫(yī)療大數(shù)據(jù)的核心技術(shù)。但不可否認的是,基于機器學習的醫(yī)療大數(shù)據(jù)挖掘仍然面臨諸多挑戰(zhàn)。本書從實際出發(fā),研究機器學習在醫(yī)療大數(shù)據(jù)挖掘中的問題與方法,一方面希望所研究成果豐富并完善相應(yīng)領(lǐng)域的理論研究與方法體系,另一方面希望能在實際的醫(yī)療大數(shù)據(jù)挖掘中得到有效應(yīng)用,為醫(yī)學工作者提供有效的輔助診斷工具,有助于疾病的早預(yù)防、早發(fā)現(xiàn)、早治療,提升臨床決策的效率。大量實驗證實本研究能夠快速、準確地完成醫(yī)療大數(shù)據(jù)的分析任務(wù),但這并不意味著機器學習能夠取代醫(yī)學專家的地位。嚴格來說,兩者相輔相成。首先,在數(shù)據(jù)的準備階段,需要依賴專家的經(jīng)驗對數(shù)據(jù)進行標注;其次,在模型的構(gòu)建階段,融入專家的經(jīng)驗知識有望取得比現(xiàn)有方法更優(yōu)的性能;最后,在決策階段,模型得到的預(yù)測結(jié)果需要經(jīng)過專家的解釋和認可才能用于臨床實踐。
本書具體內(nèi)容設(shè)置如下:首先提出一個結(jié)合文本挖掘與專家經(jīng)驗的機器學習問題分析框架,利用該框架詳細分析并討論醫(yī)療大數(shù)據(jù)挖掘的研究現(xiàn)狀,總結(jié)機器學習在醫(yī)療大數(shù)據(jù)中面臨的關(guān)鍵問題,然后對這些機器學習問題和相應(yīng)的機器學習方法進行描述,并針對多視角學習和類別不平衡學習深入研究。
在此基礎(chǔ)之上,未來的研究可從以下幾個方面展開。
(1)優(yōu)化算法角度:本書使用的數(shù)據(jù)體量有限,隨著醫(yī)療數(shù)據(jù)維度和規(guī)模的爆炸式增長,設(shè)計針對高維以及大規(guī)模問題的有效求解算法具有迫切的現(xiàn)實意義。
(2)模型推廣角度:本書面向分類任務(wù)構(gòu)建模型,未來可考慮將任務(wù)推廣至回歸或聚類任務(wù)中。另外,可將模型與其他學習范式結(jié)合,如多標簽學習、多示例學習、偏標記學習等,旨在提升模型解決復(fù)雜問題的能力。
(3)拓廣應(yīng)用角度:本書主要為機器學習在醫(yī)療大數(shù)據(jù)挖掘中面臨的不完整視角問題與類別不平衡問題提供解決方案。事實上,該領(lǐng)域還存在諸多亟待解決的問題,如數(shù)據(jù)標注問題、隱私問題等。根據(jù)這些問題的特性設(shè)計不同的模型和算法將有助于完善機器學習在醫(yī)療大數(shù)據(jù)挖掘中的理論與應(yīng)用。
(4)法律監(jiān)管角度:機器學習作為人工智能的核心技術(shù),是目前各行各業(yè)最炙手可熱的賽道,醫(yī)療領(lǐng)域自然也不例外。但由于醫(yī)療數(shù)據(jù)與人類生命健康密切相關(guān),任何技術(shù)的誤用或濫用都可能導(dǎo)致無法挽回的損失。基于此,明確并制定機器學習在醫(yī)療大數(shù)據(jù)挖掘中的法律規(guī)范、責任歸屬以及操作標準將成為該領(lǐng)域長足發(fā)展的必要條件。
本書可作為機器學習領(lǐng)域研究生的擴充閱讀資料,也可供醫(yī)療大數(shù)據(jù)領(lǐng)域正在進行理論研究和應(yīng)用研究的讀者參考。本書得到北京郵電大學經(jīng)濟管理學院、中國科學院大學經(jīng)濟與管理學院、中國科學院虛擬經(jīng)濟與數(shù)據(jù)科學研究中心、中國科學院大數(shù)據(jù)挖掘與知識管理重點實驗室等單位的支持,以及國家自然科學基金(項目編號:12071458,71901179)及北京郵電大學中央高;究蒲袠I(yè)務(wù)專項基金(項目編號:2023RC10)的資助,在此一并感謝!
由于著者水平有限,書中難免有不妥之處,懇請讀者批評指正。
著 者
2023年6月
付賽際,北京郵電大學講師。研究方向:醫(yī)療大數(shù)據(jù)挖掘、機器學習與最優(yōu)化。近年來在Information Sciences, Knowledge-Based Systems, Information Processing & Management發(fā)表論文10余篇。現(xiàn)任Annals of Data Science編委。參加國家自然科學基金面上項目、重點項目若干項。
第1章 醫(yī)療大數(shù)據(jù)挖掘 1
1.1?醫(yī)療大數(shù)據(jù) 1
1.2 醫(yī)療大數(shù)據(jù)文獻分析 4
1.2.1 數(shù)據(jù)準備 4
1.2.2 文本挖掘 5
1.2.3 專家經(jīng)驗 5
1.3 挖掘現(xiàn)狀與關(guān)鍵問題 10
1.3.1 醫(yī)學圖像分類 10
1.3.2 醫(yī)學圖像檢測 17
1.3.3 醫(yī)學圖像分割 20
1.3.4 醫(yī)學圖像生成 23
1.3.5 關(guān)鍵問題 25
第2章 機器學習問題 28
2.1 二分類問題 28
2.2 多分類問題 29
2.3 多標簽分類問題 30
2.4 多視角分類問題 31
2.5 多示例分類問題 31
2.6 多任務(wù)分類問題 33
2.7 遷移學習問題 34
2.8 弱監(jiān)督分類問題 34
2.9 數(shù)據(jù)生成問題 35
第3章 機器學習方法 37
3.1 傳統(tǒng)機器學習方法 37
3.1.1 k近鄰 37
3.1.2 樸素貝葉斯 38
3.1.3 決策樹 40
3.1.4 隨機森林 41
3.1.5 自適應(yīng)增強 41
3.1.6 支持向量機 42
3.2 深度學習方法 44
3.2.1 CNN 44
3.2.2 RNN 46
3.2.3 GAN 46
第4章 多視角學習 48
4.1 多視角學習方法 48
4.1.1 基于完整視角的學習方法 48
4.1.2 基于不完整視角的學習方法 50
4.2 基礎(chǔ)模型 53
4.2.1 RSVM 53
4.2.2 PSVM-2V 54
4.3 RPSVM-2V 55
4.4 理論分析 58
4.5 拓展模型 60
4.5.1 RSVM-2K 60
4.5.2 RMKL 62
4.6 實驗分析 64
4.6.1 實驗設(shè)置 64
4.6.2 實驗結(jié)果 65
4.6.3 參數(shù)敏感性分析 71
4.6.4 譜分析 74
第5章 類別不平衡學習(一) 77
5.1 類別不平衡學習方法 77
5.1.1 采樣 77
5.1.2 代價敏感學習 78
5.1.3 集成學習 79
5.2 DEC 81
5.3 修正Stein損失函數(shù) 81
5.4 CSMS 83
5.5 理論分析 86
5.6 模型優(yōu)化 86
5.7 實驗分析 88
5.7.1 實驗設(shè)置 88
5.7.2 實驗結(jié)果 89
5.7.3 參數(shù)敏感性分析 93
5.7.4 收斂性分析 93
第6章 類別不平衡學習(二) 98
6.1 v-SVM 98
6.2 LINEX損失函數(shù) 99
6.3 v-CSSVM 99
6.4 理論分析 101
6.5 模型優(yōu)化 102
6.5.1 ADMM 102
6.5.2 GD 104
6.6 實驗分析 105
6.6.1 實驗設(shè)置 105
6.6.2 實驗結(jié)果 106
6.6.3 參數(shù)敏感性分析 109
6.6.4 收斂性分析 110
第7章 類別不平衡學習(三) 113
7.1 深度學習中的類別不平衡損失函數(shù) 113
7.1.1 WCE 114
7.1.2 FL 114
7.1.3 其他 115
7.2 深度LINEX損失函數(shù) 116
7.2.1 BC-LINEX 116
7.2.2 MC-LINEX 117
7.2.3 損失函數(shù)比較 119
7.3 模型優(yōu)化 120
7.3.1 BC-LINEX權(quán)重更新 120
7.3.2 MC-LINEX權(quán)重更新 121
7.4 實驗分析 122
7.4.1 實驗設(shè)置 122
7.4.2 實驗結(jié)果 125
7.4.3 參數(shù)敏感性分析 130
附錄A 132
A.1 定理4.1證明 132
A.2 定理4.2證明 132
A.3 第4章附表 135
附錄B 148
B.1 第5章附表 148
附錄C 150
C.1 定理6.1證明 150
C.2 第6章附表 152
參考文獻 155