《大數(shù)據(jù)相似查詢關鍵技術研究》由清華大學計算機科學與技術系博士、華為數(shù)據(jù)庫專家孫佶撰寫。全書首先介紹了相似查詢問題的現(xiàn)實應用和價值,以及面臨的技術挑戰(zhàn);然后提出一個相似查詢系統(tǒng),并且介紹了高效相似查詢索引、相似查詢代價估算及人在回路實體相似匹配的核心技術和創(chuàng)新思考。全書提供了豐富的實驗數(shù)據(jù)和結(jié)果,分析了各種技術的優(yōu)劣,也為實際產(chǎn)品的技術選型提供了重要參考。
《大數(shù)據(jù)相似查詢關鍵技術研究》共五章:
第1章緒論,介紹了全書的研究背景、研究內(nèi)容及主要貢獻,并概述了全書的結(jié)構(gòu)安排。
第2章分布式內(nèi)存相似查詢系統(tǒng)Dima,介紹了分布式內(nèi)存相似查詢系統(tǒng)Dima。
第3章基于學習的相似查詢基數(shù)估計,提出了一種基于學習的相似查詢技術估計技術,使用這種基數(shù)可以幫助相似查詢系統(tǒng)進行查詢執(zhí)行計劃優(yōu)化。
第4章基于相似查詢的數(shù)據(jù)融合規(guī)則生成,介紹了一種基于相似查詢的人在回路實體融合系統(tǒng)。
第5章總結(jié)與展望,總結(jié)了全書的主要研究工作,并對未來的工作做出展望。
適讀人群 :研究生、科研人員、從業(yè)者等
◆中國計算機領域具有重要突破或重要創(chuàng)新的博士研究生科研成果
◆2021年度CCF優(yōu)秀博士學位論文獎
◆緊扣數(shù)據(jù)管理、信息檢索領域研究熱點
◆相似查詢方面的創(chuàng)新性研究成果
◆大數(shù)據(jù)重要應用的核心技術
傳統(tǒng)的數(shù)據(jù)庫針對數(shù)據(jù)表的查詢條件主要包括數(shù)值范圍查詢、點查詢及模糊匹配查詢,但是這些查詢只能支持準確查詢。相似查詢可以根據(jù)指定的相似函數(shù)(比如杰卡德相似度)查詢數(shù)據(jù)集中的數(shù)據(jù),具體包括基于閾值的查詢、TopK查詢兩種,其中每種查詢又包括相似選擇和連接兩種常見算子。由于相似查詢廣泛應用于海量相似文本搜索、相似圖片搜索、結(jié)構(gòu)化實體去重和多源數(shù)據(jù)融合等領域,因此高效的相似查詢是最近國內(nèi)外研究的重點。
孫佶,華為數(shù)據(jù)庫專家,于2016年在北京郵電大學計算機科學與技術學院獲得工學學士學位,并于2021年在清華大學計算機科學與技術系獲得工學博士學位。主要研究方向包括基于智能技術的數(shù)據(jù)庫系統(tǒng)性能優(yōu)化(AI4Sys)、基于SQL的數(shù)據(jù)庫內(nèi)大規(guī)模數(shù)據(jù)分析(DB4AI)等。在SIGMOD、VLDB、ICDE等國際會議及IEEE TKDE等期刊上發(fā)表論文10余篇,被引500余次,申請專利4項,曾獲得SIGMOD Programming Contest優(yōu)勝獎,北京市普通高等學校優(yōu)秀畢業(yè)生,CCF優(yōu)秀博士學位論文獎,清華大學計算機科學與技術系優(yōu)秀博士學位論文獎等。
第1章 緒論
1.1 研究背景 1
1.2 標記增強簡介 5
1.3 研究內(nèi)容 7
1.4 組織結(jié)構(gòu) 9
第2章 標記增強研究進展
2.1 引言 11
2.2 多標記學習 14
2.2.1 學習任務 14
2.2.2 學習方法 15
2.2.3 評價指標 22
2.3 標記分布學習 29
2.3.1 學習任務 31
2.3.2 學習方法 33
2.3.3 評價指標 39
2.4 標記增強 40
2.4.1 基于先驗知識的標記增強 42
2.4.2 基于模糊方法的標記增強 45
2.4.3 基于圖的標記增強 48
第3章 標記增強理論框架
3.1 引言 52
3.2 標記分布內(nèi)在生成機制 54
3.3 標記分布質(zhì)量評價 62
3.4 標記增強對分類器泛化性能的提升 66
3.5 實驗結(jié)果與分析 68
3.5.1 標記分布恢復實驗 68
3.5.2 消融實驗 80
3.6 本章小結(jié) 85
第4章 面向標記分布學習的標記增強
4.1 引言 86
4.2 GLLE方法 87
4.2.1 優(yōu)化框架 88
4.2.2 拓撲空間結(jié)構(gòu)的引入 89
4.2.3 標記相關性的利用 90
4.2.4 優(yōu)化策略 92
4.3 實驗結(jié)果與分析 94
4.3.1 標記分布恢復實驗 94
4.3.2 標記分布學習實驗 103
4.3.3 標記相關性驗證 107
4.4 本章小結(jié) 109
第5章 標記增強在其他學習問題上的應用
5.1 引言 111
5.2 多標記學習 112
5.2.1 LEMLL方法 113
5.2.2 實驗結(jié)果與分析 118
5.3 偏標記學習 126
5.3.1 PLLE方法 128
5.3.2 實驗結(jié)果與分析 132
5.4 本章小結(jié) 149
第6章 總結(jié)與展望
6.1 總結(jié) 151
6.2 下一步研究的方向 153