本書共七章,內(nèi)容包括:緒論、相關(guān)基礎(chǔ)理論、基于壓縮實體摘要圖的RDF數(shù)據(jù)關(guān)鍵字查詢方法、基于實體類型關(guān)系摘要的RDF數(shù)據(jù)關(guān)鍵字查詢方法、多索引的RDF數(shù)據(jù)關(guān)鍵字查詢方法、兩階段SPARQL查詢優(yōu)化處理、總結(jié)。
隨著語義Web技術(shù)的不斷發(fā)展和應(yīng)用,萬維網(wǎng)上充滿了大量可讀取、可被機器理解和處理的RDF數(shù)據(jù),RDF數(shù)據(jù)關(guān)鍵字杳詢問題的研究已經(jīng)成為當今語義Web研究的一個熱點。無論是終端用戶還是應(yīng)用系統(tǒng),都有著對RDF數(shù)行查詢的需求。但是,RDF數(shù)據(jù)的標準查詢語言SPARQL對于普通用戶來說過于復(fù)雜,用戶既不了解SPARQL查詢的語法和語義,更沒有掌握待查詢的RDF數(shù)據(jù)的模式信息。因此,提出一種基于查詢轉(zhuǎn)換的方法來實現(xiàn)RDF數(shù)據(jù)關(guān)鍵字查詢,通過將關(guān)鍵字查詢轉(zhuǎn)換為SPARQL查詢,借助現(xiàn)有的比較的SPARQL搜索引擎對RDF數(shù)行查詢。另外,提出兩階段查詢優(yōu)化方法可以對生成的SPARQL查行處理,以提高查詢執(zhí)行的效率。本書的主要貢括以下幾個方面:
提出了一種基于壓縮實體摘要圖的RDF數(shù)據(jù)關(guān)鍵字查詢方法。從大規(guī)模的RDF數(shù)據(jù)中,提取實體及實體關(guān)聯(lián),為了方便查詢轉(zhuǎn)換,將實體的類型封裝在實體節(jié)點當中,從而建立了一個壓縮實體摘要索引。利用雙向搜索算法,在這個壓縮實體摘要索引上搜含所有關(guān)鍵字實體的子圖,即找到對應(yīng)的查詢變量之間的關(guān)系,然后將這些子圖轉(zhuǎn)換成SPARQL查詢,后利用現(xiàn)有的SPARQL搜索引行RDF數(shù)據(jù)的查詢。
提出了一種基于實體類型關(guān)系摘要的RDF數(shù)據(jù)關(guān)鍵字查詢方法。通過概括出RDF數(shù)據(jù)實體類型之間的關(guān)系,定義了一種面向?qū)嶓w類型關(guān)系的摘要索引,從轉(zhuǎn)換的目標對象SPARQL的角度出發(fā),該摘要索引的構(gòu)建利用了SPARQL1.pan>的屬性路徑操作符括謂語路徑操作符、可選路徑操作符“|”以及序列路徑操作符“/”等。該索引不僅使關(guān)鍵字查詢向SPARQL查詢的轉(zhuǎn)換更為簡單、方便以及,而且該摘要索引彌補了現(xiàn)有的用于查詢轉(zhuǎn)換索引的缺陷,能夠完整地概括出RDF數(shù)據(jù)中所有實體類型之間的關(guān)系。后,將在此摘要索引上找含所有關(guān)鍵字實體的類型關(guān)系的top-子圖,并轉(zhuǎn)換成SPARQL查詢,利用現(xiàn)有的SPARQL搜索引行RDF數(shù)據(jù)的查詢。
提出了一種利用多索引來實現(xiàn)RDF數(shù)據(jù)關(guān)鍵字的查詢方法,事先在RDF數(shù)據(jù)上建立多個索引,用于定位關(guān)鍵字到指定的實體的關(guān)鍵字倒排索引和用于搜索top-k子圖的r-半徑領(lǐng)域索引、r半徑領(lǐng)域內(nèi)的短路徑索引以及用于子圖向SPARQL轉(zhuǎn)換的r半徑領(lǐng)域內(nèi)的短屬性路徑索引。通過這些索引能夠快速行關(guān)鍵字查詢向SPARQL查詢轉(zhuǎn)換。雖然索引的存儲開銷較大,不過利用“空間換時間”的思想,很大程度地提高了查詢效率。后,利用現(xiàn)有的SPARQL搜索引擎對RDF數(shù)行查詢。另外,對本書提出的三種不同的RDF數(shù)據(jù)關(guān)鍵字查詢方行了分析和比較,分別比較了三種方法用于關(guān)鍵字查詢向SPARQL查詢轉(zhuǎn)換服務(wù)的索引、關(guān)鍵字索引、top-k子圖的搜索算法以及用于輔助圖搜索的索引結(jié)構(gòu)等。
針對生成的SPARQL查詢本身所具有的特點,提出了一個兩階段的SPAR-QL查詢法,對生成的SPARQL查行優(yōu)化處理。階段,把SPARQL查詢中含有相同變量的聯(lián)結(jié)劃分為一塊,通過計算每塊內(nèi)選擇度來重新排列三元組模式的聯(lián)結(jié)順序。第二階段,利用屬性路徑索引對剩余的聯(lián)行中間結(jié)果過濾。不但利用了RDF圖中的屬性路徑,而且還考慮了三元組模式中的選擇度問題,大幅度地減少了查詢在聯(lián)結(jié)過程中產(chǎn)生的中間結(jié)果數(shù)量,從而改善了查詢質(zhì)量,提高了查詢效率。
1998年,萬維網(wǎng)的發(fā)明人Tim Berners Lee提出了“語義萬維網(wǎng)”(SemanticWeb)的設(shè)想。200pan>年,《科學(xué)美國人》雜志刊登題為“The Semantic Web”的科普文章,宣告了“語義網(wǎng)”的誕生。“語義網(wǎng)”的愿景為“使計算機更能解讀萬維網(wǎng)”。
萬維網(wǎng)是一個文字、圖片、聲音及的網(wǎng)絡(luò),作為人們在因特網(wǎng)上獲取和發(fā)布信息的重要手段和途徑,萬維網(wǎng)逐漸成為巨大的信息資源倉庫,計算機對于這樣的萬維網(wǎng)只發(fā)揮了有限的作用,它們索引關(guān)鍵詞,將信息從服務(wù)器傳輸?shù)娇蛻舳耍。所有的智能工作(選擇、組合及聚集等)必須通過人類讀者來完成。語義網(wǎng)使“萬維網(wǎng)上的數(shù)據(jù)為計算機可理解和處理”成為現(xiàn)實。從此,語義Web技術(shù)的發(fā)展有了一個新的里程碑。W3C(World Wide Web Consortium,萬維網(wǎng)聯(lián)盟)制定了一系列的語義網(wǎng)技術(shù)規(guī)范括描述各種資源和它們之間語義關(guān)系的資源描述框架(Resource Description Framework,RDF)、萬維網(wǎng)本體語言(OWL2)、RDF數(shù)據(jù)的標準查詢語言(SPARQL)及規(guī)則交換格式(RIF)等。這些技術(shù)規(guī)范間的關(guān)系在圖1.pan>所示W3C語義Web分層模型中有所體現(xiàn)。語義網(wǎng)為萬維網(wǎng)上的知識表示、推理、交換和復(fù)用奠定了理論基礎(chǔ)。
Web數(shù)據(jù)呈現(xiàn)爆炸式的增長。大規(guī)?捎玫RDF數(shù)據(jù)被發(fā)布。RDF已經(jīng)被許多項目和機構(gòu)用來表示它們的元數(shù)據(jù),如DBLP,Wikipedia等;IBM智慧地球的研究中心采用了RDF數(shù)據(jù)描述以及集成語義;Freebase知識庫是語義網(wǎng)數(shù)據(jù)庫技術(shù)公司Metaweb維護的,其中體育、電影等眾多領(lǐng)域元信息都是用RDF表示的,生物、化學(xué)、生物醫(yī)學(xué)、地理等多個領(lǐng)域都在 RDF 基礎(chǔ)行建立領(lǐng)域本體。根據(jù) W3C的SWEO(Semantic Web Ed-ucation and Outreach)研究小組的不統(tǒng)計,截止到2017年4月,在互聯(lián)網(wǎng)上的各種RDF三元組的數(shù)量括Linked Open Data,YAGO,DBpedia,Freebase等RDF數(shù)據(jù)集)已經(jīng)達到620億,其中涉及的實體數(shù)量更多;ヂ(lián)網(wǎng)已經(jīng)從只含網(wǎng)頁和網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)轉(zhuǎn)變成了能夠?qū)嶓w和實體之間豐富的關(guān)行描述的數(shù)據(jù)萬維網(wǎng)。傳統(tǒng)互聯(lián)網(wǎng)中的文檔檢索通常是將HTML頁面(文檔)看作是信息的載體,用戶的查詢返回結(jié)果則是若含這些查詢關(guān)鍵詞的文檔,而語義Web數(shù)據(jù)搜索用戶擊中的三元組中描述的實體。語義Web數(shù)據(jù)的搜索問題已經(jīng)成為當今語義網(wǎng)技術(shù)的一個重要研究熱點,各大搜索公司(如Google、百度、搜狗等)紛紛構(gòu)建知識圖譜(分別為Knowledge Graph、知心和知立方)來搜索質(zhì)量。
RDF數(shù)據(jù)的搜索需要處理粒度更細的結(jié)構(gòu)化語義數(shù)據(jù)。原有的針對非結(jié)構(gòu)化的Web文檔的存儲和索引的各種成熟技術(shù)已經(jīng)對RDF數(shù)據(jù)不再適用,目前的大量排序算法也不能直接運用到面向?qū)嶓w和其關(guān)聯(lián)的語義搜索中。SPARQL(Simple Protocol and RDF Query Language)是RDF數(shù)據(jù)的查詢語言,已于2008年pan>月15日正式成為W3CRDF數(shù)行有效的查詢。正如SQL是數(shù)據(jù)庫查詢的標準,SPARQL是查詢RDF數(shù)據(jù)的標準。由于RIF、RDFS和OWL都是使用RDF數(shù)據(jù)模型,因此SPARQL也能夠作為這三者的查詢語言。SPARQL查詢的基本組成單元是三元組模式(Triple Pattern),三元組模式與RDF三元組類似,區(qū)別在于其主語(Subject)、謂語(Predicate)和賓語(Object)位置可以設(shè)置為變量。除了SPARQL查詢語言外,還有RQL、RDQL(RDF dataquery language)以及SeRQL等RDF數(shù)據(jù)查詢語言。但是,這些查詢語言對于普……