技术动态 | 数据库研究者视角下的知识图谱研究
本文轉載自公眾號:圖譜學苑 。
?? ? ? ??
本次講解的是數據庫領域的三大會(SIGMOD、VLDB、ICDE)近兩年關于圖數據的研究進展,特別是知識圖譜的最新研究。知識圖譜是2012年Google為改進其搜索引擎而提出的概念,其本質是一個描述事物本身以及事物之間關聯關系的大規模的語義圖,然而在數據庫領域關于圖數據的相關研究已經有了很多年,圖論的相關研究甚至在計算機誕生之前就已經有了大量的研究,早在1736年瑞典數學家歐拉(Leornhard Euler)解決了著名的哥尼斯堡七橋問題,由此圖論誕生,歐拉也成為圖論的創始人。知識圖譜作為圖數據的一種,目前主要關注三個相關的研究問題,分別是知識圖譜構建、知識圖譜查詢、知識圖譜挖掘,以下將從這三個方面分別進行介紹。注意到本文不是專門介紹某一篇文章,而是對相關的研究進行梳理,旨在介紹不同的關注點上的研究進展。
知識圖譜的相關應用首先需要構建一個知識圖譜,而構建知識圖譜是一項十分重要并且極具挑戰的任務。知識圖譜由<主體(subject),謂詞(predicate),客體(object)>組成。進行實體抽取是構建知識圖譜最為基礎的任務之一,近些年也得到了數據庫領域研究人員的關注,其中的一種方法是基于詞典的檢索,假定我們預先得到一個豐富的實體詞典,基于這個詞典可以從輸入的文本根據相似度進行篩選。傳統的方法分別考慮了字(character)級和詞(token)級的相似度,這兩種相似度各自具有一定的優勢,比如對于文本中的“Melbounre” 由于拼寫錯誤,考慮用字級的相似度更合適;相反的,對于文本中的“MelbounreUniversity ” 和“The University of Melbourne”實際上是指同一個實體,如果考慮字級的相似度,肯能會使得兩者之間的距離很大,從而導致錯誤的識別。因此,需要設計一種同時融合字級和詞級的相似度,兼具兩者的優勢,ICDE 2019提出了一種解決方案,詳見參考文獻【10】。構建知識圖譜關鍵的任務之一是確定圖譜的schema,由于不同產品具有的類型和相關的屬性千差萬別,比如手機的屬性有屏幕尺寸、分辨率等,而狗糧的屬性有保質期、原料等,因此構建產品知識圖譜難度更大。除此之外,產品的數量十分龐大,對于產品知識圖譜的構建提出了進一步的挑戰。ICDE 2019提出了一種可行的方法【11】。
在面向文本數據構建知識圖譜的過程中,一項十分重要的任務是進行三元組的規范化,即把不同三元組中實際指向同一個實體的主體(subject)或客體(object)鏈接到一起;類似的,對于不同三元組中的謂詞或屬性若是同樣的意思,則也需要進行標準化。一個常用的方法是把這些三元組聚類,聚類的過程可以采用人工定義的特征,也可以基于所學到的分布式表示。然而傳統的聚類大多采用的是層次聚類,時間復雜度較高,并且很多新出現的實體難以鏈接到已有的知識圖譜中,為了解決這一問題,ICDE 2019有研究人員提出了一個解決方案【12】,作者們提出了一種同時考慮實體和關系標準化的聯合策略,并且引入了領域知識。
VLDB 2018有研究人員提出了一種在線構建知識圖譜的方法【16】,當用戶給定了一個查詢之后,系統檢索到包含查詢的自然語言文本,然后進行在線解析,生成結構化的知識圖譜。作者構建了一個語義圖(semantic graph),包括句子中的短語以及短語之間的依賴關系,同時還包含了短語到已有的知識圖譜的(例如DBpedia)的鏈接關系。基于語義圖進行最終的圖譜抽取,同時也可以解決了知識圖譜的標準化問題。知識圖譜構建完成之后,需要對構建的質量進行評測,準確率可以定義為知識圖譜中正確的三元組的比例,當前的質量評測通常還是通過人工的方式進行。因此,如何保證評測可信度的前提下最大限度的降低人工的成本是十分重要的任務。對于一個人同樣是查驗5條三元組,如果數據的呈現方式不同,最終所花費的代價也可能不同。例如,上圖中左側的三元組由于涉及到了不同實體,而右側的三元組涉及的是同一個實體,很明顯,查驗右側的數據所耗費的時間更少。VLDB 2019的文章【1】對這個問題做了深入細致的研究。由于知識圖譜在構建過程中可能有引入很多的噪音數據,如果能夠在知識圖譜中發掘一些規則,并基于這些規則進行知識圖譜的修正,對于知識圖譜質量的提升具有重大的作用。規則有正負面之分,例如,正面規則(positive rules):如果兩個人具有同樣的父母,這這兩個人是兄弟姐妹的關系;負面規則(negative rules):如果a比b晚出生,則b不可能是a的孩子。文獻【15】提出了規則自動發現的算法。知識圖譜/圖數據構建好之后,一個重要的任務是,提供有效的查詢方式,為用戶瀏覽數據提供方便的服務。結構化的查詢語言如SPARQL、Cyper有著嚴格的語法結構,并且需要用戶對底層的知識圖譜的結構有清晰的了解,否則難以寫出正確的可以執行的查詢語句。因此,提供更易于使用的查詢方式顯得尤為重要。SIGMOD 2019上有研究人員提出了一種可視化的圖查詢方法【3】,系統準備了一些基本圖單元,用戶可以從中選擇并且拖拽的右側的畫圖區,然后根據需要進一步進行拼接,最終形成一個完整的圖查詢。然而,之前的方法,這些基本圖單元是系統預先設定好的,通常是基于人工的經驗得到的,對于大規模的圖數據、知識圖譜,想要提前確定好這些基本圖單元是十分困難的,為此,作者們提出了一種基于數據驅動的選擇方案,具體可以參考文獻【3】。?
基于自然語言的方式查詢知識圖譜目前已經成為了十分重要的方式,然而由于自然語言本身的靈活性和歧義性導致問答的效果不理想,特別是針對復雜句的問答。VLDB 2018有研究人員提出了一種基于模板分解的方法,其基本思想是把復雜問句拆解成一組簡單問句,而簡單問句的回答相對容易的多。最終基于簡單問句的答案,生成復雜句的答案。例如,問句“where was the wife of the USpresident born?”可以拆解成3個簡單模板,并且這三個模板之間具有依賴關系。然而對于一個復雜問句,設計一個有效的拆解算法具有一定的挑戰。文獻【17】給出了一個高效的拆解方案。當圖的規模非常大時,可能需要基于分布式的系統進行處理,而這里面有一個非常重要的問題是如何進行圖的劃分,劃分的目的是減小網絡通信的代價,并且使得各個劃分的子圖盡可能較為均勻,從而有助于提升并行化的程度。由于當前的數據具有高度變化的特點,也就是數據難以獲得其全貌,而只能以流數據的形式進行處理,SIGMOD 2019有研究人員對這個問題進行了一個比較系統而全面的比較和分析【20】。在動態圖上的研究也是近兩年的熱點問題之一,涉及到多個經典問題的研究,包括k-truss(最大的連通子圖,其中每條邊被至少k-2個三角形包含)、最短路查詢 【8】、子圖同構搜索【13,14】等。參考文獻【7】提出了在動態圖上維護k-truss的高效算法,并且證明了在刪除邊的情況是有界的bounded(SIGMOD 2019)。除此之外,知識圖譜嵌入的研究也得到了廣泛的關注【9】。知識圖譜/圖數據的相關研究主要關注三個方面:知識圖譜的構建、知識圖譜的查詢、知識圖譜的挖掘。本文從這三個方面粗略地介紹了近兩年在數據庫領域的頂級會議的相關研究,有興趣的讀者可以有針對性的進一步閱讀和了解。?References[1] Efficient Knowledge Graph Accuracy Evaluation, VLDB 2019
[2] An Efficient Parallel Keyword Search Engine on Knowledge Graphs, ICDE 2019
[3] CATAPULT Data-driven Selection of Canned Patterns for Efficient Visual Graph Query Formulation, SIGMOD 2019
[4] Interactive Graph Search, SIGMOD 2019
[5] Answering Why-questions by Exemplars in Attributed Graphs, SIGMOD 2019
[6] Experimental Analysis of Streaming Algorithms for Graph Partitioning, SIGMOD 2019
[7] Unboundedness and Efficiency of Truss Maintenance in Evolving Graphs, SIGMOD 2019
[8] Constrained Shortest Path in a Time-Dependent Graph, VLDB 2019
[9] NSCaching: Simple and Efficient Negative Sampling for Knowledge Graph Embedding, ICDE 2019
[10] 2ED: An Efficient Entity Extraction Algorithm using Two-Level Edit-Distance, ICDE 2019
[11] Building a Broad Knowledge Graph for Products, ICDE 2019
[12] Canonicalization of Open Knowledge Bases with Side Information from the Source Text, ICDE 2019
[13] Time Constrained Continuous Subgraph Search over Streaming Graphs, ICDE 2019
[14] TurboFlux: A Fast Continuous Subgraph Matching System for Streaming Graph Data, SIGMOD 2018
[15] Robust Discovery of Positive and Negative Rules in Knowledge-Bases, ICDE 2018
[16] Query-Driven On-The-Fly Knowledge Base Construction, VLDB 2018
[17] Question Answering Over Knowledge Graphs: Question Understanding Via Template Decomposition,VLDB 2018
[18] Interactive Graph Search, SIGMOD 2019
[19] Answering Why-questions by Exemplars in Attributed Graphs, SIGMOD 2019
[20] Experimental Analysis of Streaming Algorithms for Graph Partitioning, SIGMOD 2019
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的技术动态 | 数据库研究者视角下的知识图谱研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - AAAI2020 | 多轮
- 下一篇: 论文浅尝 - TACL2020 | 改进