观点 | 抛开炒作看知识图谱,为什么现在才爆发?
本文轉(zhuǎn)載自公眾號:AI前線。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
知識圖譜正在被大肆炒作,Gartner 的 2018 年新興技術(shù)炒作周期中就包含了知識圖譜。我們甚至不必等 Gartner 宣布 2018 年是“知識圖譜年”,與活躍在這個領(lǐng)域的所有人一樣,我們都看到了機會,但也看到了威脅:伴隨炒作而來的是混亂。
知識圖譜是真實的,它們至少已經(jīng)存在了 20 年。知識圖譜的原始定義是關(guān)于知識表示和推理,如受控詞匯表、分類法、模式和本體之類的東西,它們都是建立在標準和實踐的語義 Web 基礎(chǔ)之上。
那么,有哪些東西發(fā)生了變化?為什么 Airbnb、亞馬遜、谷歌、LinkedIn、Uber 和 Zalando 等公司的核心業(yè)務(wù)都應(yīng)用了知識圖譜?為什么亞馬遜和微軟加入了圖數(shù)據(jù)庫提供商的行列?你又能做些什么?
當知識圖譜還沒那么酷的時候知識圖譜聽起來似乎很酷,但它們究竟是什么?問這樣的問題似乎有點幼稚,但要構(gòu)建知識圖譜,首先要正確地定義它們。從分類法到本體論——本質(zhì)上是不同復(fù)雜性的模式和規(guī)則,而這些就是人們多年來一直在做的事情。
用于編碼這些模式的 RDF 標準就具有圖的結(jié)構(gòu)。因此,將基于圖結(jié)構(gòu)編碼的知識稱為“知識圖譜”是件很自然的事情,而相應(yīng)的數(shù)據(jù)建模者就被稱為知識工程師或本體論者。
知識圖譜有很多應(yīng)用——從編目項目到數(shù)據(jù)集成和 Web 發(fā)布,再到復(fù)雜的推理。這個領(lǐng)域的一些佼佼者包括 schema.org、Airbnb、亞馬遜、Diffbot、谷歌、LinkedIn、Uber 和 Zalando。這就是為什么經(jīng)驗豐富的知識圖譜人士對炒作嗤之以鼻。
知識圖譜現(xiàn)在已經(jīng)出現(xiàn)在新興技術(shù)的炒作周期中。對于擁有超過 20 年歷史的技術(shù)來說,還算不錯。
與其他數(shù)據(jù)建模一樣,這是一項艱難而復(fù)雜的任務(wù)。它必須考慮到很多利益相關(guān)者和世界觀、管理起源和模式漂移等。加上混合推理和 Web 規(guī)模,事情很容易失控,這就是為什么這種方法直到現(xiàn)在仍然沒能成為最流行的方法。
另一方面,無模式卻一直很流行。無模式可以讓你快速入門,而且至少在某種程度上,它更簡單、更靈活。但無模式可能帶有欺騙性,因為不管是什么領(lǐng)域,都存在模式。讀時模式(schema-on-read)?或許可以。那么完全無模式呢?
你可能不會事先對你的模式有充分的了解。它可能很復(fù)雜,而且會發(fā)生變化,但它一定存在。因此,忽略或淡化模式并不能解決任何問題,只會讓事情變得更糟。問題將會潛伏起來,并花費你更多的時間和金錢,因為它們會給開發(fā)應(yīng)用程序并獲得對模糊數(shù)據(jù)洞察力的開發(fā)人員和分析人員帶來阻力。
關(guān)鍵在于不是要拋棄模式,而是讓它發(fā)揮作用,讓它變得靈活和可互換。RDF 就很好,因為它也是數(shù)據(jù)交換標準化格式(如 JSON-LD)的基礎(chǔ)。順便說一下,RDF 還可以用于輕量級模式和無模式方法以及數(shù)據(jù)集成。
圖譜的知識輸入和輸出那么,這項 20 年的老技術(shù)為何出現(xiàn)在炒作周期的新興技術(shù)中?炒作是真實存在的,而出現(xiàn)炒作也不是沒有原因的。這與迅速崛起的人工智能炒作一樣:并不是因為方法本身發(fā)生了變化,更多的是因為數(shù)據(jù)和算力的發(fā)展讓它可以大規(guī)模運作。
此外,AI 本身也起到一定作用?;蛘?#xff0c;更確切地說,是如今被炒得火熱的自下而上、基于機器學(xué)習(xí)的 AI。知識圖譜本質(zhì)上也是另外一種 AI,但不是那種被大肆宣傳的 AI,而是那種象征性的、自上而下的、基于規(guī)則的、迄今為止仍然不是很流行的那種。
并不是說這種方法就沒有局限性。對復(fù)雜的領(lǐng)域知識進行編碼,并進行大規(guī)模推理是很困難的事情。因此,機器學(xué)習(xí)就像無模式方法一樣才會變得流行起來,并且有充分的理由。
知識圖譜起初可能很難,但不要放棄。實踐是走向完美的鋪路石。
隨著大數(shù)據(jù)的大肆發(fā)展和 NoSQL 的崛起,開始出現(xiàn)其他的一些東西。有關(guān)非 RDF 圖譜的工具和數(shù)據(jù)庫開始出現(xiàn)在市場上。這些標簽屬性類型( Labeled Property Kind,LPG)的圖譜更簡單和簡潔。與 RDF 相比,它們?nèi)鄙倌J交蛑惶峁┝嘶镜哪J焦δ堋?/p>
它們通常在運營類應(yīng)用、圖算法或圖分析方面表現(xiàn)得更好。最近,圖也開始被應(yīng)用于機器學(xué)習(xí)。這些都是非常有用的東西。
算法、分析和機器學(xué)習(xí)可以提供有關(guān)圖的見解,一些常見的用例包括欺詐檢測或推薦系統(tǒng)。因此,你可以說這些技術(shù)和應(yīng)用程序從圖譜中獲取知識,是自下而上的。另一方面,RDF 圖譜將知識引入圖譜,這是自上而下的。
那么,自下而上的圖譜也是知識圖譜嗎?
知識工程師可能會說,這是一個語義問題。我們很容易陷入知識圖譜炒作中。但最終,可能會因為缺乏清晰度而無法發(fā)揮太大作用。圖算法、圖分析和基于圖的機器學(xué)習(xí)和見解,這些都很好,它們也不與“傳統(tǒng)”的知識圖譜相互排斥。
我們之前提到的這個領(lǐng)域的佼佼者都使用了多種方法的組合。例如,使用機器學(xué)習(xí)來計算知識圖譜有助于構(gòu)建最大的知識圖譜——至少在實例方面。這也是像 DeepMind 這樣的 AI 先驅(qū)正在研究的東西。
有些舊東西,有些新東西,有些借來的東西通常,使用何種圖譜方法和工具取決于你的實際用例。對于圖數(shù)據(jù)庫來說也是一樣的,我們一直在密切關(guān)注它的發(fā)展,一路看著新的提供商和功能的加入。
在不久前的 Strata 大會上,獲得最具顛覆性創(chuàng)業(yè)獎的獲獎?wù)吆蛠嗆姸际菆D數(shù)據(jù)庫:TigerGraph 和 Memgraph。如果你想要這個領(lǐng)域快速進展的證據(jù),那么這就是。順便說一句,這兩家創(chuàng)業(yè)公司都很年輕。
對于在 2017 年 9 月低調(diào)現(xiàn)身的 TigerGraph 來說,這是非?;钴S的一年。TigerGraph 剛剛宣布推出了新版本。它包含了一些舊東西,一些新東西,一些借來的東西。
自上而下還是自下而上?
新東西很少。他們都在解決 TigerGraph 現(xiàn)有的痛點。TigerGraph 增加了與流行數(shù)據(jù)庫和數(shù)據(jù)存儲系統(tǒng)的集成,包括:RDBMS、Kafka、Amazon S3、HDFS 和 Spark(即將推出)。TigerGraph 表示,他們將會推出開源的數(shù)據(jù)庫連接器,并托管在 GitHub 上。
當然,如果沒有社區(qū),Github 存儲庫也不會有太大作用。TigerGraph 正在努力,并發(fā)布了新的開發(fā)者門戶和電子書。這個版本還帶來了更多部署選項,添加了對微軟 Azure 的支持。為了跟上容器化趨勢,還增加了對 Docker 和 Kubernetes 的支持。
我們之前提到了圖算法,這可能是這個版本最有趣的方面。TigerGraph 增加了對圖算法的支持,例如 PageRank、Shortest Path、Connected Components 和 Community Detection。有趣的是,這些是通過 TigerJraph 自己的查詢語言 GSQL 來提供支持的。
我們已經(jīng)提到了查詢語言對圖數(shù)據(jù)庫的重要性。最近,領(lǐng)先的圖數(shù)據(jù)庫提供商 Neo4j 提出了為 LPG 圖數(shù)據(jù)庫創(chuàng)建標準查詢語言的建議。與自帶 SPARQL 的 RDF 不同,這在 LPG 世界中尚不存在。
最開始,TigerGraph 回應(yīng)了 Neo4j 的提議,但現(xiàn)在情況正在發(fā)生變化。TigerGraph 剛剛發(fā)布了一個 Neo4j Migration Toolkit,主要用于將 Cypher(Neo4j 的查詢語言)翻譯成 GSQL。
TigerGraph 這樣做是有道理的,因為一直要遷移現(xiàn)有的 Cypher 查詢體系將會成為他們發(fā)展的障礙。TigerGraph 的實現(xiàn)方式很有趣,他們提供了一次性的批量翻譯過程,而不是進行交互式的遷移。
這是一種戰(zhàn)略選擇。TigerGraph 希望人們切換到 GSQL,而不是在 TigerGraph 之上使用 Cypher。一般來說,開發(fā)人員一直不愿意學(xué)習(xí)新的查詢語言。TigerGraph 可以嘗試去說服他們,但能不能奏效完全取決于每個人。
舊東西是指 TigerGraph 發(fā)布公告包含的基準測試。這些基準測試實際上是新的,但 TigerGraph 在剛推出時就已經(jīng)提供了基準測試。對于一款聲稱比其他任何解決方案都要快的產(chǎn)品,這樣做是無可厚非的?;鶞蕼y試將 TigerGraph 與 Neo4j、亞馬遜 Neptune、JanusGraph 和 ArangoDB 進行了對比,并且不出意料的是,它比其他產(chǎn)品都要快。
那么哪些東西是借來的?當然是知識圖譜。TigerGraph 的員工也證實了客戶對此表現(xiàn)出極大的興趣,例如知識圖譜相關(guān)活動在中國吸引了 1000 多人參與。哪個知識圖譜?現(xiàn)在你應(yīng)該知道了。
英文原文:
https://www.zdnet.com/article/knowledge-graphs-beyond-the-hype-getting-knowledge-in-and-out-of-graphs-and-databases/
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的观点 | 抛开炒作看知识图谱,为什么现在才爆发?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 近期论文精选
- 下一篇: docker的简单操作和端口映射