當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

观点 | 抛开炒作看知识图谱，为什么现在才爆发？

發(fā)布時間：2024/7/5 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了观点 | 抛开炒作看知识图谱，为什么现在才爆发？小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文轉(zhuǎn)載自公眾號：AI前線。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

作者 | George Anadiotis 譯者 | 無明 導(dǎo)讀：知識圖譜究竟是什么，都有哪些圍繞它們的炒作？如果你想要像 Airbnb、亞馬遜、谷歌和 Linkedin 那樣，那么學(xué)會區(qū)分炒作與現(xiàn)實、定義不同類型的圖譜，以及為你的應(yīng)用場景選擇正確的工具和數(shù)據(jù)庫是必不可少的。

知識圖譜正在被大肆炒作，Gartner 的 2018 年新興技術(shù)炒作周期中就包含了知識圖譜。我們甚至不必等 Gartner 宣布 2018 年是“知識圖譜年”，與活躍在這個領(lǐng)域的所有人一樣，我們都看到了機會，但也看到了威脅：伴隨炒作而來的是混亂。

知識圖譜是真實的，它們至少已經(jīng)存在了 20 年。知識圖譜的原始定義是關(guān)于知識表示和推理，如受控詞匯表、分類法、模式和本體之類的東西，它們都是建立在標準和實踐的語義 Web 基礎(chǔ)之上。

那么，有哪些東西發(fā)生了變化？為什么 Airbnb、亞馬遜、谷歌、LinkedIn、Uber 和 Zalando 等公司的核心業(yè)務(wù)都應(yīng)用了知識圖譜？為什么亞馬遜和微軟加入了圖數(shù)據(jù)庫提供商的行列？你又能做些什么？

當知識圖譜還沒那么酷的時候

知識圖譜聽起來似乎很酷，但它們究竟是什么？問這樣的問題似乎有點幼稚，但要構(gòu)建知識圖譜，首先要正確地定義它們。從分類法到本體論——本質(zhì)上是不同復(fù)雜性的模式和規(guī)則，而這些就是人們多年來一直在做的事情。

用于編碼這些模式的 RDF 標準就具有圖的結(jié)構(gòu)。因此，將基于圖結(jié)構(gòu)編碼的知識稱為“知識圖譜”是件很自然的事情，而相應(yīng)的數(shù)據(jù)建模者就被稱為知識工程師或本體論者。

知識圖譜有很多應(yīng)用——從編目項目到數(shù)據(jù)集成和 Web 發(fā)布，再到復(fù)雜的推理。這個領(lǐng)域的一些佼佼者包括 schema.org、Airbnb、亞馬遜、Diffbot、谷歌、LinkedIn、Uber 和 Zalando。這就是為什么經(jīng)驗豐富的知識圖譜人士對炒作嗤之以鼻。

知識圖譜現(xiàn)在已經(jīng)出現(xiàn)在新興技術(shù)的炒作周期中。對于擁有超過 20 年歷史的技術(shù)來說，還算不錯。

與其他數(shù)據(jù)建模一樣，這是一項艱難而復(fù)雜的任務(wù)。它必須考慮到很多利益相關(guān)者和世界觀、管理起源和模式漂移等。加上混合推理和 Web 規(guī)模，事情很容易失控，這就是為什么這種方法直到現(xiàn)在仍然沒能成為最流行的方法。

另一方面，無模式卻一直很流行。無模式可以讓你快速入門，而且至少在某種程度上，它更簡單、更靈活。但無模式可能帶有欺騙性，因為不管是什么領(lǐng)域，都存在模式。讀時模式（schema-on-read）？或許可以。那么完全無模式呢？

你可能不會事先對你的模式有充分的了解。它可能很復(fù)雜，而且會發(fā)生變化，但它一定存在。因此，忽略或淡化模式并不能解決任何問題，只會讓事情變得更糟。問題將會潛伏起來，并花費你更多的時間和金錢，因為它們會給開發(fā)應(yīng)用程序并獲得對模糊數(shù)據(jù)洞察力的開發(fā)人員和分析人員帶來阻力。

關(guān)鍵在于不是要拋棄模式，而是讓它發(fā)揮作用，讓它變得靈活和可互換。RDF 就很好，因為它也是數(shù)據(jù)交換標準化格式（如 JSON-LD）的基礎(chǔ)。順便說一下，RDF 還可以用于輕量級模式和無模式方法以及數(shù)據(jù)集成。

圖譜的知識輸入和輸出

那么，這項 20 年的老技術(shù)為何出現(xiàn)在炒作周期的新興技術(shù)中？炒作是真實存在的，而出現(xiàn)炒作也不是沒有原因的。這與迅速崛起的人工智能炒作一樣：并不是因為方法本身發(fā)生了變化，更多的是因為數(shù)據(jù)和算力的發(fā)展讓它可以大規(guī)模運作。

此外，AI 本身也起到一定作用?；蛘?#xff0c;更確切地說，是如今被炒得火熱的自下而上、基于機器學(xué)習(xí)的 AI。知識圖譜本質(zhì)上也是另外一種 AI，但不是那種被大肆宣傳的 AI，而是那種象征性的、自上而下的、基于規(guī)則的、迄今為止仍然不是很流行的那種。

并不是說這種方法就沒有局限性。對復(fù)雜的領(lǐng)域知識進行編碼，并進行大規(guī)模推理是很困難的事情。因此，機器學(xué)習(xí)就像無模式方法一樣才會變得流行起來，并且有充分的理由。

知識圖譜起初可能很難，但不要放棄。實踐是走向完美的鋪路石。

隨著大數(shù)據(jù)的大肆發(fā)展和 NoSQL 的崛起，開始出現(xiàn)其他的一些東西。有關(guān)非 RDF 圖譜的工具和數(shù)據(jù)庫開始出現(xiàn)在市場上。這些標簽屬性類型（ Labeled Property Kind，LPG）的圖譜更簡單和簡潔。與 RDF 相比，它們?nèi)鄙倌Ｊ交蛑惶峁┝嘶镜哪Ｊ焦δ堋?/p>

它們通常在運營類應(yīng)用、圖算法或圖分析方面表現(xiàn)得更好。最近，圖也開始被應(yīng)用于機器學(xué)習(xí)。這些都是非常有用的東西。

算法、分析和機器學(xué)習(xí)可以提供有關(guān)圖的見解，一些常見的用例包括欺詐檢測或推薦系統(tǒng)。因此，你可以說這些技術(shù)和應(yīng)用程序從圖譜中獲取知識，是自下而上的。另一方面，RDF 圖譜將知識引入圖譜，這是自上而下的。

那么，自下而上的圖譜也是知識圖譜嗎？

知識工程師可能會說，這是一個語義問題。我們很容易陷入知識圖譜炒作中。但最終，可能會因為缺乏清晰度而無法發(fā)揮太大作用。圖算法、圖分析和基于圖的機器學(xué)習(xí)和見解，這些都很好，它們也不與“傳統(tǒng)”的知識圖譜相互排斥。

我們之前提到的這個領(lǐng)域的佼佼者都使用了多種方法的組合。例如，使用機器學(xué)習(xí)來計算知識圖譜有助于構(gòu)建最大的知識圖譜——至少在實例方面。這也是像 DeepMind 這樣的 AI 先驅(qū)正在研究的東西。

有些舊東西，有些新東西，有些借來的東西

通常，使用何種圖譜方法和工具取決于你的實際用例。對于圖數(shù)據(jù)庫來說也是一樣的，我們一直在密切關(guān)注它的發(fā)展，一路看著新的提供商和功能的加入。

在不久前的 Strata 大會上，獲得最具顛覆性創(chuàng)業(yè)獎的獲獎?wù)吆蛠嗆姸际菆D數(shù)據(jù)庫：TigerGraph 和 Memgraph。如果你想要這個領(lǐng)域快速進展的證據(jù)，那么這就是。順便說一句，這兩家創(chuàng)業(yè)公司都很年輕。

對于在 2017 年 9 月低調(diào)現(xiàn)身的 TigerGraph 來說，這是非?；钴S的一年。TigerGraph 剛剛宣布推出了新版本。它包含了一些舊東西，一些新東西，一些借來的東西。

自上而下還是自下而上？

新東西很少。他們都在解決 TigerGraph 現(xiàn)有的痛點。TigerGraph 增加了與流行數(shù)據(jù)庫和數(shù)據(jù)存儲系統(tǒng)的集成，包括：RDBMS、Kafka、Amazon S3、HDFS 和 Spark（即將推出）。TigerGraph 表示，他們將會推出開源的數(shù)據(jù)庫連接器，并托管在 GitHub 上。

當然，如果沒有社區(qū)，Github 存儲庫也不會有太大作用。TigerGraph 正在努力，并發(fā)布了新的開發(fā)者門戶和電子書。這個版本還帶來了更多部署選項，添加了對微軟 Azure 的支持。為了跟上容器化趨勢，還增加了對 Docker 和 Kubernetes 的支持。

我們之前提到了圖算法，這可能是這個版本最有趣的方面。TigerGraph 增加了對圖算法的支持，例如 PageRank、Shortest Path、Connected Components 和 Community Detection。有趣的是，這些是通過 TigerJraph 自己的查詢語言 GSQL 來提供支持的。

我們已經(jīng)提到了查詢語言對圖數(shù)據(jù)庫的重要性。最近，領(lǐng)先的圖數(shù)據(jù)庫提供商 Neo4j 提出了為 LPG 圖數(shù)據(jù)庫創(chuàng)建標準查詢語言的建議。與自帶 SPARQL 的 RDF 不同，這在 LPG 世界中尚不存在。

最開始，TigerGraph 回應(yīng)了 Neo4j 的提議，但現(xiàn)在情況正在發(fā)生變化。TigerGraph 剛剛發(fā)布了一個 Neo4j Migration Toolkit，主要用于將 Cypher（Neo4j 的查詢語言）翻譯成 GSQL。

TigerGraph 這樣做是有道理的，因為一直要遷移現(xiàn)有的 Cypher 查詢體系將會成為他們發(fā)展的障礙。TigerGraph 的實現(xiàn)方式很有趣，他們提供了一次性的批量翻譯過程，而不是進行交互式的遷移。

這是一種戰(zhàn)略選擇。TigerGraph 希望人們切換到 GSQL，而不是在 TigerGraph 之上使用 Cypher。一般來說，開發(fā)人員一直不愿意學(xué)習(xí)新的查詢語言。TigerGraph 可以嘗試去說服他們，但能不能奏效完全取決于每個人。

舊東西是指 TigerGraph 發(fā)布公告包含的基準測試。這些基準測試實際上是新的，但 TigerGraph 在剛推出時就已經(jīng)提供了基準測試。對于一款聲稱比其他任何解決方案都要快的產(chǎn)品，這樣做是無可厚非的?；鶞蕼y試將 TigerGraph 與 Neo4j、亞馬遜 Neptune、JanusGraph 和 ArangoDB 進行了對比，并且不出意料的是，它比其他產(chǎn)品都要快。

那么哪些東西是借來的？當然是知識圖譜。TigerGraph 的員工也證實了客戶對此表現(xiàn)出極大的興趣，例如知識圖譜相關(guān)活動在中國吸引了 1000 多人參與。哪個知識圖譜？現(xiàn)在你應(yīng)該知道了。

英文原文：

https://www.zdnet.com/article/knowledge-graphs-beyond-the-hype-getting-knowledge-in-and-out-of-graphs-and-databases/

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián)，促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。

點擊閱讀原文，進入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的观点 | 抛开炒作看知识图谱，为什么现在才爆发？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | 近期论文精选
下一篇： docker的简单操作和端口映射