日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

知识图谱技术

發(fā)布時間:2023/12/14 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 知识图谱技术 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

數(shù)聯(lián)未來,數(shù)據(jù)融合是未來重要的方向,那么對于大數(shù)據(jù)來說目前主要存在如下幾個挑戰(zhàn):1、多源異構(gòu)數(shù)據(jù)難以融合轉(zhuǎn)化并映射到同一平臺,數(shù)據(jù)模型的靈活創(chuàng)建、

以及數(shù)據(jù)模型間的關(guān)聯(lián)關(guān)系也難以實現(xiàn);

2、數(shù)據(jù)模式動態(tài)變遷困難,當(dāng)客戶新需求、業(yè)務(wù)新認知時,需要修改數(shù)據(jù)結(jié)構(gòu)以及業(yè)務(wù)邏輯,帶來擴展性差,對客戶響應(yīng)慢、維護成本高等問題;

3、非結(jié)構(gòu)化的數(shù)據(jù),計算機難以理解,用戶搜索難以返回精確的結(jié)果;

通過對知識圖譜的研究可以發(fā)現(xiàn),知識圖譜確實可以解決以上問題,這里分享一下學(xué)習(xí)總結(jié):

一、 知識圖譜技術(shù)體系

知識圖譜的構(gòu)建主要涉及到知識建模、知識抽取、知識融合、知識存儲、知識計算以及知識應(yīng)用,具體可以歸納如下:

二、 知識圖譜實施方法

  • 使用現(xiàn)有的套裝工具(如LOD2、Stardog)
  • 在現(xiàn)有套裝工具的基礎(chǔ)上進行擴充
  • 針對知識圖譜生命周期的各種工具進行組合
  • 有針對性的開發(fā)某種工具
  • 從零開始構(gòu)建
  • ?

    三、 技術(shù)架構(gòu)

    知識圖譜架構(gòu)如下圖,這其中主要包括如下幾個部分:

    3.1 數(shù)據(jù)采集

    主要涉及到爬蟲技術(shù)

    ?

    3.2 建立本體

    可以采用如下兩種方式

    自頂向下:由專家創(chuàng)建

    自底向上:

    • 從現(xiàn)有的行業(yè)標準轉(zhuǎn)化;
    • 從現(xiàn)有高質(zhì)量數(shù)據(jù)源(如百科)轉(zhuǎn)化

    ?

    3.3 本體編輯

    有很多現(xiàn)有的工具:如Protégé、Semantic Turkey、Swoop、OBO-Edit等,存在的缺點是需要個人編輯,不能多人并行編輯

    ?

    3.4 知識抽取

    針對不同的目標數(shù)據(jù)類型,可以提供文件導(dǎo)入、ETL、Wrapper、Extractor三種方式:

    • 結(jié)構(gòu)化數(shù)據(jù), 如RDB中的數(shù)據(jù),直接ETL或文件上傳
    • 半結(jié)構(gòu)化數(shù)據(jù), 如百科,配置Wrapper解析邏輯
    • 文檔、文本類數(shù)據(jù), 如一般的web數(shù)據(jù),利用文本抽取引擎的自然語言處理技術(shù)(NLP)、機器學(xué)習(xí),利用Extractor抽取成結(jié)構(gòu)化的知識數(shù)據(jù)

    ?

    3.5 知識融合

    把結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的知識表達形式都統(tǒng)一成RDF的形式,便于存儲和查詢。具體的知識融合主要包括如下兩種類型:

    • 合并外部知識庫: 數(shù)據(jù)層的融合、模式層的融合

    開放數(shù)據(jù)集成框架:LDIF

    • 合并關(guān)系型數(shù)據(jù)庫:將關(guān)系型數(shù)據(jù)轉(zhuǎn)換成RDF的格式,現(xiàn)有工具Triplify、 d2rServer 、OpenLink、 Virtuoso 、SparqlMap等

    ?

    3.6 知識存儲

    知識存儲的主流存儲方式是圖數(shù)據(jù)庫,但具體實施時需要根據(jù)具體的業(yè)務(wù)需求來選擇存儲方式,下表總結(jié)了各種存儲方式的特點:

    • 關(guān)系型數(shù)據(jù)庫存儲三元組表(S,P,O): 類似RDF存儲結(jié)構(gòu),以元組為單元進行存儲。語義較為明確

    問題:大量自連接操作的開銷巨大

    ?

    • 關(guān)系型數(shù)據(jù)庫存儲屬性表: 屬性相似的主語聚為一張表,類似關(guān)系型數(shù)據(jù)結(jié)構(gòu),每一條數(shù)據(jù)代表一個實體,每一列代表一個屬性

    問題:

    (1)、 RDF靈活性(高于一階的關(guān)系查詢很復(fù)雜)

    (2)、 查詢時必須指定屬性,無法做不確定屬性的查詢

    ?

    • 關(guān)系型數(shù)據(jù)庫存儲垂直分割: 以謂語劃分三元組表,根據(jù)屬性的不同建立數(shù)據(jù)表,數(shù)據(jù)結(jié)構(gòu)較為清晰

    問題:

    (1)、大量數(shù)據(jù)表

    (2)、刪除屬性代價大

    ?

    • 關(guān)系型數(shù)據(jù)庫存儲RDF存儲: 專為存儲三元組形式的數(shù)據(jù)而設(shè)計的專用數(shù)據(jù)庫,通過六重索引(SPO、SOP、PSO、POS、OSP、OPS)的方式解決了三元組搜索的效率問題

    優(yōu)點:

    (1)、三元組模式查詢(triple pattern)的高效執(zhí)行

    (2)、任意兩個三元組模式的高效歸并連接(merge-join)

    ?

    缺點:

    (1)、六重索引意味著6倍空間開銷

    (2)、更新維護代價大

    ?

    • 圖數(shù)據(jù)庫存儲: 圖數(shù)據(jù)庫的結(jié)構(gòu)定義相比RDF數(shù)據(jù)庫更為通用,實現(xiàn)了圖結(jié)構(gòu)中的節(jié)點,邊以及屬性來進行圖數(shù)據(jù)的存儲,典型的開源圖數(shù)據(jù)庫就是Neo4j。

    優(yōu)點:數(shù)據(jù)庫本身提供完善的圖查詢語言、支持各種圖挖掘算法,缺點:圖數(shù)據(jù)庫的分布式存儲實現(xiàn)代價高,數(shù)據(jù)更新速度慢,大節(jié)點的處理開銷很高。

    ?

    • 時態(tài)數(shù)據(jù)存儲: 知識圖譜中的時態(tài)信息包含以下四個方面:

    事實的生成時間

    某事實的有效時間段

    某一對象在特定歷史時刻的狀態(tài)

    知識圖譜在過去特定時間的版本

    ?

    • 存儲原則

    關(guān)系型數(shù)據(jù):使用圖形數(shù)據(jù)存儲

    關(guān)聯(lián)型數(shù)據(jù):作為記錄型數(shù)據(jù)存入合適的存儲中,通過實體鏈接與圖譜中實體關(guān)聯(lián)。

    屬性型數(shù)據(jù):作為實體的數(shù)值屬性存入知識圖譜

    時態(tài)型數(shù)據(jù):使用基礎(chǔ)存儲上的時態(tài)處理中間件進行存儲與查詢

    ?

    3.7 知識表現(xiàn)

    知識表現(xiàn)主要涉及語義網(wǎng)的知識,其中與知識圖譜相關(guān)緊密的是RDF、 OWL、SPARQL幾種,具體的特征和用處如下表:

    3.8 知識推理

    • jena是一個java 的API,用來支持語義網(wǎng)的有關(guān)應(yīng)用,學(xué)習(xí)jena需要了解XML 、RDF、 Ontology、OWL等方面的知識。
    • RDFox是一個高度可擴展的內(nèi)存RDF三重存儲,支持共享內(nèi)存并行數(shù)據(jù)推理。它是一個用C ++編寫的跨平臺軟件,帶有一個Java包裝器,可以與任何基于Java的解決方案輕松集成

    ?

    3.9 知識檢索

    索引系統(tǒng)的構(gòu)建,并對查詢的結(jié)果進行排序

    ?

    3.10 人機交互

    集成現(xiàn)有的可視化工具,實現(xiàn)知識圖譜的可視化。常見的可視化工具如3D.js、Echarts等。

    ?

    歡迎關(guān)注微信公號:數(shù)聯(lián)未來(zycnb1)

    總結(jié)

    以上是生活随笔為你收集整理的知识图谱技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。