知识图谱(二)——知识表示
知識(shí)應(yīng)用難點(diǎn)在于知識(shí)推理,知識(shí)推理的難點(diǎn)在于知識(shí)表示。
文章目錄
- 一、經(jīng)典知識(shí)表示理論
- 1、邏輯
- (1)命題邏輯
- a、命題邏輯真值表
- b、一階謂詞邏輯 vs 高階謂詞邏輯
- (2)語義網(wǎng)絡(luò)(Semantic Network)
- a、關(guān)系的類型
- b、根據(jù)論元個(gè)數(shù)把關(guān)系分為:一元關(guān)系、二元關(guān)系和多元關(guān)系
- (3)框架
- a、框架的組成
- b、示例
- (4)腳本
- a、腳本的組成
- 二、語義網(wǎng)中的知識(shí)表示方法
- 1、語義網(wǎng)表示方法
- 2、語義網(wǎng)知識(shí)描述體系
- (1)XML
- (2)RDF
- (3)OWL
- a、頭部
- b、主體(核心)
- c、功能性標(biāo)簽
- d、語義網(wǎng) vs 語義網(wǎng)絡(luò)
- 三、知識(shí)圖譜中的知識(shí)表示方法
- 1、表示框架
- (1)本體
- (2)組合值類型(CVT)
- 四、知識(shí)圖譜的數(shù)值化表示方法
- 1、符號(hào)的數(shù)值化表示
- 2、文本的數(shù)值化表示
- 3、知識(shí)圖譜的數(shù)值化表示
一、經(jīng)典知識(shí)表示理論
1、邏輯
根據(jù)復(fù)雜性從弱到強(qiáng):命題邏輯(propositional logic)、一階謂詞邏輯、高階邏輯。
(1)命題邏輯
定義了具有真假值的原子命題,并可通過與(?\bigwedge?)、或(?\bigvee?)、非(﹁)、蘊(yùn)含(?\Rightarrow?)、當(dāng)且僅當(dāng)(?\Leftrightarrow?)等,將多個(gè)原子命題組合成復(fù)合命題,而推理過程則根據(jù)邏輯連接詞的真值表進(jìn)行推導(dǎo)。
a、命題邏輯真值表
| true | true | false | true | true | true | true |
| false | true | true | false | true | true | false |
| true | false | false | false | true | false | false |
| false | false | true | false | false | true | true |
只要推論是真,命題就一定為真;推論為假的時(shí)候,看假設(shè)是否與推論的真值一致,一致的話,命題為真,不一致的話,命題為假。
b、一階謂詞邏輯 vs 高階謂詞邏輯
謂詞邏輯分為一階謂詞邏輯和高階謂詞邏輯,主要區(qū)別:是否可以量化謂詞或集合。
一階謂詞邏輯(一階邏輯):
- 在命題邏輯基礎(chǔ)上引入了全稱量詞(?\forall? ,表示集合全部)和存在量詞(?\exists?,表示在論域中存在至少一個(gè)對(duì)象),使得一階邏輯可以量化實(shí)體和概念
高階邏輯:
- 量化謂詞或集合
- 二階量化集合
- 三階量化集合的集合
(2)語義網(wǎng)絡(luò)(Semantic Network)
該模型認(rèn)為人類的記憶是由概念間的聯(lián)系(語義關(guān)系)實(shí)現(xiàn)的,其最基本的語義單元為語義基元,用三元組形式表示:<節(jié)點(diǎn)1,關(guān)系,節(jié)點(diǎn)2>。
a、關(guān)系的類型
- 實(shí)例關(guān)系(ISA):體現(xiàn)“具體與抽象”的概念,含義為“是一個(gè)”,表示一個(gè)事物是另一個(gè)事物的一個(gè)實(shí)例。
- 分類關(guān)系(泛化關(guān)系)(AKO,a kind of):體現(xiàn)“子類與超類”的概念,含義為“是一種”,表示一個(gè)事物是另一個(gè)事物的一種類型。
- 成員關(guān)系(A-Member-of):體現(xiàn)“個(gè)體與集體”的關(guān)系,含義為“是一員”,表示一個(gè)事物是另一個(gè)事物的一個(gè)成員。
- 屬性關(guān)系:指事物和其屬性之間的關(guān)系。常用的屬性關(guān)系:Have、Can
- 聚合(聚類、包含)關(guān)系:有組織或結(jié)構(gòu)特征的“部分與整體”之間的關(guān)系。
- 時(shí)間關(guān)系:不同事件在其發(fā)生時(shí)間方面的先后次序關(guān)系。常用的時(shí)間關(guān)系:在前、在后
- 位置關(guān)系:不同事物在位置方面的關(guān)系。常用的位置關(guān)系:在、在上、在下、在內(nèi)、在外
- 相近關(guān)系:不同事物在形狀、內(nèi)容等方面相似或相近
b、根據(jù)論元個(gè)數(shù)把關(guān)系分為:一元關(guān)系、二元關(guān)系和多元關(guān)系
- 一元關(guān)系:用一元謂詞 P(x)P(x)P(x) 表示,PPP 表示實(shí)體/概念的性質(zhì)、屬性等,xxx 表示實(shí)體。eg:有翅膀(鳥)
- 二元關(guān)系:用二元謂詞 P(x,y)P(x,y)P(x,y) 表示,x,yx,yx,y 表示實(shí)體,PPP 表示實(shí)體之間的關(guān)系。eg:首都(中國,北京)
- 多元關(guān)系:語義網(wǎng)將多元關(guān)系轉(zhuǎn)化為多個(gè)二元關(guān)系,然后利用合取把這個(gè)多元關(guān)系表示出來。
(3)框架
框架是一種描述所討論對(duì)象(事物、事件、概念等)屬性和行為的數(shù)據(jù)結(jié)構(gòu)。
a、框架的組成
- 框架名:每個(gè)框架都有一個(gè)框架名,唯一標(biāo)識(shí)一個(gè)框架。
- 槽(Slot):包括 槽名、槽值
- 一個(gè)框架由若干個(gè)槽構(gòu)成,每個(gè)槽都有槽名;
- 一個(gè)槽用于說明框架某一方面的屬性;
- 屬性的值即為槽值。
- 側(cè)面(Facet):包括 側(cè)面名、側(cè)面值
- 一個(gè)槽有可能劃分為若干個(gè)側(cè)面,具有相應(yīng)的側(cè)面名;
- 一個(gè)槽可能含有若干細(xì)分屬性,一個(gè)側(cè)面用來說明其中的一個(gè)屬性;
- 屬性的值即為側(cè)面值。
- 約束條件:用來約束、限制槽值、側(cè)面值的填寫。一般不單獨(dú)列出,而包含在值的填寫約束中。
b、示例
框架1:<災(zāi)難>槽1:<時(shí)間>槽2:<地點(diǎn)>槽3:<傷亡>側(cè)面3.1:<死亡人數(shù)>側(cè)面3.2:<失蹤人數(shù)>槽4:<損失>側(cè)面4.1:<直接經(jīng)濟(jì)損失>側(cè)面4.2:<間接經(jīng)濟(jì)損失>槽5:<救援>側(cè)面5.1:<救援部門>側(cè)面5.2:<救援時(shí)間>側(cè)面5.3:<捐贈(zèng)情況>(4)腳本
腳本通過一系列的原子動(dòng)作來表示事物的基本行為,按照時(shí)間順序描述事物的發(fā)生,描述動(dòng)態(tài)的過程。腳本表示的知識(shí)有確定的時(shí)間或因果順序,必須是前一個(gè)動(dòng)作完成后才會(huì)觸發(fā)下一個(gè)動(dòng)作的開始。
特點(diǎn):表示方法能力有限,因其能夠描述有一定時(shí)序關(guān)系的槽信息,在AI和NLP中得以應(yīng)用,eg:智能對(duì)話系統(tǒng),如酒店預(yù)訂、機(jī)票預(yù)訂等。
a、腳本的組成
- 進(jìn)入條件:事件發(fā)生的前提條件。
- 角色:事件中可能出現(xiàn)的人物。
- 道具:事件中可能出現(xiàn)
- 舞臺(tái):腳本中事件發(fā)生的空間。
- 場景:時(shí)間發(fā)生的序列,是腳本的主體部分。缺陷:需要對(duì)所有可能發(fā)生動(dòng)作序列進(jìn)行枚舉。
- 結(jié)局:給出在腳本所描述的事件發(fā)生之后通常所產(chǎn)生的結(jié)果,對(duì)應(yīng)著進(jìn)入后續(xù)腳本的先決條件。
二、語義網(wǎng)中的知識(shí)表示方法
1、語義網(wǎng)表示方法
在拓?fù)浣Y(jié)構(gòu)上可看作一個(gè)圖或網(wǎng)絡(luò)。
<!-- xml格式文檔 --> <影星><中文名>甄子丹</中文名><外文名>Donnie Yen</外文名><國籍>中國</國籍><民族>漢</民族><身高>175cm</身高><出生><出生地>廣州市</出生地><出生日期>1963年7月27日</出生日期></出生><畢業(yè)院校>西安趙長軍武術(shù)學(xué)院 </畢業(yè)院校> </影星>與框架相比:不需要對(duì)具有多個(gè)側(cè)面的屬性定義另一個(gè)框架,而是直接定義屬性和屬性關(guān)系建立它們之間的聯(lián)系(eg:定義屬性“出生”和屬性“出生地”并建立一個(gè)“部分-整體”的關(guān)系鏈接“出生”和“出生地”)。
2、語義網(wǎng)知識(shí)描述體系
常用:XML(可擴(kuò)展標(biāo)記語言,eXtensible Markup Language)、RDF(資源描述框架,Resource Description Framework)和OWL(網(wǎng)絡(luò)本體語言,Web Ontology Language)
(1)XML
提出:為了解決動(dòng)態(tài)信息的顯示問題,以及HTML在數(shù)據(jù)表示和描述方面混亂的問題而提出的技術(shù)標(biāo)準(zhǔn)。但其通用性受到限制(不同時(shí)期或?qū)儆诓煌M織的語義知識(shí)需要相互兼容)。
一個(gè)標(biāo)準(zhǔn)的XML文檔需包含一個(gè) 序言和若干具體內(nèi)容,也可包含一個(gè)尾注。
- 序言:對(duì)XML的聲明以及外部文檔的引用。
- 內(nèi)容:通過元素來記錄,元素的標(biāo)簽必須是字母、下劃線、冒號(hào),標(biāo)簽含有的內(nèi)容可以是文本、數(shù)值、時(shí)間甚至為空。元素可以嵌套,深度不受限制。
- 第一行:定義所使用的XML版本和字符編碼。
- 第二行:<!DOCTYPE>標(biāo)簽是標(biāo)準(zhǔn)通用標(biāo)記語言的文檔類型聲明,表示引用外部文件來定義本地文檔中出現(xiàn)的名字,url.dtd標(biāo)記了要引用文檔的路徑。
(2)RDF
RDF假設(shè)任何復(fù)雜的語義都可以通過若干個(gè)三元組的組合來表達(dá),并定義這種三元組的形式為“對(duì)象 — 屬性 — 值”或“主語 — 謂語 — 賓語”,其中需要公開或者通用的資源,都會(huì)綁定一個(gè)可識(shí)別的通用資源標(biāo)識(shí)符(universal resource identifier, URI)
示例:
<http://dbpedia.org/resource/Max_Planck> <http://xmlns.com/foaf/0.1/name> "Max Planck"@en <馬克斯·普朗克,國籍,德國>當(dāng)需要表示的參數(shù)超過兩個(gè),常通過RDF定義的一組二元謂詞來表示,但增加了復(fù)雜性,也加大了后續(xù)處理的難度。示例如下:
馬克斯·普朗克1919年獲得諾貝爾獎(jiǎng)。 轉(zhuǎn)換為 ==》 <獲獎(jiǎng)信息87,人物,馬克斯·普朗克> <獲獎(jiǎng)信息87,時(shí)間,1919年> <獲獎(jiǎng)信息87,名稱,諾貝爾獎(jiǎng)>查詢語言:SPARQL
RDF Schema(RDFs)是一種用于描述RDF的輕量級(jí)語言,主要關(guān)注類別和屬性的層次結(jié)構(gòu)以及繼承關(guān)系等,可限制子類和屬性層次及其屬性的定義域、值域,便于不同知識(shí)內(nèi)容的交互和融合。
(3)OWL
OWL建立在RDF和RDFs上,主要包括頭部和主體兩部分。
a、頭部
使用命名空間中預(yù)定義的標(biāo)簽來形成本體的頭部,其中預(yù)定義命名空間包括 xmlns:owl、xmlns:rdf、xmlns:rdfs、xmlns:xsd等等。示例:物理學(xué)家 本體可用如下頭部表示
<owl:Ontology rdf:about=""><rdfs:comment>一個(gè)本體的例子</rdfs:comment><rdfs:label>物理學(xué)家本體</rdfs:label> </owl:Ontology><owl:Ontology rdf:about=""> 表示本模塊描述當(dāng)前本體
b、主體(核心)
用于描述本體的類別、實(shí)例、屬性之間相互關(guān)聯(lián)的部分。示例如下,包括但不限于此。
- 類別關(guān)系描述本體的類別所屬,只需記錄父親(subClassOf)
- owl:ObjectProperty表示對(duì)象類型屬性,rdfs:domain和rdfs:range表示該屬性的定義域和值域。
- owl:subProperty表示記錄屬性間的從屬關(guān)系。
c、功能性標(biāo)簽
- 傳遞性:owl:TransitiveProperty
- 對(duì)稱性:owl:SymmetricProperty
- 函數(shù)性:owl:FunctionalProperty
- 可逆性:owl:inverseOf
- 約束性:owl:Restriction
- 映射:owl:equivalentClass 和 owl:equivalentProperty
示例:只有獲得過諾貝爾獎(jiǎng)的物理學(xué)家才被稱為諾貝爾物理學(xué)家
<owl:Class rdf:about="諾貝爾物理學(xué)家"><rdfs:subClassOf rdf:resource="物理學(xué)家"/><owl:Restriction><owl:onProperty rdf:resource="獲獎(jiǎng)名稱"/><owl:allValuesFrom rdf:resource="諾貝爾獎(jiǎng)"/></owl:Restriction> </owl:Class>d、語義網(wǎng) vs 語義網(wǎng)絡(luò)
在語義網(wǎng)絡(luò)中,對(duì)節(jié)點(diǎn)和邊的描述沒有標(biāo)準(zhǔn),用戶按需自行定義,會(huì)導(dǎo)致:
- 不同用戶定義方式不同,不便于知識(shí)的分享;
- 無法區(qū)分知識(shí)描述和知識(shí)實(shí)例。
語義網(wǎng)基于W3C制定的標(biāo)準(zhǔn),利用統(tǒng)一的形式對(duì)知識(shí)進(jìn)行描述和關(guān)聯(lián),利于知識(shí)的共享和利用。
語義網(wǎng)通過語義具化(Semantic Grounding),讓每個(gè)概念(實(shí)體、類別、關(guān)系、事件等)都有一個(gè)唯一的標(biāo)識(shí)符。
三、知識(shí)圖譜中的知識(shí)表示方法
1、表示框架
(1)本體
- 一個(gè)知識(shí)本體主要涵蓋以下內(nèi)容:事物、概念、屬性、關(guān)系、函數(shù)、約束、規(guī)則、公理。
- 目前大部分知識(shí)譜圖主要是對(duì)前四部分內(nèi)容(事物、概念、屬性、關(guān)系)進(jìn)行建模,只有很少的知識(shí)圖譜建模了簡單的規(guī)則結(jié)構(gòu),也反映不同層次知識(shí)在表示上的復(fù)雜程度是不同的。
- 知識(shí)用統(tǒng)一的三元組形式表示,不論是對(duì)人類操作的便捷性還是對(duì)計(jì)算機(jī)計(jì)算的高效性,都有很大優(yōu)勢。
- 知識(shí)圖譜的知識(shí)表示不僅體現(xiàn)在RDF為基礎(chǔ)的三元組之上,還體現(xiàn)在實(shí)體、類別、屬性、關(guān)系等多顆粒度、多層次語義單元的關(guān)聯(lián)之上。
(2)組合值類型(CVT)
待補(bǔ)充
四、知識(shí)圖譜的數(shù)值化表示方法
1、符號(hào)的數(shù)值化表示
語義計(jì)算
特征工程
2、文本的數(shù)值化表示
1957年,Firth對(duì)分布假說進(jìn)行進(jìn)一步闡述和明確:詞的語義由上下文決定。
詞空間模型(Word Space Model)==》詞的分布表示(Distributional Representation)
3、知識(shí)圖譜的數(shù)值化表示
基于張量分解
基于能量函數(shù)
總結(jié)
以上是生活随笔為你收集整理的知识图谱(二)——知识表示的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Python 自然语言处理 第二版】读
- 下一篇: 知识图谱(三)——知识体系构建和知识融合