當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【自然语言处理】【知识图谱】知识图谱表示学习(一)：TransE、TransH、TransR、CTransR、TransD

發(fā)布時間：2023/12/2 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了【自然语言处理】【知识图谱】知识图谱表示学习(一)：TransE、TransH、TransR、CTransR、TransD 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

知識圖譜表示學習(一) TransE,TransH,TransR,CTransR,TransD

【自然語言處理】【知識圖譜】知識圖譜表示學習(一)：TransE、TransH、TransR、CTransR、TransD
【自然語言處理】【知識圖譜】知識圖譜表示學習(二)：TranSparse、PTransE、TransA、KG2E、TransG
【自然語言處理】【知識圖譜】知識圖譜表示學習(三)：SE、SME、LFM、RESCAL、HOLE
【自然語言處理】【知識圖譜】知識圖譜表示學習(四)：【RotatE】基于復數(shù)空間關系旋轉的知識圖譜嵌入
【自然語言處理】【知識圖譜】知識圖譜表示學習(五)：【PairRE】基于成對關系向量的知識圖譜嵌入

一、簡介

知識圖譜及挑戰(zhàn)

知識圖譜以三元組的方式來描繪整個世界，大型知識圖譜Freebase、DBpedia和YAGO等已經在各種應用程序中被廣泛使用。但是，隨著知識圖譜規(guī)模的增加，面臨著兩個挑戰(zhàn)：
- 數(shù)據(jù)稀疏
  
  大型網絡中節(jié)點太多而邊太少。
- 計算低效
  
  圖譜尺寸增加，計算效率必然降低。
解決方案

為了解決上面的挑戰(zhàn)，表示學習被引入至知識表示中。具體來說，就是將知識圖譜中的實體和關系投影至低維連續(xù)空間中，從而獲得一個分布式表示。相比于傳統(tǒng)的one-hot表示，分布式表示的維度更低且計算復雜度也低。此外，通過低維向量間的距離計算還可以精準的展示實體間的相似性。

二、符號

使用 $G = (E, R, T)$ 來表示完整的知識圖譜，其中 $E={e1,e2,…,e∣E∣}E=\{e_1,e_2,\dots,e_{|E|}\}$ 表示實體集合， $R={r1,r2,…,r∣R∣}R=\{r_1,r_2,\dots,r_{|R|}\}$ 表示關系集合， $T$ 表示三元組集合， $∣ E ∣$ 和 $∣ R ∣$ 表示實體和關系的數(shù)量。
知識圖譜以三元組 $?h,r,t?\langle h,r,t\rangle$ 的形式表示，其中 $h∈Eh\in E$ 表示頭實體， $t∈Et\in E$ 表示尾實體， $r∈Rr\in R$ 表示 $h$ 和 $t$ 間的關系。

三、TransE

1. 動機

將關系看作實體間的翻譯

直覺上，將實體投影至低維向量空間時，具有相似語義的實體應該被投影至相同的簇，而含義不同的實體則屬于不同的簇。例如 $William?Shakespeare\text{William Shakespeare}$ 和 $Jane?Austen\text{Jane Austen}$ 應該投影至作者簇，而 $Romeo?and?Juliet\text{Romeo and Juliet}$ 和 $Pride?and?Prejudice\text{Pride and Prejudice}$ 則被投影至書籍簇中。它們之間的共同點就是共享相同的關系 $works_written\text{works\_written}$ ，通過關系的翻譯可以將作者和書籍投影至不同的簇。
$word2vec\text{word2vec}$ 的突破

$word2vec\text{word2vec}$ 通過上下文來學習詞表示，得到的詞向量存在一個有趣的現(xiàn)象：若兩個詞共現(xiàn)相似的語義或者句法關系，那么對應的詞向量也相似。舉例來說，
$w(king)?w(man)≈w(queen)?w(woman)\textbf{w}(king)-\textbf{w}(man)\approx \textbf{w}(queen)-\textbf{w}(woman)$
上式表示在隱空間中king和man關系類似于queen和woman的關系。此外，除了在語義中發(fā)現(xiàn)這種近似關系，句法中也有類似關系，即
$w(bigger)?w(big)≈w(smaller)?w(small)\textbf{w}(bigger)-\textbf{w}(big)\approx\textbf{w}(smaller)-\textbf{w}(small)$
計算復雜度

首先，模型復雜度增加會導致高的計算代價和模型解釋性差；

其次，復雜模型會過擬合；

最后，實驗表明，具有相對較大關系量的知識圖譜應用，簡單模型和復雜模型表現(xiàn)相當；

因此，基于翻譯的這種假設能夠很好的平衡準確率和效率；

2. 方法

? $TransE\text{TransE}$ 會將實體和關系投影至低維向量空間 $Rd\mathbb{R}^d$ ，其中 $d$ 是嵌入向量維度的超參數(shù)。基于翻譯的假設，對于每個三元組 $?h,r,t?∈T\langle h,r,t \rangle \in T$ ，均期望嵌入向量和 $h+r\textbf{h+r}$ 與尾實體嵌入向量 $t\textbf{t}$ 接近。

? 具體來說， $TransE\text{TransE}$ 會先定義一個評分函數(shù)
$E(h,r,t)=∥h+r-t∥\mathcal{E}(h,r,t)=\parallel\textbf{h+r-t}\parallel$
然后，基于該評分函數(shù)構建了一個基于邊界的損失函數(shù)
$L=∑?h,r,t?∈T∑?h′,r′,t′?∈T?max([γ+E(h,r,t)?E(h′,r′,t′)],0)\mathcal{L}=\sum_{\langle h,r,t\rangle\in T}\sum_{\langle h',r',t'\rangle \in T^-} max([\gamma+\mathcal{E}(h,r,t)-\mathcal{E}(h',r',t')],0)$
其中， $E(h,r,t)\mathcal{E}(h,r,t)$ 是正樣本的評分函數(shù)， $E(h′,r′,t′)\mathcal{E}(h',r',t')$ 是負樣本的評分函數(shù)， $γ>0\gamma>0$ 是邊界超參數(shù)， $T^-$ 是與 $T$ 對應的負樣本三元組。簡單分析該損失函數(shù)，其會最小化 $E(h,r,t)\mathcal{E}(h,r,t)$ 并最大化 $E(h′,r′,t′)\mathcal{E}(h',r',t')$ ，但是兩者的差距不會大于 $γ\gamma$ 。

? 知識圖譜中并沒有顯式的負樣本三元組，因此按如下定義構造負樣本三元組 $T^-$
$T?={?h′,r,t?∣h′∈E}∪{?h,r′,t?∣r′∈R}∪{?h,r,t′?∣t′∈E},?h,r,t?∈TT^-=\{\langle h',r,t\rangle|h'\in E\}\cup\{\langle h,r',t\rangle|r'\in R\}\cup\{\langle h,r, t'\rangle|t'\in E\}, \langle h,r,t\rangle\in T$
上式的一個直觀解釋，隨機使用其他三元組替換原始三元組 $?h,r,t?\langle h,r,t\rangle$ 的頭實體、尾實體或者關系。此外，若生成的三元組已經在 $T$ ，那么就不會被加入 $T^-$ 。

知識補全

給定三元組中的任意兩個元素，預測第3個元素被稱為知識補全任務。該任務用于評估學習到的知識表示。

3. 缺點與挑戰(zhàn)

? $TransE\text{TransE}$ 雖然簡單有效，但是仍然存在一些缺點和挑戰(zhàn)。

3.1 復雜關系

? 在知識補全任務中，給定三元組中的兩個元素，可能會存在多個答案。例如，給定頭實體 $William?Shakespeare\text{William Shakespeare}$ 和關系 $works_written\text{works\_written}$ ，將會得到一個代表作的列表 $Romeo?and?Juliet\text{Romeo and Juliet}$ 、 $Hamlet\text{Hamlet}$ 和 $A?Midsummer?Night’s?Dream\text{A Midsummer Night's Dream}$ 。這些代表中共現(xiàn)相同的作者信息，但是在主題、背景、角色上不同。但是， $TransE\text{TransE}$ 僅能為一個實體參數(shù)一個嵌入向量，這極大的限制了 $TransE\text{TransE}$ 的能力。在許多文獻中，將關系分為四類：1-to-1、1-to-Many、Many-to-1和Many-to-Many，而更加統(tǒng)計表明1-to-Many、Many-to-1和Many-to-Many類型的關系最多，但是 $TransE\text{TransE}$ 僅能處理1-to-1的關系。

? 此外， $TransE\text{TransE}$ 在處理自反關系時也存在困難。

3.2 一跳關系

? $TransE\text{TransE}$ 僅考慮了一條關系，忽略了長距離的隱關系。

3.3 效果和效率

? $TransE\text{TransE}$ 出于效率的原因，其函數(shù)和表示都被過度簡化，導致其不足以建模知識圖譜中的復雜實體和關系。如果評估效果和效率，仍然是非常大的挑戰(zhàn)。

四、TransH

? $TransH\text{TransH}$ 主要是解決1-to-Many、Many-to-1和Many-to-Many問題的。

一個例子

在談及國籍時， $William?Shakespeare\text{William Shakespeare}$ 應該和 $Isaac?Newton\text{Isaac Newton}$ 接近；而談及職業(yè)時，則應該和 $Mark?Twain\text{Mark Twain}$ 接近。
方法

$TransH\text{TransH}$ 通過為具有不同關系的相同實體賦予不同的向量表示來解決這個問題的。如上圖所示， $TransH\text{TransH}$ 為每個關系賦予一個超平面 $wr\textbf{w}_r$ ，然后判斷超平面上的相似性，而不是原始的實體向量。給定三元組 $?h,r,t?\langle h,r,t \rangle$ ， $TransH\text{TransH}$ 將會原始向量表示 $h\textbf{h}$ 和 $t\textbf{t}$ 投影至超平面 $wr\textbf{w}_r$ 上來獲得投影向量 $h⊥\textbf{h}_\perp$ 和 $t⊥\textbf{t}_\perp$ 。翻譯向量 $r\textbf{r}$ 用于連接超平面 $h⊥\textbf{h}_\perp$ 和 $t⊥\textbf{t}_\perp$ 。評分函數(shù)定義為
$E(h,r,t)=∥h⊥+r?t⊥∥\mathcal{E}(h,r,t)=\parallel\textbf{h}_\perp+\textbf{r}-\textbf{t}_\perp\parallel$
其中，
$h⊥=h?wrThwr,t⊥=t?wrTtwr\textbf{h}_\perp=\textbf{h}-\textbf{w}_r^T\textbf{h}\textbf{w}_r,\quad \textbf{t}_\perp=\textbf{t}-\textbf{w}_r^T\textbf{t}\textbf{w}_r$

其中， $wr\textbf{w}_r$ 是向量且約束 $∥wr∥2\parallel\textbf{w}_r\parallel_2$ 為1。

訓練

損失函數(shù)和訓練方式同 $TransE\text{TransE}$ 。

五、TransR

動機

$TransH\text{TransH}$ 通過使用超平面的方式為具有多個關系的實體賦予不同的向量表示，但是實體和關系仍然在相同的語義空間中，這限制了建模實體和關系的能力。 $TransR\text{TransR}$ 假設實體和關系處于不同的語義空間中。
方法

如上圖所示，三元組 $?h,r,t?\langle h,r,t\rangle$ 中 $h,t∈Rk\textbf{h,t}\in\mathbb{R}^k$ 且 $t∈Rd\textbf{t}\in\mathbb{R}^d$ 。 $TransR\text{TransR}$ 首先會將 $h\textbf{h}$ 和 $t\textbf{t}$ 從實體空間投影至關系空間。也就是說，每個實體在每個關系上都有一個表示。 $TransR\text{TransR}$ 的評分函數(shù)為
$E(h,r,t)=∥hr+r?tr∥\mathcal{E}(h,r,t)=\parallel\textbf{h}_r+\textbf{r}-\textbf{t}_r\parallel$
其中， $hr\textbf{h}_r$ 和 $tr\textbf{t}_r$ 是實體向量 $h\textbf{h}$ 和 $t\textbf{t}$ 在 $r$ 對應向量空間的表示，具體的投影過程為
$hr=hMr,tr=tMr\textbf{h}_r=\textbf{hM}_r,\quad \textbf{t}_r=\textbf{tM}_r$
其中， $Mr∈Rk×d\textbf{M}_r\in\mathbb{R}^{k\times d}$ 是將實體映射至 $r$ 關系空間的投影矩陣。 $TransR\text{TransR}$ 會約束嵌入向量的范數(shù)，具有 $∥h∥2≤1\parallel\textbf{h}\parallel_2\leq 1$ 、 $∥t∥2≤1\parallel\textbf{t}\parallel_2\leq 1$ 、 $∥r∥2≤1\parallel\textbf{r}\parallel_2\leq 1$ 、 $∥hr∥2≤1\parallel\textbf{h}_r\parallel_2\leq 1$ 、 $∥tr∥2≤1\parallel\textbf{t}_r\parallel_2\leq 1$ 。

訓練

$TransR\text{TransR}$ 的訓練方式同 $TransE\text{TransE}$

六、CTransR

動機

知識圖譜中的一些關系可以被劃分為子關系，從而給出更加準確的信息。這些子關系間的不同，可以通過實體對來學習。舉例來說，關系 $location_contains\text{location\_contains}$ 可以被認為包含子關系 $city-street\text{city-street}$ 、 $country-city\text{country-city}$ 、 $country-university\text{country-university}$ 。隨著考慮子關系，實體會被投影至語義向量空間中更加準確的位置。
方法

$CTransR(Cluster-based?TransR)\text{CTransR(Cluster-based TransR)}$ 可以看作是考慮子關系情況下的 $TransR\text{TransR}$ 增強版本。具體來說，對于每個關系 $r\text{r}$ ，所有的實體對 $(h,t)\text{(h,t)}$ 會被聚類至若干個組。聚類主要是依據(jù) $t-h\textbf{t-h}$ ，其中 $h\textbf{h}$ 和 $t\textbf{t}$ 是通過 $TransE\text{TransE}$ 預訓練得到的。隨后，通過每個聚類簇中的實體對可以學習到子關系向量 $rc\textbf{r}_c$ ，那么最終的評分函數(shù)
$E(h,r,t)=∥hr+rc?tr∥+α∥rc?r∥\mathcal{E}(h,r,t)=\parallel \textbf{h}_r+\textbf{r}_c-\textbf{t}_r\parallel+\alpha\parallel\textbf{r}_c-\textbf{r}\parallel$
其中， $∥rc?r∥\parallel\textbf{r}_c-\textbf{r}\parallel$ 是希望向量 $rc\textbf{r}_c$ 與 $r\textbf{r}$ 的差距不要太大

七、TransD

動機

$TransH\text{TransH}$ 和 $TransR\text{TransR}$ 主要是解決不同關系的多實體表示問題，從而改善知識補全和三元組分類的效果。然而，這兩個方法僅是根據(jù)關系來投影實體，忽略了實體的多樣性。此外，使用矩陣-向量乘法實現(xiàn)投影操作將會導致高的時間復雜度，這導致在大規(guī)模圖中的時間消耗太多。因此， $TransD\text{TransD}$ 提出了一種基于實體和關系的動態(tài)映射矩陣，其能同時考慮實體和關系的多樣性。
方法

$TransD\text{TransD}$ 會為每個實體或者關系定義兩個向量，一個是使用 $TransE\text{TransE}$ 、 $TransH\text{TransH}$ 和 $TransR\text{TransR}$ 獲得的原始向量，另一個是被用于構造投影句子的投影向量。

$TransD\text{TransD}$ 使用 $h,r,t\textbf{h,r,t}$ 表示原始向量， $hp,tp,rp\textbf{h}_p,\textbf{t}_p,\textbf{r}_p$ 來表示投影向量。使用兩個矩陣 $Mrh,Mrt∈Rm×n\textbf{M}_{rh},\textbf{M}_{rt}\in\mathbb{R}^{m\times n}$ 完成實體空間至關系空間的映射，這兩個投影句子的動態(tài)計算為
$Mrh=rphp?+Im×nMrt=rptp?+Im×n\textbf{M}_{rh}=\textbf{r}_p\textbf{h}_p^\top+\textbf{I}_{m\times n}\quad \textbf{M}_{rt}=\textbf{r}_p\textbf{t}_p^\top+\textbf{I}_{m\times n}$
上式意味著實體和關系的投影向量被合并來決定最終的投影矩陣。評分函數(shù)定義為
$E(h,r,t)=∥Mrhh+r?Mrtt∥\mathcal{E}(h,r,t)=\parallel\textbf{M}_{rh}\textbf{h}+\textbf{r}-\textbf{M}_{rt}\textbf{t}\parallel$
投影矩陣被初始化為單位矩陣。

$TransD\text{TransD}$ 提出了一種動態(tài)的方法來構造投影矩陣，從而能夠同時考慮實體和關系的多樣性，從而實現(xiàn)了更優(yōu)的表述。此外，相較于 $TransR\text{TransR}$ ，其具有更低的時間和空間復雜度。

引用文獻

[1]. Zhiyuan Liu, Yankai Lin and Maosong SUn. Representation Learning for Natural Language Processing.

總結

以上是生活随笔為你收集整理的【自然语言处理】【知识图谱】知识图谱表示学习(一)：TransE、TransH、TransR、CTransR、TransD的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：知识图谱 - TransE算法
下一篇：知识表示学习 TransE 代码逻辑梳理