日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习

發布時間:2024/7/5 ChatGpt 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記整理:耿玉霞,浙江大學直博生。研究方向:知識圖譜,零樣本學習等。


??

來源:AAAI2020

論文鏈接:https://arxiv.org/pdf/2001.02332.pdf

?

本文是發表在AAAI2020上的一篇基于生成對抗網絡進行知識圖譜零樣本關系學習的文章。在知識圖譜表示學習(KG Embedding)的相關工作中,會出現一些未在訓練數據集中出現過的關系(即 zero-shot relations),由于relation及其相關的三元組沒有在訓練數據集中出現過,則無法獲得該relation訓練好的向量表示,從而無法進行鏈接預測等下游任務。在這篇文章中,作者提出利用這些relations的文本描述信息以及生成對抗網絡,為這些zero-shot relations學習到有語義意義的向量表示,從而避免KG中存在新出現的關系時,表示學習模型需要重新訓練的問題。

?

1. 相關背景

1.1 基于生成對抗網絡的零樣本學習

零樣本學習,即處理那些未在訓練集中出現過的類別的分類問題。在訓練集中出現過的類別(即seen classes),有訓練數據,此類classes經訓練具備一定分類該類測試樣本的能力;而未在訓練集中出現過的類別(即unseen classes),無訓練數據,此類classes測試樣本的分類/預測依賴與seen classes建立一定的語義聯系(如文本描述、屬性描述等),遷移相關seen classes的樣本特征,使得unseen classes的樣本特征得到學習,并最終實現分類。

近年來,隨著生成對抗網絡(Generative Adversarial Networks, GANs)在生成圖片等方面的成熟運用,許多研究者將GANs引入零樣本學習中,為unseen classes,這些缺少樣本的classes生成訓練樣本,使得零樣本學習轉化為傳統的監督學習,從而對unseen classes測試樣本進行預測。

此類方法的一般框架為:基于類別的語義描述(文本描述等)及一些隨機噪聲,輸入到GAN的生成器(Generator)中,生成該類別對應的樣本特征;同時,在判別器(Discriminator)中,將生成的樣本(fake data)與真實樣本的特征(real data)經過對抗,使得生成器生成高質量的樣本。經過訓練的生成對抗網絡,具備為unseen classes生成樣本的能力。

?

1.2 知識圖譜中的零樣本關系學習

知識圖譜的表示學習通常用于知識圖譜的補全(鏈接預測等)任務,對于一個三元組,在給定頭實體(head entity)及關系的情況下,預測其對應的尾實體(tail entity)。這篇文章的作者們考慮了KG中的零樣本關系學習,即對于新出現的一些關系,在不經過表示學習算法重新訓練的情況下,依然能在這些關系上進行鏈接預測的任務。

考慮KG中存在一些由seen relations組成的訓練數據集:? ? ? ? ? ? ?,其對應的測試集由unseen relations組成:? ? ? ? ? ? ?,零樣本學習算法最終的任務即為這些unseen relations涉及到的head entity預測其對應的tail entity。值得注意的是,本篇文章的問題設定集中在處理zero-shot relations,未考慮會出現一些新的實體,即KG中的實體在訓練集和測試集中都出現過。換句話說,在測試時,對于KG中已經存在的實體添加了一些zero-shot relations,預測它們是否構成一個完整的三元組。

?

2. 算法模型

因此,本文提出使用生成對抗網絡為知識圖譜中的unseen relations生成特征表示,從而解決知識圖譜中的零樣本關系學習問題。本文的框架如下圖所示。

? ? ? ? ? ? ?

其中,

生成器(G):利用關系的描述文本,生成關系的特征表示向量(即relation embedding),此向量蘊含了KG中的語義信息;

判別器(D):分類/判別生成樣本和測試樣本,并且為保證生成樣本的質量,對生成的樣本進行分類,使得樣本具有inter discriminative的特征;

預訓練的特征編碼器:編碼某關系對應的三元組(即獲取真實樣本的特征分布)。

下面將詳細介紹這三個部分。

?

2.1 特征編碼器

對于某關系r,存在一系列的實體對集合,這些實體對描述了該關系的樣本特征分布。對于其中的每一對實體,特征編碼器首先通過一個entity encoder和一個neighbor encoder捕獲這些實體對的蘊含的特征;隨后,得到實體對的表示后,特征編碼器再組合得到該關系的表示。

Entity encoder首先將實體 ?經過一個全連接層,隨后將實體對對應的兩個實體進行拼接,得到 :

? ? ? ? ? ? ?

其次,neighbor encoder將實體對中每一個實體對應周圍一跳范圍的關系和實體進行編碼,具體地,對于實體周圍一跳范圍的實體關系集合 ? ? ? ? ? ? ?,neighbor encoder將每一對鄰居經過拼接之后,再分別經過全連接層,最終計算所有鄰居表示的均值,得到:

? ? ? ? ? ? ?

其中,對于所涉及實體和關系的初始化表示(,, etc.)可由TransE等經典的KG embedding模型得到。

對于該實體對,拼接上述實體表示,可得到關系特定的實體對表示:

? ? ? ? ? ? ?

整體過程如下圖所示:

? ? ? ? ? ? ?

最終,對關系r所有的實體對的表示進行聚類可得到關系r的特征表示:

? ? ? ? ? ? ?

此特征編碼器的訓練,文章采用了基于margin loss的預訓練策略。具體地,對于關系r,首先選定一些reference triples作為標準集,即 ? ? ? ? ? ? ?,可得到關系的reference embedding ? ? ? ? ? ? ?,在訓練時,使正樣本 ? ? ? ? ? ? ?的表示逼近reference embedding,而負樣本 ? ? ? ? ? ? ?的表示遠離 reference embedding,loss function為:

? ? ? ? ? ? ?

其中,正樣本的score即為計算正樣本和reference triple之間的cosine相似度:

? ? ? ? ? ? ?

?

2.2 生成器

生成器利用關系r的描述文本及噪聲,生成關系r的特征表示,如下圖所示。

? ? ? ? ? ? ?

對于關系的描述文本,作者利用文本中每個詞的word embedding,并通過計算文本中詞的TF-IDF權重,對這些word embedding進行加權求和得到文本描述的向量表示。隨后,文本的向量表示與隨機采樣的噪聲共同作為生成器的輸入。其中,生成器由兩層全連接層及激活層函數組成,最終,生成關系r的特征表示。生成器的loss function為:

? ? ? ? ? ? ?

其中,生成樣本表示為 ? ? ? ? ? ? ?,為關系r的文本描述表示,為隨機采樣的噪聲;loss function的第一項為GAN中的Wasserstein loss,第二項為分類生成樣本的分類損失項,第三項為 visual pivot 正則化項,即使得生成樣本的中心逼近真實樣本的中心。

2.3 判別器

判別器使得真實的樣本和生成的樣本進行對抗,從而訓練生成器生成高質量樣本的能力,其loss function為:

? ? ? ? ? ? ?

其中,前兩項為計算真實樣本和生成樣本的Wasserstein距離,第三項、第四項分別為分類真實樣本和生成樣本的分類損失函數,最后一項為Wasserstein GAN網絡中為保證Lipschitz constraint 約束的GP優化項(即規范判別器的梯度下降)。

2.4 ?Unseen relations的分類/預測

基于前面訓練好的生成器,給定unseen relation的文本描述,可生成其對應的relation embedding: ? ? ? ? ? ? ?。預測時,對于一個query triple ? ? ? ? ? ? ?,其候選尾實體對應的score計算如下:

? ? ? ? ? ? ?

為了驗證生成器的泛化能力,對于關系 r 可生成一組特征表示向量,其中的每一個與測試樣本計算score之后取均值:

? ? ? ? ? ? ?

3. 實驗

針對提出的zero shot relation learning,文章基于NELL和Wiki構建了兩個數據集:NELL-ZS、Wiki-ZS,其中數據集中的每一個關系均有可獲取的文本描述。其數據統計情況如下圖所示:

? ? ? ? ? ? ?

考慮到現有的KG embedding的算法無法對unseen relation實現預測,文章提出了三種針對unseen relations改進的baselines:ZS-TransE, ZS-DistMult 和 ZS-ComplEx。這三種baseline,在原TransE, DistMult 和ComplEx算法的基礎上,取代原本算法中對關系進行隨機初始化的操作,利用關系的文本描述學習關系的特征表示。具體地,與生成器的輸入類似,同樣也使用TF-IDF加權的word embedding得到文本的表示,再經過兩層全連接層得到關系的特征表示。該表示將與實體隨機初始化的表示在表示學習算法score function的訓練下進行優化。由此,對于unseen relations即可通過關系的文本描述得到關系的表示,從而進行鏈接預測等任務。

在兩個數據集上對比baselines結果如下:

? ? ? ? ? ? ?

其中,ZSGAN為本文中提出的方法,ZSGAN(TransE) 等表示在2.1中特征編碼時,使用TransE預訓練的embedding對實體和關系進行初始化。結果表示,本文提出的ZSGAN對比baseline在兩個數據集上取得了不錯的效果。同時,值得注意的是,在unseen relations存在的情況下,baseline中的DistMult具有一定的學習優勢。

?

文章同時分析了生成樣本的質量,具體地,計算生成的relation embedding和其對應真實樣本的embedding之間的cosine距離,在一些關系上的對比結果如下所示:

? ? ? ? ? ? ?

4.總結

本文首次提出了知識圖譜中的零樣本關系學習問題,同時引入生成對抗網絡以生成relation embedding的方式,解決預測時新出現的unseen relations的預測問題。

文本中蘊含的relation之間的關聯信息,為seen relations和unseen relations構建了類別層面的關聯,使得生成對抗網絡在seen relations的訓練下,可為unseen relations生成語義豐富的特征表示。

除文本描述信息外,一般的零樣本學習也利用了屬性描述及類別間層次關系等信息,在知識圖譜零樣本學習的場景中,利用一些relation間更加high-level的關系(如共現關系等)或關系間共有的屬性信息,對零樣本的關系學習是否有貢獻也是值得思考的問題。

同時,本文將研究點關注于KG中zero-shot relation,對于KG中新出現的一些實體(即zero-shot entity)的學習也是值得探索的方向。

?

?


?

OpenKG

開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的论文浅尝 | AAAI2020 - 基于生成对抗的知识图谱零样本关系学习的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。