日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)

發(fā)布時(shí)間:2024/7/5 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • abstract
  • 1.introduction
    • 1.1 dense connection+GCN
    • 1.2 效果突出
    • 1.3 contribution
  • 2.Attention Guided GCNs
  • 2.1 GCNs
  • 2.2 Attention Guided Layer
    • 2.3 Densely Connected Layer
    • 2.4 線性層
    • 2.5 AGGCN for RE
  • 3.實(shí)驗(yàn)
    • 3.1 數(shù)據(jù)集
    • 3.2 設(shè)置
  • 3.3 n-ary
    • 3.4 句子級(jí)
  • 4.ablation Study
  • 4.相關(guān)工作
    • 4.1RE
    • 4.2GCN
  • 5.結(jié)論

Guo, Z., et al. (2019). Attention Guided Graph Convolutional Networks for Relation Extraction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
原文code,基于pytorch

abstract

依賴樹傳遞豐富的結(jié)構(gòu)信息,這些信息對(duì)于提取文本中實(shí)體之間的關(guān)系非常有用。然而,如何有效利用相關(guān)信息而忽略依賴樹中的無(wú)關(guān)信息仍然是一個(gè)具有挑戰(zhàn)性的研究問(wèn)題。現(xiàn)有的方法使用基于規(guī)則的硬剪枝策略來(lái)選擇相關(guān)的部分依賴結(jié)構(gòu),可能并不總是產(chǎn)生最佳結(jié)果。在這項(xiàng)工作中,我們提出了注意引導(dǎo)圖卷積網(wǎng)絡(luò)(AGGCNs),這是一種直接以全依賴樹作為輸入的新模型。我們的模型可以理解為一種軟修剪方法,自動(dòng)學(xué)習(xí)如何有選擇地關(guān)注對(duì)關(guān)系提取任務(wù)有用的相關(guān)子結(jié)構(gòu)。在包括跨句n元關(guān)系提取和大規(guī)模句子級(jí)關(guān)系提取在內(nèi)的各種任務(wù)上的大量結(jié)果表明,我們的模型能夠更好地利用全依賴樹的結(jié)構(gòu)信息,其結(jié)果顯著優(yōu)于以前的方法。

  • 以前:
    • 已經(jīng)證明依賴樹有用
    • 挑戰(zhàn):如何有效利用相關(guān)信息而忽略依賴樹中的無(wú)關(guān)信息
    • 硬剪枝策略:不能得到最優(yōu)結(jié)果
        • 基于規(guī)則的硬剪枝會(huì)消除樹中的部分重要的信息。
  • 我們:AGGCNs(注意引導(dǎo)圖卷積網(wǎng)絡(luò))
    • 輸入:全依賴樹( full dependency trees
    • 特點(diǎn)
      • 端到端
      • ≈\approx軟剪枝方法
        • 基于規(guī)則的硬剪枝會(huì)消除樹中的部分重要的信息。
        • 給所有邊分配權(quán)重,權(quán)重以端到端的形式學(xué)習(xí)得到–>自動(dòng)學(xué)習(xí)剪枝
      • 自動(dòng)學(xué)習(xí)如何有選擇地關(guān)注對(duì)re有用的相關(guān)子結(jié)構(gòu)。
      • 效果好
      • 并行地用于依賴樹
      • tips
        • GCN+dense connection
          • 目的:對(duì)一個(gè)大的全連通圖進(jìn)行編碼
          • 可得到局部和非局部依賴信息
          • 2層GCN效果最好(經(jīng)驗(yàn))
          • 可以學(xué)到更好的圖形表示
    • 可用于
      • n元關(guān)系提取
      • 大規(guī)模句子級(jí)別語(yǔ)料
      • 效果更好

1.introduction

  • 圖中是一個(gè)依賴樹
  • 關(guān)系抽取用于
    • biomedical knowledge discovery (Quirk and Poon, 2017),
    • knowledge base population (Zhang et al., 2017)
    • question answering (Yu et al., 2017).

為了進(jìn)一步提高性能,本文還提出了多種裁剪策略來(lái)提取依賴信息。
Xu等人(2015b,c)只在全樹實(shí)體之間的最短依賴路徑上應(yīng)用神經(jīng)網(wǎng)絡(luò)。
Miwa和Bansal(2016)將整個(gè)樹縮減為實(shí)體的最低共同祖先**(LCA)**之下的子樹。
Zhang等(2018)將graph convolutional networks **(GCNs) (**Kipf and Welling, 2017)模型應(yīng)用于修剪過(guò)的樹。這棵樹包含從LCA子樹的依賴路徑到K的標(biāo)記。
然而,基于規(guī)則的修剪策略可能會(huì)消除整個(gè)樹中的一些重要信息。圖1顯示了一個(gè)跨句n元關(guān)系提取的例子,如果模型只考慮修剪樹,那么鍵標(biāo)記部分響應(yīng)將被排除。理想情況下,模型應(yīng)該能夠?qū)W會(huì)如何在全樹中包含和排除信息之間保持平衡。
在本文中,我們提出了一種新的注意引導(dǎo)圖卷積網(wǎng)絡(luò)(AGGCNs),它直接作用于全樹。直觀地,我們開發(fā)了一種軟修剪策略,將原始依賴樹轉(zhuǎn)換為完全連接的邊加權(quán)圖。這些權(quán)重可以被視為節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度,可以通過(guò)使用自我注意機(jī)制以端到端的方式學(xué)習(xí)(Vaswani et al., 2017)。

  • 硬剪枝:
    • 基于規(guī)則的修剪策略可能會(huì)消除整個(gè)樹中的一些重要信息
  • 所以提出自動(dòng)學(xué)習(xí)的軟剪枝
  • 關(guān)系抽取的模型可以分為兩類
    • sequence-based(基于序列的)
      • 只對(duì)單詞序列進(jìn)行操作(Zeng et al.,2014; Wang et al., 2016)
    • dependency-based(基于依賴的)
      • 然而基于依賴的模型將依賴樹合并到模型中(Bunescu和Mooney, 2005;Peng等人,2017)
      • 依賴樹+剪枝
      • 比較:與基于順序的模型相比,基于依賴的模型能夠捕獲僅從表面形式難以理解的非局部句法關(guān)系(Zhang et al., 2018)。
      • eg:
        • AGGCNs(軟剪枝)
        • 剪枝策略(硬剪枝)
          • Xu等人(2015b,c)只在全樹實(shí)體之間的最短依賴路徑上應(yīng)用神經(jīng)網(wǎng)絡(luò)。
          • Miwa和Bansal(2016)將整個(gè)樹縮減為實(shí)體的最低共同祖先(LCA)之下的子樹。
          • Zhang等(2018)將 (GCNs) (Kipf and Welling, 2017)模型應(yīng)用于修剪過(guò)的樹。
            • 這棵樹包含從LCA子樹的依賴路徑到K的標(biāo)記。

1.1 dense connection+GCN

目的:對(duì)一個(gè)大的全連通圖進(jìn)行編碼
我們接下來(lái)將稠密連接(Huang et al., 2017)引入GCN模型(Guo et al.,2019)

對(duì)于GCNs,L層將被需要為了捕獲L跳躍離開到達(dá)的鄰居的信息。淺層的GCN模型可能無(wú)法捕獲大型圖的非局部交互。有趣的是,雖然較深的GCNs可以捕獲圖的更豐富的鄰域信息,但從經(jīng)驗(yàn)上可以觀察到,使用2層模型可以獲得最佳性能(Xu et al., 2018)。在密集連接的幫助下,我們能夠?qū)ι疃鹊腁GGCN模型進(jìn)行訓(xùn)練,允許捕獲豐富的局部地和非局部依賴信息。

  • 2層GCNs最好
  • dense connnection幫助下可以對(duì)深度AGGCN進(jìn)行訓(xùn)練
    • 可得到局部和非局部依賴信息

1.2 效果突出

實(shí)驗(yàn)表明,該模型能夠較好地完成各種任務(wù)。對(duì)于跨句關(guān)系提取任務(wù),我們的模型在多類三元關(guān)系和二元關(guān)系提取方面分別比現(xiàn)有模型的準(zhǔn)確率高出8%和6%。對(duì)于大型句子級(jí)提取任務(wù)(TACRED數(shù)據(jù)集),我們的模型也始終優(yōu)于其他模型,這表明了該模型在大型訓(xùn)練集上的有效性

1.3 contribution

我們提出了一種新穎的AGGCNs,它以端到端的方式學(xué)習(xí)一種“軟修剪”策略,學(xué)習(xí)如何選擇和丟棄信息。結(jié)合密集連接,我們的AGGCN模型能夠?qū)W習(xí)更好的圖形表示。

我們的模型在不增加額外的計(jì)算量的情況下與以前的GCNs相比獲得了最新的結(jié)果。與樹結(jié)構(gòu)模型(如TreeLSTM (Tai et al., 2015))不同,它可以有效地并行地應(yīng)用于依賴樹。

2.Attention Guided GCNs

  • AGGCN模型顯示了一個(gè)示例語(yǔ)句及其依賴樹。
  • 它由M個(gè)相同的塊組成,每個(gè)塊有三種層,如圖所示。
    • 注意引導(dǎo)層
    • 密集連接層
    • 線性組合層
  • 輸入:每個(gè)塊以表示圖的節(jié)點(diǎn)嵌入和鄰接矩陣作為輸入。
  • 注意引導(dǎo)層:multi-head attention:然后利用左下所示的多頭注意構(gòu)造N個(gè)注意引導(dǎo)鄰接矩陣
    • 原始的依賴樹被轉(zhuǎn)換成N個(gè)不同的完全連接的邊加權(quán)圖(為了簡(jiǎn)化,省略了自循環(huán))。
    • 靠近邊的數(shù)字表示矩陣中的權(quán)值。
  • 密集連接層得到的矩陣被送入N個(gè)單獨(dú)的dense connection的層,產(chǎn)生新的表示。
    • 左上角顯示了一個(gè)密集連接層的例子,其中子層的數(shù)量(L)是3 (L是超參數(shù))。
    • 每個(gè)子層將所有前面的輸出連接起來(lái)作為輸入。
  • 線性組合層:最后,應(yīng)用線性組合將N個(gè)緊密連接的層的輸出組合成隱藏的表示。
  • 基本組件
    • GCNs
    • Attention Guided Layer

2.1 GCNs

  • GCNs是直接作用于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)(Kipf和Welling, 2017)。
  • 工作原理
    • 圖:給出一個(gè)有n個(gè)節(jié)點(diǎn)的圖,我們可以用一個(gè)n×n鄰接矩陣A來(lái)表示圖。
    • 加方向:使得GCNs對(duì)依賴樹進(jìn)行編碼。(Marcheggiani和Titov(2017))
      • 它們?yōu)闃渲械拿總€(gè)節(jié)點(diǎn)添加一個(gè)自循環(huán)。
      • 還包括一個(gè)依賴弧的反方向,即
        • 邊i->j:
          • 有則Aij=1andAji=1A_{ij}=1 and A_{ji}=1Aij?=1andAji?=1
          • 無(wú)則Aij=0andAji=0A_{ij}=0 and A_{ji}=0Aij?=0andAji?=0
      • l層節(jié)點(diǎn)i的卷積運(yùn)算
        • 輸入:h(l?1)h^{(l-1)}h(l?1)
        • 輸出:hi(l)h^{(l)}_ihi(l)?
        • 公式:hi(l)=ρ(Σj=1nAijW(l)hj(l?1)+b(l))ρ?激活函數(shù)(如,relu)hi(0)是xi(d維向量)h^{(l)}_i=\rho(\Sigma_{j=1}^nA_{ij}W^{(l)}h_j^{(l-1)}+b^{(l)})\\ \rho-激活函數(shù)(如,relu)\\ h_i^{(0)}是x_i(d維向量)hi(l)?=ρ(Σj=1n?Aij?W(l)hj(l?1)?+b(l))ρ?數(shù)relu)hi(0)?xi?(d
        • 表示全連接圖的鄰接矩陣的大小和原始樹的大小一樣

2.2 Attention Guided Layer

  • 如前:硬剪枝的缺點(diǎn)
    • 硬剪枝->硬-attention

正如我們?cè)诘?節(jié)中討論的,大多數(shù)現(xiàn)有的修剪策略都是預(yù)定義的。他們將整棵樹修剪成一個(gè)子樹,并在此基礎(chǔ)上構(gòu)造鄰接矩陣。事實(shí)上,這樣的策略也可以被視為一種硬注意的形式(Xu et al., 2015a),其中連接不在結(jié)果子樹上的節(jié)點(diǎn)的邊將被直接分配零權(quán)重(無(wú)人值守)。這樣的策略可能會(huì)從原始依賴樹中刪除相關(guān)信息。
我們沒有使用基于規(guī)則的剪枝,而是在注意引導(dǎo)層開發(fā)了一種“軟剪枝”策略,它為所有邊緣分配權(quán)重。這些權(quán)重可以由模型以端到端方式學(xué)習(xí)。

  • 我們:軟剪枝
    • 給所有邊分配權(quán)重,權(quán)重以端到端的形式學(xué)習(xí)得到
    • 實(shí)現(xiàn)自動(dòng)學(xué)習(xí)剪枝
  • 原:樹
  • 注意力引導(dǎo)層:將一個(gè)樹->多個(gè)全連接有權(quán)圖
    • 從第二個(gè)塊開始有這層
    • 方法:構(gòu)造注意引導(dǎo)鄰接矩陣A~\tilde{A}A~
      • self-attention mechanism (Cheng et al., 2016)來(lái)得到A~\tilde{A}A~
        • 可以捕獲單個(gè)序列的任意位置之間的交互。
      • 本文:用multi-head attention 計(jì)算
        • 它允許模型聯(lián)合處理來(lái)自不同表示子空間的信息。
        • 計(jì)算:包括一個(gè)查詢和一組鍵值對(duì)。
        • 輸出:計(jì)算為值的加權(quán)和,其中的
          • 權(quán)重:由具有相應(yīng)鍵的查詢函數(shù)計(jì)算。
        • 公式A~(t)=softmax(QWiQ×(KWiK)Td)VQ,K:等于AGGCN的h(l?1)t:第t個(gè)attentionhead,共有N個(gè)(超參數(shù))\tilde{A}^{(t)}=softmax(\frac{QW_i^Q\times (KW_i^K)^T}{\sqrtozvdkddzhkzd})V\\ Q,K:等于AGGCN的h^{(l-1)}\\ t:第t個(gè)attention head,共有N個(gè)(超參數(shù))A~(t)=softmax(d?QWiQ?×(KWiK?)T?)VQ,K:AGGCNh(l?1)t:t個(gè)attentionheadN個(gè)數(shù))
    • A~(1)?>G(1)\tilde{A}^{(1)}->G^{(1)}A~(1)?>G(1)
    • A~\tilde{A}A~和A尺寸相同
      • 所以沒有增加計(jì)算消耗
    • 關(guān)鍵思想
      • 使用注意力來(lái)誘導(dǎo)節(jié)點(diǎn)之間的關(guān)系,
      • 特別是那些通過(guò)間接的多跳路徑連接的節(jié)點(diǎn)。
  • 圖卷積層(在其后):
    • 輸入:A~\tilde{A}A~

圖2給出了將原始鄰接矩陣轉(zhuǎn)換為多個(gè)注意引導(dǎo)鄰接矩陣的示例。因此,輸入依賴樹被轉(zhuǎn)換成多個(gè)完全連接的邊緣加權(quán)圖。在實(shí)踐中,我們將原始鄰接矩陣作為初始化處理,以便在節(jié)點(diǎn)表示中捕獲依賴項(xiàng)信息,以便以后進(jìn)行注意計(jì)算。注意力引導(dǎo)層從第二個(gè)塊開始。

2.3 Densely Connected Layer

  • 優(yōu)點(diǎn)
    • 我們將稠密連接(Huang et al., 2017)引入AGGCN模型,
    • 目的:在大圖上捕獲更多的結(jié)構(gòu)信息。
    • 在密集連接的幫助下,我們能夠訓(xùn)練更深的模型,
    • 允許捕獲豐富的局部和非局部信息,從而學(xué)習(xí)更好的圖表示。
  • 做法:
    • 直接連接從任何層引入到它前面的所有層。
    • gj(l)=[xj;hj(1);...;hj(l?1)]g_j^{(l)}=[x_j;h_j^{(1)};...;h_j^{(l-1)}]gj(l)?=[xj?;hj(1)?;...;hj(l?1)?]
    • 超參數(shù)L:L個(gè)子層
    • 子層的維度:輸入維度d和L共同決定dhidden=d/Ld_{hidden}=d/Ldhidden?=d/L
      • 輸入維度:d->h_j的維度
    • 子層是什么?
    • 輸出:每個(gè)子層的輸出又會(huì)被連接起來(lái)->仍是d維
      • 隨子層數(shù)增加而縮小隱層size–>提高效率

與隱藏維度大于或等于輸入維度的GCN模型不同,AGGCN模型隨著層數(shù)的增加而縮小隱藏維度,以提高與DenseNets類似的參數(shù)效率(Huang et al., 2017)。

  • N個(gè)注意力頭–>N個(gè)分離的densely connection
    • 原來(lái)GCN:hi(l)=ρ(Σj=1nAijW(l)hj(l?1)+b(l))h^{(l)}_i=\rho(\Sigma_{j=1}^nA_{ij}W^{(l)}h_j^{(l-1)}+b^{(l)})hi(l)?=ρ(Σj=1n?Aij?W(l)hj(l?1)?+b(l))
    • 計(jì)算變?yōu)?span id="ozvdkddzhkzd" class="katex--inline">hti(l)=ρ(Σj=1nA~ij(t)Wt(l)gj(l?1)+bt(l))Wt(l),bt(l)與A~(t)有關(guān)Wt(l):(dhidden,d(l)),d(l)=d+dhidden×(l?1)??g的維度h_{ti}^{(l)}=\rho(\Sigma_{j=1}^n\tilde{A}^{(t)}_{ij}W^{(l)}_tg_j^{(l-1)}+b_t^{(l)})\\ W^{(l)}_t,b_t^{(l)}與\tilde{A}^{(t)}有關(guān)\\ W^{(l)}_t:(d_{hidden},d^{(l)}),d^{(l)}=d+d_{hidden}\times(l-1)--g的維度hti(l)?=ρ(Σj=1n?A~ij(t)?Wt(l)?gj(l?1)?+bt(l)?)Wt(l)?,bt(l)?A~(t)關(guān)Wt(l)?:(dhidden?,d(l)d(l)=d+dhidden?×(l?1)??g

2.4 線性層

hcomb=Wcombhout+bcombWcomb:(d×N,d)hout=[h(1);...;h(N)]h_{comb}=W_{comb}h_{out}+b_{comb}\\ W_{comb}:(d\times N,d)\\ h_out=[h^{(1)};...;h^{(N)}]hcomb?=Wcomb?hout?+bcomb?Wcomb?(d×N,d)ho?ut=[h(1);...;h(N)]

2.5 AGGCN for RE

在依賴樹上應(yīng)用AGGCN模型之后,我們獲得了所有令牌的隱藏表示。根據(jù)這些表示,關(guān)系提取的目標(biāo)是預(yù)測(cè)實(shí)體之間的關(guān)系。接下來(lái)(Zhang et al., 2018),我們將句子表示和實(shí)體表示連接起來(lái),得到最終的分類表示。

  • 首先,我們需要獲得hsenth_{sent}hsent?句子表示。它可以被計(jì)算為
    • hsent=f(hmask)=f(AGGCN(x))f:(d×n)??>(d×1),max?poolingfunctionh_{sent}=f(h_{mask})=f(AGGCN(x))\\ f:(d\times n)-->(d\times 1),max-pooling functionhsent?=f(hmask?)=f(AGGCN(x))f:(d×n)??>(d×1),max?poolingfunction
  • 相似地得到實(shí)體表示
    • hei=f(hei′),hei′:第i個(gè)實(shí)體的隱層表示h_{e_i}=f(h_{e_i}'),h_{e_i}':第i個(gè)實(shí)體的隱層表示hei??=f(hei??),hei??:i個(gè)實(shí)
  • 最終:
    • 由前饋神經(jīng)網(wǎng)絡(luò)得到最終表示(連接實(shí)體表示和句子表示)
    • hfinal=FFNN([hsent;he1;...;hei]h_{final}=FFNN([h_{sent};h_{e_1};...;h_{e_i}]hfinal?=FFNN([hsent?;he1??;...;hei??]
  • 最終表示輸入到logistic regression classifier分類器中做預(yù)測(cè)。

3.實(shí)驗(yàn)

3.1 數(shù)據(jù)集

我們?cè)u(píng)估了該模型在兩個(gè)任務(wù)上的性能,即

  • 跨句n元關(guān)系提取
    • PubMed
  • 句子級(jí)關(guān)系提取
    • TACRED數(shù)據(jù)集(收費(fèi))
      • (Zhang et al., 2018)
    • Semeval-10 Task 8
      • (Hendrickx et al., 2010)

3.2 設(shè)置

我們根據(jù)開發(fā)集的結(jié)果調(diào)整超參數(shù)。對(duì)于跨句nary關(guān)系提取任務(wù),我們使用與(Song et al., 2018b)4相同的數(shù)據(jù)分割,而對(duì)于句子級(jí)關(guān)系提取任務(wù),我們使用與(Zhang et al., 2018)5相同的開發(fā)集。

  • n-ary
    • 與(Song et al., 2018b)4相同的數(shù)據(jù)分割
  • 句子級(jí)
    • (Zhang et al., 2018)相同的開發(fā)集
  • embedding:840B-300d-glove
  • 超參數(shù)
    • N(attention head數(shù)目)
      • {1,2,3,4}
    • L(densely connected中每層的維度)
      • {2,3,4,5,6}
    • M(塊數(shù))
      • {1,2,3}
  • 測(cè)試得到最好的超參數(shù):
    • cross-sentence n-ary
      • {N=2,M=2,L=5,d_{hidden}=340}
      • {N=3,M=2,L=5,d_{hidden}=300}
  • 度量
    • 和(Song et al., 2018b; Zhang et al., 2018).一樣
    • n-ary
      • test:5-fold cross validation
    • 句子
      • micro-F1 score
        • TACRED
        • SemEval

3.3 n-ary

  • 三種模型
  • a feature-based classifier (Quirk and Poon, 2017) based on shortest dependency paths between all entity pairs,
  • Graph-structured LSTM methods,
    • including Graph LSTM (Peng et al., 2017),
    • bidirectional DAG LSTM (Bidir DAG LSTM) (Song et al., 2018b) and
    • Graph State LSTM (GS GLSTM) (Song et al., 2018b).
    • These methods extend LSTM to encode graphs constructed from input sentences with dependency edges,
  • Graph convolutional networks (GCN) with pruned trees, which have shown efficacy on the relation extraction task (Zhang et al., 2018)
  • the tree-structured LSTM method (SPTree) (Miwa and Bansal, 2016) on drug-mutation binary relation extraction.
  • 本文結(jié)果好,因?yàn)?
    • 能用圖卷積從樹中得到更多信息:AGGCN is able to extract more information from the underlying graph structure to learn a more expressive representation through graph convolutions
    • 比GCN好,因?yàn)?
      • densely connection
        • 使之可在大圖中信息傳遞
        • 使之可有效地學(xué)習(xí)到長(zhǎng)距離依賴
      • attention
        • 可篩去噪音,得到相關(guān)信息
      • 本文的模型可從全樹中得到更好的表達(dá)

3.4 句子級(jí)

  • model
    • dependency-based models,
      • the logistic regression classifier (LR) (Zhang et al., 2017),
      • Shortest Path LSTM (SDPLSTM) (Xu et al., 2015c),
      • Tree-structured neural model (Tree-LSTM) (Tai et al., 2015),
      • GCN
      • Contextualized GCN (C-GCN) (Zhang et al., 2018).
      • (Both GCN and C-GCN models use the pruned trees.)
    • sequence-based models
      • Position Aware LSTM (PA-LSTM) (Zhang et al., 2017).–最新成果
  • TACRED

表2所示,logistic回歸分類器(LR)的精度得分最高。我們假設(shè)這背后的原因是由于數(shù)據(jù)不平衡的問(wèn)題。這種基于特征的方法傾向于預(yù)測(cè)一個(gè)頻繁出現(xiàn)的標(biāo)簽之間的關(guān)系(例如,“per:title”)。因此,它具有較高的查全率,但查全率相對(duì)較低。另一方面,神經(jīng)模型能夠更好地平衡精度和回憶分?jǐn)?shù)。
由于GCN和C-GCN已經(jīng)顯示出它們相對(duì)于其他基于依賴的模型和PA-LSTM的優(yōu)越性,我們主要將我們的AGGCN模型與它們進(jìn)行比較。我們可以觀察到AGGCN比GCN多1.1個(gè)F1點(diǎn)。我們推測(cè)這種有限的改進(jìn)是由于缺乏有關(guān)詞序或消歧的上下文信息

  • 比GCN好
    • GCN:這種有限的改進(jìn)是由于缺乏有關(guān)詞序或消歧的上下文信息。

與C-GCN類似(Zhang et al., 2018),我們使用雙向LSTM網(wǎng)絡(luò)擴(kuò)展AGGCN模型,以捕獲隨后被送入AGGCN層的上下文表示。我們將修改后的模型稱為C-AGGCN。我們的C-AGGCN模型F1得分為69.0,比目前最先進(jìn)的C-GCN模型高出2.6分。我們也注意到AGGCN和C-AGGCN分別比GCN和C-GCN獲得更好的精確度和回憶分?jǐn)?shù)。

  • 經(jīng)驗(yàn)表明,AGGCN模型能夠更好地區(qū)分相關(guān)和不相關(guān)信息,從而獲得更好的圖表示。
  • SemEval

我們還在與(Zhang et al., 2018)相同的設(shè)置下,在SemEval數(shù)據(jù)集上評(píng)估我們的模型(Zhang et al., 2018)。結(jié)果如表3所示。這個(gè)數(shù)據(jù)集比TACRED小得多(僅為TACRED的1/10)。我們的C-AGGCN模型(85.7)始終優(yōu)于C-GCN模型(84.8),具有良好的泛化能力。

4.ablation Study

  • 各組件的貢獻(xiàn)
    • AG>DG>FF
    • AG,DG更重要
      • 這兩層可以幫助GCNs更好地學(xué)習(xí)信息聚合,產(chǎn)生更好的圖形表示

燒蝕研究。
我們使用TACRED數(shù)據(jù)集上性能最好的C-AGGCN模型,研究了兩個(gè)主要組件的貢獻(xiàn),即密集連接層和注意力引導(dǎo)層。表4顯示了結(jié)果。我們可以觀察到添加注意力引導(dǎo)層或者密集連接的層提高了模型的性能。這表明,這兩層可以幫助GCNs更好地學(xué)習(xí)信息聚合,產(chǎn)生更好的圖形表示,其中注意力引導(dǎo)層似乎發(fā)揮了更重要的作用。我們也注意到前饋層在我們的模型中是有效的。沒有前饋層,結(jié)果下降到F1得分67.8。

  • 自己相比較AGGCN
  • 軟修剪”策略在充分利用樹信息方面優(yōu)于硬修剪策略。

修剪樹木的表現(xiàn)。
表5顯示了使用修剪樹的C-AGGCN模型的性能,其中K表示修剪后的樹包含距離LCA子樹中的依賴路徑K以內(nèi)的標(biāo)記。我們可以看到,所有具有不同K值的C-AGGCN模型都能夠超越最先進(jìn)的C-GCN模型(Zhang et al., 2018)(見表2)F1成績(jī)1.5分。這說(shuō)明,在密集連接層和注意力引導(dǎo)層的結(jié)合下,C-AGGCN可以比C-GCN更好地學(xué)習(xí)下游任務(wù)的圖形表示。此外,我們注意到全樹的C-AGGCN性能優(yōu)于所有修剪過(guò)的C-AGGCNs。這些結(jié)果進(jìn)一步證明了“軟修剪”策略在充分利用樹信息方面優(yōu)于硬修剪策略。

  • C-AGGCN可以從更大的圖(全樹)中獲益更多。

句子長(zhǎng)度的性能。
圖4顯示了三個(gè)模型在不同句子長(zhǎng)度下的F1得分。我們將句子長(zhǎng)度劃分為5類(< 20,[20,30],[30,40),[40,50),50)。一般來(lái)說(shuō),在不同的句子長(zhǎng)度下,有完整樹的C-AGGCN比有修剪過(guò)的樹的C-AGGCN和C-GCN表現(xiàn)更好。我們還注意到,在大多數(shù)情況下,經(jīng)過(guò)修剪的C-AGGCN比C-GCN表現(xiàn)得更好。此外,C-AGGCN對(duì)修剪后的樹的改進(jìn)效果隨著句子長(zhǎng)度的增加而減弱。這種性能下降可以通過(guò)使用全樹來(lái)避免,全樹提供了有關(guān)底層圖結(jié)構(gòu)的更多信息。直觀地說(shuō),隨著句子長(zhǎng)度的增加,包含的節(jié)點(diǎn)越多,依賴關(guān)系圖就越大。


  • 我們的模型在使用訓(xùn)練資源方面更加有效。

性能與訓(xùn)練數(shù)據(jù)大小的對(duì)比。圖3顯示了C-AGGCN和C-GCN在不同訓(xùn)練設(shè)置下的性能,訓(xùn)練數(shù)據(jù)量不同。我們考慮五種培訓(xùn)設(shè)置(20%、40%、60%、80%、100%的培訓(xùn)數(shù)據(jù))。C-AGGCN持續(xù)優(yōu)于C-GCN
當(dāng)訓(xùn)練數(shù)據(jù)量增加時(shí),我們可以觀察到績(jī)效差距變得更加明顯。具體來(lái)說(shuō),使用80%的訓(xùn)練數(shù)據(jù),C-AGGCN模型可以獲得66.5的F1分,高于完整訓(xùn)練集上訓(xùn)練的C-GCN。這些結(jié)果表明,我們的模型在使用訓(xùn)練資源方面更加有效。

4.相關(guān)工作

4.1RE

  • 早期的研究工作是基于統(tǒng)計(jì)方法。
    • 研究了基于樹的內(nèi)核(Zelenko et al., 2002)和
    • 基于依賴路徑的內(nèi)核(Bunescu and Mooney, 2005),以提取這種關(guān)系。
    • McDonald等人(2005)構(gòu)建最大的實(shí)體團(tuán)來(lái)預(yù)測(cè)關(guān)系。
    • Mintz等人(2009)在統(tǒng)計(jì)分類器中包含語(yǔ)法特征。
  • 基于序列的模型利用不同的神經(jīng)網(wǎng)絡(luò)來(lái)提取關(guān)系,包括
    • 卷積神經(jīng)網(wǎng)絡(luò)(Zeng et al., 2014;Nguyen和Grishman, 2015年;(Wang et al., 2016),
    • 遞歸神經(jīng)網(wǎng)絡(luò)(Zhou et al., 2016;Zhang et al., 2017)
    • 兩者的結(jié)合(Vu et al., 2016)和
    • transformer (Verga et al., 2018)。
  • 基于依賴的方法還試圖將結(jié)構(gòu)信息合并到神經(jīng)模型中。
    • Peng et al.(2017)首先將依賴關(guān)系圖分成兩個(gè)dag,
      • 然后將樹LSTM模型(Tai et al., 2015)擴(kuò)展到這兩個(gè)圖上進(jìn)行n元關(guān)系提取。
    • Song等人(2018b)使用圖遞歸網(wǎng)絡(luò)(Song等人,2018a)直接對(duì)整個(gè)依賴圖編碼,而不破壞它。
      • AGGCN:和他們的模型的對(duì)比讓人聯(lián)想到CNN和RNN的對(duì)比。
    • 為了進(jìn)一步提高性能,還提出了各種各樣的裁剪策略來(lái)提取依賴信息。
      • Xu等(2015b,c)采用神經(jīng)模型編碼最短依賴路徑。
      • Miwa和Bansal(2016)將LSTM模型應(yīng)用于兩個(gè)實(shí)體的LCA子樹。Liu等(2015)將最短依賴路徑與依賴子樹相結(jié)合。
      • Zhang等人(2018)采用了一種以路徑為中心的修剪策略。
      • AGGCNs:與這些在預(yù)處理中去除邊緣的策略不同,我們的模型以端到端的方式學(xué)會(huì)給每個(gè)邊緣分配不同的權(quán)重

4.2GCN

  • Gori等人(2005)布魯納(2014)介紹了嘗試擴(kuò)展神經(jīng)網(wǎng)絡(luò)以處理任意結(jié)構(gòu)圖的早期工作。
  • 隨后的工作通過(guò)局部譜卷積技術(shù)提高了計(jì)算效率(Henaff et al., 2015;Defferrard等人,2016)。
  • AGGCN:與GCNs (Kipf和Welling, 2017)密切相關(guān),GCNs將過(guò)濾器限制在每個(gè)節(jié)點(diǎn)周圍的一階鄰域上運(yùn)行。
  • Velickovic等人(2018)提出了圖形注意網(wǎng)絡(luò)(GATs),利用掩蔽的自注意層來(lái)總結(jié)鄰域狀態(tài)(Vaswani等人,2017)。
    • 與AGGCN相比,他們的動(dòng)機(jī)和網(wǎng)絡(luò)結(jié)構(gòu)是不同的。
      • 特別地,GATs中的每個(gè)節(jié)點(diǎn)只關(guān)心它的鄰居,而AGGCNs則度量所有節(jié)點(diǎn)之間的關(guān)聯(lián)性。
      • GATs中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)保持不變,而AGGCNs中將構(gòu)建完全連接的圖,以捕獲長(zhǎng)期的語(yǔ)義交互。

5.結(jié)論

介紹了一種新的注意引導(dǎo)圖卷積網(wǎng)絡(luò)(AGGCNs)。實(shí)驗(yàn)結(jié)果表明,AGGCNs在各種關(guān)系提取任務(wù)上都取得了較好的效果。與以前的方法不同,AGGCNs直接對(duì)整個(gè)樹進(jìn)行操作,并學(xué)習(xí)以端到端方式從其中提取有用的信息。未來(lái)的工作有多個(gè)場(chǎng)所。我們想要問(wèn)的一個(gè)很自然的問(wèn)題是,如何利用所提出的框架對(duì)與圖相關(guān)的任務(wù)執(zhí)行改進(jìn)的圖表示學(xué)習(xí)(Bastings et al., 2017)。

總結(jié)

以上是生活随笔為你收集整理的论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。