當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction（关系抽取，图卷积,ACL2019，n元）

發(fā)布時(shí)間：2024/7/5 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction（关系抽取，图卷积,ACL2019，n元）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

abstract
1.introduction
- 1.1 dense connection+GCN
- 1.2 效果突出
- 1.3 contribution
2.Attention Guided GCNs
2.1 GCNs
2.2 Attention Guided Layer
- 2.3 Densely Connected Layer
- 2.4 線性層
- 2.5 AGGCN for RE
3.實(shí)驗(yàn)
- 3.1 數(shù)據(jù)集
- 3.2 設(shè)置
3.3 n-ary
- 3.4 句子級(jí)
4.ablation Study
4.相關(guān)工作
- 4.1RE
- 4.2GCN
5.結(jié)論

Guo, Z., et al. (2019). Attention Guided Graph Convolutional Networks for Relation Extraction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
原文code,基于pytorch

abstract

依賴樹傳遞豐富的結(jié)構(gòu)信息，這些信息對(duì)于提取文本中實(shí)體之間的關(guān)系非常有用。然而，如何有效利用相關(guān)信息而忽略依賴樹中的無(wú)關(guān)信息仍然是一個(gè)具有挑戰(zhàn)性的研究問(wèn)題。現(xiàn)有的方法使用基于規(guī)則的硬剪枝策略來(lái)選擇相關(guān)的部分依賴結(jié)構(gòu)，可能并不總是產(chǎn)生最佳結(jié)果。在這項(xiàng)工作中，我們提出了注意引導(dǎo)圖卷積網(wǎng)絡(luò)(AGGCNs)，這是一種直接以全依賴樹作為輸入的新模型。我們的模型可以理解為一種軟修剪方法，自動(dòng)學(xué)習(xí)如何有選擇地關(guān)注對(duì)關(guān)系提取任務(wù)有用的相關(guān)子結(jié)構(gòu)。在包括跨句n元關(guān)系提取和大規(guī)模句子級(jí)關(guān)系提取在內(nèi)的各種任務(wù)上的大量結(jié)果表明，我們的模型能夠更好地利用全依賴樹的結(jié)構(gòu)信息，其結(jié)果顯著優(yōu)于以前的方法。

以前：
- 已經(jīng)證明依賴樹有用
- 挑戰(zhàn)：如何有效利用相關(guān)信息而忽略依賴樹中的無(wú)關(guān)信息
- 硬剪枝策略：不能得到最優(yōu)結(jié)果
  - - 基于規(guī)則的硬剪枝會(huì)消除樹中的部分重要的信息。
我們：AGGCNs（注意引導(dǎo)圖卷積網(wǎng)絡(luò)）
- 輸入：全依賴樹（ full dependency trees
- 特點(diǎn)
  - 端到端
  - $≈\approx$ 軟剪枝方法
    - 基于規(guī)則的硬剪枝會(huì)消除樹中的部分重要的信息。
    - 給所有邊分配權(quán)重，權(quán)重以端到端的形式學(xué)習(xí)得到–>自動(dòng)學(xué)習(xí)剪枝
  - 自動(dòng)學(xué)習(xí)如何有選擇地關(guān)注對(duì)re有用的相關(guān)子結(jié)構(gòu)。
  - 效果好
  - 可并行地用于依賴樹
  - tips
    - GCN+dense connection
      - 目的：對(duì)一個(gè)大的全連通圖進(jìn)行編碼
      - 可得到局部和非局部依賴信息
      - 2層GCN效果最好（經(jīng)驗(yàn)）
      - 可以學(xué)到更好的圖形表示
- 可用于
  - n元關(guān)系提取
  - 大規(guī)模句子級(jí)別語(yǔ)料
  - 效果更好

1.introduction

圖中是一個(gè)依賴樹
關(guān)系抽取用于
- biomedical knowledge discovery (Quirk and Poon, 2017),
- knowledge base population (Zhang et al., 2017)
- question answering (Yu et al., 2017).

為了進(jìn)一步提高性能，本文還提出了多種裁剪策略來(lái)提取依賴信息。
Xu等人(2015b,c)只在全樹實(shí)體之間的最短依賴路徑上應(yīng)用神經(jīng)網(wǎng)絡(luò)。
Miwa和Bansal(2016)將整個(gè)樹縮減為實(shí)體的最低共同祖先**(LCA)**之下的子樹。
Zhang等(2018)將graph convolutional networks **(GCNs) (**Kipf and Welling, 2017)模型應(yīng)用于修剪過(guò)的樹。這棵樹包含從LCA子樹的依賴路徑到K的標(biāo)記。
然而，基于規(guī)則的修剪策略可能會(huì)消除整個(gè)樹中的一些重要信息。圖1顯示了一個(gè)跨句n元關(guān)系提取的例子，如果模型只考慮修剪樹，那么鍵標(biāo)記部分響應(yīng)將被排除。理想情況下，模型應(yīng)該能夠?qū)W會(huì)如何在全樹中包含和排除信息之間保持平衡。
在本文中，我們提出了一種新的注意引導(dǎo)圖卷積網(wǎng)絡(luò)(AGGCNs)，它直接作用于全樹。直觀地，我們開發(fā)了一種軟修剪策略，將原始依賴樹轉(zhuǎn)換為完全連接的邊加權(quán)圖。這些權(quán)重可以被視為節(jié)點(diǎn)之間的關(guān)聯(lián)強(qiáng)度，可以通過(guò)使用自我注意機(jī)制以端到端的方式學(xué)習(xí)(Vaswani et al.， 2017)。

硬剪枝：
- 基于規(guī)則的修剪策略可能會(huì)消除整個(gè)樹中的一些重要信息
所以提出自動(dòng)學(xué)習(xí)的軟剪枝
關(guān)系抽取的模型可以分為兩類
- sequence-based（基于序列的）
  - 只對(duì)單詞序列進(jìn)行操作(Zeng et al.,2014; Wang et al., 2016)
- dependency-based（基于依賴的）
  - 然而基于依賴的模型將依賴樹合并到模型中(Bunescu和Mooney, 2005;Peng等人，2017)
  - 依賴樹+剪枝
  - 比較：與基于順序的模型相比，基于依賴的模型能夠捕獲僅從表面形式難以理解的非局部句法關(guān)系(Zhang et al.， 2018)。
  - eg:
    - AGGCNs（軟剪枝）
    - 剪枝策略（硬剪枝）
      - Xu等人(2015b,c)只在全樹實(shí)體之間的最短依賴路徑上應(yīng)用神經(jīng)網(wǎng)絡(luò)。
      - Miwa和Bansal(2016)將整個(gè)樹縮減為實(shí)體的最低共同祖先(LCA)之下的子樹。
      - Zhang等(2018)將 (GCNs) (Kipf and Welling, 2017)模型應(yīng)用于修剪過(guò)的樹。
        這棵樹包含從LCA子樹的依賴路徑到K的標(biāo)記。

1.1 dense connection+GCN

目的：對(duì)一個(gè)大的全連通圖進(jìn)行編碼
我們接下來(lái)將稠密連接(Huang et al.， 2017)引入GCN模型(Guo et al.，2019)

對(duì)于GCNs，L層將被需要為了捕獲L跳躍離開到達(dá)的鄰居的信息。淺層的GCN模型可能無(wú)法捕獲大型圖的非局部交互。有趣的是，雖然較深的GCNs可以捕獲圖的更豐富的鄰域信息，但從經(jīng)驗(yàn)上可以觀察到，使用2層模型可以獲得最佳性能(Xu et al.， 2018)。在密集連接的幫助下，我們能夠?qū)ι疃鹊腁GGCN模型進(jìn)行訓(xùn)練，允許捕獲豐富的局部地和非局部依賴信息。

2層GCNs最好
dense connnection幫助下可以對(duì)深度AGGCN進(jìn)行訓(xùn)練
- 可得到局部和非局部依賴信息

1.2 效果突出

實(shí)驗(yàn)表明，該模型能夠較好地完成各種任務(wù)。對(duì)于跨句關(guān)系提取任務(wù)，我們的模型在多類三元關(guān)系和二元關(guān)系提取方面分別比現(xiàn)有模型的準(zhǔn)確率高出8%和6%。對(duì)于大型句子級(jí)提取任務(wù)(TACRED數(shù)據(jù)集)，我們的模型也始終優(yōu)于其他模型，這表明了該模型在大型訓(xùn)練集上的有效性

1.3 contribution

我們提出了一種新穎的AGGCNs，它以端到端的方式學(xué)習(xí)一種“軟修剪”策略，學(xué)習(xí)如何選擇和丟棄信息。結(jié)合密集連接，我們的AGGCN模型能夠?qū)W習(xí)更好的圖形表示。

我們的模型在不增加額外的計(jì)算量的情況下與以前的GCNs相比獲得了最新的結(jié)果。與樹結(jié)構(gòu)模型(如TreeLSTM (Tai et al.， 2015))不同，它可以有效地并行地應(yīng)用于依賴樹。

2.Attention Guided GCNs

AGGCN模型顯示了一個(gè)示例語(yǔ)句及其依賴樹。
它由M個(gè)相同的塊組成，每個(gè)塊有三種層，如圖所示。
- 注意引導(dǎo)層
- 密集連接層
- 線性組合層
輸入：每個(gè)塊以表示圖的節(jié)點(diǎn)嵌入和鄰接矩陣作為輸入。
注意引導(dǎo)層：multi-head attention：然后利用左下所示的多頭注意構(gòu)造N個(gè)注意引導(dǎo)鄰接矩陣。
- 原始的依賴樹被轉(zhuǎn)換成N個(gè)不同的完全連接的邊加權(quán)圖(為了簡(jiǎn)化，省略了自循環(huán))。
- 靠近邊的數(shù)字表示矩陣中的權(quán)值。
密集連接層得到的矩陣被送入N個(gè)單獨(dú)的dense connection的層，產(chǎn)生新的表示。
- 左上角顯示了一個(gè)密集連接層的例子，其中子層的數(shù)量(L)是3 (L是超參數(shù))。
- 每個(gè)子層將所有前面的輸出連接起來(lái)作為輸入。
線性組合層：最后，應(yīng)用線性組合將N個(gè)緊密連接的層的輸出組合成隱藏的表示。
基本組件
- GCNs
- Attention Guided Layer

2.1 GCNs

GCNs是直接作用于圖結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)(Kipf和Welling, 2017)。
工作原理
- 圖：給出一個(gè)有n個(gè)節(jié)點(diǎn)的圖，我們可以用一個(gè)n×n鄰接矩陣A來(lái)表示圖。
- 加方向：使得GCNs對(duì)依賴樹進(jìn)行編碼。(Marcheggiani和Titov(2017))
  - 它們?yōu)闃渲械拿總€(gè)節(jié)點(diǎn)添加一個(gè)自循環(huán)。
  - 還包括一個(gè)依賴弧的反方向，即
    - 邊i->j：
      - 有則 $A_{ij}=1 and A_{ji}=1$
      - 無(wú)則 $A_{ij}=0 and A_{ji}=0$
  - l層節(jié)點(diǎn)i的卷積運(yùn)算
    - 輸入： $h^{(l-1)}$
    - 輸出： $hi(l)h^{(l)}_i$
    - 公式： $hi(l)=ρ(Σj=1nAijW(l)hj(l?1)+b(l))ρ?激活函數(shù)（如，relu)hi(0)是xi(d維向量）h^{(l)}_i=\rho(\Sigma_{j=1}^nA_{ij}W^{(l)}h_j^{(l-1)}+b^{(l)})\\ \rho-激活函數(shù)（如，relu)\\ h_i^{(0)}是x_i(d維向量）$
    - 表示全連接圖的鄰接矩陣的大小和原始樹的大小一樣

2.2 Attention Guided Layer

如前：硬剪枝的缺點(diǎn)
- 硬剪枝->硬-attention

正如我們?cè)诘?節(jié)中討論的，大多數(shù)現(xiàn)有的修剪策略都是預(yù)定義的。他們將整棵樹修剪成一個(gè)子樹，并在此基礎(chǔ)上構(gòu)造鄰接矩陣。事實(shí)上，這樣的策略也可以被視為一種硬注意的形式(Xu et al.， 2015a)，其中連接不在結(jié)果子樹上的節(jié)點(diǎn)的邊將被直接分配零權(quán)重(無(wú)人值守)。這樣的策略可能會(huì)從原始依賴樹中刪除相關(guān)信息。
我們沒有使用基于規(guī)則的剪枝，而是在注意引導(dǎo)層開發(fā)了一種“軟剪枝”策略，它為所有邊緣分配權(quán)重。這些權(quán)重可以由模型以端到端方式學(xué)習(xí)。

我們：軟剪枝
- 給所有邊分配權(quán)重，權(quán)重以端到端的形式學(xué)習(xí)得到
- 實(shí)現(xiàn)自動(dòng)學(xué)習(xí)剪枝
原：樹
注意力引導(dǎo)層：將一個(gè)樹->多個(gè)全連接有權(quán)圖
- 從第二個(gè)塊開始有這層
- 方法：構(gòu)造注意引導(dǎo)鄰接矩陣 $A~\tilde{A}$
  - self-attention mechanism (Cheng et al., 2016)來(lái)得到 $A~\tilde{A}$
    - 可以捕獲單個(gè)序列的任意位置之間的交互。
  - 本文:用multi-head attention 計(jì)算
    - 它允許模型聯(lián)合處理來(lái)自不同表示子空間的信息。
    - 計(jì)算：包括一個(gè)查詢和一組鍵值對(duì)。
    - 輸出：計(jì)算為值的加權(quán)和，其中的
      - 權(quán)重：由具有相應(yīng)鍵的查詢函數(shù)計(jì)算。
    - 公式 $A~(t)=softmax(QWiQ×(KWiK)Td)VQ,K:等于AGGCN的h(l?1)t:第t個(gè)attentionhead，共有N個(gè)（超參數(shù))\tilde{A}^{(t)}=softmax(\frac{QW_i^Q\times (KW_i^K)^T}{\sqrtozvdkddzhkzd})V\\ Q,K:等于AGGCN的h^{(l-1)}\\ t:第t個(gè)attention head，共有N個(gè)（超參數(shù))$
- $A~(1)?>G(1)\tilde{A}^{(1)}->G^{(1)}$
- $A~\tilde{A}$ 和A尺寸相同
  - 所以沒有增加計(jì)算消耗
- 關(guān)鍵思想
  - 使用注意力來(lái)誘導(dǎo)節(jié)點(diǎn)之間的關(guān)系，
  - 特別是那些通過(guò)間接的多跳路徑連接的節(jié)點(diǎn)。
圖卷積層（在其后）：
- 輸入： $A~\tilde{A}$

圖2給出了將原始鄰接矩陣轉(zhuǎn)換為多個(gè)注意引導(dǎo)鄰接矩陣的示例。因此，輸入依賴樹被轉(zhuǎn)換成多個(gè)完全連接的邊緣加權(quán)圖。在實(shí)踐中，我們將原始鄰接矩陣作為初始化處理，以便在節(jié)點(diǎn)表示中捕獲依賴項(xiàng)信息，以便以后進(jìn)行注意計(jì)算。注意力引導(dǎo)層從第二個(gè)塊開始。

2.3 Densely Connected Layer

優(yōu)點(diǎn)
- 我們將稠密連接(Huang et al.， 2017)引入AGGCN模型，
- 目的：在大圖上捕獲更多的結(jié)構(gòu)信息。
- 在密集連接的幫助下，我們能夠訓(xùn)練更深的模型，
- 允許捕獲豐富的局部和非局部信息，從而學(xué)習(xí)更好的圖表示。
做法：
- 直接連接從任何層引入到它前面的所有層。
- $g_j^{(l)}=[x_j;h_j^{(1)};...;h_j^{(l-1)}]$
- 超參數(shù)L:L個(gè)子層
- 子層的維度：輸入維度d和L共同決定 $d_{hidden}=d/L$
  - 輸入維度：d->h_j的維度
- 子層是什么？
- 輸出：每個(gè)子層的輸出又會(huì)被連接起來(lái)->仍是d維
  - 隨子層數(shù)增加而縮小隱層size–>提高效率

與隱藏維度大于或等于輸入維度的GCN模型不同，AGGCN模型隨著層數(shù)的增加而縮小隱藏維度，以提高與DenseNets類似的參數(shù)效率(Huang et al.， 2017)。

N個(gè)注意力頭–>N個(gè)分離的densely connection
- 原來(lái)GCN： $hi(l)=ρ(Σj=1nAijW(l)hj(l?1)+b(l))h^{(l)}_i=\rho(\Sigma_{j=1}^nA_{ij}W^{(l)}h_j^{(l-1)}+b^{(l)})$
- 計(jì)算變?yōu)?span id="ozvdkddzhkzd" class="katex--inline"> $hti(l)=ρ(Σj=1nA~ij(t)Wt(l)gj(l?1)+bt(l))Wt(l),bt(l)與A~(t)有關(guān)Wt(l):(dhidden,d(l)），d(l)=d+dhidden×(l?1)??g的維度h_{ti}^{(l)}=\rho(\Sigma_{j=1}^n\tilde{A}^{(t)}_{ij}W^{(l)}_tg_j^{(l-1)}+b_t^{(l)})\\ W^{(l)}_t,b_t^{(l)}與\tilde{A}^{(t)}有關(guān)\\ W^{(l)}_t:(d_{hidden},d^{(l)}），d^{(l)}=d+d_{hidden}\times(l-1)--g的維度$

2.4 線性層

$hcomb=Wcombhout+bcombWcomb：(d×N,d)hout=[h(1);...;h(N)]h_{comb}=W_{comb}h_{out}+b_{comb}\\ W_{comb}：(d\times N,d)\\ h_out=[h^{(1)};...;h^{(N)}]$

2.5 AGGCN for RE

在依賴樹上應(yīng)用AGGCN模型之后，我們獲得了所有令牌的隱藏表示。根據(jù)這些表示，關(guān)系提取的目標(biāo)是預(yù)測(cè)實(shí)體之間的關(guān)系。接下來(lái)(Zhang et al.， 2018)，我們將句子表示和實(shí)體表示連接起來(lái)，得到最終的分類表示。

首先，我們需要獲得 $h_{sent}$ 句子表示。它可以被計(jì)算為
- $hsent=f(hmask)=f(AGGCN(x))f:(d×n)??>(d×1),max?poolingfunctionh_{sent}=f(h_{mask})=f(AGGCN(x))\\ f:(d\times n)-->(d\times 1),max-pooling function$
相似地得到實(shí)體表示
- $h_{e_i}=f(h_{e_i}'),h_{e_i}':第i個(gè)實(shí)體的隱層表示$
最終：
- 由前饋神經(jīng)網(wǎng)絡(luò)得到最終表示（連接實(shí)體表示和句子表示）
- $h_{final}=FFNN([h_{sent};h_{e_1};...;h_{e_i}]$
最終表示輸入到logistic regression classifier分類器中做預(yù)測(cè)。

3.實(shí)驗(yàn)

3.1 數(shù)據(jù)集

我們?cè)u(píng)估了該模型在兩個(gè)任務(wù)上的性能，即

跨句n元關(guān)系提取
- PubMed
句子級(jí)關(guān)系提取
- TACRED數(shù)據(jù)集(收費(fèi)）
  - (Zhang et al., 2018)
- Semeval-10 Task 8
  - (Hendrickx et al., 2010)

3.2 設(shè)置

我們根據(jù)開發(fā)集的結(jié)果調(diào)整超參數(shù)。對(duì)于跨句nary關(guān)系提取任務(wù)，我們使用與(Song et al.， 2018b)4相同的數(shù)據(jù)分割，而對(duì)于句子級(jí)關(guān)系提取任務(wù)，我們使用與(Zhang et al.， 2018)5相同的開發(fā)集。

n-ary
- 與(Song et al.， 2018b)4相同的數(shù)據(jù)分割
句子級(jí)
- (Zhang et al.， 2018)相同的開發(fā)集
embedding:840B-300d-glove
超參數(shù)
- N(attention head數(shù)目）
  - {1,2,3,4}
- L(densely connected中每層的維度）
  - {2,3,4,5,6}
- M（塊數(shù)）
  - {1,2,3}
測(cè)試得到最好的超參數(shù)：
- cross-sentence n-ary
  - {N=2,M=2,L=5,d_{hidden}=340}
  - {N=3,M=2,L=5,d_{hidden}=300}
度量
- 和(Song et al., 2018b; Zhang et al., 2018).一樣
- n-ary
  - test:5-fold cross validation
- 句子
  - micro-F1 score
    - TACRED
    - SemEval

3.3 n-ary

三種模型
a feature-based classifier (Quirk and Poon, 2017) based on shortest dependency paths between all entity pairs,
Graph-structured LSTM methods,
- including Graph LSTM (Peng et al., 2017),
- bidirectional DAG LSTM (Bidir DAG LSTM) (Song et al., 2018b) and
- Graph State LSTM (GS GLSTM) (Song et al., 2018b).
- These methods extend LSTM to encode graphs constructed from input sentences with dependency edges,
Graph convolutional networks (GCN) with pruned trees, which have shown efficacy on the relation extraction task (Zhang et al., 2018)
the tree-structured LSTM method (SPTree) (Miwa and Bansal, 2016) on drug-mutation binary relation extraction.
本文結(jié)果好，因?yàn)?
- 能用圖卷積從樹中得到更多信息：AGGCN is able to extract more information from the underlying graph structure to learn a more expressive representation through graph convolutions
- 比GCN好，因?yàn)?
  - densely connection
    - 使之可在大圖中信息傳遞
    - 使之可有效地學(xué)習(xí)到長(zhǎng)距離依賴
  - attention
    - 可篩去噪音，得到相關(guān)信息
  - 本文的模型可從全樹中得到更好的表達(dá)

3.4 句子級(jí)

model
- dependency-based models,
  - the logistic regression classifier (LR) (Zhang et al., 2017),
  - Shortest Path LSTM (SDPLSTM) (Xu et al., 2015c),
  - Tree-structured neural model (Tree-LSTM) (Tai et al., 2015),
  - GCN
  - Contextualized GCN (C-GCN) (Zhang et al., 2018).
  - （Both GCN and C-GCN models use the pruned trees.）
- sequence-based models
  - Position Aware LSTM (PA-LSTM) (Zhang et al., 2017).–最新成果
TACRED

表2所示，logistic回歸分類器(LR)的精度得分最高。我們假設(shè)這背后的原因是由于數(shù)據(jù)不平衡的問(wèn)題。這種基于特征的方法傾向于預(yù)測(cè)一個(gè)頻繁出現(xiàn)的標(biāo)簽之間的關(guān)系(例如，“per:title”)。因此，它具有較高的查全率，但查全率相對(duì)較低。另一方面，神經(jīng)模型能夠更好地平衡精度和回憶分?jǐn)?shù)。
由于GCN和C-GCN已經(jīng)顯示出它們相對(duì)于其他基于依賴的模型和PA-LSTM的優(yōu)越性，我們主要將我們的AGGCN模型與它們進(jìn)行比較。我們可以觀察到AGGCN比GCN多1.1個(gè)F1點(diǎn)。我們推測(cè)這種有限的改進(jìn)是由于缺乏有關(guān)詞序或消歧的上下文信息。

比GCN好
- GCN：這種有限的改進(jìn)是由于缺乏有關(guān)詞序或消歧的上下文信息。

與C-GCN類似(Zhang et al.， 2018)，我們使用雙向LSTM網(wǎng)絡(luò)擴(kuò)展AGGCN模型，以捕獲隨后被送入AGGCN層的上下文表示。我們將修改后的模型稱為C-AGGCN。我們的C-AGGCN模型F1得分為69.0，比目前最先進(jìn)的C-GCN模型高出2.6分。我們也注意到AGGCN和C-AGGCN分別比GCN和C-GCN獲得更好的精確度和回憶分?jǐn)?shù)。

經(jīng)驗(yàn)表明，AGGCN模型能夠更好地區(qū)分相關(guān)和不相關(guān)信息，從而獲得更好的圖表示。

SemEval

我們還在與(Zhang et al.， 2018)相同的設(shè)置下，在SemEval數(shù)據(jù)集上評(píng)估我們的模型(Zhang et al.， 2018)。結(jié)果如表3所示。這個(gè)數(shù)據(jù)集比TACRED小得多(僅為TACRED的1/10)。我們的C-AGGCN模型(85.7)始終優(yōu)于C-GCN模型(84.8)，具有良好的泛化能力。

4.ablation Study

各組件的貢獻(xiàn)
- AG>DG>FF
- AG,DG更重要
  - 這兩層可以幫助GCNs更好地學(xué)習(xí)信息聚合，產(chǎn)生更好的圖形表示

燒蝕研究。
我們使用TACRED數(shù)據(jù)集上性能最好的C-AGGCN模型，研究了兩個(gè)主要組件的貢獻(xiàn)，即密集連接層和注意力引導(dǎo)層。表4顯示了結(jié)果。我們可以觀察到添加注意力引導(dǎo)層或者密集連接的層提高了模型的性能。這表明，這兩層可以幫助GCNs更好地學(xué)習(xí)信息聚合，產(chǎn)生更好的圖形表示，其中注意力引導(dǎo)層似乎發(fā)揮了更重要的作用。我們也注意到前饋層在我們的模型中是有效的。沒有前饋層，結(jié)果下降到F1得分67.8。

自己相比較AGGCN
軟修剪”策略在充分利用樹信息方面優(yōu)于硬修剪策略。

修剪樹木的表現(xiàn)。
表5顯示了使用修剪樹的C-AGGCN模型的性能，其中K表示修剪后的樹包含距離LCA子樹中的依賴路徑K以內(nèi)的標(biāo)記。我們可以看到，所有具有不同K值的C-AGGCN模型都能夠超越最先進(jìn)的C-GCN模型(Zhang et al.， 2018)(見表2)F1成績(jī)1.5分。這說(shuō)明，在密集連接層和注意力引導(dǎo)層的結(jié)合下，C-AGGCN可以比C-GCN更好地學(xué)習(xí)下游任務(wù)的圖形表示。此外，我們注意到全樹的C-AGGCN性能優(yōu)于所有修剪過(guò)的C-AGGCNs。這些結(jié)果進(jìn)一步證明了“軟修剪”策略在充分利用樹信息方面優(yōu)于硬修剪策略。

C-AGGCN可以從更大的圖(全樹)中獲益更多。

句子長(zhǎng)度的性能。
圖4顯示了三個(gè)模型在不同句子長(zhǎng)度下的F1得分。我們將句子長(zhǎng)度劃分為5類(< 20，[20,30]，[30,40)，[40,50)，50)。一般來(lái)說(shuō)，在不同的句子長(zhǎng)度下，有完整樹的C-AGGCN比有修剪過(guò)的樹的C-AGGCN和C-GCN表現(xiàn)更好。我們還注意到，在大多數(shù)情況下，經(jīng)過(guò)修剪的C-AGGCN比C-GCN表現(xiàn)得更好。此外，C-AGGCN對(duì)修剪后的樹的改進(jìn)效果隨著句子長(zhǎng)度的增加而減弱。這種性能下降可以通過(guò)使用全樹來(lái)避免，全樹提供了有關(guān)底層圖結(jié)構(gòu)的更多信息。直觀地說(shuō)，隨著句子長(zhǎng)度的增加，包含的節(jié)點(diǎn)越多，依賴關(guān)系圖就越大。

我們的模型在使用訓(xùn)練資源方面更加有效。

性能與訓(xùn)練數(shù)據(jù)大小的對(duì)比。圖3顯示了C-AGGCN和C-GCN在不同訓(xùn)練設(shè)置下的性能，訓(xùn)練數(shù)據(jù)量不同。我們考慮五種培訓(xùn)設(shè)置(20%、40%、60%、80%、100%的培訓(xùn)數(shù)據(jù))。C-AGGCN持續(xù)優(yōu)于C-GCN
當(dāng)訓(xùn)練數(shù)據(jù)量增加時(shí)，我們可以觀察到績(jī)效差距變得更加明顯。具體來(lái)說(shuō)，使用80%的訓(xùn)練數(shù)據(jù)，C-AGGCN模型可以獲得66.5的F1分，高于完整訓(xùn)練集上訓(xùn)練的C-GCN。這些結(jié)果表明，我們的模型在使用訓(xùn)練資源方面更加有效。

4.相關(guān)工作

4.1RE

早期的研究工作是基于統(tǒng)計(jì)方法。
- 研究了基于樹的內(nèi)核(Zelenko et al.， 2002)和
- 基于依賴路徑的內(nèi)核(Bunescu and Mooney, 2005)，以提取這種關(guān)系。
- McDonald等人(2005)構(gòu)建最大的實(shí)體團(tuán)來(lái)預(yù)測(cè)關(guān)系。
- Mintz等人(2009)在統(tǒng)計(jì)分類器中包含語(yǔ)法特征。
基于序列的模型利用不同的神經(jīng)網(wǎng)絡(luò)來(lái)提取關(guān)系，包括
- 卷積神經(jīng)網(wǎng)絡(luò)(Zeng et al.， 2014;Nguyen和Grishman, 2015年;(Wang et al.， 2016)，
- 遞歸神經(jīng)網(wǎng)絡(luò)(Zhou et al.， 2016;Zhang et al.， 2017)
- 兩者的結(jié)合(Vu et al.， 2016)和
- transformer (Verga et al.， 2018)。
基于依賴的方法還試圖將結(jié)構(gòu)信息合并到神經(jīng)模型中。
- Peng et al.(2017)首先將依賴關(guān)系圖分成兩個(gè)dag，
  - 然后將樹LSTM模型(Tai et al.， 2015)擴(kuò)展到這兩個(gè)圖上進(jìn)行n元關(guān)系提取。
- Song等人(2018b)使用圖遞歸網(wǎng)絡(luò)(Song等人，2018a)直接對(duì)整個(gè)依賴圖編碼，而不破壞它。
  - AGGCN:和他們的模型的對(duì)比讓人聯(lián)想到CNN和RNN的對(duì)比。
- 為了進(jìn)一步提高性能，還提出了各種各樣的裁剪策略來(lái)提取依賴信息。
  - Xu等(2015b,c)采用神經(jīng)模型編碼最短依賴路徑。
  - Miwa和Bansal(2016)將LSTM模型應(yīng)用于兩個(gè)實(shí)體的LCA子樹。Liu等(2015)將最短依賴路徑與依賴子樹相結(jié)合。
  - Zhang等人(2018)采用了一種以路徑為中心的修剪策略。
  - AGGCNs:與這些在預(yù)處理中去除邊緣的策略不同，我們的模型以端到端的方式學(xué)會(huì)給每個(gè)邊緣分配不同的權(quán)重

4.2GCN

Gori等人(2005)布魯納(2014)介紹了嘗試擴(kuò)展神經(jīng)網(wǎng)絡(luò)以處理任意結(jié)構(gòu)圖的早期工作。
隨后的工作通過(guò)局部譜卷積技術(shù)提高了計(jì)算效率(Henaff et al.， 2015;Defferrard等人，2016)。
AGGCN:與GCNs (Kipf和Welling, 2017)密切相關(guān)，GCNs將過(guò)濾器限制在每個(gè)節(jié)點(diǎn)周圍的一階鄰域上運(yùn)行。
Velickovic等人(2018)提出了圖形注意網(wǎng)絡(luò)(GATs)，利用掩蔽的自注意層來(lái)總結(jié)鄰域狀態(tài)(Vaswani等人，2017)。
- 與AGGCN相比，他們的動(dòng)機(jī)和網(wǎng)絡(luò)結(jié)構(gòu)是不同的。
  - 特別地，GATs中的每個(gè)節(jié)點(diǎn)只關(guān)心它的鄰居，而AGGCNs則度量所有節(jié)點(diǎn)之間的關(guān)聯(lián)性。
  - GATs中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)保持不變，而AGGCNs中將構(gòu)建完全連接的圖，以捕獲長(zhǎng)期的語(yǔ)義交互。

5.結(jié)論

介紹了一種新的注意引導(dǎo)圖卷積網(wǎng)絡(luò)(AGGCNs)。實(shí)驗(yàn)結(jié)果表明，AGGCNs在各種關(guān)系提取任務(wù)上都取得了較好的效果。與以前的方法不同，AGGCNs直接對(duì)整個(gè)樹進(jìn)行操作，并學(xué)習(xí)以端到端方式從其中提取有用的信息。未來(lái)的工作有多個(gè)場(chǎng)所。我們想要問(wèn)的一個(gè)很自然的問(wèn)題是，如何利用所提出的框架對(duì)與圖相關(guān)的任務(wù)執(zhí)行改進(jìn)的圖表示學(xué)習(xí)(Bastings et al.， 2017)。

總結(jié)

以上是生活随笔為你收集整理的论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction（关系抽取，图卷积,ACL2019，n元）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： CASREL:A Novel Casca
下一篇：往年笔试题