Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取,语法模型,跨领域关系抽取
文章目錄
- 1.Introductiony
- 1.1 神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
- 1.2使用依賴樹的關(guān)系抽取
- 1.2.2 依賴樹的一般樹
- 1.3 本文做法
- 2. 相關(guān)工作
- 2.1核方法
- 2.2 深度學(xué)習(xí)方法
- 2.2.1 CNN
- 2.2.2 RNN
- 2.2.3 transformer
- 2.2.4 依賴樹
- 3.模型
- 3.1CEON-LSTM
- 3.1.1 LSTM
- 3.1.2ON-LSTM
- 3.1.2.1 公式
- 3.1.2.2the master gate的區(qū)別和原因
- 3.1.2.3重要性分?jǐn)?shù)
- 3.1.3 CEON-LSTM
- 3.3 一致性
- 3.3 Sentence-Dependency Path Similarity
- 3.4 預(yù)測(cè)
- 4 實(shí)驗(yàn)
- 4.1 數(shù)據(jù)集和超參數(shù)
- 4.1.1ACE2005
- 4.1.1.1 超參數(shù)
- 4.1.2 SPOUSE
- 4.1.3 the SciERC dataset (Luan et al., 2018)
- 4.2 比較對(duì)象
- 4.2.1 ACE2005+word2vec
- 4.2.2 ACE2005+Bert
- 4.3 Ablation Study
- 4.3.1 the Model Components
- 4.3.2變體
- 4.3.3 基于模型的重要性分?jǐn)?shù)
- 5 結(jié)論
- 參考文獻(xiàn)
- 引入語法依賴樹是有用的:語法對(duì)于關(guān)系抽取有意
- 依賴樹–>直接用于構(gòu)建模型結(jié)構(gòu)
- 或者,多任務(wù)學(xué)習(xí)(詞對(duì)的依賴關(guān)系和語義關(guān)系RE兩個(gè)任務(wù))
- 獲得詞法信息
- 缺點(diǎn):
- 缺乏句法結(jié)構(gòu)之外的泛化:泛化性能差
- 對(duì)RE重要的詞沒有被捕獲
- 本文的方案
- 將詞法信息引入模型
- 利用依賴樹
- —>給對(duì)RE重要的詞高分?jǐn)?shù)(重要性分?jǐn)?shù))—給每一個(gè)詞打分
- 做法
- ON-LSTM:獲得每個(gè)詞在RE中的重要性
- 語法的分?jǐn)?shù)
- 讓上面兩個(gè)分?jǐn)?shù)一致
- 將詞法信息引入模型
1.Introductiony
1.1 神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
- 神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
- Verga et al., 2018
Patrick Verga, Emma Strubell, and Andrew McCallum.2018. Simultaneously self-attending to all mentions for full-abstract biological relation extraction. In EMNLP.
1.2使用依賴樹的關(guān)系抽取
-
依賴樹(使用依賴樹的關(guān)系抽取)
- (Xu et al., 2015; Guo et al., 2019; Tran et al., 2019)
Yan Xu, Lili Mou, Ge Li, Yunchuan Chen, Hao Peng,and Zhi Jin. 2015. Classifying relations via long short term memory networks along shortest dependency paths. In EMNLP.
Zhijiang Guo, Yan Zhang, and Wei Lu. 2019. Attention guided graph convolutional networks for relation extraction. In ACL.
Van-Hien Tran, Van-Thuy Phi, Hiroyuki Shindo, and Yuji Matsumoto. 2019. Relation classification using segment-level attention-based cnn and dependencybased rnn. In NAACL-HLT.-
使用依賴樹來構(gòu)建神經(jīng)網(wǎng)絡(luò)
- GCN(依據(jù)語法樹構(gòu)建): (Zhang et al., 2018)
Yuhao Zhang, Peng Qi, and Christopher D Manning.2018. Graph convolution over pruned dependency trees improves relation extraction. In EMNLP.
-
缺陷
- 泛化性能差
- 測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的語法結(jié)構(gòu)不同
- 過擬合了
- 尤其是:跨領(lǐng)域關(guān)系抽取(語法結(jié)構(gòu)差異更大
- 泛化性能差
-
解決想法
- 獲得更一般的語法結(jié)構(gòu)表示(依賴樹)
1.2.2 依賴樹的一般樹
- RE的一般語法樹表示
-
依賴樹劃分為邊的集合:Veyseh et al., 2019
Amir Pouran Ben Veyseh, Thien Huu Nguyen, and Dejing Dou. 2019. Improving cross-domain performance for relation extraction via dependency prediction and information flow control. In IJCAI.
- 單詞之間的依賴關(guān)系集合
- 隨后用于多任務(wù)學(xué)習(xí)
- 優(yōu)點(diǎn):
- 對(duì)整個(gè)樹的依賴變?yōu)閷?duì)邊的依賴–特定于邊的泛化性好一點(diǎn)
- 只抓住了詞對(duì)之間的依賴關(guān)系
- 限制
- 忽略了全局的重要性(對(duì)RE任務(wù)的重要性)
- 詞在句子中能獲得更多信息
- 依賴樹在句子中可以幫助識(shí)別重要的單詞,并為其分配更高的分?jǐn)?shù)
- 忽略了全局的重要性(對(duì)RE任務(wù)的重要性)
-
1.3 本文做法
- 目標(biāo)
- 一般樹+詞的重要性
- 做法
-
ON-LSTM(Shen et al., 2019):獲得句子中單詞的重要得分(對(duì)RE)
- LSTM+兩個(gè)門(master遺忘門和master輸入門)
- 高階神經(jīng)元被保持的更久(?)
- 重要性得分:依據(jù)激活神經(jīng)元個(gè)數(shù)而定
- ON-LSTM第一次用于RE
- 改進(jìn):
- 問題:原始ON-LSTM只看這個(gè)單詞及其左邊的隱層單元(此前的)
- 右邊的信息也很重要(要有一個(gè)整體的理解
- 使用句子的整體表示+master gates–>重要性
- LSTM+兩個(gè)門(master遺忘門和master輸入門)
-
注入基于語法的重要性得分
-
確保一致性:語法得分==RE得分(KL散度實(shí)現(xiàn))
- 動(dòng)機(jī):提高重要性得分作為傳遞語法信息的橋梁的能力,豐富RE的向量表示
-
引入一種新的inductive bias
- 使得有最短依賴路徑上的實(shí)體對(duì)之間的表示和整個(gè)句子的表示的相似性提升
- 關(guān)系可從這兩者推斷
- 所以期望依賴路徑與整個(gè)句子的表示相似—都捕獲了語義關(guān)系
- 相似,可獲得更有利于RE的表示
-
2. 相關(guān)工作
2.1核方法
(Zelenko et al., 2003; Zhou et al., 2005; Bunescu and Mooney, 2005; Sun et al., 2011; Chan and Roth, 2010; Nguyen and Grishman, 2014; Nguyen et al., 2015c)
- 問題
- 對(duì)extensive feature 或者 kernel engineering effort的需求
- 阻礙了其泛化性和適用性
2.2 深度學(xué)習(xí)方法
2.2.1 CNN
(Zeng et al., 2014; Nguyen and Grishman, 2015a; dos Santos et al., 2015; Wang et al., 2016)
2.2.2 RNN
(Nguyen and Grishman, 2016; Zhou et al., 2016; Zhang et al., 2017; Nguyen et al., 2019a)
2.2.3 transformer
(Verga et al., 2018)
2.2.4 依賴樹
(Tai et al., 2015; Xu et al., 2015; Liu et al., 2015; Miwa and Bansal, 2016; Peng et al., 2017; Zhang et al., 2018; Guo et al., 2019; Tran et al., 2019; Song et al., 2019; Veyseh et al., 2019)
- 問題
- 泛化性差
- 不同領(lǐng)域
- 無詞法重要性(依賴樹的邊獲得)
- (Veyseh et al., 2019)
- 泛化性差
3.模型
- 形式化:多分類問題
- W=w1,w2,...,wN:wt為第t個(gè)詞s,o為頭實(shí)體、尾實(shí)體的mention的索引ws,wo為相應(yīng)的提及W=w_1,w_2,...,w_N:w_t為第t個(gè)詞\\ s,o為頭實(shí)體、尾實(shí)體的mention的索引\\ w_s,w_o為相應(yīng)的提及W=w1?,w2?,...,wN?:wt?為第t個(gè)詞s,o為頭實(shí)體、尾實(shí)體的mention的索引ws?,wo?為相應(yīng)的提及
- 輸入
- word embedding
- position embedding(實(shí)體1和實(shí)體2的)
- entity type embedding(BIO)
- 將W=w1,w2,...,wN??>X=x1,x2,...,xNW=w_1,w_2,...,w_N-->X=x_1,x_2,...,x_NW=w1?,w2?,...,wN???>X=x1?,x2?,...,xN?表示為向量
- 三個(gè)組件
- CEON-LSTM:centext-enriched ON-LSTM)計(jì)算基于模型的單詞重要性
- syntax-model consistency component:基于語法的和基于模型的重要性分?jǐn)?shù)一致
- the similarity component:使整個(gè)句子和最短依賴路徑的向量表示相似
3.1CEON-LSTM
- 目的:計(jì)算每個(gè)詞在句中上下文下,預(yù)測(cè)關(guān)系時(shí)的重要性(基于模型的分?jǐn)?shù))
- 組件
- ON-LSTM:得到基于模型的分?jǐn)?shù)
- CEON-LSTM:將整個(gè)句子的表示整合到ON-LSTM的cells中
3.1.1 LSTM
- LSTM
- 輸入:X=x1,x2,...,xNX=x_1,x_2,...,x_NX=x1?,x2?,...,xN?
- 遞歸函數(shù)—LSTM的公式
- ft=σ(Wfxt+Ufht?1+bf)it=σ(Wixt+Uiht?1+bi)ot=σ(Woxt+Uoht?1+bo)ct^=tanh(Wcxt+Ucht?1+bo)ct=ft°ct?1+it°ct^ht=ot°tanh(ct)f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)\\ i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)\\ o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o)\\ \hat{c_t}=tanh(W_cx_t+U_ch_{t-1}+b_o)\\ c_t=f_t\circ c_{t-1}+i_t\circ \hat{c_t}\\ h_t=o_t\circ tanh(c_t)ft?=σ(Wf?xt?+Uf?ht?1?+bf?)it?=σ(Wi?xt?+Ui?ht?1?+bi?)ot?=σ(Wo?xt?+Uo?ht?1?+bo?)ct?^?=tanh(Wc?xt?+Uc?ht?1?+bo?)ct?=ft?°ct?1?+it?°ct?^?ht?=ot?°tanh(ct?)
- 這里應(yīng)該就是LSTM而不是GRU
3.1.2ON-LSTM
- ON-LSTM
- 多引入了兩個(gè)門
- 為了計(jì)算重要性
- the master forget gate
- the master input gate
- 多引入了兩個(gè)門
3.1.2.1 公式
- 公式
- ft=σ(Wfxt+Ufht?1+bf)it=σ(Wixt+Uiht?1+bi)ot=σ(Woxt+Uoht?1+bo)ft^=cummax(Wf^xt+Uf^ht?1+bf^)it^=1?cummax(Wi^xt+Ui^ht?1+bi^)ftˉ=ft^°(ftit^+1?it^)itˉ=it^°(itft^+1?ft^)ct=ftˉ°ct?1+itˉ°ct^ht=ot°tanh(ct)f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)\\ i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)\\ o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o)\\ \hat{f_t}=cummax(W_{\hat{f}}x_t+U_{\hat{f}}h_{t-1}+b_{\hat{f}})\\ \hat{i_t}=1-cummax(W_{\hat{i}}x_t+U_{\hat{i}}h_{t-1}+b_{\hat{i}})\\ \bar{f_t}=\hat{f_t}\circ (f_t\hat{i_t}+1-\hat{i_t})\\ \bar{i_t}=\hat{i_t}\circ(i_t\hat{f_t}+1-\hat{f_t})\\ c_t=\bar{f_t}\circ c_{t-1}+\bar{i_t}\circ \hat{c_t}\\ h_t=o_t\circ tanh(c_t)ft?=σ(Wf?xt?+Uf?ht?1?+bf?)it?=σ(Wi?xt?+Ui?ht?1?+bi?)ot?=σ(Wo?xt?+Uo?ht?1?+bo?)ft?^?=cummax(Wf^??xt?+Uf^??ht?1?+bf^??)it?^?=1?cummax(Wi^?xt?+Ui^?ht?1?+bi^?)ft?ˉ?=ft?^?°(ft?it?^?+1?it?^?)it?ˉ?=it?^?°(it?ft?^?+1?ft?^?)ct?=ft?ˉ?°ct?1?+it?ˉ?°ct?^?ht?=ot?°tanh(ct?)
- cummax(x)=cumsum(softmax(x))cummax(x)=cumsum(softmax(x))cummax(x)=cumsum(softmax(x))
3.1.2.2the master gate的區(qū)別和原因
- the master forget/input gate(ON -LSTM) 和the forget/input gate(LSTM)不同
- the forget/input gate(LSTM)
- 假設(shè)隱層向量中的神經(jīng)元/維度是同等重要的
- 在句子中的每一步都被激活(?)
- the neurons/dimensions in their hidden vectors are equally important and that these neurons are active at every step (word) in thesentence.
- ON-LSTM完全相反
- 隱層向量的神經(jīng)元是分層級(jí)的
- 活動(dòng)限制:限制句中部分單詞的神經(jīng)元的活動(dòng)
- 高階神經(jīng)元對(duì)更多的詞而言是激活的
- 高階神經(jīng)元被保持的更久(?)
- 以上兩者的實(shí)現(xiàn),依靠cumax(x)
- cusum:沿著維度聚合(相加)
- 輸出:二進(jìn)制向量的期望
- 二進(jìn)制向量形式為(0,…,0,1,…,1)–門向量
- (這個(gè)向量,怎么0,1這么分明??)
- 0段:未激活
- 1段:激活
- 二進(jìn)制向量形式為(0,…,0,1,…,1)–門向量
- the forget/input gate(LSTM)
3.1.2.3重要性分?jǐn)?shù)
- 重要性分?jǐn)?shù)
- 看the master gate:單詞激活的神經(jīng)元數(shù)量
- 估計(jì):the master gate中神經(jīng)元的權(quán)重之和之和
- 使用the master forget gate的隱層向量
- 隱層向量的ht^\hat{h_t}ht?^?權(quán)重:ft^=ft1^,ft2^,...,ftD^\hat{f_t}=\hat{f_{t1}},\hat{f_{t2}},...,\hat{f_{tD}}ft?^?=ft1?^?,ft2?^?,...,ftD?^?
- D:門向量的維度
- 重要性分?jǐn)?shù)modt=1?Σi=1..Dfti^mod_t=1-\Sigma_{i=1..D}\hat{f_{ti}}modt?=1?Σi=1..D?fti?^?
- 為了方便,用H表示ON-LSTM返回的向量
3.1.3 CEON-LSTM
- 將上下文信息注入到ON-LSTM中
- ON-LSTM的限制
- 僅看當(dāng)前詞xtx_txt?和左側(cè)詞,不看右側(cè)詞–計(jì)算the master gate vectors和基于模型的重要性
- 右側(cè)的一些詞的出現(xiàn)可以降低當(dāng)前詞的重要性
- CEON-LSTM
- 獲取包含整個(gè)句子上下文信息的單詞的表示xt′=g(x1,x2,...,xN)x_t'=g(x_1,x_2,...,x_N)xt′?=g(x1?,x2?,...,xN?)
- 在計(jì)算the master gate和重要性分?jǐn)?shù)時(shí):xt′x_t'xt′?替換xtx_txt?—這樣就包含了上下文信息
- ft=σ(Wfxt+Ufht?1+bf)it=σ(Wixt+Uiht?1+bi)ot=σ(Woxt+Uoht?1+bo)xt′=Σiαti(Wxxi+bx)αti=exp((Whht?1+bh)?(Wxxi+bx))Σj=1Nexp((Whht?1+bh)?(Wxxj+bx))attentionft^=cummax(Wf^xt′+Uf^ht?1+bf^)it^=1?cummax(Wi^xt′+Ui^ht?1+bi^)ftˉ=ft^°(ftit^+1?it^)itˉ=it^°(itft^+1?ft^)ct=ftˉ°ct?1+itˉ°ct^ht=ot°tanh(ct)f_t=\sigma(W_fx_t+U_fh_{t-1}+b_f)\\ i_t=\sigma(W_ix_t+U_ih_{t-1}+b_i)\\ o_t=\sigma(W_ox_t+U_oh_{t-1}+b_o)\\ x_t'=\Sigma_i\alpha_{ti}(W_xx_i+b_x)\\ \alpha_{ti}=\frac{exp((W_hh_{t-1}+b_h)\cdot(W_xx_i+b_x))}{\Sigma_{j=1}^Nexp((W_hh_{t-1}+b_h)\cdot(W_xx_j+b_x))}attention\\ \hat{f_t}=cummax(W_{\hat{f}}x_t'+U_{\hat{f}}h_{t-1}+b_{\hat{f}})\\ \hat{i_t}=1-cummax(W_{\hat{i}}x_t'+U_{\hat{i}}h_{t-1}+b_{\hat{i}})\\ \bar{f_t}=\hat{f_t}\circ (f_t\hat{i_t}+1-\hat{i_t})\\ \bar{i_t}=\hat{i_t}\circ(i_t\hat{f_t}+1-\hat{f_t})\\ c_t=\bar{f_t}\circ c_{t-1}+\bar{i_t}\circ \hat{c_t}\\ h_t=o_t\circ tanh(c_t)ft?=σ(Wf?xt?+Uf?ht?1?+bf?)it?=σ(Wi?xt?+Ui?ht?1?+bi?)ot?=σ(Wo?xt?+Uo?ht?1?+bo?)xt′?=Σi?αti?(Wx?xi?+bx?)αti?=Σj=1N?exp((Wh?ht?1?+bh?)?(Wx?xj?+bx?))exp((Wh?ht?1?+bh?)?(Wx?xi?+bx?))?attentionft?^?=cummax(Wf^??xt′?+Uf^??ht?1?+bf^??)it?^?=1?cummax(Wi^?xt′?+Ui^?ht?1?+bi^?)ft?ˉ?=ft?^?°(ft?it?^?+1?it?^?)it?ˉ?=it?^?°(it?ft?^?+1?ft?^?)ct?=ft?ˉ?°ct?1?+it?ˉ?°ct?^?ht?=ot?°tanh(ct?)
- cummax(x)=cumsum(softmax(x))cummax(x)=cumsum(softmax(x))cummax(x)=cumsum(softmax(x))
- ht?1h_{t-1}ht?1?-query
3.3 一致性
-
基于模型的重要性:modtmod_tmodt?語義信息(RE)
-
語法信息的重要性:syntsyn_tsynt?依賴樹
-
都希望能有助于關(guān)系抽取
-
通過KL散度保證一致性
- 標(biāo)準(zhǔn)化:mod1ˉ,...,modNˉ=softmax(mod1,...,modN)syn1ˉ,...,synNˉ=softmax(syn1,...,synN)\bar{mod_1},...,\bar{mod_N}=softmax(mod_1,...,mod_N)\\ \bar{syn_1},...,\bar{syn_N}=softmax(syn_1,...,syn_N)mod1?ˉ?,...,modN?ˉ?=softmax(mod1?,...,modN?)syn1?ˉ?,...,synN?ˉ?=softmax(syn1?,...,synN?)
- KL散度:Limport=?ΣimodiˉlogmodiˉsyniˉL_{import}=-\Sigma_i\bar{mod_i}log\frac{\bar{mod_i}}{\bar{syn_i}}Limport?=?Σi?modi?ˉ?logsyni?ˉ?modi?ˉ??
- 利用一致性監(jiān)督基于模型的得分和基于語法的得分
- 使得語法信息 直接對(duì)CEON-LSTM的內(nèi)部神經(jīng)元結(jié)構(gòu)干涉
- 融入語法信息,更好地進(jìn)行RE
-
動(dòng)機(jī)
- 兩實(shí)體之間的最短依賴路徑:抓住了重要的上下文信息(詞)
-
具體:
- 首先檢索:最短依賴路徑DP和(任意對(duì)詞對(duì)的)最長(zhǎng)路徑的長(zhǎng)度T
- 計(jì)算語法重要性SyntSyn_tSynt?:
- 區(qū)別(下面兩者的difference)
- T
- wtw_twt?和DP中的一些詞的最短路徑長(zhǎng)度(?)
- 區(qū)別(下面兩者的difference)
- 重要性得分
- 捕獲了重要性
- 代表一種原始依賴樹的寬松版本,便于泛化(在不同領(lǐng)域數(shù)據(jù)上)
- 直接使用依賴樹,容易過擬合
3.3 Sentence-Dependency Path Similarity
- inductive bias–提升相似性
- 對(duì)象:
- 整個(gè)輸入句子W的向量表示–RWR_WRW?
- 沿著最短路徑DP的單詞們的向量表示–RDPR_{DP}RDP?
- 方法:
- 引入約束
- 目的:
- 最大化相似性
- 獲得向量表示–by max-pooling
- RW=max_poolinggwi∈W(hi)R_W=max\_pooling_{g_{w_i}\in W}(h_i)RW?=max_poolinggwi??∈W?(hi?)
- RDP=max_poolinggwi∈DP(hi)R_{DP}=max\_pooling_{g_{w_i}\in DP}(h_i)RDP?=max_poolinggwi??∈DP?(hi?)
- 符號(hào)
- h:CEON_LSTM的隱層輸出向量
- 計(jì)算:cosine 相似度
- Lpath=1?cos(RW,RDP)L_{path}=1-cos(R_W,R_{DP})Lpath?=1?cos(RW?,RDP?)
- –最小化這個(gè)損失函數(shù)
- 對(duì)象:
3.4 預(yù)測(cè)
- 同(Veyseh et al., 2019)
- V:整體向量表示
- 用于:預(yù)測(cè)ws,wow_s,w_ows?,wo?
- V=[xs,xo,hs,ho,RW]V=[x_s,x_o,h_s,h_o,R_W]V=[xs?,xo?,hs?,ho?,RW?]
- 信息:有W不同抽象等級(jí)的信息
- raw:xs,xox_s,x_oxs?,xo?
- 抽象表示hs,hoh_s,h_ohs?,ho?–來自CEON-LSTM
- 整體句子向量RWR_WRW?
- P(‘∣W,ws,wo)P(`|W,w_s,w_o)P(‘∣W,ws?,wo?):W中可能關(guān)系的概率分布
- P(y∣W,ws,wo)=softmax(ff(V))P(y|W,w_s,w_o)=softmax(ff(V))P(y∣W,ws?,wo?)=softmax(ff(V))
- ff:feed-forward neural network
- 損失函數(shù)
- Llabel=?log(P(y∣W,ws,wo))L_{label}=-log(P(y|W,w_s,w_o))Llabel?=?log(P(y∣W,ws?,wo?))
- Lpath=1?cos(RW,RDP)L_{path}=1-cos(R_W,R_{DP})Lpath?=1?cos(RW?,RDP?)
- Limport=?ΣimodiˉlogmodiˉsyniˉL_{import}=-\Sigma_i\bar{mod_i}log\frac{\bar{mod_i}}{\bar{syn_i}}Limport?=?Σi?modi?ˉ?logsyni?ˉ?modi?ˉ??
- L=Llabel+αLimport+βLpathL=L_{label}+\alpha L_{import}+\beta L_{path}L=Llabel?+αLimport?+βLpath?
- 訓(xùn)練
- 打散
- mini-batching
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集和超參數(shù)
- 數(shù)據(jù)集
- ACE2005
- SPOUCE
- SciERC
4.1.1ACE2005
- 使用過這個(gè)數(shù)據(jù)集的:
- (Nguyen and Grishman, 2016; Fu et al., 2017;
Shi et al., 2018; Veyseh et al., 2019),
- (Nguyen and Grishman, 2016; Fu et al., 2017;
- 數(shù)據(jù)預(yù)處理: Fu et al., 2017;
- ACE2005
- 多個(gè)領(lǐng)域:bc, bn, cts,nw, un, and wl
- 劃分
- 訓(xùn)練集:bn,nw(news)–source domain
- dev:bc的一半
- test:cts,wl,bc的另外一半
- –研究跨領(lǐng)域關(guān)系抽取
4.1.1.1 超參數(shù)
- 在ACE2005上調(diào)出
- 輸入維度
- word embedding:
- word2vec–300
- BERTbasemodelBERT_{base} modelBERTbase?model 768
- pos embedding:30
- entity type emebdding:30
- word embedding:
- CEON-LSTM隱層單元數(shù):200
- 各種隱層:200
- xt′x_t'xt′?
- ff:2層
- α=1β=1\alpha=1\\ \beta=1α=1β=1
- lr=0.001–adam optimizer
- batch size=50
- 輸入維度
4.1.2 SPOUSE
- SPOUSE數(shù)據(jù)集(Hancock et al., 2018)
- 22195個(gè)句子用于訓(xùn)練數(shù)據(jù),2796個(gè)句子用于驗(yàn)證數(shù)據(jù),2697個(gè)句子用于測(cè)試數(shù)據(jù)
- 實(shí)體:這個(gè)數(shù)據(jù)集中的每個(gè)句子包含兩個(gè)標(biāo)記的人名(即實(shí)體提到的人名)
- 目標(biāo):是識(shí)別句子中提到的兩個(gè)人是否為配偶。
4.1.3 the SciERC dataset (Luan et al., 2018)
- the SciERC dataset (Luan et al., 2018)
- 實(shí)體:500個(gè)科技摘要
- 和這些實(shí)體之間的共指消解和關(guān)系抽取
- RE:
- train:3219句子
- dev:455
- test:974
4.2 比較對(duì)象
- 基于特征的方法:FCM、HybridFCM、LRFCM、SVM
- (Yu et al., 2015; Hendrickx et al., 2010)
- 深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))
- 基于序列的方法:
- log-linear,
- CNN,
- Bi-GRU,
- Forward GRU,
- Backward GRU (Nguyen and Grishman, 2016),
- CNN+DANN (Fu et al., 2017).
- 基于序列的方法:
- 對(duì)抗學(xué)習(xí):Adversarial learning model:GSN
- (Shi et al., 2018)
- 深度的基于結(jié)構(gòu)的模型
- 依賴樹
- 用圖去構(gòu)造神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
4.2.1 ACE2005+word2vec
- 多數(shù)模型使用word2vec
- 語法結(jié)構(gòu)作用重大:基于結(jié)構(gòu)的模型>基于序列的模型 and 基于特征的模型
- CEON-LSTM:在各個(gè)領(lǐng)域表現(xiàn)都好,對(duì)RE有效
- 使用p<0.01,
4.2.2 ACE2005+Bert
- 一起訓(xùn)練還是只用來初始化word embedding?
- EA-BERT是Entity-Aware BERT
- Bert有用:和表1比,均有提升
- CEON-LSTM:在各個(gè)領(lǐng)域表現(xiàn)都好,對(duì)RE有效
* 使用p<0.01,
### 4.2.3 SPOUSE SciERC
4.3 Ablation Study
4.3.1 the Model Components
- SCG:xt′x_t'xt′?
- SMC:一致性
- SDPS:相似性
4.3.2變體
- Bi-ON-LSTM:不用xt′x_t'xt′?,使用前向ON-LSTM和后向ON-LSTM計(jì)算的重要性的平均值
- SA-ON-LSTM:query從h變成了x–self attention
- CE-LSTM:ON-LSTM–>普通的LSTM
- EP-ON-LSTM:依賴樹變?yōu)镈RPC中的邊依賴
- SP-CEON-LSTM:RWR_WRW?的作用
4.3.3 基于模型的重要性分?jǐn)?shù)
- 用the master gate獲得重要性分?jǐn)?shù)的有效性
- 改為直接使用h計(jì)算mod
- 改為直接使用h計(jì)算mod
5 結(jié)論
- 首先,我們通過對(duì)輸入句子中的單詞進(jìn)行基于語法的重要度評(píng)分來表示依賴樹。
- 其次,我們建議將整個(gè)句子表示向量納入ON-LSTM的單元中,使其能夠更有效地計(jì)算基于模型的重要度得分。我們還設(shè)計(jì)了一種新的機(jī)制,通過提高基于語法和基于模型的重要度得分的一致性,將語法信息投影到ON-LSTM的計(jì)算中。
- 最后,我們提出了一種新的深度學(xué)習(xí)模型的歸納偏差,它利用了整個(gè)輸入句子的表示向量的相似性和兩個(gè)實(shí)體之間最短的依賴路徑。
參考文獻(xiàn)
論文地址
總結(jié)
以上是生活随笔為你收集整理的Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取,语法模型,跨领域关系抽取的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 视觉意识的主动推理模型
- 下一篇: 一张图带你了解JRE、JDK、JVM