文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL,时间关系,时间持续时间,数据集,语义框架,常识)
文章目錄
- abstract
- 1.Introduction
- 2 背景
- 3.數據收集
- 4.Model
- 5.實驗
- 6.result
- 7 Model Analysis and Timelines
Vashishtha, S., et al. (2019). Fine-Grained Temporal Relation Extraction. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics.
code
abstract
我們提出了一種新穎的語義框架,用于建模時間關系和事件持續時間,該事件框架將事件對映射到實際值尺度。我們使用這個框架來構造迄今為止最大的時間關系數據集,涵蓋了通用依賴英語Web樹庫的全部。我們使用該數據集來訓練模型,以共同預測細粒度的時間關系和事件持續時間。我們對我們的數據報告了強有力的結果,并顯示了轉移學習方法預測分類關系的有效性。
- 提出
- 語義框架
- 建模時間關系和事件持續時間
- 時間關系數據集
- 最大
- 用上述框架構造
- 涵蓋了通用依賴英語web樹庫的全部
- 目標:聯合預測細粒度的時間關系和事件持續時間
- 語義框架
1.Introduction
自然語言提供了無數形式和詞匯手段來表達復雜事件的時間結構,例如時態,方面,助詞,狀語,協調者,從屬等。但是,這些設備通常不足以確定這種事件的細粒度時間結構。考慮(1)中的敘述。
(1) At 3pm, a boy broke his neighbor’s window. He was running away, when the neighbor rushed out to confront him. His parents were called but couldn’t arrive for two hours because they were still at work.
大多數以英語為母語的人很難為這些事件制定時間表,很可能會產生如圖1所示的結果。但是我們怎么知道破裂,逃跑,對抗和呼喚很短,而父母在工作呢?又為什么前四個應該依次排列,最后一個包含其他?
這些問題的答案可能一方面涉及語言信息與關于事件及其關系的常識之間的復雜相互作用(Minsky,1975; Schank和Abelson,1975; Lamport,1978; Allen和Hayes)。 ,1985; Hobbs等,1987; Hwang和Schubert,1994)。但這仍然是一個問題,如何最好地捕捉這種互動。
- 細粒度時間結構
- 一般事件的表達:形式和詞匯手段(很多
- 但不足以描述細粒度的時間結構
- 涉及:常識與語言信息的互動
- 解決辦法:
- 時間關系抽取任務
- 視作分類問題
- 標記成對的事件引用表達式(動作)和具有時效性的表達式(時間)
- 缺點:必須依靠時參表達式–來表達持續信息
- 時間持續信息可以隱式表達而不妨礙理解
- 映射到時間線上(本文)
- 時間關系抽取任務
- 一般事件的表達:形式和詞匯手段(很多
- Duration,Vashishtha, S., et al. (2019)
- 用于:時間關系表示
- 特點:將事件持續時間放在首位或居中
- 參考:Allen(1983)關于時間間隔表示
- 改變:為絕對的時間關系標注文本—>
- 將事件映射到其可能的持續時間上,
- 并將事件對直接映射到實際值的相對時間線
- 由持續時間來預測關系ok
- 由關系來預測持續時間降低了性能
- 時間關系數據集
- 大多基于TimeML標準的
- TimeBank
- 是使用此標準構建的最早的大型語料庫之一,
- 旨在捕獲事件之間的“顯著”時間關系(Pustejovsky等,2003)
- 稀疏
- TemEval比賽(有數據集
- covering relations between all the events and times in a sentence.
- 基于TimeBank
- TimeBank-Dense
- 這種稀疏性已通過語料庫解決
- 其中注釋器標記了所有本地邊緣,而無歧義(Cassidy等,2014)。
- TimeBank-Dense不會捕獲事件和時間關系上的完整圖形,
- 而是試圖通過捕獲一個句子內以及相鄰句子之間的所有關系來實現完整性。
- <—本文的靈感
- Hong et al. (2016) build a cross-document event corpus
- 涵蓋了細粒度的事件-事件關系和具有更多事件類型和子類型的角色
- (另見Fokkens等人,2013)。
- TimeBank
- UDS-T數據集(本文)
- 結果數據集-通用分解語義時間(UDS-T)-是迄今為止最大的時間關系數據集,
- 比基于TimeML標準的好
- 涵蓋了所有的通用依賴性(Silveira等人,2014; De Marneffe等人,2014; Nivre等人,2015 )English Web Treebank(Bies等,2012)。
- UD-EWT的優點:
- (i)涵蓋了各種流派的文本;
- (ii)它包含黃金標準的通用依賴性解析;
- (iii)它與使用相同謂詞提取標準的各種其他語義注釋兼容
- (White等人,2016; Zhang等人,2017; Rudinger等人,2018; Govindarajan等人,2019)。
- UD-EWT的優點:
- 大多基于TimeML標準的
解決辦法1:一條有希望的攻擊路線在于時間關系提取的任務。該領域的先前工作已將該問題作為分類問題來解決,它會標記成對的事件引用表達式,例如在(1)中中斷或正在工作-以及具有時效性的表達式-例如下午3點或兩個小時-具有絕對的時間關系(Pustejovsky等人,2003; Styler IV等人,2014; Minard等人,2016)。這種方法的缺點是必須依靠時參考表達式來表達持續時間信息。但是,正如(1)所強調的那樣,幾乎所有時間持續時間信息都可以保留為隱式而不妨礙理解,這意味著這些方法僅在語言上實現時才對持續時間信息進行顯式編碼。
本文:在本文中,我們為時間關系表示開發了一個新穎的框架,該框架將事件持續時間放在首位和居中。就像使用TimeML標準的標準方法一樣,我們從Allen(1983)關于時間間隔表示的開創性工作中汲取了靈感。但是,我們沒有為類別的時間關系注釋文本,而是將事件映射到其可能的持續時間,并將事件對直接映射到實際值的相對時間線。此更改不僅支持為事件持續時間提供更重要作用的目標,而且還使我們能夠更好地推理整個文檔所描述的復雜事件的時間結構。
我們首先討論有關時間關系提取的先前工作(第2節),然后介紹我們的框架和數據收集方法(第3節)。結果數據集-通用分解語義時間(UDS-T)-是迄今為止最大的時間關系數據集,涵蓋了所有的通用依賴性(Silveira等人,2014; De Marneffe等人,2014; Nivre等人,2015 )English Web Treebank(Bies等,2012)。我們使用該數據集來訓練各種神經模型(第4節),以共同預測事件持續時間和細粒度(實值)時間關系(第5節),不僅對我們的數據集產生強結果,而且還產生了競爭表現基于TimeML的數據集(§6)
2 背景
語料庫大多數大型時間關系數據集都使用TimeML標準(Pustejovsky等人,2003; Styler IV等人,2014; Minard等人,2016)。TimeBank是使用此標準構建的最早的大型語料庫之一,旨在捕獲事件之間的“顯著”時間關系(Pustejovsky等,2003)。TempEval競賽建立在TimeBank上,涵蓋了句子中所有事件和時間之間的關系。
- 模型早期的時間關系提取系統使用手動標記的特征,這些特征已通過多項邏輯回歸和支持向量機建模(Mani等,2006; Bethard,2013; Lin等,2015)。
- 其他方法則結合使用基于規則和基于學習的方法(D’Souza和Ng,2013年)
- 基于篩子的架構,例如CAEVO(Chambers等人,2014)和CATENA(Mirza and Tonelli,2016)。
- 最近,寧等人。 (2017年)
- 使用結構化學習方法,
- 并在TempEval-3(UzZaman等人,2013)和TimeBank-Dense(Cassidy等人,2014)上均表現出顯著改進。
- 寧等。 (2018)
- 通過使用約束條件模型聯合建模因果關系和時間關系并將問題表述為Interger線性規劃問題,
- 顯示了對TimeBank-Dense的進一步改進。
- 神經網絡
- 基于神經網絡的方法
- 既使用了遞歸RNN(Tourille等,2017; Cheng和Miyao,2017; Leeuwenberg和Moens,2018)
- 又使用了CNN(Dligach等,2017)。
- 此類模型還被用于根據一組預測的時間關系來構建文檔時間線(Leeuwenberg和Moens,2018)。
- 這種成對注釋的使用可能導致時間圖不一致
- 已經通過采用時間推理來努力避免這一問題
- (Chambers和Jurafsky,2008;
- Yoshikawa等,2009;
- Denis和Muller,2011;
- Do等, 2012年;
- Laokulrat等人,2016年;
- Ning等人,2017年;
- Leeuwenberg和Moens,2017年)。
- 已經通過采用時間推理來努力避免這一問題
- 這種成對注釋的使用可能導致時間圖不一致
- 基于神經網絡的方法
- 對事件持續時間進行建模
- (Pan等人,2007;
- Gusev等人,2011;
- Williams和Katz,2012),
- 盡管這項工作并未將持續時間與時間關系聯系在一起(另見Filatova和Hovy,2001)。 )。
3.數據收集
協議設計注釋者從文檔中獲得兩個連續的句子,并帶有兩個突出顯示的事件引用表達式(謂詞)。然后要求它們(i)為突出顯示的謂詞所指的事件對提供有界刻度的相對時間線; (ii)從以下列表中得出謂詞所指事件的可能持續時間:瞬時,秒,分鐘,小時,天,周,數月,數年,數十年,幾個世紀,直到永遠。另外,要求注釋者對他們的關系注釋和兩個持續時間注釋中的每一個以相同的五分制進行置信度評分-完全不信任(0),不是非常信任(1),有些確信(2),非常置信度(3),完全置信度(4)。
注釋工具的示例如圖2所示。此后,我們將謂詞所指的情況以線性順序排在第一(圖2中的饋送),稱為e1,而謂詞所指的情況以線性順序排第二(在圖2中病倒),稱為e2。
批注者我們從Amazon Mechanical Turk招募了765名批注者來批注五組謂詞對。UD-EWT訓練集中包含的每個謂詞對都由單個注釋者注釋,而UD-EWT開發和測試集中的每個謂詞對都使用三個注釋。
謂詞提取我們使用PredPatt從UD-EWT中提取謂詞(White等人,2016; Zhang等人,2017),可從16,622個句子中識別出33,935個謂詞。我們將UD-EWT中包含的文檔中的所有相鄰句子對連接起來,從而使我們能夠捕獲句子間的時間關系。考慮到相鄰句子中所有可能的謂詞對都是不可行的,因此我們使用啟發式方法來捕獲最有趣的對。 (有關詳細信息,請參見附錄A。)
**歸一化:**我們通過從所有值中減去最小滑塊值,然后將所有此類偏移值除以最大值(偏移后),標準化每個事件對的滑塊響應。這樣可以確保每個事件對的最早起點位于0,最右邊的終點位于1,同時保留滑塊所隱含的持續時間之間的比率。圖3說明了三個假設注釋器對同一事件和進行注釋的過程。假設或的持續時間類別在注釋器之間沒有差異,則事件的相對時間順序在每種情況下都相同。在絕對滑塊位置上保持相對年代很重要,因為為了確定時間關系,注釋者給出的絕對位置是沒有意義的,并且我們不希望我們的模型被迫適應這種不相關的信息。
Inter-annotator agreement批注者之間的一致性我們通過計算在開發集中注解同一組五個謂詞對的每對批注者的標準化滑塊位置之間的等級(斯皮爾曼)相關性,來測量時間關系滑塊的批注者一致性(IAA)。2開發集由724個注釋器注釋。等級相關性是一種有用的度量,因為它告訴我們每個滑塊的相對位置有多少不同的注釋器一致。注釋器之間的平均等級相關性為0.665(95%CI = [0.661,0.669])。
- 對兩個連續的句子(內含兩個事件):
- 標注兩個事件的相對時間
- 可能的持續時間
- 并對標注的置信度評級0-4
- PredPatt:從UD-EWT中提取謂詞
- 句子間的時間關系:將所有的相鄰句子對連接起來
- 啟發式方法捕捉有興趣的句子對,
- 歸一化:
- 左0,右1,同時保留隱含的持續時間比率。
- Inter-annotator agreement:
- 評價標注的效果:一致性
- 提高滑塊可解釋性(新增的4個特征)
- 優先級:開始時間
- 包含:包含的多少
- 平等性:both e1 and e2 have the same temporal extents and smallest when they are most unequal時最大(接近程度)
- SHIFT:時間的平移(前后)
原始滑塊位置本身很難直接解釋。為了提高可解釋性,我們旋轉滑塊位置空間以構造四個新維度:(i)優先級,當開始和/或結束早于時為正,否則為負。 (ii)包含,當包含更多時最有效; (iii)平等性,both e1 and e2 have the same temporal extents and smallest when they are most unequal
4.Model
- 目的:
- 對于句子中提到的每對事件,我們旨在一起預測這些事件的相對時間表及其持續時間。
- 然后,我們使用一個單獨的模型從相對時間線中導出文檔時間線
- Relative timelines
- The relative timeline model:
- 事件模型:
- 持續時間模型:
- 關系模型:
- 用于:
- 上下文嵌入:來自ELMO(Peters et al., 2018)的tune–>D維度
- embedding:三個M維上下文嵌入的concate
- 多層點積注意力:用于句子的embedding-H
- H=tanh(ELMo(s)WTUNE+bTUNE)WTUNE∈R3M×DbTUNE∈RN×DH=tanh(ELMo(s)W^{TUNE}+b^{TUNE}) \\W^{TUNE}\in \mathbb{R}^{3M\times D} \\b^{TUNE}\in \mathbb{R}^{N\times D}H=tanh(ELMo(s)WTUNE+bTUNE)WTUNE∈R3M×DbTUNE∈RN×D
- Event model
- 謂詞k所指的事件表示為gpredk∈RDg_{pred_k}\in \mathbb{R}^Dgpredk??∈RD–由點積注意力的變體建立
- 公式:apredkSPAN=tanh(AOREDSPANhROOT(predk)+bPREDSPAN)αpredk=softmax(HSPAN(predk)apredkSPANgpredk=[hROOT(predk);αpredkHSPAN(predk)]AOREDSPAN∈RD×DbPREDSPAN∈RDhROOT(predk)是隱層表達:第k個謂詞的root的HSPAN(predk):stacking整個謂詞的隱層表達a_{pred_k}^{SPAN}=tanh(A_{ORED}^{SPAN}h_{ROOT(pred_k)}+b_{PRED}^{SPAN})\\ \alpha_{pred_k}=softmax(H_{SPAN(pred_k)}a_{pred_k}^{SPAN}\\ g_{pred_k}=[h_{ROOT(pred_k)};\alpha_{pred_k}H_{SPAN(pred_k)}]\\ A_{ORED}^{SPAN}\in \mathbb{R}^{D\times D}\\ b_{PRED}^{SPAN}\in \mathbb{R}^{D}\\ h_{ROOT(pred_k)}是隱層表達:第k個謂詞的root的\\ H_{SPAN(pred_k)}:stacking整個謂詞的隱層表達apredk?SPAN?=tanh(AOREDSPAN?hROOT(predk?)?+bPREDSPAN?)αpredk??=softmax(HSPAN(predk?)?apredk?SPAN?gpredk??=[hROOT(predk?)?;αpredk??HSPAN(predk?)?]AOREDSPAN?∈RD×DbPREDSPAN?∈RDhROOT(predk?)?是隱層表達:第k個謂詞的root的HSPAN(predk?)?:stacking整個謂詞的隱層表達
- eg:舉例來說,
- my dog has been sick for about 3 days now
- 圖2中目前sick的謂詞以sick為根,因此我們將生病的隱藏表示形式表示為hROOT(predk)h_{ROOT(pred_k)}hROOT(predk?)?。
- 類似地,HSPAN(predk):H_{SPAN(pred_k)}:HSPAN(predk?)?:等同于been sick for now的隱藏狀態表示堆疊在一起。
- 然后,如果模型得知時態信息很重要,則been可能會引起注意。
- Duration model
- 謂詞k所代表的事件的歷時gdurkg_{dur_k}gdurk??–與事件模型類似
- H:不是堆疊整個謂詞的表達,而是堆疊整個句子的表達
- apredkSPAN=tanh(ADURSENTgpredk+bDURSENT)αdurk=softmax(HapredkSENT)gdurk=[gpredk;αdurkH]ADURSENT∈RD×size(gpredk)bDURSENT∈RDa_{pred_k}^{SPAN}=tanh(A_{DUR}^{SENT}g_{pred_k}+b_{DUR}^{SENT})\\ \alpha_{dur_k}=softmax(Ha_{pred_k}^{SENT})\\ g_{dur_k}=[g_{pred_k};\alpha_{dur_k}H]\\ A_{DUR}^{SENT}\in \mathbb{R}^{D\times size(g_{pred_k})}\\ b_{DUR}^{SENT}\in \mathbb{R}^{D}apredk?SPAN?=tanh(ADURSENT?gpredk??+bDURSENT?)αdurk??=softmax(Hapredk?SENT?)gdurk??=[gpredk??;αdurk??H]ADURSENT?∈RD×size(gpredk??)bDURSENT?∈RD
- 絕對持續時間的兩個model
- softmax model
- 無二項式模型的那個約束
- MLP:vdur+k=ReLU(WDUR(1)gdurk+bDUR(1))v_{dur+k}=ReLU(W_{DUR}^{(1)}g_{dur_k}+b_{DUR}^{(1)})vdur+k?=ReLU(WDUR(1)?gdurk??+bDUR(1)?)
- 產生11個持續時間的概率:p=softmax(WDUR(2)vdurk+bDUR(2))p=softmax(W_{DUR}^{(2)}v_{dur_k}+b_{DUR}^{(2)})p=softmax(WDUR(2)?vdurk??+bDUR(2)?)
- 二項式model
- 二項式模型要求:11個持續時間值的概率pdurkp_{dur_k}pdurk??在持續時間rank中是凹的
- RELu-MLP:π=σ(wDUR(2)vdurk+bDUR(2))\pi=\sigma(w_{DUR}^{(2)}v_{dur_k}+b_{DUR}^{(2)})π=σ(wDUR(2)?vdurk??+bDUR(2)?)–這是個值而不是向量
- 概率:pc=Cncπn(1?π)(n?c)p_c=C_n^c\pi^n(1-\pi)^{(n-c)}pc?=Cnc?πn(1?π)(n?c)
- loss:Ldur(dk;p)=?logpdkL_{dur}(d_k;p)=-log p_{d_k}Ldur?(dk?;p)=?logpdk??
- 11個持續時間rank
- stant (0), seconds (1), minutes (2), …, centuries (9), forever (10)
- – and n is the maximum class rank (10)
- softmax model
- Relation model
- 謂詞i和謂詞j所指事件的關系
- similar attention mechanism
- areli,jSENT=tanh(ARELSENT[gpredi;gpredj]+bRELSENT)αreli,j=softmax(Hareli,jSENT)greli,j=[gpredi;gpredj;αrelijH]ARELSENT∈RD×2size(gpredk)bRELSENT∈RDa_{rel_{i,j}}^{SENT}=tanh(A_{REL}^{SENT}[g_{pred_i};g_{pred_j}]+b_{REL}^{SENT})\\ \alpha_{rel_{i,j}}=softmax(Ha_{rel_{i,j}}^{SENT})\\ g_{rel_{i,j}}=[g_{pred_i};g_{pred_j};\alpha_{rel_{ij}}H]\\ A_{REL}^{SENT}\in \mathbb{R}^{D\times 2size(g_{pred_k})}\\ b_{REL}^{SENT}\in \mathbb{R}^Dareli,j?SENT?=tanh(ARELSENT?[gpredi??;gpredj??]+bRELSENT?)αreli,j??=softmax(Hareli,j?SENT?)greli,j??=[gpredi??;gpredj??;αrelij??H]ARELSENT?∈RD×2size(gpredk??)bRELSENT?∈RD
- 我們的時間模型背后的主要思想是將事件和狀態直接映射到時間軸,我們通過參考間隔[0,1]表示該時間軸
- 對situation k,開始點b_k<=e_k
- MLP:[βi^,δi^,βj^,δj^]=ReLU(MLP(grelij))??開始和持續時間[\hat{\beta_i},\hat{\delta_i},\hat{\beta_j},\hat{\delta_j}]=ReLU(MLP(g_{rel_{ij}}))--開始和持續時間[βi?^?,δi?^?,βj?^?,δj?^?]=ReLU(MLP(grelij??))??開始和持續時間
- sij^=[bi^,ei^,bj^,ej^][bk^,ek^]=[σ(βk^),σ(βk^+∣δk^∣)]??開始和結束sij^=normalize(sij^)\hat{s_{ij}}=[\hat{b_i},\hat{e_i},\hat{b_j},\hat{e_j}]\\ [\hat{b_k},\hat{e_k}]=[\sigma(\hat{\beta_k}),\sigma(\hat{\beta_k}+|\hat{\delta_k}|)]--開始和結束\\ \hat{s_{ij}}=normalize(\hat{s_{ij}})sij?^?=[bi?^?,ei?^?,bj?^?,ej?^?][bk?^?,ek?^?]=[σ(βk?^?),σ(βk?^?+∣δk?^?∣)]??開始和結束sij?^?=normalize(sij?^?)
- 損失函數:Lrel(sij;sij^)=∣(bi?bj)?(bi^?bj^)∣+∣(ei?bj)?(ei^?bj^)∣+∣(ej?bi)?(ej^?bi^)∣+∣(ei?ej)?(ei^?ej^)∣L_{rel}(s_{ij};\hat{s_{ij}})=|(b_i-b_j)-(\hat{b_i}-\hat{b_j})|+|(e_i-b_j)-(\hat{e_i}-\hat{b_j})|+|(e_j-b_i)-(\hat{e_j}-\hat{b_i})|+|(e_i-e_j)-(\hat{e_i}-\hat{e_j})|Lrel?(sij?;sij?^?)=∣(bi??bj?)?(bi?^??bj?^?)∣+∣(ei??bj?)?(ei?^??bj?^?)∣+∣(ej??bi?)?(ej?^??bi?^?)∣+∣(ei??ej?)?(ei?^??ej?^?)∣
- 對situation k,開始點b_k<=e_k
- final loss:L=Ldur(dk;p)+2Lrel(sij;sij^)=?logpdk+∣(bi?bj)?(bi^?bj^)∣+∣(ei?bj)?(ei^?bj^)∣+∣(ej?bi)?(ej^?bi^)∣+∣(ei?ej)?(ei^?ej^)∣L=L_{dur}(d_k;p)+2L_{rel}(s_{ij};\hat{s_{ij}})\\=-log p_{d_k}+|(b_i-b_j)-(\hat{b_i}-\hat{b_j})|+|(e_i-b_j)-(\hat{e_i}-\hat{b_j})|+|(e_j-b_i)-(\hat{e_j}-\hat{b_i})|+|(e_i-e_j)-(\hat{e_i}-\hat{e_j})|L=Ldur?(dk?;p)+2Lrel?(sij?;sij?^?)=?logpdk??+∣(bi??bj?)?(bi?^??bj?^?)∣+∣(ei??bj?)?(ei?^??bj?^?)∣+∣(ej??bi?)?(ej?^??bi?^?)∣+∣(ei??ej?)?(ei?^??ej?^?)∣
- The relative timeline model:
- Duration-relation connections
- 我們還嘗試了四種架構,其中持續時間模型和關系模型在Dur->Rel或Rel->Dur兩個方向中相互連接
- Dur->Rel架構
- 2種方法
- (i)另外將謂詞i和謂詞j的二項式持續時間概率連接起來
- grelij=[gpredi;gpredj;αreli,jH;pi;pj]g_{rel_{ij}}=[g_{pred_i};g_{pred_j};\alpha_{rel_{i,j}}H;p_i;p_j]grelij??=[gpredi??;gpredj??;αreli,j??H;pi?;pj?]
- (ii)完全不使用關系表示模型。
- grelij=[pi;pj]g_{rel_{ij}}=[p_i;p_j]grelij??=[pi?;pj?]
- (i)另外將謂詞i和謂詞j的二項式持續時間概率連接起來
- 2種方法
- Rel->Dur架構
- (i)通過連接關系模型中的bk^\hat{b_k}bk?^?和ek^\hat{e_k}ek?^?來修改gdurkg_{dur_k}gdurk??
- gdurk=[gpredk;αdurkH;bk^;ek^]g_{dur_k}=[g_{pred_k};\alpha_{dur_k}H;\hat{b_k};\hat{e_k}]gdurk??=[gpredk??;αdurk??H;bk?^?;ek?^?]
- (ii)我們完全不使用持續時間表示模型,而是使用預測的相對從關系模型獲得的持續時間ek^?bk^\hat{e_k}-\hat{b_k}ek?^??bk?^?,并通過二項分布模型。
- πdurk=ek^?bk^\pi_{dur_k}=\hat{e_k}-\hat{b_k}πdurk??=ek?^??bk?^?
- (i)通過連接關系模型中的bk^\hat{b_k}bk?^?和ek^\hat{e_k}ek?^?來修改gdurkg_{dur_k}gdurk??
- Document timelines
- UDST開發集中的文檔引入了隱藏的文檔時間線,兩個方法:
- (i)實際的成對滑塊注釋actual pairwise slider annotations
- (ii)由UDS-T開發集上性能最佳的模型預測的滑塊值。
- 假設一個隱層時間線T∈R+nd×2,2?b和持續時間,nd:文檔中謂詞的總數T\in \mathbb{R}_+^{n_d\times 2},2-b和持續時間,n_d:文檔中謂詞的總數T∈R+nd?×2?,2?b和持續時間,nd?:文檔中謂詞的總數
- 通過錨定所有謂詞的起點,使這些潛在時間線與相對時間線相連,以使文檔中始終存在以0為起點的謂詞,并為每個事件i和j定義輔助變量
- τij=[ti1,ti1+ti2,tj1,tj1+tj2]sij^=τij?min(τij)max(τij?min(τij))(歸一化)\tau_{ij}=[t_{i1},t_{i1}+t_{i2},t_{j1},t_{j1}+t_{j2}]\\ \hat{s_{ij}}=\frac{\tau_{ij}-min(\tau_{ij})}{max(\tau_{ij}-min(\tau_{ij}))}(歸一化)τij?=[ti1?,ti1?+ti2?,tj1?,tj1?+tj2?]sij?^?=max(τij??min(τij?))τij??min(τij?)?(歸一化)
- 根據關系損失為每一個文檔學習T
- 進一步約束T:
- 二項式分布來預測持續時間
- πk=σ(clog(tk2))\pi_k=\sigma(clog(t_{k_2}))πk?=σ(clog(tk2??))
- UDST開發集中的文檔引入了隱藏的文檔時間線,兩個方法:
5.實驗
對于所有實驗,我們使用批量大小為64的小批量梯度下降來訓練嵌入調諧器(將ELMo減小為256維),注意力和MLP參數。關系MLP和持續時間MLP都具有一個具有128個節點的隱藏層,且dropout概率為0.5(有關更多詳細信息,請參見附錄D)。
- 為了預測TempEval3(TE3; UzZaman等人,2013,僅任務C關系)和TimeBank-Dense(TD; Cassidy等人,2014)中的TimeML關系,我們使用了轉移學習方法。
- 我們首先在UDS-T開發集上使用性能最佳的模型,以獲取TE3和TD中每對帶注釋的事件-事件關系的關系表示(grelijg_{rel_{ij}}grelij??)(有關預處理的詳細信息,請參閱附錄E)。
- 然后,我們將此向量用作具有高斯核的SVM分類器的輸入特征,以使用從我們的模型中獲得的特征向量對這些數據集的訓練集進行訓練.
- duration的指標:
- Spearman correlation (ρ\rhoρ),
- mean rank difference (rank diff)
- proportion rank difference explained (R1)
- relation指標:
- Spearman correlation between the normalized values of actual beginning and end points and the predicted ones (absolute ρ\rhoρ)
- the Spearman correlation between the actual and predicted values in Lrel (relative ρ\rhoρ),
- the proportion of MAE explained (R1).
- R1=1?MAEmodelMAEbaselineR1=1-\frac{MAE_{model}}{MAE_{baseline}}R1=1?MAEbaseline?MAEmodel??
- R1=1?MAEmodelMAEbaselineR1=1-\frac{MAE_{model}}{MAE_{baseline}}R1=1?MAEbaseline?MAEmodel??
依據最近在事件事實性預測中使用連續標簽進行的工作(Lee等。 ,2015年; Stanovsky等人,2017年; Rudinger等人,2018年; White等人,2018年)和通用性預測(Govindarajan等人,2019年),我們報告了持續時間預測的三個指標:Spearman相關性(?) ,平均等級差異(rank diff)和比例等級差異說明(R1)。我們報告了用于關系預測的三個度量標準:實際起點和終點的標準化值與預測值(絕對值between)之間的Spearman相關性,Lrel的實際值和預測值之間的Spearman相關性(相對?)以及MAE解釋(R1)。
6.result
- UDS-T結果
- 我們的大多數模型都能夠很好地預測事件開始和結束的相對位置(高關聯ρ\rhoρ),并且事件的相對持續時間也能很好地預測(相對較低的持續時間ρ\rhoρ)
- 它們還有難以準確地預測關系
- 較容易準確地預測持續時間
- 持續時間模型
- duration:binominal>softmax
- relation:binominal=softmax
- connection:(下面的四個架構)
- 連接持續時間和關系模型通常不會提高性能。
- duration:
- 當持續時間是根據時間關系模型直接預測時,即如果不使用持續時間表示模型,則模型的性能會大幅下降,而Spearman相關系數會下降大約15個百分點。
- 這表明約束關系模型來預測持續時間是不夠的,并且需要持續時間表示來很好地預測持續時間。
- relation:
- 另一方面,直接根據持續時間概率分布預測時間關系,
- 即不使用關系表示模型的情況,其結果與性能最高的模型相近。
- 這表明持續時間表示能夠捕獲句子的大多數關系特征。
- 分別使用持續時間表示和關系表示(模型以藍色突出顯示)可在UDS-T開發集中總體上獲得最佳性能。
- 本文效果在TD-test上很好
7 Model Analysis and Timelines
- 我們在開發集上研究了表現最佳的模型的兩個方面(表2中突出顯示):
- (i)我們的持續時間和關系表示涉及什么;
- (ii)從模型的前4個構造的時間線記錄得很好,
- 我們沒有報告TE3-PT上其他系統的時間意識得分(F1),因為它們報告了所有關系的度量,包括timex-timex和event-timex關系,因此它們不能直接比較。
- 對于TD,僅報告那些報告F1-micro分數的系統。
- attention:
- 優點:我們通常可以通過分析關注權重來解釋模型使用的語言信息。
- 我們從開發集上的最佳模型中提取持續時間表示和關系表示的注意力強度
- Duration
- 注意力權重高的為時間名詞:對預測持續時間有幫助,所以不需要TimeML,因為這個模型自己能夠檢測時間
- Relation
- 注意力高的是:
- 連詞–可以獲取時間序列
- 時態信息的承擔者(?)
- 注意力高的是:
- Document timelines
- 持續時間預測不佳的一個可能原因:可能是缺少持續時間信息的直接來源。
- 該模型當前僅嘗試基于滑塊值來確定持續時間,這導致性能下降,
- 持續時間預測不佳的一個可能原因:可能是缺少持續時間信息的直接來源。
我們發現單詞表示某個時間段,例如在持續時間模型中,平均注意權重最高的單詞包括月份,分鐘,小時,年,天,周,其中前15個單詞中的七個直接表示一種持續時間類別(表3)。這正是人們可能期望此模型嚴重依賴的東西,因為時間表達式可能對預測持續時間很有幫助。這也可能表明我們不需要像框架TimeML這樣的注釋標準那樣,在我們的框架中直接編碼事件引用和時間引用表達式之間的關系,因為我們的模型可以發現它們。
持續時間模型中頭幾個單詞的其余部分是復數或整體名詞(士兵,思想等)。這可能表明多個謂詞的論點是表3所示事件可能持續時間的指示符:表3中具有最高平均持續時間注意的開發集中15個單詞的平均注意權重,平均注意等級和頻率(左)和關系注意(右)權重。對于持續時間,以粗體突出顯示的單詞直接對應于某個持續時間類別。為了聯系,粗體字是連詞或包含時態信息的字。
總結
以上是生活随笔為你收集整理的文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL,时间关系,时间持续时间,数据集,语义框架,常识)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java面试题:JDK不同版本处理IO流
- 下一篇: Postman使用小教程--基础入门篇