當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE）

發布時間：2024/7/5 编程问答 59 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

abstrac
1.Introduction
2 Transformer Language Model
- 2.1 Transformer-Decoder
- 2.2 Unsupervised Pre-training of Language Representations
3 Multi-Instance Learning with the Transformer
- 3.1 Distantly Supervised Fine-tuning on Relation Extraction
- 3.2input represent
4.實驗
- 4.2pre-train
- 4.3參數
5.Result
- 5.1 Held-out Evaluation
6.相關工作

Alt, C., et al. (2019). Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics: 1388–1398.
code

abstrac

遠程監督的關系提取被廣泛用于從文本中提取關系事實，但是卻帶有嘈雜的標簽。當前的關系提取方法試圖通過多實例學習并通過提供支持的語言和上下文信息來減輕噪聲，以更有效地指導關系分類。在獲得最新結果的同時，我們觀察到這些模型偏向于以高精度識別有限的一組關系，而忽略了那些長尾巴的關系。為了解決這一差距，我們利用了預訓練的語言模型OpenAI生成式預訓練的變壓器（GPT）（Radford et al。，2018）。GPT和類似的模型已經顯示出可以捕獲語義和句法特征，并且還捕獲了大量的“常識”知識，我們假設這些知識是識別更多種關系的重要特征。通過將GPT擴展到遠程監督的設置，并在NYT10數據集上對其進行微調，我們顯示出它可以預測具有較高置信度的更多不同類型的關系。手動和自動評估我們的模型表明，它在NYT10數據集上達到了0.422的最新AUC評分，并且在更高的召回水平下表現尤其出色。

遠程監督
- 問題：有噪音,知識庫不完整
- 解決：多實例學習+語言和上下文信息
- 問題：多實例傾向于識別多的關系，而忽略long-tail的關系
- 解決：本文（使用GPT
預訓練GPT
- the OpenAI Generative Pre-trained Transformer
- 類似的模型：
  - 可以捕獲語義
  - 捕獲句法特征
  - 捕獲常識
本文：DISTRE
- 假設：這些知識是識別更多關系的重要特征
  - 我們假設，經過預訓練的語言模型可為遠程監督提供更強的信號，并基于無監督的預訓練中獲得的知識更好地指導關系提取。用隱式特征替換顯式語言和輔助信息可改善域和語言的獨立性，并可能增加公認關系的多樣性。
- 做法：將GPT擴展到遠程監督
  - 選擇性注意機制+GPT
    - 選擇性注意機制:用以處理多實例
      - 這樣可以最大程度地減少顯式特征提取，并減少錯誤累積的風險。
  - self-attention的體系結構允許模型有效地捕獲遠程依賴關系，
  - 而語言模型則可以利用有關在無監督的預訓練過程中獲得的實體與概念之間的關系的知識。
- 數據集：NYT10
- 本文貢獻
  - 通過匯總句子級別的信息并有選擇地關注以產生袋子級別的預測（第3節），我們將GPT擴展為處理遠程監管數據集的袋子級別，多實例訓練和預測。
  - 我們在NYT10數據集上評估了精細調整的語言模型，并證明了它與RESIDE（Vashishth等人，2018）和PCNN + ATT（Lin等人，2016）相比，在持續評估中（§4，§5.1）獲得了最新的AUC。
  - 我們通過對排名預測進行手動評估來跟蹤這些結果，這表明我們的模型預測了一組更多樣化的關系，并且在較高的召回水平下表現尤其出色（第5.2節）。

1.Introduction

關系提取（RE）被定義為識別文本中提到的概念之間的關系的任務，是許多自然語言處理應用程序的重要組成部分，例如知識庫（Ji和Grishman，2011）和問題解答（Yu等）。。，2017）。遠程監管（Mintz等人，2009； Hoffmann等人，2011）是一種流行的方法，可通過將文本中的實體元組與知識庫中的已知關系實例對齊來啟發式地生成用于訓練RE系統的標記數據，但會產生嘈雜的標記和不完整的知識庫信息（Min等人，2013； Fan等人，2014）。圖1顯示了三個標記有現有KB關系的句子的示例，其中兩個是誤報，實際上并未表達該關系。

當前最先進的RE方法試圖通過應用多實例學習方法（Mintz等，2009; Surdeanu等，2012; Lin等，2016）并通過明確指導模型來應對這些挑戰提供的語義和句法知識，例如詞性標簽（Zeng等，2014）和依存關系解析信息（Surdeanu等，2012; Zhang等，2018b）。最近的方法還利用輔助信息，例如釋義，關系別名和實體類型（Vashishth et al。，2018）。但是，我們注意到這些模型通常偏向于以高精度識別有限的一組關系，而忽略了長尾關系（請參見5.2節）。

當前遠程監督：
- 多實例學習：（Mintz等，2009; Surdeanu等，2012; Lin等，2016）
- 通過明確指導模型來應對這些挑戰提供的語義和句法知識，
  - 例如詞性標簽（Zeng等，2014）和
  - 依存關系解析信息（Surdeanu等，2012; Zhang等，2018b）。
- 最近的方法還利用輔助信息，例如
  - 釋義，關系別名和實體類型（Vashishth et al。，2018）

深度語言表示，例如由Transformer（Vaswani等人，2017）通過語言建模（Radford等人，2018）學到的內容已被證明僅通過無監督的預訓練即可隱式捕獲文本的有用語義和句法屬性（Peters等人， 2018年），如在各種自然語言處理任務上的先進表現所證明的那樣（Vaswani等人，2017; Peters等人，2018; Radford等人，2018; Devlin等人， 2018），包括監督關系提取（Alt等人，2019）。Radford等。（2019年）甚至發現語言模型在回答開放域問題時表現出色，而無需接受實際任務的培訓，這表明它們捕獲了數量有限的“常識”知識。

我們假設，經過預訓練的語言模型可為遠程監督提供更強的信號，并基于無監督的預訓練中獲得的知識更好地指導關系提取。用隱式特征替換顯式語言和輔助信息可改善域和語言的獨立性，并可能增加公認關系的多樣性。

在本文中，我們介紹了一種用于關系提取的遠程監督變壓器（DISTRE）。我們通過選擇性注意機制擴展了標準的Transformer體系結構，以處理多實例學習和預測，這使我們可以直接在遠程監督的RE任務上微調預訓練的Transformer語言模型。這樣可以最大程度地減少顯式特征提取，并減少錯誤累積的風險。另外，自我專注的體系結構允許模型有效地捕獲遠程依賴關系，而語言模型則可以利用有關在無監督的預訓練過程中獲得的實體與概念之間的關系的知識。與競爭基準模型相比，我們的模型在NYT10數據集上的最新AUC得分達到0.422，并且在較高的召回水平下表現尤其出色。我們選擇GPT作為我們的語言模型是因為它的微調效率和合理的硬件要求,相比于基于LSTM的語言模型（Ruder和Howard，2018; Peters等，2018）或BERT（Devlin等，2018）。

本文貢獻
- 通過匯總句子級別的信息并有選擇地關注以產生袋子級別的預測（第3節），我們將GPT擴展為處理遠程監管數據集的袋子級別，多實例訓練和預測。
- 我們在NYT10數據集上評估了精細調整的語言模型，并證明了它與RESIDE（Vashishth等人，2018）和PCNN + ATT（Lin等人，2016）相比，在持續評估中（§4，§5.1）獲得了最新的AUC。
- 我們通過對排名預測進行手動評估來跟蹤這些結果，這表明我們的模型預測了一組更多樣化的關系，并且在較高的召回水平下表現尤其出色（第5.2節）。

2 Transformer Language Model

介紹：the Transformer language model as introduced by Radford et al. (2018).
- 我們首先定義變壓器解碼器（第2.1節），
- 然后介紹如何通過語言建模目標函數學習上下文表示（第2.2節）。

2.1 Transformer-Decoder

圖2中所示的Transformer-Decoder（Liu等人，2018a）是原始Transformer的僅解碼器變體（Vaswani等人，2017）。像原始的Transformer一樣，該模型在多層（即Transformer塊）上重復編碼給定的輸入表示形式，包括遮蓋的多頭自我注意，然后進行位置前饋操作。與原始解碼器塊相反，此版本不包含任何形式的非屏蔽自我關注，因為沒有編碼器塊。形式化如下：

Transformer-Decoder（Liu等人，2018a）
- 原始Transformer的僅解碼器變體（Vaswani等人，2017）
- 在多層（即Transformer塊）上
  - 重復編碼給定的輸入表示形式，包括
    - masked的多頭自我注意，
  - 然后進行位置前饋操作
- 與origin不同：不包含任何形式的非屏蔽自我關注，因為沒有編碼器塊
- $h0=TWe+Wphl=tf_block(hl?1),?l∈[1,L]h_0=TW_e+W_p\\ h_l=tf\_block(h_{l-1}) ,\forall l\in[1,L]$
  - T :is a matrix of one-hot row vectors of the token indices in the sentence
  - We:word embedding
  - Wp:position embedding

2.2 Unsupervised Pre-training of Language Representations

目標函數：極大似然估計
- $L1(C)=ΣilogP(ci∣ci?1,...,ci?k;θ)L_1(C)=\Sigma_i log P(c_i|c_{i-1},...,c_{i-k};\theta)$
  - C–語料，
  - k-窗口尺寸
- $P(C)=softmax(h_LW_e^T)$

3 Multi-Instance Learning with the Transformer

3.1 Distantly Supervised Fine-tuning on Relation Extraction

$D=\{(x_i,head_i,tail_i,r_i)\}_{i=1}^N\\x_i-token\\head_i,tail_i--頭實體和尾實體$
標簽r不可靠，所以用bag_level
bag: $S=(x_1,x_2,...,x_n)--有同樣的r(head,tail)的一組句子$
- 包的表達式： $s=Σi=1nαisi,si是xi的表達（hL)s=\Sigma_{i=1}^n \alpha_is_i,s_i是x_i的表達（h_L)$
  - $αi=exp(sir)Σj=1nexp(sjr)\alpha_i=\frac{exp(s_ir)}{\Sigma_{j=1}^nexp(s_jr)}$
$P(l∣S,θ)=softmax(Wrs+b)L2(D)=Σi=1∣S∣logP(li∣Si,θ)L(D)=λ?L1(D)+L2(D)P(l|S,\theta)=softmax(W_rs+b)\\ L_2(D)=\Sigma_{i=1}^{|S|} log P(l_i|S_i,\theta)\\ L(D)=\lambda*L_1(D)+L_2(D)$

3.2input represent

我們的輸入表示形式（參見圖3）將每個句子編碼為標記序列。為了利用子詞信息，我們使用

字節對編碼（BPE）對輸入文本進行標記化（Sennrich et al。，2016）。
- BPE算法創建以單個字符開頭的子單詞標記的詞匯表。
- 然后，該算法將最頻繁出現的令牌迭代合并到新令牌中，直到達到預定的詞匯量為止。
- 對于每個令牌，我們通過將相應的令牌嵌入和位置嵌入相加來獲得其輸入表示。

雖然該模型在純文本句子上進行了預訓練，但是關系提取需要結構化的輸入，即句子和關系參數。為了避免特定于任務的體系結構更改，我們采用類似于Radford等人的遍歷樣式方法。（2018）。特定于任務的結構化輸入被轉換為有序序列，無需架構更改即可直接輸入模型。圖3直觀地顯示了輸入格式。它從頭和尾實體的標記開始，由定界符分隔，然后是包含實體對的句子的標記序列，并以特殊的分類標記結束。分類令牌向模型發出信號，以生成用于關系分類的句子表示。由于我們的模型是從左到右處理輸入的，因此我們將關系參數添加到開頭，以在處理句子的標記序列時將注意力機制偏向于標記表示。

traversal-style approach similar to Radford et al. (2018).
- 純文本–>有序序列：避免結構更改

4.實驗

數據集：NYT10
- 其中2005-2006年用于培訓，
- 2007年用于測試
baseline:
- PCNN + ATTN（Lin等人，2016）
  - 將每個輸入語句分成實體對的左，中和右部分，然后進行卷積編碼和選擇性注意，以袋級表示形式通知關系分類器。
- RESIDE（Vashishth等人，2018）
  - RESIDE使用雙向門控循環單元（GRU）編碼輸入語句，然后
  - 使用圖卷積神經網絡（GCN）編碼顯式提供的依存關系分析樹信息。
  - 然后，將其與命名實體類型信息組合在一起，以獲得可以通過選擇性注意進行匯總并轉發給關系分類器的句子表示。

4.2pre-train

we reuse the language model3 published by Radford et al. (2018) for our experiments.
- 該模型在BooksCorpus上進行了訓練（Zhu等人，2015年），其中包含約7,000種未出版的書籍，總共有超過8億個單詞的不同體裁。該模型由具有12個關注頭和768維狀態的解碼器塊以及3072維狀態的前饋層組成。我們重用了該模型的字節對編碼詞匯byte-pair encoding，但使用任務特定的令牌（例如，開始，結束，定界符）對其進行了擴展。

4.3參數

adam
$β1=0.9β2=0.999batchsize=8lr=6.25e?5,使用lrdecayattentiondropout=0.1classifierdropout=0.2epoches=3\beta_1=0.9\\\beta_2=0.999\\batch_size=8\\lr=6.25e^{-5},使用lr_decay\\attention_dropout=0.1\\classifier_dropout=0.2\\epoches=3$

5.Result

5.1 Held-out Evaluation

這表明PCNN模型對短模式和簡單模式的排名高于參數之間距離較大的更復雜模式。

6.相關工作

關系提取RE中的初始工作使用統計分類器或基于內核的方法，結合離散的句法特征，
- 例如詞性和命名實體標簽，形態特征和WordNet上位詞（Mintz等，2009； Hendrickx等。，2010）。
這些方法已被基于序列的方法所取代，包括
- 遞歸（Socher等人，2012； Zhang和Wang，2015）和
- 卷積神經網絡（Zeng等人，2014，2015）。
因此，離散特征已被單詞和句法特征的分布式表示所取代（Turian等，2010； Pennington等，2014）。
徐等。（2015a，b）將最短依賴路徑（SDP）信息集成到基于LSTM的關系分類模型中。
考慮到SDP對于關系分類很有用，因為它專注于句子中的動作和主體（Bunescu和Mooney，2005年； Socher等人，2014年）
。張等。（2018b）通過將修剪和圖卷積的組合應用于依賴樹，為TACRED數據集上的關系提取建立了新的技術。
最近，Verga等人。（2018）通過自定義架構擴展了Transformer架構，用于受監管的生物醫學命名實體和關系提取。相比之下，我們微調了預訓練的語言表示，只需要遠距離監督的注釋標簽。
遠程監督關系提取早期遠程監督方法
- （Mintz等，2009）使用多實例學習（Riedel等，2010）和
- 多實例多標簽學習（Surdeanu等，2012； Hoffmann等，（2011）建立模型，假設每個關系實例至少可以正確表達一個關系。
- 隨著神經網絡的日益普及，
  - PCNN（Zeng等，2014）成為使用最廣泛的架構，擴展了多實例學習（Zeng等，2015），
  - 選擇性注意（Lin等，2016; Han等，2018），
  - 對抗訓練（Wu等，2017; Qin等，2018），
  - 噪聲模型（Luo等，2017）和
  - 軟標簽（Liu等，2017; Wang等）等（2018）。
- 最近的工作表明
  - 圖卷積（Vashishth等人，2018）和
  - 膠囊網絡（Zhang等人，2018a），先前應用于監督環境（Zhang等人，2018b），也適用于遠距離監督環境。
- 此外，語言和語義背景知識對完成任務很有幫助，但建議的系統通常依賴于顯式功能，例如
  - 依賴關系樹，命名實體類型和關系別名（Vashishth等人，2018; Yaghoobzadeh等人，2017））或
  - 任務和領域特定的預訓練（Liu等人，2018b; He等人，2018），而
  - distre僅依賴于語言模型在無監督的預訓練過程中捕獲的特征。
語言表示形式和遷移學習深度語言表示形式已被證明是無監督預訓練的有效形式。
- 彼得斯等。（2018）引入了來自語言模型（ELMo）的嵌入，這是一種通過訓練雙向LSTM來優化不相交的雙向語言模型目標來學習上下文化單詞表示的方法。他們的結果表明，用上下文化的詞表示代替靜態的預訓練詞向量（Mikolov等，2013； Pennington等，2014）可顯著提高各種自然語言處理任務的性能，例如語義相似性，共指解析和語義。角色標簽。
- Ruder和Howard（2018）發現無監督語言建模學習的語言表示形式可以顯著提高文本分類性能，防止過度擬合并提高樣本效率。
- Radford等。（2018）證明了我們的模型所基于的通用域預訓練和任務特定的微調在幾個問題回答，文本分類，文本蘊涵和語義相似性任務上取得了最新的成果。
- Devlin等。（2018）通過引入空位填充目標來共同訓練雙向語言模型，進一步擴展了語言模型的預訓練。最近（Radford等人，2019）發現，語言模型的大小顯著增加，可以更好地將其推廣到下游任務，同時仍然不足以容納大型文本語料庫。

總結

以上是生活随笔為你收集整理的论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一张图带你了解JRE、JDK、JVM
下一篇：论文阅读课3-GraphRel: Mod