當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

發布時間：2024/7/5 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

Abstract
1.Introduction
2.相關工作
3. 方法
- 3.1 輸入
- - 3.1.1 字符級別表示
  - 3.1.2單詞級表示
- 3.2encoder
- - 3.2.1 base lattice LSTM encoder
  - 3.2.2 MG lattice LSTM encoder
- 3.3 關系分類器
4.實驗
- 4.1數據集
- - 4.1.2 評估
  - 4.1.2 超參數設置
- 4.2lattice的作用
- 4.3詞義表示的影響
- 4.4最終結果

Li, Z., et al. (2019). Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics: 4377–4386.
code

Abstract

中文關系提取是使用具有基于字符character或基于詞word的輸入的神經網絡進行的，并且大多數現有方法通常遭受分段錯誤和多義性的模糊性。為了解決這些問題，我們提出了一種用于中文關系提取的多粒度點陣框架（MG點陣），以利用多粒度語言信息和外部語言知識。在這個框架中，（1）我們將字級信息合并到字符序列輸入中，以便可以避免分段錯誤。（2）借助外部語言知識，我們還對多義詞的多重感知進行建模，以減輕多義歧義。與其他基線相比，在不同域中的三個真實世界數據集上的實驗顯示了我們模型的一致且顯著的優越性和穩健性。

Chinese NRE（MG lattice多粒度點陣）
- 中文關系抽取
- 神經網絡
- 多粒度
  - 基于字符+基于詞
- 解決的問題：
  - 分段錯誤（分詞？）
    - 多粒度：將詞級信息融入到字符序列輸入中
  - 多義性
    - 借助外部語言庫
    - open-sourced HowNet API (Qi et al., 2019)

1.Introduction

關系提取（RE）在信息提取（IE）中具有關鍵作用，旨在提取自然語言句子中實體對之間的語義關系。在下游應用中，該技術是構建大規模知識圖的關鍵模塊。深度學習的最新發展提高了對神經關系提取（NRE）的興趣，NRE試圖使用神經網絡自動學習語義特征（Liu et al。，2013; Zeng et al。，2014,2015; Lin et al。， 2016; Zhou等，2016; Jiang等，2016）。

NRE–神經網絡
- Liu et al。，2013;
- Zeng et al。，2014,2015;
- Lin et al。， 2016;
- Zhou等，2016;
- Jiang等，2016

雖然NRE沒有必要執行特征工程，但他們忽略了這樣一個事實，即輸入的不同語言粒度將對模型產生重大影響，特別是對于中文RE。傳統上，根據粒度的不同，中國RE的大多數現有方法可以分為兩種類型：基于字符的RE和基于字的RE。

輸入粒度影響大：
- 基于字符
  - 它將每個輸入句子視為字符序列。這種方法的缺點是它不能充分利用字級信息，捕獲的功能少于基于字的方法。
- 基于word
  - 應首先執行分詞。
  - 然后，導出一個單詞序列并將其輸入神經網絡模型。
  - 但是，基于單詞的模型的性能可能會受到分詞質量的顯著影響。
- 近平其一，難以獲得充分的語義信息

此外，數據集中存在許多多義詞的事實是現有RE模型忽略的另一個點，這限制了模型探索深層語義特征的能力。例如，“杜鵑”這個詞有兩種不同的含義，分別是“杜鵑”和“杜鵑花”。但是，如果沒有外部知識的幫助，從普通文本中學習含義信息是很困難的。因此，引入外部語言知識將對NRE模型有很大幫助。

多義詞：
- 從文本中難以得知
- 需要引入外部語言知識

2.相關工作

近年來，RE，特別是NRE，已在NLP領域得到廣泛研究。作為先驅，（

Liu et al。，2013）提出了一個簡單的CNN RE模型，它被認為是一個開創性的工作，它使用神經網絡自動學習特征。
在此基礎上，（Zeng et al。，2014）開發了一種具有最大池的CNN模型，其中位置嵌入首先用于表示位置信息。然后，
PCNNs模型（Zeng et al。，2015）為RE設計了多實例學習范例。但是，PCNNs模型存在選擇句子的問題。
為了解決這個問題，Lin等人。（2016）將注意機制應用于包中的所有實例。
此外，Jiang等人。（2016）提出了一個具有多實例和多標簽范例的模型。
雖然PCNNs模型更有效，但它們無法利用像RNN這樣的上下文信息。因此，
具有注意機制的LSTM也應用于RE任務（Zhang和Wang，2015; Zhou等，2016; Lee等，2019）。

中國RE的現有方法主要是基于字符或基于單詞的主流NRE模型的實現（Chen和Hsu，2016;Rénqvist等，2017; ZHANG等，2017; Xu等，2017）。在大多數情況下，這些方法只關注模型本身的改進，忽略了不同粒度的輸入將對RE模型產生重大影響的事實。基于字符的模型不能利用單詞的信息，捕獲比基于單詞的模型更少的特征。另一方面，基于單詞的模型的表現受到細分質量的顯著影響（Zhang and Yang，2018）。雖然有些方法用于將角色級別和單詞級別信息結合在其他NLP任務中，如字符 - 雙子星（Chen et al。，2015; Yang et al。，2017）和軟詞（Zhao和Kit，2008; Chen等）。 al。，2014; Peng和Dredze，2016），信息利用率仍然非常有限。

中文NRE
- 未考慮粒度
  - Chen和Hsu，2016;Rénqvist等，2017; ZHANG等，2017; Xu等，2017）
- 多粒度
  - haracter-bigrams (Chen et al., 2015; Yang et al., 2017) and
  - soft words (Zhao and Kit, 2008; Chen et al., 2014; Peng and Dredze, 2016)
樹LSTM
lattice LSTM
- 可處理多粒度
- 無法處理多義詞
HowNet proposed by Dong and Dong (2003)
- 引入外部語言庫
本文中使用： open-sourced HowNet API (Qi et al., 2019)

泰等人。（2015）提出了一種樹狀LSTM模型來改進語義表示。這種類型的結構已經應用于各種任務，包括人類行為識別（Sun et al。，2017），NMT編碼器（Su et al。，2017），語音標記化（Sperber et al。，2017）和NRE（Zhang和楊，2018年）。雖然lattice LSTM模型可以利用單詞和單詞序列信息，但它仍然可能受到多義詞模糊性的嚴重影響。換句話說，隨著語言情境的變化，這些模型無法處理單詞的多義詞。因此，引入外部語言知識是非常必要的。我們在Dong和Dong（2003）提出的知網的幫助下利用感知級信息，這是一個概念知識庫，用相關的詞義來注釋中文。此外，我們的工作中也使用了開源的HowNet API（Qi et al。，2019）。

3. 方法

給定一個中文句子和兩個標記實體，中文關系提取的任務是提取兩個實體之間的語義關系。在本節中，我們將詳細介紹用于中文關系抽取的MG點陣模型。如圖2所示，該模型可以從三個方面介紹：輸入表示。給定具有兩個目標實體作為輸入的中文句子，該部分表示句子中的每個單詞和字符。然后，該模型可以利用單詞級和字符級信息。

MG lattice chinese NRE
- 輸入表示
  - 輸入：給定含有兩個目標實體的句子作為輸入
  - 表示：每個詞和字
  - 這個模型可以利用這兩個信息
- MG lattice 編碼器
  - lattice LSTM
  - 將外部知識結合到詞義消歧中，
  - 為每個輸入實例構建分布式表示。
- 關系分類器
  - 在學習隱藏狀態之后，字符級機制用于于合并特征。
  - 然后將最終的句子表示輸入softmax分類器以預測關系。

3.1 輸入

3.1.1 字符級別表示

每個字的嵌入->一個句子
- Skip-gram model (Mikolov et al., 2013).
位置嵌入position feature– $pi1={i?b1i<b10b1≤i≤e1i?e1i>e1p_i^1=\begin{cases}i-b^1&& i<b^1\\0&& b^1\leq i\leq e^1\\i-e^1&&i>e^1\end{cases}$
最終輸入 $x=concate[x_{ce},x_{p1},x_{p2}]$

3.1.2單詞級表示

雖然我們的模型將字符序列作為直接輸入，但為了完全捕獲字級特征，它還需要輸入句子中所有潛在單詞的信息。這里，潛在的單詞是任何字符子序列，它匹配在分段的大原始文本上構建的詞典D中的單詞。讓成為從第b個字符到第e個字符的子序列。為了表示，我們使用word2vec（Mikolov等，2013）將其轉換為實值向量。

文本中所有出現在詞典上的單詞–>word2vec–>向量表示 $w_{b,e}-->x_{b,e}^w$
- word2vec:不考慮多義詞
- 用HowNet作為外部知識庫納入model–>一個含義對應一個向量
- 操作
  - 給定單詞 $w_{b,e}$
  - 通過HowNet檢索，得到他的K個含義
  - 每個含義映射到一個向量 $x_{b,e,k}^{sense}$ (SAT模型，基于skip-gram)
    - SAT (Sememe Attention over Target)
  - 得到他的含義向量集合： $x_{b,e}^{sense}=\{x_{b,e,1}^{sense},...,x_{b,e,K}^{sense}\}$
    - 這就是 $w_{b,e}$ 的表示

3.2encoder

編碼器的
- 直接輸入：是字符序列，以及詞典D中的所有潛在單詞。 all potential words in lexicon D
- 訓練之后，編碼器的輸出：是輸入句子的隱藏狀態向量h。
- 我們引入了兩種策略的編碼器，包括
  - 基本晶格LSTM（lattice）
  - 多晶格（MG晶格）LSTM。

3.2.1 base lattice LSTM encoder

基于字符的LSTM
- ${ijc=σ(Wixjc+Uihj?1c+bi)（輸入門）ojc=σ(Woxjc+Uohj?1c+bo)（輸出門）fjc=σ(Wfxjc+Ufhj?1c+bf)（遺忘門）c~jc=tanh(Wcxjc+Uchj?1c+bc)cjc=fjc?cj?1c+ijc?c~jchjc=ojc?tanh(cjc)\begin{cases}i_j^c=\sigma(W_ix_j^c+U_ih_{j-1}^c+b_i)（輸入門）\\ o_j^c=\sigma(W_ox_j^c+U_oh_{j-1}^c+b_o)（輸出門）\\ f_j^c=\sigma(W_fx_j^c+U_fh_{j-1}^c+b_f)（遺忘門）\\ \tilde{c}_j^c=tanh(W_cx_j^c+U_ch_{j-1}^c+b_c)\end{cases}\\ c_j^c=f_j^c\bigodot c_{j-1}^c+i_j^c\bigodot \tilde{c}_j^c\\ h_j^c=o_j^c\bigodot tanh(c_j^c)$
base lattice LSTM encoder(在上面基本LSTM的基礎上）
- $x_{b,e}^w=e^w(w_{b,e})嵌入$
- ${ib,ew=σ(Wixb,ew+Uihbc+bi)（輸入門）fb,ew=σ(Wfxb,ew+Ufhbc+bf)（遺忘門）c~b,ew=tanh(Wcxb,ew+Uchbc+bc)cb,ew=fb,ew?cbc+ib,ew?c~b,ewb∈{b′∣wb′,e∈D}\begin{cases}i_{b,e}^w=\sigma(W_ix_{b,e}^w+U_ih_{b}^c+b_i)（輸入門）\\ f_{b,e}^w=\sigma(W_fx_{b,e}^w+U_fh_{b}^c+b_f)（遺忘門）\\ \tilde{c}_{b,e}^w=tanh(W_cx_{b,e}^w+U_ch_{b}^c+b_c)\end{cases}\\ c_{b,e}^w=f_{b,e}^w\bigodot c_{b}^c+i_{b,e}^w\bigodot \tilde{c}_{b,e}^w\\ b\in \{b'|w_{b',e} \in D\}$
- 為了控制每個詞的貢獻，需要額外的門：
  $ib,ec=σ(Wixec+Uihb,ew+bl)cec=Σb∈{b′∣wb′,e∈D}αb,ec?cb,ew+αec?c~ecαb,ec=exp(ib,ec)exp(ib,ec+Σb′∈{b′∣wb′,e∈D}exp(ib′,ec)αec=exp(iec)exp(iec+Σb′∈{b′∣wb′,e∈D}exp(ib′,ec)i_{b,e}^c=\sigma(W_ix_{e}^c+U_ih_{b,e}^w+b^l)\\ c_e^c=\Sigma_{b\in \{b'|w_{b',e} \in D\}}\alpha_{b,e}^c \bigodot c_{b,e}^w+\alpha_e^c\bigodot \tilde{c}_e^c\\ \alpha_{b,e}^c=\frac{exp(i_{b,e}^c)}{exp(i_{b,e}^c+\Sigma_{b'\in \{b'|w_{b',e} \in D\}}exp(i_{b',e}^c)}\\ \alpha_{e}^c=\frac{exp(i_{e}^c)}{exp(i_{e}^c+\Sigma_{b'\in \{b'|w_{b',e} \in D\}}exp(i_{b',e}^c)}$
- 最后得到隱層表示 $hjc=ojc?tanh(cjc)??j對應于句子中每個characterh_j^c=o_j^c\bigodot tanh(c_j^c)--j對應于句子中每個character$

3.2.2 MG lattice LSTM encoder

base lattice LSTM encoder
- 一個單詞一個向量，不考慮多義詞
- ${ib,e,ksense=σ(Wixb,e,ksense+Uihbc+bi)（輸入門）fb,e,ksense=σ(Wfxb,e,ksense+Ufhbc+bf)（遺忘門）c~b,e,ksense=tanh(Wcxb,e,ksense+Uchbc+bc)cb,e,ksense=fb,e,ksense?cbc+ib,e,ksense?c~b,e,ksenseb∈{b′∣wb′,e∈D}\begin{cases}i_{b,e,k}^{sense}=\sigma(W_ix_{b,e,k}^{sense}+U_ih_{b}^c+b_i)（輸入門）\\ f_{b,e,k}^{sense}=\sigma(W_fx_{b,e,k}^{sense}+U_fh_{b}^c+b_f)（遺忘門）\\ \tilde{c}_{b,e,k}^{sense}=tanh(W_cx_{b,e,k}^{sense}+U_ch_{b}^c+b_c)\end{cases}\\ c_{b,e,k}^{sense}=f_{b,e,k}^{sense}\bigodot c_{b}^c+i_{b,e,k}^{sense}\bigodot \tilde{c}_{b,e,k}^{sense}\\ b\in \{b'|w_{b',e} \in D\}$
- $cb,esense=Σkαb,e,ksense?cb,e,ksensealphab,e,ksense=exp(ib,e,ksense)Σk′Kexp(ib,e,k′sense)cec=Σb∈{b′∣wb′,e∈D}αb,esense?cb,esense+αec?c~ecc_{b,e}^{sense}=\Sigma_k\alpha_{b,e,k}^{sense} \bigodot c_{b,e,k}^{sense}\\ alpha_{b,e,k}^{sense}=\frac{exp(i_{b,e,k}^{sense})}{\Sigma_{k'}^Kexp(i_{b,e,k'}^{sense})}\\ c_e^c=\Sigma_{b\in \{b'|w_{b',e} \in D\}}\alpha_{b,e}^{sense} \bigodot c_{b,e}^{sense} +\alpha_e^c\bigodot \tilde{c}_e^c$
- 最后得到隱層表示 $hjc=ojc?tanh(cjc)??j對應于句子中每個characterh_j^c=o_j^c\bigodot tanh(c_j^c)--j對應于句子中每個character$

3.3 關系分類器

上面得到了字符級的h
attention連接：
- $H=tanh(h)α=softmax(wTH)h?=hαTH=tanh(h)\\ \alpha=softmax(w^TH)\\ h^*=h\alpha^T$
概率
- $o=Wh^*+b\\p(y|s)=softmax(o)$
損失函數
- $J(θ)=Σi=1Tlogp(y(i)∣S(i),θ)J(\theta)=\Sigma_{i=1}^Tlogp(y^{(i)}|S^{(i)},\theta)$

4.實驗

在本節中，我們對三個手動標記的數據集進行了一系列實驗。與其他型號相比，我們的模型顯示出優越性和有效性。此外，泛化是我們模型的另一個優點，因為有五個語料庫用于構建三個數據集，這些數據集在主題和寫作方式上完全不同。實驗將按如下方式組織：（1）首先，我們通過將基于字符和基于字的模型進行比較，研究模型將字符級和字級信息結合起來的能力; （2）然后我們關注感知表示的影響，在三種不同的基于格子的模型中進行實驗; （3）最后，我們在關系提取任務中與其他提出的模型進行了比較。

本模型特點：泛化性

4.1數據集

中文的數據集
- Chinese SanWen (Xu et al., 2017),
  - 包含837篇中國文獻文章中的9種關系類型，其中695篇文章用于培訓，84篇用于測試，其余58篇用于驗證。ACE 2005數據集是從新聞專線，廣播和網絡日志中收集的，包含8023個關系事實和18個關系子類型。我們隨機選擇75％來訓練模型，剩下的用于評估。
- ACE 2005 Chinese corpus (LDC2006T06)
- FinRE.
  - 為了在測試域中實現更多樣化，我們在新浪財經2中手動注釋來自2647個財務新聞的FinRE數據集，分別用13486,3727和1489個關系實例進行培訓，測試和驗證。FinRE包含44個不同的關系，包括特殊關系NA，表示標記的實體對之間沒有關系。

4.1.2 評估

precision-recall curve,
F1-score,
Precision at top N predictions (P@N) and
area under the curve (AUC).

4.1.2 超參數設置

通過使用驗證數據集上的評估結果提前停止來選擇最佳模型。對于其他參數，我們遵循經驗設置，因為它們對我們模型的整體性能幾乎沒有影響。
F1

4.2lattice的作用

在這一部分中，我們主要關注編碼器層的效果。如表2所示，我們在所有數據集上對基于char，基于單詞和基于點陣的模型進行了實驗。通過用雙向LSTM替換晶格編碼器來實現基于字和基于字符的基線。此外，字符和單詞功能分別添加到這兩個基線，以便它們可以同時使用字符和單詞信息。
對于單詞基線，我們利用額外的CNN / LSTM來學習每個單詞的字符的隱藏狀態（char CNN / LSTM）。
對于char基線，bichar和softword（當前字符所在的單詞）用作wordlevel特征以改進字符表示。基于點陣的方法包括兩個基于格的模型，它們都可以明確地利用字符和單詞信息。基本網格使用3.2.1中提到的編碼器，它可以將字級信息動態地合并到字符序列中。
對于MG晶格，每個感測嵌入將用于構建獨立的感測路徑。因此，不僅有單詞信息，還有信息信息流入細胞狀態。

結果證明了：
- 獲取兩種信息的model優于僅含單個信息的model
- 證明了利用基于格的模型利用字符和單詞序列信息的能力。

4.3詞義表示的影響

在本節中，我們將通過利用具有不同策略的感知級信息來研究詞義表示的效果。因此，在我們的實驗中使用了三種基于晶格的模型。
- 首先，基本點陣模型使用word2vec（Mikolov等，2013）來訓練單詞嵌入，它不考慮單詞含義信息。
- 然后，我們引入基本格（SAT）模型作為比較，其中預訓練的單詞嵌入通過含義信息得到改善（Niu等，2017）。
- 此外，MG點陣模型使用有意嵌入來構建獨立路徑并動態選擇適當的感知。
MG效果好

為了更直觀地比較和分析所有基于晶格的模型的有效性，我們報告了圖3中ACE-2005數據集的精確回憶曲線作為示例。
盡管基本晶格（SAT）模型獲得了比原始基本晶格模型更好的整體性能，但是當召回率低時精度仍然較低，這對應于表3中的結果。

結論：
- 僅在預訓練階段考慮多個感覺會增加單詞表示的噪聲。
  - 換句話說，單詞表示往往傾向于語料庫中常用的含義，當正確的當前單詞的正確含義不是常見的時，這會干擾模型。
  - 盡管如此，MG晶格模型成功地避免了這個問題，在曲線的所有部分都能提供最佳性能。該結果表明MG晶格模型不受噪聲信息的顯著影響，因為它可以動態地選擇不同上下文中的感測路徑。雖然MG晶格模型顯示了整體結果的有效性和穩健性，但值得注意的是，改進是有限的。
- 這種情況表明，仍可以改進多粒度信息的利用。

4.4最終結果

我們對上面提到的五種模型的基于字符和基于單詞的版本進行了實驗。結果表明，基于字符的版本比所有數據集上的所有模型的基于單詞的版本表現更好。因此，我們僅在以下實驗中使用五種選定模型的基于字符的版本。
為了公平起見，我們在BLSTM和Att-BLSTM中添加了位置嵌入，這些都沒有在原始論文中使用。

為了進行全面的比較和分析，我們報告了圖4中的精確回憶曲線和表4中的F1分數和AUC。從結果中，我們可以觀察到：
- （1）基于格子的模型在來自不同領域的數據集上顯著優于其他提出的模型。
  - 由于多義信息，MG晶格模型在所有模型中表現最佳，顯示出中國RE任務的優越性和有效性。結果表明，感知級信息可以增強從文本中捕獲深層語義信息的能力。
- （2）基本點陣模型和MG點陣模型之間的差距在數據集FinRE上變窄。造成這種現象的原因在于，財務報告是由財務報告語料庫構建的，而財務報告的詞語通常是嚴謹而明確的。
- （3）相比之下，PCNN和PCNN + ATT模型在SanWen和ACE數據集中表現更差。原因是這兩個數據集中的實體對之間存在位置重疊，使得PCNN無法充分利用分段機制。結果表明基于PCNN的方法高度依賴于數據集的形式。相比之下，我們的模型顯示了所有三個數據集的穩健性。

總結

以上是生活随笔為你收集整理的论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： SSM：Cause: java.sql.
下一篇： chatbot2 RNN语言模型