日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF

發(fā)布時(shí)間:2024/7/5 编程问答 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • 1.Introduction
  • 2 model
    • 2.1 LSTM
    • 2.2BI-LSTM
      • BPTT
  • 2.3 CRF
  • 2.4 LSTM-CRF
  • 參考文獻(xiàn)

本篇論文介紹了LSTM網(wǎng)絡(luò)、BI-LSTM網(wǎng)絡(luò)、CRF網(wǎng)絡(luò)、LSTM-CRF網(wǎng)絡(luò)、BI-LSTM-CRF網(wǎng)絡(luò),比較將它們用于自然語言處理的性能與準(zhǔn)確率。重點(diǎn)介紹了BI-LSTM-CRF網(wǎng)絡(luò)。

1.Introduction

  • 序列標(biāo)記
    • 包括詞性標(biāo)記(POS)、
    • 分塊標(biāo)記和
    • 命名實(shí)體識(shí)別(NER)
  • 本文以前
    • 統(tǒng)計(jì)模型
      • Hidden Markov Models (HMM),
      • Maximum entropy Markov models (MEMMs) (McCallum et al.,2000), and
      • Conditional Random Fields (CRF)(Lafferty et al., 2001)。
    • 神經(jīng)網(wǎng)絡(luò)
      • 基于卷積網(wǎng)絡(luò)的模型(Collobert et al., 2011)
        • Conv-CRF等模型,因?yàn)樗粋€(gè)卷積網(wǎng)絡(luò)和CRF層輸出(這個(gè)詞的句子級(jí)別loglikelihood (SSL)是用于原始論文)。
        • Conv-CRF模型產(chǎn)生了有前景的結(jié)果序列標(biāo)記任務(wù)。
      • 在演講語言理解社區(qū),
        • 遞歸神經(jīng)網(wǎng)絡(luò)(Mesnil et al ., 2013;Yao et al ., 2014)和
        • 基于卷積網(wǎng)(Xu and Sarikaya, 2013)最近提出的模型。
      • 其他相關(guān)工作包括(Graves et al ., 2005;Graves et al ., 2013)提出了一個(gè)雙向遞歸神經(jīng)網(wǎng)絡(luò)語音識(shí)別。
  • 貢獻(xiàn)
    • 1)系統(tǒng)比較了上述模型在NLP標(biāo)記數(shù)據(jù)集上的性能;
    • 2)首次將雙向LSTM CRF (BI-LSTM-CRF)模型應(yīng)用于NLP基準(zhǔn)序列標(biāo)記數(shù)據(jù)集。
      • 由于具有雙向LSTM組件,該模型可以使用過去和未來的輸入特性。
      • 此外,由于有一個(gè)CRF層,該模型可以使用句子級(jí)標(biāo)記信息。
      • 我們的模型可以在POS、chunking和NER數(shù)據(jù)集上產(chǎn)生最先進(jìn)(或接近)的精度;
    • 3)與之前的觀察結(jié)果相比,我們發(fā)現(xiàn)BI-LSTMCRF模型具有較強(qiáng)的魯棒性,對(duì)嵌入字的依賴性較小(Collobert et al., 2011)。它可以產(chǎn)生準(zhǔn)確的標(biāo)簽性能,而不必借助于文字嵌入。

2 model

2.1 LSTM

  • 長(zhǎng)期短期內(nèi)存網(wǎng)絡(luò)LSTM與RNN是一樣的,只是隱藏層更新被專門構(gòu)建的內(nèi)存單元所取代。因此,他們可能更善于發(fā)現(xiàn)和利用數(shù)據(jù)中的長(zhǎng)期依賴關(guān)系。

2.2BI-LSTM

BPTT

對(duì)展開網(wǎng)絡(luò)隨時(shí)間的前向和后向傳遞與常規(guī)網(wǎng)絡(luò)前向和后向傳遞的方式類似,不同之處在于我們需要對(duì)所有時(shí)間步長(zhǎng)展開隱藏狀態(tài)。我們還需要在數(shù)據(jù)點(diǎn)的開始和結(jié)束處進(jìn)行特殊處理。在我們的實(shí)現(xiàn)中,我們對(duì)整個(gè)句子執(zhí)行前向和后向操作,只需要在每個(gè)句子的請(qǐng)求處將隱藏狀態(tài)重置為0。我們有批處理實(shí)現(xiàn),可以同時(shí)處理多個(gè)句子。

2.3 CRF

  • 精度高
  • 利用相鄰標(biāo)簽信息預(yù)測(cè)當(dāng)前標(biāo)簽有兩種不同的方法。
    • 第一種方法是預(yù)測(cè)每次標(biāo)記的分布,然后使用類波束解碼來尋找最優(yōu)的標(biāo)簽序列。
      • 最大熵分類器(Ratnaparkhi, 1996)和
      • 最大熵馬爾可夫模型(MEMMs) (McCallum等,2000)的工作屬于這一類
    • 第二個(gè)是關(guān)注句子水平不是個(gè)人的位置,從而導(dǎo)致條件隨機(jī)域(CRF)模型(Lafferty et al., 2001)(圖5)。請(qǐng)注意,輸入和輸出直接連接,而不是LSTM和雙向LSTM網(wǎng)絡(luò)記憶細(xì)胞/復(fù)發(fā)性組件使用
    • 這兩種使用標(biāo)記信息的方法之間的關(guān)系與使用輸入特性的兩種方法相似

2.4 LSTM-CRF

  • CRF層由連接連續(xù)輸出層的線表示。
  • CRF的傳遞函數(shù)(傳輸矩陣)是參數(shù)
  • 有了這樣一個(gè)層(CRF層),我們可以有效地使用過去和未來的標(biāo)簽來預(yù)測(cè)當(dāng)前的標(biāo)簽,與通過雙向LSTM網(wǎng)絡(luò)使用過去和未來的輸入特性相似
  • 動(dòng)態(tài)規(guī)劃(Rabiner, 1989)可以有效地用于計(jì)算[A]i,j(轉(zhuǎn)移矩陣)和推理的最佳標(biāo)簽序列。詳見(Lafferty et al., 2001)。
  • BILSTM-CRF模型
    • 可以有效地使用過去和未來的輸入特性,這得益于雙向LSTM組件。
    • CRF層:使得它還可以使用句子級(jí)標(biāo)記信息。
    • 較強(qiáng)的魯棒性,
    • 對(duì)嵌入字的依賴性較小。
    • BI-LSTMCRF模型可以在POS、分塊和NER數(shù)據(jù)集上產(chǎn)生最先進(jìn)(或接近)的準(zhǔn)確性。此外,與之前的觀察結(jié)果相比,該算法具有
  • 輸入:單詞、拼寫、上下文特征
  • 由于刪除了拼寫和上下文特征,CRF模型的性能顯著下降。CRF模型嚴(yán)重依賴工程特性來獲得良好的性能
  • 另一方面,基于LSTM的模型,特別是BI-LSTM和BI-LSTM-CRF模型具有更強(qiáng)的魯棒性,并且受工程特性去除的影響更小。

參考文獻(xiàn)

Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer Science, 2015.
https://blog.csdn.net/u012485480/article/details/80425445

總結(jié)

以上是生活随笔為你收集整理的论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。