论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF
生活随笔
收集整理的這篇文章主要介紹了
论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
文章目錄
- 1.Introduction
- 2 model
- 2.1 LSTM
- 2.2BI-LSTM
- BPTT
- 2.3 CRF
- 2.4 LSTM-CRF
- 參考文獻(xiàn)
本篇論文介紹了LSTM網(wǎng)絡(luò)、BI-LSTM網(wǎng)絡(luò)、CRF網(wǎng)絡(luò)、LSTM-CRF網(wǎng)絡(luò)、BI-LSTM-CRF網(wǎng)絡(luò),比較將它們用于自然語言處理的性能與準(zhǔn)確率。重點(diǎn)介紹了BI-LSTM-CRF網(wǎng)絡(luò)。
1.Introduction
- 序列標(biāo)記
- 包括詞性標(biāo)記(POS)、
- 分塊標(biāo)記和
- 命名實(shí)體識(shí)別(NER)
- 本文以前
- 統(tǒng)計(jì)模型
- Hidden Markov Models (HMM),
- Maximum entropy Markov models (MEMMs) (McCallum et al.,2000), and
- Conditional Random Fields (CRF)(Lafferty et al., 2001)。
- 神經(jīng)網(wǎng)絡(luò)
- 基于卷積網(wǎng)絡(luò)的模型(Collobert et al., 2011)
- Conv-CRF等模型,因?yàn)樗粋€(gè)卷積網(wǎng)絡(luò)和CRF層輸出(這個(gè)詞的句子級(jí)別loglikelihood (SSL)是用于原始論文)。
- Conv-CRF模型產(chǎn)生了有前景的結(jié)果序列標(biāo)記任務(wù)。
- 在演講語言理解社區(qū),
- 遞歸神經(jīng)網(wǎng)絡(luò)(Mesnil et al ., 2013;Yao et al ., 2014)和
- 基于卷積網(wǎng)(Xu and Sarikaya, 2013)最近提出的模型。
- 其他相關(guān)工作包括(Graves et al ., 2005;Graves et al ., 2013)提出了一個(gè)雙向遞歸神經(jīng)網(wǎng)絡(luò)語音識(shí)別。
- 基于卷積網(wǎng)絡(luò)的模型(Collobert et al., 2011)
- 統(tǒng)計(jì)模型
- 貢獻(xiàn)
- 1)系統(tǒng)比較了上述模型在NLP標(biāo)記數(shù)據(jù)集上的性能;
- 2)首次將雙向LSTM CRF (BI-LSTM-CRF)模型應(yīng)用于NLP基準(zhǔn)序列標(biāo)記數(shù)據(jù)集。
- 由于具有雙向LSTM組件,該模型可以使用過去和未來的輸入特性。
- 此外,由于有一個(gè)CRF層,該模型可以使用句子級(jí)標(biāo)記信息。
- 我們的模型可以在POS、chunking和NER數(shù)據(jù)集上產(chǎn)生最先進(jìn)(或接近)的精度;
- 3)與之前的觀察結(jié)果相比,我們發(fā)現(xiàn)BI-LSTMCRF模型具有較強(qiáng)的魯棒性,對(duì)嵌入字的依賴性較小(Collobert et al., 2011)。它可以產(chǎn)生準(zhǔn)確的標(biāo)簽性能,而不必借助于文字嵌入。
2 model
2.1 LSTM
- 長(zhǎng)期短期內(nèi)存網(wǎng)絡(luò)LSTM與RNN是一樣的,只是隱藏層更新被專門構(gòu)建的內(nèi)存單元所取代。因此,他們可能更善于發(fā)現(xiàn)和利用數(shù)據(jù)中的長(zhǎng)期依賴關(guān)系。
2.2BI-LSTM
BPTT
對(duì)展開網(wǎng)絡(luò)隨時(shí)間的前向和后向傳遞與常規(guī)網(wǎng)絡(luò)前向和后向傳遞的方式類似,不同之處在于我們需要對(duì)所有時(shí)間步長(zhǎng)展開隱藏狀態(tài)。我們還需要在數(shù)據(jù)點(diǎn)的開始和結(jié)束處進(jìn)行特殊處理。在我們的實(shí)現(xiàn)中,我們對(duì)整個(gè)句子執(zhí)行前向和后向操作,只需要在每個(gè)句子的請(qǐng)求處將隱藏狀態(tài)重置為0。我們有批處理實(shí)現(xiàn),可以同時(shí)處理多個(gè)句子。
2.3 CRF
- 精度高
- 利用相鄰標(biāo)簽信息預(yù)測(cè)當(dāng)前標(biāo)簽有兩種不同的方法。
- 第一種方法是預(yù)測(cè)每次標(biāo)記的分布,然后使用類波束解碼來尋找最優(yōu)的標(biāo)簽序列。
- 最大熵分類器(Ratnaparkhi, 1996)和
- 最大熵馬爾可夫模型(MEMMs) (McCallum等,2000)的工作屬于這一類
- 第二個(gè)是關(guān)注句子水平不是個(gè)人的位置,從而導(dǎo)致條件隨機(jī)域(CRF)模型(Lafferty et al., 2001)(圖5)。請(qǐng)注意,輸入和輸出直接連接,而不是LSTM和雙向LSTM網(wǎng)絡(luò)記憶細(xì)胞/復(fù)發(fā)性組件使用
- 這兩種使用標(biāo)記信息的方法之間的關(guān)系與使用輸入特性的兩種方法相似
- 第一種方法是預(yù)測(cè)每次標(biāo)記的分布,然后使用類波束解碼來尋找最優(yōu)的標(biāo)簽序列。
2.4 LSTM-CRF
- CRF層由連接連續(xù)輸出層的線表示。
- CRF的傳遞函數(shù)(傳輸矩陣)是參數(shù)
- 有了這樣一個(gè)層(CRF層),我們可以有效地使用過去和未來的標(biāo)簽來預(yù)測(cè)當(dāng)前的標(biāo)簽,與通過雙向LSTM網(wǎng)絡(luò)使用過去和未來的輸入特性相似
- 動(dòng)態(tài)規(guī)劃(Rabiner, 1989)可以有效地用于計(jì)算[A]i,j(轉(zhuǎn)移矩陣)和推理的最佳標(biāo)簽序列。詳見(Lafferty et al., 2001)。
- BILSTM-CRF模型
- 可以有效地使用過去和未來的輸入特性,這得益于雙向LSTM組件。
- CRF層:使得它還可以使用句子級(jí)標(biāo)記信息。
- 較強(qiáng)的魯棒性,
- 對(duì)嵌入字的依賴性較小。
- BI-LSTMCRF模型可以在POS、分塊和NER數(shù)據(jù)集上產(chǎn)生最先進(jìn)(或接近)的準(zhǔn)確性。此外,與之前的觀察結(jié)果相比,該算法具有
- 輸入:單詞、拼寫、上下文特征
- 由于刪除了拼寫和上下文特征,CRF模型的性能顯著下降。CRF模型嚴(yán)重依賴工程特性來獲得良好的性能
- 另一方面,基于LSTM的模型,特別是BI-LSTM和BI-LSTM-CRF模型具有更強(qiáng)的魯棒性,并且受工程特性去除的影響更小。
參考文獻(xiàn)
Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer Science, 2015.
https://blog.csdn.net/u012485480/article/details/80425445
總結(jié)
以上是生活随笔為你收集整理的论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JavaWeb笔记:JDBC总结
- 下一篇: 【搜索/推荐排序】总结