日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

基于深度学习的信息抽取技术

發(fā)布時(shí)間:2024/7/5 pytorch 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于深度学习的信息抽取技术 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

DeepIE: Deep Learning for Information Extraction

DeepIE: 基于深度學(xué)習(xí)的信息抽取技術(shù)(預(yù)計(jì)2020年8月31日前全部更新完畢)

TOP

  • 知乎專欄文章:nlp中的實(shí)體關(guān)系抽取方法總結(jié)
  • 知乎專欄文章:如何有效提升中文NER性能?詞匯增強(qiáng)方法總結(jié)
  • 知乎專欄文章:如何解決Transformer在NER任務(wù)中效果不佳的問(wèn)題?

Papers

  • ACL2020信息抽取相關(guān)論文匯總
  • IJCAI2020信息抽取相關(guān)論文匯總
  • 2019各頂會(huì)中的關(guān)系抽取論文匯總
  • 事件抽取論文匯總
  • 歷年來(lái)NER論文匯總

Codes

1. 實(shí)體抽取

  • 各主流方法在主要中文NER數(shù)據(jù)集上的表現(xiàn)情況 具體說(shuō)明
lexiconOntonotesMSRAResumeWeibo
biLSTM----71.8191.8794.4156.75
Lattice LSTM詞表173.8893.1894.4658.79
WC-LSTM詞表174.4393.3694.9649.86
LR-CNN詞表174.4593.7195.1159.92
CGN詞表274.7993.4794.1263.09
LGN詞表174.8593.6395.4160.15
Simple-Lexicon詞表175.5493.5095.5961.24
FLAT詞表176.4594.1295.4560.32
FLAT詞表275.7094.3594.9363.42
BERT----80.1494.9595.5368.20
BERT+FLAT詞表181.8296.0995.8668.55
  • MSRA-NER
方法fpr
char+ lstm-crf86.18%88.43%83.10%
char-bigram + lstm-crf91.80%92.60%90.34%
char-bigram + adTransformer-crf92.98%93.25%92.72%
char-bigram + lexion-augment + lstm-crf93.33%94.26%92.43%
char-bigram-BERT + lstm-crf94.71%95.14%94.27%
char-bigram-BERT + lexion-augment + lstm-crf95.26%95.90%94.63%
  • CCKS2019-醫(yī)療實(shí)體抽取
方法fpr
char-bigram + lstm-crf81.76%82.91%80.6
+ domain transfer(from ccks2018 to 2019)82.54%83.43%81.81%
char-bigram + adTransformer-crf82.83%82.19%83.49%
char-bigram + lexion-augment + lstm-crf82.76%82.79%82.72%
BERT-finetune+crf83.49%84.11%82.89%
roBERTa-finetune+crf83.66%83.67%83.66%
char-bigram-BERT + lstm-crf83.37%83.51%83.22%
char-bigram-BERT + lexion-augment + lstm-crf84.15%84.29%84.01%
  • CCKS2020-醫(yī)療實(shí)體抽取

(注:測(cè)試集與ccks2019一致,去除ccks2020訓(xùn)練集中已經(jīng)在2019測(cè)試集中的樣本,下列指標(biāo)未做規(guī)則處理和模型融合)

方法fpr
char-bigram + lstm-crf82.68%83.14%82.22%
char-bigram + lexion-augment + lstm-crf83.12%83.10%83.14%
char-bigram-BERT + lstm-crf83.12%83.04%83.21%
char-bigram-BERT-RoBerta_wwm + lstm-crf83.66%83.76%83.56%
char-bigram-BERT-XLNet + lstm-crf84.12%83.88%84.36%
char-bigram-BERT + lexion-augment + lstm-crf84.50%84.32%84.67%
  • CCKS2020-面向試驗(yàn)鑒定的命名實(shí)體識(shí)別任務(wù):TODO

2. 實(shí)體關(guān)系聯(lián)合抽取

具體使用說(shuō)明

  • 2019語(yǔ)言與智能技術(shù)競(jìng)賽:關(guān)系抽取任務(wù)
方法f(dev)p(dev)r(dev)
multi head selection76.3679.2473.69
ETL-BIES77.07%77.13%77.06%
ETL-Span78.94%80.11%77.8%
ETL-Span + word2vec79.99%80.62%79.38%
ETL-Span + word2vec + adversarial training80.38%79.95%80.82%
ETL-Span + BERT81.88%82.35%81.42%
  • 2020語(yǔ)言與智能技術(shù)競(jìng)賽:關(guān)系抽取任務(wù)
方法f(dev)p(dev)r(dev)
ETL-Span + BERT74.5874.4474.71

3. 屬性抽取

  • 領(lǐng)域數(shù)據(jù)集:瑞金醫(yī)院糖尿病信息抽取數(shù)據(jù)
# 藥物-屬性 ['藥品-用藥頻率','藥品-持續(xù)時(shí)間','藥品-用藥劑量','藥品-用藥方法','藥品-不良反應(yīng)'] # 疾病-屬性 ['疾病-檢查方法','疾病-臨床表現(xiàn)','疾病-非藥治療','疾病-藥品名稱','疾病-部位'] 主體方法fpr
疾病lstm+ multi-label pointer network76.5574.3678.86
疾病bert + multi-label pointer network77.5977.4577.74
藥物lstm+ multi-label pointer network81.1279.1583.19

4. 實(shí)體鏈接/標(biāo)準(zhǔn)化

5.事件抽取

  • CCKS2020-醫(yī)療事件抽取

  • CCKS2020:面向金融領(lǐng)域的篇章級(jí)事件主體抽取

  • CCKS2020:面向金融領(lǐng)域的篇章級(jí)事件要素抽取

6.信息抽取中的低資源解決方案

TODO-list

  • 信息抽取領(lǐng)域的數(shù)據(jù)資源匯總:

    • 醫(yī)療
    • 金融
    • 電商
    • 法律
  • 信息抽取相關(guān)競(jìng)賽匯總:

    • 百度-2020語(yǔ)言與智能技術(shù)競(jìng)賽:關(guān)系抽取任務(wù)
    • 百度-2020語(yǔ)言與智能技術(shù)競(jìng)賽:事件抽取任務(wù)
    • 百度-2019語(yǔ)言與智能技術(shù)競(jìng)賽:信息抽取
    • CCKS 2019 醫(yī)療命名實(shí)體識(shí)別
    • CHIP 2019 臨床術(shù)語(yǔ)標(biāo)準(zhǔn)化任務(wù)
    • CCKS 2019 人物關(guān)系抽取
    • CCKS 2019 公眾公司公告信息抽取
    • CCKS 2019 面向金融領(lǐng)域的事件主體抽取
  • 摘要抽取

  • 前沿技術(shù)在信息抽取中的應(yīng)用

Reference

總結(jié)

以上是生活随笔為你收集整理的基于深度学习的信息抽取技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。