日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

复旦大学邱锡鹏教授:词法、句法分析研究进展综述

發(fā)布時間:2024/10/8 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 复旦大学邱锡鹏教授:词法、句法分析研究进展综述 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


本文為第十六屆自然語言處理青年學者研討會 YSSNLP2019 報告《詞法、句法分析研究進展綜述》的簡要文字整理,本報告主要回顧詞法、句法領(lǐng)域的最新研究進展

?

關(guān)于報告人:

邱錫鵬,復旦大學計算機科學技術(shù)學院副教授,博士生導師。于復旦大學獲得理學學士和博士學位。主要從事自然語言處理、深度學習等方向的研究,在 ACL、EMNLP、IJCAI 等計算機學會 A/B 類期刊、會議上發(fā)表 50 余篇學術(shù)論文,引用 1600 余次。開源中文自然語言處理工具 FudanNLP 作者。2015 年入選首屆中國科協(xié)人才托舉工程,2017 年 ACL 杰出論文獎,2018 年獲中國中文信息學會“錢偉長中文信息處理科學技術(shù)獎—漢王青年創(chuàng)新獎”。



大家好,我是邱錫鵬。今天非常榮幸給大家簡要分享一下 NLP 中詞法和句法分析領(lǐng)域的最新研究進展。



首先,我們來看一下詞法和句法分析中的任務(wù)定義。我們一般認為詞是語言中的最小語義單位,所以在進行后續(xù)的很多 NLP 任務(wù)的時候,需要先進行(中文)分詞,標注它的詞性,并分析句子的句法結(jié)構(gòu)。像這里給的一個句子“上海計劃發(fā)展金融業(yè)”,首先需要將其進行分詞,然后進行詞性標注和句法分析。這里我們的句法分析主要以依存句法分析為主進行介紹,建立詞與詞之間的依賴關(guān)系。因此我們這里主要涉及三個任務(wù):中文分詞,詞性標注和依存句法分析。



目前用來解決這三個任務(wù)的基本方法可以分為序列標注方法,基于轉(zhuǎn)移的方法和基于圖的方法三種。為了解決錯誤傳播問題,一般來說,我們可以將這三個任務(wù)進行聯(lián)合建模,比如中文分詞和詞性標注的聯(lián)合模型、詞性標注和句法分析的聯(lián)合模型、以及三個任務(wù)的全聯(lián)合模型。



這三個任務(wù)的最新研究進展和 SOTA 模型都可以從 NLP-Progress 這個網(wǎng)站進行查詢。


中文分詞



首先我們來看一下中文分詞。?



目前中文分詞最好的模型是來自 EMNLP 2018 的一篇論文,采用了基于堆疊雙向長短期記憶網(wǎng)絡(luò)的序列標注模型



該方法雖然在模型上并沒有太多的創(chuàng)新,但是其采用了預訓練 bigram embedding 和變分 droupout 方法以及堆疊雙向長短期記憶網(wǎng)絡(luò)的微創(chuàng)新,訓練了一個相對較深的網(wǎng)絡(luò),在解碼時直接使用一個 softmax 分類器,而不用 CRF。在多個數(shù)據(jù)集上達到了最好的效果。



基于序列標注的方法是給字進行打標簽,很難利用到詞級別的信息。為了引入詞級別的信息可以采用以下三種方法:基于轉(zhuǎn)移的方法、Semi-CRF 和 DAG-LSTM/Lattice-LSTM。下面我分別簡要介紹一下這三種方法。



基于轉(zhuǎn)移的方法是通過轉(zhuǎn)移動作序列來進行分詞,即從左往右判斷一個每兩個相鄰的字是分還是不分。這是一種貪婪的方法。在中間某一步時,我們已經(jīng)有之前分好詞的信息,所以可以利用詞級別的信息來進行建模。



第二種利用詞級別信息的方法是利用 Semi-CRF 模型,直接建模不同詞之間的依賴關(guān)系。一般來講,可以先統(tǒng)一通過一個雙向的循環(huán)神經(jīng)網(wǎng)絡(luò)來提取字別的信息,然后使用一個融合方法來生成詞級別的信息,最后輸入 Semi-CRF 層來進行分詞。Semi-CRF 的缺點是候選詞有一個最大長度限制,我們提出了一種改進方法,目前正在投稿中。



第三種利用詞級別信息的方法是是改進 LSTM 模型,將鏈式結(jié)構(gòu)擴展到 DAG 結(jié)構(gòu)。我們可以用一個事先準備好的詞典,對句子進行預分割,把所有的分割可能性都組合出來。這樣我們模型的輸入是有多個字和詞構(gòu)成的混合序列,構(gòu)成一個 DAG 結(jié)構(gòu)。針對這種結(jié)構(gòu),我們提出一種 DAG-LSTM 來進行序列標注。



在中文分詞中,有一個問題是很多不同的分詞標準。之前的方法都是在單個標準上進行訓練模型。我們知道,不同的分詞標準之間有很多共通的特性。如這個表中所示,三個不同標準存在部分重疊,因此我們可以同時利用多個不同標準的數(shù)據(jù)進行聯(lián)合訓練,通過多任務(wù)學習來輔助提高每個單獨標準的分詞能力。



這里介紹一個我們在多標準分詞上面的最新工作,所有不同的標準都共享一個模型,由于 Transformer 的強大能力,我們用一個共享的 Transformer 來進行編碼,解碼用一個共享的 MLP 或 CRF。然后增加一個額外的 Criterion ID,用來指示模型輸出哪個標準的結(jié)果。目前這個模型在所有的分詞任務(wù)上都達到了最好的效果。


詞性標注



詞性標注一般來講比較簡單,所以很少有單獨工作來專門的詞性標注任務(wù)。一般都是詞性標注和其他任務(wù)相結(jié)合。首先我們來看一下聯(lián)合的中文分詞和詞性標注任務(wù)。



第一種方法是基于字的序列標注方法,使用“BMES”和詞性的交叉標簽來給每個字打標簽。比如“B-NN”、“S-NR”等。相比于中文分詞,分詞和詞性的聯(lián)合任務(wù)需要更多的特征,因此我們可以用更復雜的網(wǎng)絡(luò)來進行抽取特征。



第二種方法是基于轉(zhuǎn)移的方法,首先利用一個 BiLSTM 編碼器來提取上下文特征,在解碼時每一步都預測一個動作。動作的候選集合為是否分詞以及詞性。


依存句法分析



接下來介紹下句法分析的最新進展,這里主要以依存句法分析為主。在深度學習之前,依存句法分析就分為基于轉(zhuǎn)移的方法和基于圖的方法。近幾年,分別出現(xiàn)了針對這兩種不同方法的神經(jīng)網(wǎng)絡(luò)模型。



首先來看下基于轉(zhuǎn)移的方法,通過 shift-reduce 兩個基本的動作來將序列轉(zhuǎn)換為樹結(jié)構(gòu)。首先用一個 buffer 來存儲所有未處理的輸入句子,并用一個棧來存儲當前的分析狀態(tài)。


動作可以分為:1)shift,即將 buffer 中的一個詞移到棧中;2)left_arc(x),即棧頂兩個詞 a,b 為 a<-b 的依賴關(guān)系,關(guān)系種類為 x;3)right_arc(x),即棧頂兩個詞 a,b 為 a->b 的依賴關(guān)系,關(guān)系種類為 x。后兩種動作為 reduce 動作。



目前基于轉(zhuǎn)移的方法的最好模型是 Stack LSTM,通過三個 LSTM 來分別建模棧狀態(tài)、待輸入序列和動作序列。 其中因為棧需要入棧和出棧,因此作者提出了一個 Stack LSTM 來建模棧狀態(tài)。



雖然基于 Stack LSTM 取得了非常好的效果,但是在目前的依存句法分析中,最流行的方法是基于圖的方法經(jīng)典的方法是 Biaffine 模型。直接用神經(jīng)網(wǎng)絡(luò)來預測每兩個詞之間存在依存關(guān)系的概率,這樣我們就得到一個全連接圖,圖上每個邊代表了節(jié)點 a 指向節(jié)點 b 的概率。然后使用MST等方法來來將圖轉(zhuǎn)換為一棵樹。


Biaffine 模型其實和我們目前全連接自注意力模型非常類似。Biaffine 模型十分簡單,并且容易理解,并且在很多數(shù)據(jù)集上都取得了目前最好的結(jié)果。



除模型外,目前依存句法分析主要關(guān)注于多語言的依存通用依存分析。目前一個數(shù)據(jù)集是 universal dependenies,其中有很多問題值得研究,比如多任務(wù)學習、遷移學習、通用語言表示等。


詞性標注 & 句法分析



很自然地我們可以將詞性標注和句法分析作為聯(lián)合任務(wù)來進行建模。



聯(lián)合的詞性標注和句法分析方法有很多,可以是基于轉(zhuǎn)移的方法也可以是基于圖的方法。這里介紹一種比較簡單的方法,首先利用 LSTM 來預測詞性,然后用詞性信息和詞信息一起用另外一個 LSTM 進行建模,并用 Biaffine 模型進行句法分析。


中文分詞 & 句法分析



在中文方面,句法分析是基于詞級別的,所以在做句法分析之前要先進行分詞。那么我們是不是可以將中文分詞和句法分析也作為一個聯(lián)合任務(wù)來同時進行呢?



我們提出了一個基于圖方法的統(tǒng)一模型來同時解決中文分詞和句法分析問題。其實方法很簡單,只需要將詞內(nèi)部的字之間加上一個特殊的依賴關(guān)系“app”,然后將詞級別的依存關(guān)系轉(zhuǎn)換為字級別的依存關(guān)系。并且用 biaffine 模型來進行同時預測。



這就是具體的模型結(jié)構(gòu),和 biaffine 模型類似。


fastNLP



最后,上面的模型都將在 fastNLP 中進行實現(xiàn),這里簡單介紹下我們最近的一個工作,基于深度學習的自然語言處理平臺 FastNLP



我們希望做到具有 Spacy 的易用性,AllenNLP 模塊化以及 AutoML 自動模型選擇。



FastNLP 是一個模塊化可擴展的 NLP 框架,提供大量的預訓練模型,可以使大家在五分鐘內(nèi)實現(xiàn) SOTA 模型。另外 NLP 中大量的時間都花在數(shù)據(jù)的預處理和數(shù)據(jù)轉(zhuǎn)換上面,FastNLP 提供了一種非常簡單高效的數(shù)據(jù)預處理方法。面向我們科研工作者,FastNLP 也提供了非常方便的參數(shù)記錄以及實驗過程可視化工具。



最后希望有興趣的老師、同學一起來參與開發(fā),謝謝。




點擊以下標題查看更多往期內(nèi)容:?


  • 用于視覺對話的多步雙重注意力模型

  • 圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應用

  • 基于小樣本學習的意圖識別冷啟動

  • 小樣本學習(Few-shot Learning)綜述

  • 兩行代碼玩轉(zhuǎn) Google BERT 句向量詞向量

  • 基于預訓練自然語言生成的文本摘要方法

  • 自然語言處理中的語言模型預訓練方法

  • 像搭積木一樣構(gòu)建NLP深度學習模型




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通




?


現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧



關(guān)于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 獲取最新論文推薦

總結(jié)

以上是生活随笔為你收集整理的复旦大学邱锡鹏教授:词法、句法分析研究进展综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 老司机午夜免费精品视频 | 日韩av一二区 | 美女mm131爽爽爽免费动视频 | 久久久男人天堂 | 黄色国产在线播放 | 69精品人妻一区二区三区 | 亚洲一级网站 | www日本www | 国产66页| 日韩午夜伦 | 久久久6 | 欧美10p| 成人免费看片视频 | 亚洲精品午夜精品 | 中文字幕在线视频播放 | 亚洲成人www | 国产成人精品午夜福利Av免费 | 欧美熟妇乱码在线一区 | 人妻熟女aⅴ一区二区三区汇编 | 欧美激情伊人 | 日本视频在线观看免费 | 超清av在线 | 国产成人在线免费视频 | 欧美日韩不卡视频 | 午夜a视频 | 亚色在线视频 | 日本www视频在线观看 | 韩国一区视频 | 神马久久久久久久久 | 中国一级特黄真人毛片免费观看 | 国产成人自拍在线 | 美女搞黄在线观看 | 成长快手短视频在线观看 | 人禽高h交 | 中文字幕一区二区三区乱码 | 日韩av无码一区二区三区 | 成人精品视频一区二区 | 人人爽人人插 | 亚洲国产欧美日韩在线 | 女生被草 | 日韩视频免费观看高清完整版在线观看 | 美女张开双腿让男人捅 | 国产精品xxxx| 中文字幕一级二级三级 | 成人污在线观看 | 天堂视频免费在线观看 | 国产成人av免费 | 国产精品久久亚洲 | 国产男女视频 | 免费黄色av网址 | www久久久久 | 色在线影院 | 91丝袜美腿 | 好吊操精品视频 | 先锋资源国产 | 法国经典free性复古xxxx | 精品国产aⅴ一区二区三区四川人 | 日色网站 | 美女扒开腿让男生捅 | 日本熟妇色xxxxx日本免费看 | 我们的2018中文免费看 | 99久久人妻精品免费二区 | 国产精品欧美精品 | 色射视频| 午夜视频在线免费观看 | 美女被男人c | 欧美日韩黄色大片 | 99无码熟妇丰满人妻啪啪 | 久久精品无码一区二区三区 | 免费观看a视频 | 国产乱人乱偷精品视频a人人澡 | 男人天堂a在线 | 天堂中文在线播放 | 91香蕉黄| 免费成人在线网站 | 九九热视频精品 | 欧美一级在线观看视频 | 国产激情av一区二区三区 | 日韩中文字幕网站 | 国产成人欧美一区二区三区的 | 国精产品一区一区三区在线 | 爱啪啪导航 | av网址免费观看 | 长河落日 | 久久国产精品-国产精品 | 国产精品海角社区 | 91波多野结衣 | av加勒比| 日产亚洲一区二区三区 | av影片在线观看 | 亚洲综合视频网 | 丁香花免费高清完整在线播放 | 欧美午夜精品一区二区三区电影 | 国内自拍在线 | 欧美做受69 | 国产妻精品一区二区在线 | 久久免费久久 | 久久精品这里只有精品 | 国产精品久久77777 |