日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

预训练依旧强大:少样本条件下的任务导向型对话生成

發布時間:2024/10/8 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 预训练依旧强大:少样本条件下的任务导向型对话生成 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文標題:

Few-shot Natural Language Generation for Task-Oriented Dialog

論文作者:

Baolin Peng, Chenguang Zhu, Chunyuan Li, Xiujun Li, Jinchao Li, Michael Zeng, Jianfeng Gao

論文鏈接:

https://arxiv.org/abs/2002.12328

項目鏈接:

https://aka.ms/scgpt


在任務導向型對話中,由于具體領域數據的缺乏,其生成質量長期以來都不夠好。

本文首次在少樣本(few-shot)場景下的任務導向型對話上,使用預訓練提高所生成回復的流暢度與準確度,在自動測評和人工測評上大幅超越之前的模型。

任務導向型對話

現實生活中的對話有相當一部分都是“任務導向”的,即對話都指向一個明確的目的。

比如,用戶說“洛杉磯飛往北京的機票還有嗎?”,這句話的潛在意圖就是機票(出發地:洛杉磯,到達地:北京),對于對話系統來說,它就要首先識別這個意圖,然后再給出相應的回復,如“目前還有從洛杉磯到北京的機票,請問您需要訂何時的機票?”

這個過程可以用下圖來表示:

首先,系統理解用戶的意圖,然后得到“槽-值”(slot-value)對,比如上面的“出發地:洛杉磯”和“到達地:北京”,最后根據意圖和槽-值對生成回復。

然而,目前的任務導向型對話要么依賴于固定的模板,要么只能在有限標注數據上訓練,都不能得到很好的效果。

那么,能不能用當前流行的預訓練方法去提高生成回復的質量呢?當然可以!因為無標注語料本身就內含豐富的語義,在它們之上預訓練自然就可以提高生成的質量。

但是,和其他的預訓練有所不同的是,任務導向型的對話往往特別依賴具體的領域,領域之間的差別會導致生成回復之間也會存在巨大的差異。

為了能夠進一步實現基于領域的生成,我們還要賦予模型“識別領域”的能力,這就需要依賴標注的語料了。

在無標注和有標注的語料上訓練后,最后,只需要在特定領域的少樣本數據集上微調,就可以把模型運用到該領域的任務型對話中了。整個過程非常簡單,但能夠在流暢度和準確度上都大幅超越之前的模型,具有相當的可用性。

值得一提的是,本文的作者還搭建了一個簡易的Demo,如下圖所示:

用戶輸入意圖(及一些可選的槽-值對),系統就可以自動生成各種可能的回復。可以看到,生成的文本非常流暢,并且也貼近我們輸入的意圖,可見其實際效果是相當不錯的。

預訓練+預訓練+微調=更好的回復

本文提出的方法可以歸納為三個步驟:預訓練,預訓練和微調

  • 預訓練1:首先在大規模的無標注文本上預訓練。這一步和GPT-2一致。

  • 預訓練2:為了讓生成的文本更貼近任務導向型對話的要求,模型還進一步在標注的數據集上預訓練。這里的數據來自Schema-Guided Dialogcorpus, MultiWOZ corpus, Frame corpus和Facebook Multilingual Dialog Corpus,這些都是人工標注好的人物對話型數據集,來自各個領域,共計約400K個樣本。

  • 微調:最后,只需要在特定領域的少樣本數據集下微調即可。

模型示意圖如下。簡單來說,就是給定意圖和一些槽-值對,模型據此輸出回復。

實驗

我們的目標是要提高少樣本、特定領域下的生成回復質量,為此,我們在本文創建的一個少樣本基準數據集FEWSHOTWOZ上實驗。

該數據集包含7個領域的數據,每個領域只有50條用于訓練,其他的都用作測試。

下表是本文模型(SC-GPT)和兩個基線模型(SC-LSTM、GPT-2)的實驗結果:

可以看到,在所有7個領域,SC-GPT生成的文本既更流暢(BLEU更大),而且也更準確(ERR更小),超越幅度也非常大。

那么人類測評又如何呢?下表是人工測評三個模型的表現。

可以看到,就信息度(Informativeness)和自然度(Naturalness)而言,SC-GPT都比兩個基線模型更好,雖然和人類表現相比仍有差距,但注意到這是在少樣本下的設置,在大樣本的情況下,二者幾乎不存在差距。

下面是三個領域的例子,和reference相比,SC-GPT已經非常接近了,而其他模型或多或少都具有一些問題。

比如,綠色代表多余內容,紅色代表錯誤內容,紫色代表丟失的內容。

小結

本文提出了一種簡單有效的“預訓練-預訓練-微調”模型,用于提高任務導向型對話的生成流暢度與準確度。

首先在無標注文本上預訓練,然后在標注數據上預訓練,最后在特定領域的數據上微調,極大地提高所生成回復的質量。

此外,本文還構建了一個少樣本基準數據集FEWSHOTWOZ,用于評估少樣本下任務導向型對話模型的效果。

最后,本文作者也發布了一個可用的在線Demo,用于展現模型效果,讀者可以前往項目地址(https://aka.ms/scgpt)自行探索。

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的预训练依旧强大:少样本条件下的任务导向型对话生成的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲综合射 | 日本一区二区三区中文字幕 | 丰满少妇被猛烈进入高清播放 | 欧美精品在线一区二区 | 国产a免费观看 | 亚洲高清色 | 成人免费高清在线观看 | 在线观看免费黄色 | 偷拍一区二区 | 免费激情片 | 经典三级av在线 | 超碰超碰在线 | 久久久久久毛片 | 丝袜国产在线 | 日韩在线资源 | 理想之城连续剧40集免费播放 | 欧美日韩国产精品 | 特级特黄aaaa免费看 | 尤物天堂| 91久久人澡人人添人人爽欧美 | 国产三级播放 | 亚洲一区二区自偷自拍 | 成人六区 | 九九热久久免费视频 | 天天草天天 | 国产精品国语对白 | 最新国产精品 | 91福利在线观看 | 色就是色av| 少妇人妻一区二区 | 殴美黄色大片 | 欧美日韩不卡视频 | 亚洲免费av网址 | 精品人伦一区二区三电影 | 黄色av免费观看 | 91精品久久久久久久久中文字幕 | 欧美一区二区三区久久 | 影音先锋三级 | 中文字幕亚洲不卡 | 人妻aⅴ无码一区二区三区 阿v免费视频 | 亚洲人人爱 | 亚洲另类网站 | 国产777 | 三级在线看中文字幕完整版 | 色先锋av资源 | 欧美卡一卡二 | 男人和女人日批视频 | 好男人天堂网 | 亚洲精品97| 精品国产aⅴ一区二区三区四川人 | 欧美丰满熟妇xxxxx | 免费啪视频在线观看 | 91精品久久香蕉国产线看观看 | 日韩三级大片 | 国产黄色片免费看 | 免费av的网站 | 久久久免费av | 中文字幕成人av | 精品一区在线看 | 韩国裸体网站 | 国产操人 | 五月天中文字幕av | 日本一区二区免费在线 | 欧美成人中文字幕 | 四虎网址大全 | 丰满人妻一区二区 | 波多野结衣久久久久 | 青青草99 | 激情视频久久 | 黄在线网站 | 国产精品自拍视频 | 91亚洲精品乱码久久久久久蜜桃 | 亚洲视频在线观看网址 | 欧美人与禽猛交乱配视频 | 欧美日韩一区三区 | 影音先锋在线播放 | 亚洲激情在线播放 | 黄色的网站在线观看 | 麻豆亚洲av成人无码久久精品 | 中文一区二区在线观看 | 一区二区三区精品视频在线观看 | 麻豆国产精品一区 | 国产精品白丝喷水在线观看 | 香蕉大久久| 成人免费毛片aaaaaa片 | 美国一级大黄一片免费中文 | 秋霞影院午夜伦 | 日韩视频中文字幕在线观看 | 欧美成人精品一区二区三区在线观看 | 中国一级特黄毛片 | 午夜在线播放视频 | 91小仙女jk白丝袜呻吟 | 91在线看片| 成人av网站在线 | 欧美色图俺去了 | 息与子五十路翔田千里 | 国产精品夜夜爽张柏芝 | 亚洲精品久久久久久国产精华液 | 久久人人爽人人爽人人片 |