日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何应对Seq2Seq中的“根本停不下来”问题?

發(fā)布時(shí)間:2024/10/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何应对Seq2Seq中的“根本停不下来”问题? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?

?PaperWeekly 原創(chuàng) ·?作者|蘇劍林

單位|追一科技

研究方向|NLP、神經(jīng)網(wǎng)絡(luò)

在 Seq2Seq 的解碼過程中,我們是逐個(gè) token 地遞歸生成的,直到出現(xiàn) 標(biāo)記為止,這就是所謂的“自回歸”生成模型。然而,研究過 Seq2Seq 的讀者應(yīng)該都能發(fā)現(xiàn),這種自回歸的解碼偶爾會(huì)出現(xiàn)“根本停不下來”的現(xiàn)象,主要是某個(gè)片段反復(fù)出現(xiàn),比如“今天天氣不錯(cuò)不錯(cuò)不錯(cuò)不錯(cuò)不錯(cuò)...”、“你覺得我說得對不對不對不對不對不對...”等等,但就是死活不出現(xiàn) 標(biāo)記。

ICML 2020 的文章 Consistency of a Recurrent Language Model With Respect to Incomplete Decoding 比較系統(tǒng)地討論了這個(gè)現(xiàn)象,并提出了一些對策,本文來簡單介紹一下論文的主要內(nèi)容。

論文標(biāo)題:Consistency of a Recurrent Language Model With Respect to Incomplete Decoding

論文來源:ICML 2020

論文鏈接:https://arxiv.org/abs/2002.02492

解碼算法

對于自回歸模型來說,我們建立的是如下的條件語言模型:

那么解碼算法就是在已知上述模型時(shí),給定 x 來輸出對應(yīng)的 來。解碼算法大致可以分為兩類:確定性解碼算法隨機(jī)性解碼算法,原論文分別針對這兩類解碼討論來討論了“根本停不下來”問題,所以我們需要來了解一下這兩類解碼算法。

1.1 確定解碼

確定性解碼算法就是當(dāng)輸入文本固定之后,解碼出來的輸出文本也是固定的,這類算法包含貪心搜索(Greedy Search)和束搜索(Beam Search),事實(shí)上貪心搜索是束搜索的一個(gè)特例,所以只需要討論束搜索。

束搜索我們需要固定一個(gè)“束”的大小(Beam Size),然后從左往右逐個(gè) token 地解碼,每步只保留總得分最高的 k 個(gè)序列。比如 ,token 空間為 ,那么解碼流程示例如下:

第一步,算 ( 是固定的起始標(biāo)記 ),然后保留最大的兩個(gè),比如 ,并記錄它們的得分(概率對數(shù));

第二步,算 和 ,這時(shí)候候選序列一共有 個(gè),保留總得分(也就是當(dāng)前 token 分?jǐn)?shù)加上 a,b 本身的分?jǐn)?shù))最大的兩個(gè),比如 ,并記錄各自的總得分;

第三步,算 和 ,這時(shí)候候選序列一共有 個(gè),保留總得分(也就是當(dāng)前token分?jǐn)?shù)加上 本身的分?jǐn)?shù))最大的兩個(gè),比如 ,并記錄各自的總得分;

...

依此類推,每個(gè)序列直到出現(xiàn) 就停止,最后從這 個(gè)已經(jīng)完成終止的序列中選最優(yōu)的那個(gè)輸出。一般有兩種選擇,一是輸出總得分最大的,二是輸出平均得分最大的(處以各自 token 數(shù)),有時(shí)候還會(huì)根據(jù)實(shí)際需求加入長度懲罰等。

1.2 隨機(jī)解碼

隨機(jī)性解碼算法,顧名思義,就是哪怕輸入文本固定了,解碼出來的輸出文本也不是固定的,比如從訓(xùn)練語言模型進(jìn)行隨機(jī)采樣就是這這種算法(參考《現(xiàn)在可以用 Keras 玩中文 GPT2》[1] )。

對于 Seq2Seq 來說,我們很多時(shí)候希望得到確定性的結(jié)果,所以多數(shù)場景下我們都是用 Beam Search。但是 Beam Searc 的生成結(jié)果可能會(huì)出現(xiàn)過于單一的現(xiàn)象(即類似“好的”、“不知道”、“謝謝”這類比較“安全”的回復(fù))。

或者有時(shí)候我們希望增加輸出的多樣性(比如我們之前開源的做相似句生成的 SimBERT [2] 模型),這時(shí)候就需要隨機(jī)性解碼算法,它包含三種情況:原生隨機(jī)解碼、top-k 隨機(jī)解碼、Nucleus 隨機(jī)解碼。

原生隨機(jī)解碼很簡單,就是每步按概率隨機(jī)采樣一個(gè) token,比如第一步算 ,然后按概率隨機(jī)采樣一個(gè) token,比如 c;然后第二步算 ,接著按概率隨機(jī)采樣一個(gè)token,比如 a;那么第三步就算 ,再按概率隨機(jī)采樣;...;依此類推,直到采樣到 停止。

top-k 隨機(jī)解碼出自文章 Hierarchical Neural Story Generation [3],其實(shí)就是在原生隨機(jī)解碼基礎(chǔ)上加了個(gè)截?cái)?#xff1a;每一步只保留概率最高的 個(gè) token,然后重新歸一化后再采樣,這樣做是希望在“得分高”和“多樣性”方面做一個(gè)折中。顯然,當(dāng) 時(shí),其實(shí)就等價(jià)于貪心搜索。

Nucleus 隨機(jī)解碼則來自文章The Curious Case of Neural Text Degeneration [4],跟 top-k 隨機(jī)解碼類似,也是對采樣空間做了個(gè)截?cái)?#xff0c;截?cái)喾绞绞?#xff1a;固定 ,然后只保留概率最高的、概率和剛好超過 p 的若干個(gè) token,所以它也叫 top-p 采樣。

除了 top-k 和 top-p 這兩種截?cái)喾绞酵?#xff0c;還有一些自適應(yīng)的截?cái)喾绞?#xff0c;比如論文 Sparse Sequence-to-Sequence Models [5] 將最后預(yù)測分布的 softmax 函數(shù)換成了稀疏版本的 softmax,它能自動(dòng)讓大部分不可能的 token 概率變?yōu)?0,而不需要認(rèn)為地選擇 k 或 p。

適可而止

從 Seq2Seq 的模型設(shè)計(jì)和上面介紹的解碼算法來看,并沒有任何的理論保證解碼過程一定能停下來,也就是說并沒有東西保證一定會(huì)出現(xiàn) 標(biāo)記,這只能靠模型自己學(xué)出來,而當(dāng)模型學(xué)得不夠好時(shí),就會(huì)出現(xiàn)“根本停不下來”的現(xiàn)象了。而原論文則針對不同的解碼算法做了相應(yīng)的分析,提出了對應(yīng)的策略,讓解碼過程能夠“適可而止”。

2.1 有界的隱向量

建模概率(1)的經(jīng)典方式就是:

也就是說,先算一個(gè)隱向量 ,然后接一個(gè)全連接,然后 softmax 激活。在這種形式下,原論文說:

如果對于任意的 t, 是有上界的,那么原生隨機(jī)解碼就能夠“適可而止”。

看上去很強(qiáng)很實(shí)用的一個(gè)結(jié)論是不是?讓 是有上界是一個(gè)很簡單的事情,比如加個(gè) Layer Norm 就可以了,那是不是說加個(gè) Layer Norm 就可以解決所有的問題呢?

并不是。上述結(jié)論理論上是對的,推理過程是:因?yàn)? 是有上界的,所以對于任意的 t、任意的 token, 是有正的下界的(因?yàn)? 不會(huì)無窮大,所以 也不會(huì)無窮大,歸一化后也不會(huì)無限接近于 0),那也就意味著存在一個(gè)正數(shù) ,總有 ,因?yàn)楦怕适且粋€(gè)正數(shù),因此只要你采樣足夠多步,總有機(jī)會(huì)采樣到 的,所以不會(huì)永遠(yuǎn)停不下來。

這推理過程是不是有點(diǎn)讓人啼笑皆非?沒錯(cuò),是能停,但是要采樣足夠多步,感覺就像是“只要你買足夠多張彩票就一定能中頭獎(jiǎng)”一樣,并沒什么確切的實(shí)際價(jià)值。

采樣足夠多步之后,該循環(huán)的、該重復(fù)的 token 可能都已經(jīng)重復(fù)多次了,就算能停下來,得到的輸出可能也沒有意義了,或許還不如直接按長度截?cái)唷?/p>


2.2 主動(dòng)添加

注意上述結(jié)論還只是對原生隨機(jī)解碼成立,對于 top-k 隨機(jī)解碼和 Nucleus 隨機(jī)解碼不一定成立,因?yàn)榻?jīng)過截?cái)嗪? 就不一定出現(xiàn)在采樣空間中了,當(dāng)然,我們可以手動(dòng)把 添加進(jìn)采樣空間,所以就有了如下的結(jié)論:

如果對于任意的 t, 是有上界的,并且我們把 也加入到采樣空間中,那么 top-k 隨機(jī)解碼和 Nucleus 隨機(jī)解碼就能夠“適可而止”。

只不過,這有點(diǎn)像是廢話...

2.3 自截?cái)嘣O(shè)計(jì)

注意,上面的兩個(gè)結(jié)論都只能用于隨機(jī)解碼,對于確定性解碼來說,因?yàn)闆]有了隨機(jī)性,所以我們沒法保證一定能碰到 。為此,原論文提出了一個(gè)自截?cái)嗟脑O(shè)計(jì):想辦法讓 有正的下界,而且這個(gè)下界隨著 t 的增大而增大,最終逐漸趨于 1。

這種自截?cái)嗟脑O(shè)計(jì)也不復(fù)雜,就是定義 ,其中:

這里的 負(fù)責(zé)將 映射到 ,比如可以用 。設(shè)計(jì)好 后,剩下的 token 概率還是按照原來的 softmax 方式計(jì)算,然后乘以 即可。

現(xiàn)在我們有:

顯然只要:

也就是說,對于貪心搜索來說必然在 步內(nèi)停止,而對隨著 越來越接近 1,顯然 Beam Search 也能在有限步停止。

個(gè)人評價(jià)

原論文的主要內(nèi)容大體上就是這樣了,總的來說,它確實(shí)給我們提供了對解碼算法的一些新認(rèn)識,以及提供了一些緩解“根本停不下來”問題的有效策略。但是,作為一篇 ICML 論文來說,我覺得原論文的視角并不高,總體顯得有些顯淺。

原論文的大部分篇幅,是在用數(shù)學(xué)化的語言來重新表述已有的內(nèi)容,比如什么是解碼算法、什么是 top-k 隨機(jī)解碼、什么是 Beam Search、什么是“根本停不下來”等等,原論文都給下了個(gè)數(shù)學(xué)定義,這不能說沒有意義,但對論文本身要探討的問題并沒有什么價(jià)值,而除去這部分東西,原論文就沒多少內(nèi)容了。

其次,原論文的結(jié)論太弱,關(guān)于隨機(jī)解碼的應(yīng)對策略前面已經(jīng)點(diǎn)評過了,結(jié)論是對的,但基本沒實(shí)用價(jià)值;而對于確定性解碼的自截?cái)嘣O(shè)計(jì),其實(shí)很生硬,有種粗暴截?cái)嗟母杏X,完全沒有優(yōu)雅感。

最關(guān)鍵的問題是,對于“根本停不下來”這個(gè)問題,論文通篇都是在回答“是什么”、“怎么辦”這兩個(gè)問題,沒有探討“為什么”,沒有提供任何關(guān)于理解“根本停不下來”本質(zhì)的有用信息,從而并沒有得到更貼近本質(zhì)的應(yīng)對策略,這是筆者覺得相當(dāng)難以接受的。

文章小結(jié)

本文介紹了 Seq2Seq 的解碼算法,討論了解碼過程中可能出現(xiàn)的“根本停不下來”的現(xiàn)象,并介紹了 ICML 2020 的一篇論文中提供的應(yīng)對策略。

參考鏈接

[1] https://kexue.fm/archives/7292

[2] https://kexue.fm/archives/7427

[3] https://arxiv.org/abs/1805.04833

[4] https://arxiv.org/abs/1904.09751

[5] https://arxiv.org/abs/1905.05702

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨(dú)在附件中發(fā)送?

? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的如何应对Seq2Seq中的“根本停不下来”问题?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美精品免费播放 | 成人午夜精品一区二区三区 | 国产91视频播放 | 国产精品视频久久久 | 免费视频一区 | 成人在线综合 | 亚洲综合一区二区 | 韩国一区在线 | 在线观看aa | 欧美aa大片| 免费黄色国产视频 | 99999精品视频 | 欧美一区视频在线 | 天天爱天天色 | 亚洲一区高清 | 中文字幕日韩欧美在线 | wwwww国产 | 啪啪网站免费观看 | 天天摸日日摸狠狠添 | 国产成人在线免费观看视频 | 天堂在线免费观看视频 | 78m78成人免费网站 | 91麻豆国产在线观看 | 日韩欧美影院 | 欧美一区二区三区四区视频 | 亚洲av久久久噜噜噜熟女软件 | 天天拍夜夜操 | 亚洲xx视频| 天天做天天看 | 欧美另类精品xxxx孕妇 | 草草影院在线观看 | 北条麻妃一区二区三区四区五区 | 高跟鞋肉丝交足91 | 在线观看你懂的网址 | 色香蕉在线视频 | 日韩亚洲在线 | jvid视频| www.五月.com | av高清一区 | 一区二区三区视频在线免费观看 | 奶水喷溅 在线播放 | 丝袜淫脚| 欧美日韩成人一区二区三区 | 色呦呦在线免费观看 | 国产女上位 | 午夜三级影院 | 国产一区二区免费看 | 性猛╳xxx乱大交 | 日韩不卡 | 中文字幕一区二区三区电影 | 麻豆回家视频区一区二 | 亚洲一区二区三区四区 | 日韩黄色免费观看 | www亚洲色图 | 色玖玖 | 色月婷婷 | 伊人一区二区三区 | 国产一卡二 | 四虎成人精品 | 青娱乐精品视频 | 久草热视频 | 高清久久 | 久久精品99久久 | 男人天堂亚洲 | 久久午夜无码鲁丝片 | 久久五月天综合 | 性欧美极品另类 | 可以在线观看av的网站 | 日韩精品在线观看AV | 国产黄色精品视频 | 日本色图片 | 先锋资源网av | 朝桐光在线视频 | 内射一区二区 | 国产一级片麻豆 | 欧美成人r级一区二区三区 中文无码一区二区三区在线观看 | 免费视频精品 | 亚洲精品视频在线观看免费视频 | 国产高清免费在线观看 | 激情小说亚洲图片 | 欧美日韩日本国产 | 国产精品国产三级国产普通话蜜臀 | 一级片免费网址 | 精品国产乱码久久久久久1区2区 | 亚洲天堂成人网 | 久久99色 | 亚洲国产精彩中文乱码av | 午夜私人福利 | 中文字幕一区二区人妻视频 | 亚洲播放器 | 一级做a爰片 | 一级h片 | 成人福利视频在线 | 国产免费美女 | 秋霞视频在线观看 | 日韩成人综合 | 19禁大尺度做爰无遮挡电影 | 久久男人 | av最新网址 |