日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

告别自注意力,谷歌为Transformer打造新内核Synthesizer

發布時間:2024/7/5 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 告别自注意力,谷歌为Transformer打造新内核Synthesizer 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一只小狐貍帶你解鎖 煉丹術&NLP?秘籍

作者:舒意恒(南京大學碩士生,知識圖譜方向)

今天給大家介紹一篇來自Google的最新論文《SYNTHESIZER: Rethinking Self-Attention in Transformer Models[4],該論文重新探索了Transformer中注意力機制的必要性,并引入了新的attention計算方法Synthesizer。實驗顯示,即使不進行token之間的attention交互計算,synthesizer在翻譯、語言模型、GLUE等任務上也可以達到很好的效果。

前言

什么是自注意力?

2017 年,Vaswani 等人 [1] 提出了 Transformer 模型,在眾多領域取得了成功的應用,證明了它相比于自卷積模型和循環模型的優勢。

Transformer 的關鍵在于 query-key-product 的點積注意力,token 被完全連接,能夠對遠距離的依賴關系進行建模。

Transformer 存在的問題

點積自注意力提供了強大的建模能力,但同時作者對點積自注意力提出了質疑,它的計算可能是不必要的。

點積的基本作用是確定單個 token 相對于序列中所有其他 token 的相對重要性。key、query、value 暗示自注意力模擬一個基于內容的檢索過程,過程的核心是 pairwise 的交互。該文對整個過程進行了反思。

技術簡介

Synthesizer 的關鍵思想

Synthesizer 的核心思想是用低復雜度的attention計算代替dot product式的注意力機制。傳統 Transformer 的注意力機制需要進行 token 之間的兩兩交互,雖然可以獲得更多的交互信息,但attention score會很依賴實例,難以保證模型學到更多的泛化特征。

因此,synthesizer提出了新的attention matrix學習方法,只通過簡單的前饋神經網絡即可得到注意力分數,完全省去了token之間的點積交互。

實現細節

Synthesizer 大體上可以理解為一個 Transformer,其中自注意力模塊被 Synthetic Attention 模塊替換。

上圖表示了 Transformer、Dense Synthesizer 和 Random Synthesizer 的關鍵思想。

Synthesizer 移除了 query-key-value 的概念,而直接合成一個對齊矩陣。具體而言,即去除了?、、,而使用一個行和列大小等同于序列長度?的矩陣?來表示任意 token 之間的關系。作者提出了兩類 synthesizer,分別是 Dense Synthesizer 和 Random Synthesizer。

Dense Synthesizer

給定模型的輸入?,表示了?個 token,每個 token 的維度為?. 該方法做如下的變換:

這可以理解為兩個 Dense 層,和?用于 Dense 層的計算。而最后模型的輸出?,由表示 token 間關系的矩陣?得到。

其中,可類比為標準 Transformer 的?.

該思路并不復雜,但是,作者進一步描述了 Random Synthesizer。

Random Synthesizer

Dense Synthesizer 方法實際上是給定每個 token,然后映射到?維,而不是如同原生的 Transformer 對 token 間交互進行建模。Random Synthesizer 的方法中,注意力權重的初始化不是受任何輸入 token 的影響,而是完全隨機初始化。這些隨機初始化的值可以被訓練,或者保持固定。

以?表示一個隨機初始化矩陣,則 Random Synthesizer 被定義為:

即?初始化的值是?. 該方法不依賴 token 對之間的交互或者任何單個 token 的信息,而是學習一個能跨實例有效的任務特定的對齊。作者表示這是最近固定自注意力方法 [2]的直接產物。

換句話說,作者認為,學習一個跨實例有效的模型意味著在初始化時不直接依靠任何 token 信息。

分解模型

Dense Synthesizer 為網絡添加了大小為?的參數,用于映射;而 ?Random Synthesizer 添加了大小為?的參數。如果序列很長,將導致很大的參數量。因此,為了實踐中更加可行,作者提出了分解模型,分別針對 Dense Synthesizer 和 Random Synthesizer 稱為 Factorized Dense Synthesizer 和 Factorized Random Synthesizer。該方法的作用是減少參數量,并防止過擬合。

1. Factorized Dense Synthesizer ?

針對可能過大的序列長度?,取兩個整數?和?使得?,分別按 Dense Synthesizer 算得兩個矩陣記為?和?,兩矩陣大小分別是?和?. 然后將?中表示 token 的每個向量重復?次,將?中表示 token 的每個向量重復?次,再做元素積,即可從分解出的兩個矩陣恢復到?. 參數量減小,同時模型的表征能力可能也受到了影響。

2. Factorized Random Synthesizer?

類似地,隨機矩陣也可被分解為兩個低秩矩陣。

混合模型

上述所有提出的 synthetic 注意力變種都可以通過加和形式混合到一起。

αα

其中,表示一個 synthesizer 的函數,并且?,是可學習的。

另外,類似于原生 Transformer 的 multi-head attention,Synthesizer 同樣支持多個 head.

效果

作者在機器翻譯、語言模型、文本生成、多任務自然語言處理等任務上進行了實驗。

機器翻譯與語言建模

作者采用常見的 WMT'14 英德(EnDe)和英法(EnFr)翻譯測試。

關于機器翻譯任務,可以看到相同參數量的 Synthesizer(Random + Vanilla) 與其他模型拉開了一定差距,也比相同參數量的 Transformer (Control) 表現更好。值得注意的是,兩個分解方法取得的提升并不如混合模型取得的提升更多,但在一定程度上減少了參數量。

關于語言建模任務,使用的數據集是 LM1B,取得最好效果的是 Synthesizer (Dense + Vanilla),它仍然是一個混合模型,同樣是 Synthesizer 的各種設置中唯一超過 Transformer 的模型。

文本生成

評測使用 CNN/Dailymail 數據集的抽象摘要任務和使用 PersonaChat 數據集的對話生成任務。其中,Synthesizer 的各個模型表現不一。

多任務 NLP

在多任務 NLP 上,作者遵循 T5 [3] 所使用的使用 GLUE 和 SuperGLUE 評測方法,并在多項指標超過了 T5(base)。在眾多測試中,仍然是加上 Vanilla 的 Synthesizer 取得較好效果。

總結

該文提出了 Synthesizer,一個新的 Transformer 模型,它采用了合成注意力(Synthetic Attention)。作者試圖更好地理解和評估全局對齊和局部、實例對齊(獨立 token 和 token 到 token 的對齊)在自注意力中的效用。

在機器翻譯、語言建模和對話生成等多個任務上,合成注意力與原有自注意力相比,表現出有競爭力的性能,點積自注意力的作用與效率值得懷疑與進一步研究。此外,在對話生成任務上,token 之間的交互信息實際會損害性能。

實際上,Synthesizer 的不同設置沒有絕對的優劣,也和具體的任務相關。個人認為為何在各種任務中 Synthesizer 的表現存在明顯差異、它與點積注意力分別適合于哪些任務,以及背后的成因是值得深究的。

參考文獻

[1] Attention Is All You Need. arXiv preprint arXiv:1706.03762, 2017.

[2] Fixed encoder self-attention patterns in transformer-based machine translation. arXiv preprint arXiv:2002.10260, 2020.

[3] xploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXiv preprint arXiv:1910.10683, 2019.

[4] Tay Y, Bahri D, Metzler D, et al. Synthesizer: Rethinking Self-Attention in Transformer Models[J]. arXiv preprint arXiv:2005.00743, 2020.

本文收錄于原創專輯:《賣萌屋@自然語言處理》

重磅驚喜:賣萌屋小可愛們苦心經營的?自然語言處理討論群?成立三群啦!掃描下方二維碼,后臺回復「入群」即可加入。眾多頂會審稿人、大廠研究員、知乎大V以及美麗小姐姐(劃掉?????♀?)等你來撩噢~(手慢無

  • NLP中的少樣本困境問題探究

  • ACL20 | 讓笨重的BERT問答匹配模型變快!

  • 7款優秀Vim插件幫你打造完美IDE

  • 賣萌屋原創專輯首發,算法鎮魂三部曲!

  • GPT-3誕生,Finetune也不再必要了!NLP領域又一核彈!

夕小瑤的賣萌屋

_

關注&星標小夕,帶你解鎖AI秘籍

訂閱號主頁下方「撩一下」有驚喜哦

總結

以上是生活随笔為你收集整理的告别自注意力,谷歌为Transformer打造新内核Synthesizer的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 波多野结衣乳巨码无在线观看 | 日本特黄网站 | 美女脱得一干二净 | www.jizz国产 | 国产激情av一区二区三区 | 中国美女洗澡免费看网站 | 国产精品久久国产精品 | 亚洲欧美天堂 | 色网址在线 | 国产精品久久久久久亚洲毛片 | 国产任你操 | 一级视频免费观看 | 黑人巨大精品欧美一区二区蜜桃 | 中文字幕一区二区人妻在线不卡 | 精品国模一区二区三区 | 动漫av在线免费观看 | 一区二区三区国产视频 | 成年人在线播放 | 中国少妇乱子伦视频播放 | 丝袜国产一区 | 亚洲色成人一区二区三区小说 | 无码人妻aⅴ一区二区三区日本 | 91久久一区 | 欧美在线激情视频 | 成人精品视频在线 | 午夜色av| 福利在线影院 | 国产精品黄色片 | 韩国av三级 | 成人在线激情网 | av永久网站 | 午夜裸体性播放 | 国产乱淫av公 | 亚洲av无码精品色午夜果冻不卡 | 第一毛片 | 中文无码av一区二区三区 | 222aaa| 在线观看免费国产 | 九九99久久 | 久久女人 | 亚洲成人久 | 日日操av| 国产成人无码精品 | 欧美在线观看www | 嫩模一区二区三区 | 免费看a | 最近中文字幕在线视频 | 天天射,天天干 | 国产精品h | 玉足调教丨vk24分钟 | 国产一区二区精彩视频 | 在线国产精品视频 | 国产免费高清视频 | 色综合99久久久无码国产精品 | 国产夫妻av | 欧美壮男野外gaytube | 毛片久久久久久 | 日韩福利视频网 | 中文免费在线观看 | www.久久精品视频 | 国产视频日本 | 国产农村妇女精品久久久 | 国产一级片自拍 | 欧美区一区二区 | 网站黄在线 | 欧美一线天 | 99热这里只有精品2 91免费版黄 | 老女人性视频 | 国产成人精品一区在线播放 | 韩国成人免费视频 | 狠狠干夜夜干 | 69av视频在线观看 | 亚洲自拍偷拍一区 | 制服丝袜av电影 | 日本黄页视频 | 精品国产丝袜一区二区三区乱码 | 日韩欧美在线视频播放 | 91在线 | 超碰偷拍 | 69天堂 | 风间由美一二三区av片 | 亚洲成人国产精品 | 污片在线免费观看 | 日本少妇xxxx | 日本久久精品视频 | 亚洲不卡视频在线观看 | 国产对白videos麻豆高潮 | 亚洲色欲色欲www在线观看 | 国产精品视频网址 | 国产视频福利 | 人妻 丝袜美腿 中文字幕 | 国产精品国产三级国产播12软件 | 亚洲小说网 | 亚洲一级色 | www.youjizz.com日本| 涩涩视频在线观看 | 国产伦子伦对白视频 | 国产传媒视频在线 | 91精品中文字幕 |