日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

推荐五篇论文| 轻量级的Transformer; 对比学习;ResNeSt;Shortcut Learning等

發布時間:2025/3/8 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐五篇论文| 轻量级的Transformer; 对比学习;ResNeSt;Shortcut Learning等 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文介紹了最近比較有意思的五篇文章:

  • 輕量級的transformer

  • 監督式的對比學習

  • shortcur learning

  • ResNeSt

  • Attention模塊的分析

Lite Transformer with Long-Short Range Attention

https://arxiv.org/abs/2004.11886v1

Transform已經在自然語言處理(例如機器翻譯,問題解答)中無處不在;但是,要實現高性能,它需要大量的計算,這使其不適合受硬件資源和電池嚴格限制的移動應用程序。本文,提出了一種有效的輕量級的Transformer,以便部署mobil NLP應用程序。輕量級的transform的關鍵關鍵Long-Short Range Attention(LSRA),其中有一group負責局部上下文建模(通過卷積),而另一組負責距離關系建模(通過注意力)。

https://github.com/mit-han-lab/lite-transformer

Supervised Contrastive Learning

https://arxiv.org/abs/2004.11362v1

交叉熵是廣泛使用的損失函數。在本文中,作者提出了一種新的訓練方法,該方法在不同模型架構和數據增廣的監督學習任務上始終超過交叉熵。具體地說,作者改進了最近提出的批處理對比損失(batch contrastive loss),可以證明該方法在自監督的情況下能夠學習到更強大的表示。對比損失能夠比交叉熵更有效地利用標簽信息:也就是說屬于同一類別的點集能夠聚在一起,不同類別的樣本集能夠被推開。在ResNet-50和ResNet-200上,本文方法比交叉熵均高1個點,在使用AutoAugment數據增強的方法下,performance達到了78.8%。對比損失有更好的魯棒性,與交叉熵相比,對比損失更穩定。

Shortcut Learning in Deep Neural Networks

https://arxiv.org/abs/2004.07780v1

本文試圖探究有多少深度學習問題可以看作是同一根本問題,也就是shortcut learning。shortcut learning是在標準基準上表現良好的決策規則,但無法轉移到更具挑戰性的測試條件(例如實際場景)中。相關問題在比較心理學,教育學和語言學領域是已知的,這表明shortcut learning可能是生物學和人工學習系統的共同特征。基于這些觀察,本文針對模型解釋和基準測試提出了一系列建議,重點介紹了機器學習的最新進展,以提高從實驗室到實際應用的魯棒性和可移植性。

ResNeSt: Split-Attention Networks

https://arxiv.org/abs/2004.08955v1

盡管圖像分類模型最近不斷發展,但是由于ResNet其簡單而模塊化的結構,大多數下游應用程序(例如目標檢測和語義分割)仍將ResNet變體用作backbone。本文提出了一個簡單的模塊化Split-Attention塊,該塊可實現跨功能圖組的關注。

通過以ResNet的方式堆疊這些Split-Attention塊,獲得了一個稱為ResNeSt的新ResNet變體。該網絡保留了完整的ResNet結構,可直接用于下游任務,而不會引起額外的計算成本。ResNeSt模型的復雜度優于其他網絡。舉個例子,ResNeSt-50使用224x224的單個作物尺寸在ImageNet上實現了81.13%的top-1精度,比以前最好的ResNet變種高出1%以上。此改進還有助于下游任務,包括目標檢測,實例分割和語義分割。再比如,通過簡單地用ResNeSt-50替換ResNet-50,本文將MS-COCO上的Faster-RCNN的mAP從39.3%提高到42.3%,并將ADE20K上的DeeplabV3的mIoU從42.1%提高到45.1%。

Attention Module is Not Only a Weight: Analyzing Transformers with Vector Norms

注意力模塊是Transformer模型的核心組件,這些模塊最近在自然語言處理中獲得了相當大的成功。關于注意力機制的分析,以前的研究主要分析注意力權重,以查看注意力模塊從每個輸入中收集多少信息以產生輸出。

在這項研究中,作者指出注意力權重只是決定self-attention模塊輸出的兩個因素之一,其實還有另一個向量:transformed input vectors。本文測量了加權向量范數作為輸入對輸出的貢獻。對BERT和基于Transformer的神經機器翻譯系統中的自注意模塊進行了分析,發現(1)BERT的注意力模塊對特殊tokens的關注度不高,(2)Transformer的注意模塊很好地捕獲了單詞對齊。

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am喜歡文章,點個在看 與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的推荐五篇论文| 轻量级的Transformer; 对比学习;ResNeSt;Shortcut Learning等的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。