日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AAAI21最佳论文Runners Up!Transformer的归因探索!

發布時間:2025/3/8 ChatGpt 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AAAI21最佳论文Runners Up!Transformer的归因探索! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Self-Attention Attribution: Interpreting Information Interactions Inside Transformer(AAAI21)

一元@煉丹筆記

在之前大家對于Transformer的理解都是,Transformer的成功得益于強大Multi-head自注意機制,從輸入中學習token之間的依賴關系以及編碼上下文信息。我們都很難解釋輸入特性如何相互作用以實現預測的。Attention計算得到的分數也并不能完美的解釋這些交互作用,本文提出一種自我注意歸因方法來解釋Transformer內部的信息交互。我們以Bert為例進行研究。首先,我們利用自我注意歸因來識別重要的注意頭,其它注意頭會隨著邊際效果的下降而被剪掉。此外,我們提取了每個層中最顯著的依賴關系,構造了一個屬性樹,揭示了Transformer內部的層次交互。最后,我們證明了歸因結果可以作為對抗模式來實現對BERT的非目標攻擊。

那么該方案是怎么做的呢?

上圖左側是微調后的BERT中一個頭部的注意力分數。我們觀察到:

  • 注意力得分矩陣是相當密集的,雖然只有一個12個head。這很難讓我們去理解單詞在Transformer中是如何相互作用的。
  • 此外,即使注意力分數很大,也不意味著這對詞對決策建模很重要;
  • 相比之下,我們的目標是將模型決策歸因于自我注意關系,如果交互作用對最終預測的貢獻更大,那么自我注意關系往往會給出更高的分數。

attribution分數可以通過積分的Riemman近似來計算得到,具體地說,我們在從零注意矩陣到原始注意權重A的直線路徑上以足夠小的間隔出現的點處求梯度的和。

其中m為近似的步數,后續實驗中,我們將其設置為20。

我們再看一下下面這張圖:

我們發現:

  • 更大的注意分數并不意味著對最終預測的貢獻更大。SEP標記與其它標記之間的注意得分相對較大,但獲得的歸因得分較少。
  • 對contradiction類的預測,最主要的是第一節中的“don't”與第二節中的“I know”之間的聯系,這種聯系更容易解釋。

我們發現:

  • 歸因得分修剪頭部會對模型效果可以產生更顯著的影響。
  • 在每一層中只修剪Top2的兩個歸因分數的頭部會導致模型精度的極大降低。相比之下,保留它們有助于模型達到近97%的準確率。即使每層只保留兩個heads,模型仍然可以有很強的性能。
  • 和attention分數相比,使用attention分數裁剪heads的影響不是非常明顯,這也充分證明了我們方法的有效性。

2.實驗對比

  • 使用我們的方法進行裁剪的效果是最好的。

本文提出了自我注意歸因(ATTATTR),它解釋了Transformer內部的信息交互,使自我注意機制更易于解釋。文章進行了定量分析,證明了ATTATTR的有效性。此外,利用本文提出的方法來識別最重要的注意head,從而提出了一種新的頭部剪枝算法。然后利用屬性得分得到交互樹,從而可視化變壓器的信息流。本文的方法非常有參考價值。

AAAI21最佳論文Runners Up!Transformer的歸因探索!

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的AAAI21最佳论文Runners Up!Transformer的归因探索!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。