日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

可交互的 Attention 可视化工具!我的Transformer可解释性有救了?

發(fā)布時(shí)間:2024/7/5 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 可交互的 Attention 可视化工具!我的Transformer可解释性有救了? 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | Sherry

視覺(jué)是人和動(dòng)物最重要的感覺(jué),至少有80%以上的外界信息是經(jīng)過(guò)視覺(jué)獲得的。我們看論文的時(shí)候,通過(guò)圖表來(lái)確定文章的大致內(nèi)容往往也是一個(gè)更高效的 說(shuō)到深度神經(jīng)網(wǎng)絡(luò)的可視化,最經(jīng)典的莫過(guò)于的CNN密恐圖了:

這種可視化方法可以讓我們清晰的知道每一層的每一個(gè)Cell關(guān)注何種信息,模型最后是如何逐層迭代處理得到最后的判斷。但是對(duì)NLP而言,文字并不容易轉(zhuǎn)換成這樣直觀的視覺(jué)表示。對(duì)Transformer而言,理解注意力機(jī)制是最為關(guān)鍵的一步。比較常見(jiàn)的一種注意力可視化是用灰度圖表示不同token之間的注意力權(quán)重:但這種可視化的一大缺點(diǎn)是,每張圖只能表示一個(gè)注意力頭,我們很難獲得一個(gè)更直接的全局感受。

喬治亞理工最近提出了DODRIO,一種可交互的Attention可視化工具,從句法和寓意層面總結(jié)了不同注意力頭的信息。Transformer的可解釋性終于有救啦?

趕緊試試他們的Demo吧:
https://poloclub.github.io/dodrio/

論文題目:
DODRIO: Exploring Transformer Models with Interactive Visualization

論文鏈接:
http://arxiv-download.xixiaoyao.cn/pdf/2103.14625.pdf

Github:
https://poloclub.github.io/dodrio/

注意力頭概覽

在概覽圖中,我們可以看到不同層的不同注意力頭都化身成了大小,深淺不一的圓點(diǎn)。本文計(jì)算了幾種分?jǐn)?shù)并用顏色、深淺、大小來(lái)表示。

第一個(gè)是語(yǔ)義得分m:它是從注意力向量和顯著性得分的cosine相似度得到。

其中S表示的是每個(gè)token對(duì)模型最終預(yù)測(cè)的貢獻(xiàn)程度[1], 表示注意力權(quán)重。圓點(diǎn)顏色越紅,表示這個(gè)注意力頭對(duì)語(yǔ)義的貢獻(xiàn)越大。

接著是句法得分n: 我們使用最被關(guān)注的源token作為依賴關(guān)系預(yù)測(cè)的目標(biāo),對(duì)于每個(gè)依賴關(guān)系,我們計(jì)算每個(gè)注意力頭在所有樣例上的平均準(zhǔn)確性。最后,將每個(gè)頭所有依賴關(guān)系中的最大值作為他的句法得分。圓點(diǎn)顏色越藍(lán),表示這個(gè)注意力頭對(duì)句法的貢獻(xiàn)越大。

然后是重要性得分c:直接計(jì)算當(dāng)前頭的最大注意力權(quán)重在所有樣例上的平均

圓點(diǎn)顏色越大表示注意力頭對(duì)最終預(yù)測(cè)的貢獻(xiàn)越高。

句法依賴

除了注意力頭概覽,本文根據(jù)依賴關(guān)系也給出了注意力頭的分析。

注意力權(quán)重可以被看作是模型對(duì)詞之間依賴關(guān)系的預(yù)測(cè)。切換到句法依賴的可視化之后,鼠標(biāo)移動(dòng)到每個(gè)token都會(huì)高亮跟這個(gè)詞有關(guān)的注意力連接。在展開(kāi)的依賴關(guān)系圖上還可以看到指定的關(guān)系在不同層的權(quán)重會(huì)如何變化。

語(yǔ)義關(guān)系圖

同樣,本文也對(duì)語(yǔ)義關(guān)系進(jìn)行了可視化。點(diǎn)擊每個(gè)概覽中的注意力頭即可展開(kāi)在這個(gè)位置的注意力表示。顏色依然表示的是每個(gè)token的顯著性得分。

一些結(jié)論

本文的可視化方法再一次驗(yàn)證了一些之前BERT可解釋性文章的結(jié)論。例如:BERT的中間層更關(guān)注句法信息,以及BERT最后1-2層是分類的關(guān)鍵等。

一個(gè)有意思的實(shí)驗(yàn)是DistillBERT和BERT的可視化比較:

我們知道DistillBERT只用了40%的參數(shù)量達(dá)到了BERT97%的效果。用Dodrio來(lái)比較他們倆會(huì)發(fā)現(xiàn)什么呢?DistillBERT的所有注意力頭大小都差不多,進(jìn)一步分析發(fā)現(xiàn)大多數(shù)頭的置信度都很接近1。另外,DistillBERT的亮度也更高一些,這表示整體每個(gè)頭對(duì)句法或者語(yǔ)義的關(guān)注度都不高。這些發(fā)現(xiàn)暗示我們,DistillBERT可能學(xué)到了語(yǔ)義和句法之外的信息。

萌屋作者:Sherry

本科畢業(yè)于復(fù)旦數(shù)院,轉(zhuǎn)行NLP目前在加拿大滑鐵盧大學(xué)讀CS PhD。經(jīng)歷了從NOIer到學(xué)數(shù)學(xué)再重回CS的轉(zhuǎn)變,卻堅(jiān)信AI的未來(lái)需要更多來(lái)數(shù)學(xué)和自認(rèn)知科學(xué)的理論指導(dǎo)。主要關(guān)注問(wèn)答,信息抽取,以及有關(guān)深度模型泛化及魯棒性相關(guān)內(nèi)容。

作品推薦:

  • Facebook刷新開(kāi)放域問(wèn)答SOTA:模型訓(xùn)模型!Reader當(dāng)Teacher!

  • 谷歌、CMU發(fā)文:別壓榨單模型了!集成+級(jí)聯(lián)上分效率更高!

  • 無(wú)需人工!無(wú)需訓(xùn)練!構(gòu)建知識(shí)圖譜 BERT一下就行了!

  • 后臺(tái)回復(fù)關(guān)鍵詞【入群

    加入賣萌屋NLP/IR/Rec與求職討論群

    后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)

    獲取ACL、CIKM等各大頂會(huì)論文集!

    ?

    [1].Visualizing and Understanding Neural Models in NLP (https://www.aclweb.org/anthology/N16-1082.pdf)

    [2].DODRIO: Exploring Transformer Models with Interactive Visualization (http://arxiv-download.xixiaoyao.cn/pdf/2103.14625.pdf)

    總結(jié)

    以上是生活随笔為你收集整理的可交互的 Attention 可视化工具!我的Transformer可解释性有救了?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。