论NLP可解释的评估:什么才是“好”的解释?
?PaperWeekly 原創(chuàng) ·?作者|李濼秋
學校|浙江大學碩士生
研究方向|自然語言處理、知識圖譜
前言
深度學習模型已經(jīng)成為 NLP 的標準工具,在解決許多問題上大顯神通。然而其黑盒性質也成為一大問題,對系統(tǒng)的可控性、可信任度都造成影響。在醫(yī)療、金融等領域,對模型可解釋的需求都日益增加。
目前,NLP 的可解釋領域中已經(jīng)有了不少工作,比如:
基于 probing task 測試模型的語義理解能力
從模型的 embedding、activation、attention 到 saliency 的可視化分析
構造特定語言現(xiàn)象的 challenge set 作某種方面質量評估的
用各種啟發(fā)式方法生成 adversarial sample 分析模型魯棒性的
生成模型預測的自然語言解釋文本(NL Explanation Generation)
尋找簡單的替代模型,或者將模型的局部分類面簡化(LIME 等)
……
等等。以上每一條線都有許多不同的工作,感興趣的讀者可以從這篇概述入手了解。
但是或許我們需要先回答一個更加基本,也更核心的問題:
如何評估解釋的好壞?
如果沒有一個直接的、統(tǒng)一的標準,又有什么制定標準的原則可以是值得參考和遵守的?
據(jù)個人目前了解,還沒有工作提出一個能說服大部分人的解釋的標準——或者只能定性而非定量分析(例如可視化方法),或者很大程度基于主觀認識(例如 contrast set,或者和人工標注進行對比等),或者不能從根本上說明問題(例如對抗方法),有的甚至沒有辦法和其他方法進行比較孰優(yōu)孰劣…… 說白了,所有人都像是在摸著石頭過河。
但是,如果不將這一問題說明白,建立共識性的認知,那么可以說所有的解釋工具都只是自說自話,解釋也將和深度學習本身一樣化為“玄學”(甚至比玄學更玄,因為我們甚至不知道目標在哪里),再多 fancy 的 technique 也只會使我們離真實越來越遠。
而這也正是目前大家所關心和糾結的問題:
https://www.zhihu.com/question/341190239
于是,本文將解讀一篇發(fā)表在 ACL 2020 的綜述文章 Towards Faithfully Interpretable NLP Systems: How Should We De?ne and Evaluate Faithfulness?,分享其中關于可解釋評估的一些現(xiàn)狀分析和思考。(當然,或許僅憑借這一篇文章也無法給出正確的結論,但是至少它可以提供了一些討論的基礎)
為了節(jié)約大家時間,先把文章的結論放在這里,可以快速跳到相關的內容:
1. 可解釋的評估包含似然性和忠實性的評估,而人的參與只會把評估變?yōu)樗迫恍栽u估,對證明模型具有真正的可解釋能力——即忠實性方面毫無用處。
2. 忠實性的評估可以分為三個基本的原則假設,即模型假設、預測假設和線性假設(關于具體假設的內容請見下文)。
3. 忠實性不應該是一個“是”或“否”的評估,不然完全忠實的模型如同真空中的球形雞,是不存在的。我們應該在更細微的“灰度”上評估忠實度,即使這些解釋不具有全局性和明確的忠實性,也可以使解釋有用。
NLP可解釋領域現(xiàn)存的問題
1. 當前的解釋方法受實際用例和應用程序的啟發(fā),以非常特殊性(而非普遍性)的方式定義解釋。但是,這種視角通常無法區(qū)分解釋質量的各個方面,例如可讀性(readability),似然性(plausibility)和忠實性(faithfulness——Herman,2017 年)。
2. 此外,盡管很多工作可能會隱式或顯式地評估對特定解釋技術的忠誠度,但對忠誠度并沒有統(tǒng)一和正式的定義。
3. 最后,當下還有一種趨勢:將忠實性視為二元屬性,然后說明解釋方法不忠實。本文認為這是徒勞的——幾乎不可能完全滿足這些假設,并且通過反例來證明一種解釋方法的真實性也太容易了。
針對以上內容,本文的貢獻可以總結如下:
對于第 1 點和第 2 點,本文對忠實性作出了定義:和似然性無關,忠實的解釋可以準確地表示模型預測背后的推理過程。并且本文認為,在要求解釋如實的情況下,不完善或誤導性的評估可能會造成災難性的影響。
本文通過明確所有可解釋的嘗試背后的三個假設,將看似不同的評估方法串聯(lián)起來,并提供了有關忠實的理想屬性的討論基礎。
對于第 3 點,本文主張在實踐中對忠誠度有更實際的看法,采用分級標準來衡量一種解釋在實踐中是否忠實的程度和可能性。對于某個特定領域,如何構建這些標準的確切形式以及設計針對性的具體評估方法,是未來工作的主要挑戰(zhàn)。
以下將詳細說明。
區(qū)分忠實性與似然性
似然性(plausibility)和忠實性(faithfulness)是兩個特別值得注意的標準:似然性是指對人類的解釋令人信服,而“忠誠”則是指它能準確反映模型的真實推理過程(Herman,2017;Wiegreffe and Pinter,2019)。
此處參考文獻:
arxiv 2017,《The promise and peril of human evaluation for model interpretability》EMNLP 2019,《Attention is not not explanation》
如果只考慮符合其中一個性質,這是很容易做到的。例如,考慮通過事后(post-hoc,即模型預測后)文本生成進行解釋的情況,其中一個額外的“生成器”組件輸出模型決策的文本說明,并在用文本解釋作為監(jiān)督信號的情況下學習生成器(Zaidan 和 Eisner,2008;Rajani 等,2019;Strout 等,2019)。在這種情況下,似然性是主要屬性,而不能滿足忠實性。
盡管這兩個標準之間存在差異,但許多作者并沒有明確區(qū)分,有時甚至將兩者混為一談:
NIPS 2017,《A uni?ed approach to interpreting model predictions》
arxiv 2018,《Evaluating neural network explanation methods using hybrid documents and morphological prediction》
arxiv 2018,《Faithful multimodal explanation for visual question answering》
而且,即使明顯屬于某個陣營,大多數(shù)工作也沒有明確列出要考慮的標準:
arxiv 2018,《A humangrounded evaluation benchmark for local explanations of machine learning》
arxiv 2016,《”what is relevant in a text document?”: An interpretable machine learning approach》
arxiv 2018,《Looking deeper into deep learning model: Attribution-based explanations of textcnn》
arxiv 2019,《A human-grounded evaluation of SHAP for alert processing》
我們認為這一混淆很危險,缺乏明確的主張可能會給該技術的潛在用戶帶來錯誤的信息,這些用戶不熟悉其內部工作原理。因此,必須明確區(qū)分這些術語。
2019 年 microsoft 的一篇論文《Interpreting interpretability: Understanding data scientists use of interpretability tools for machine learning》指出,盡管沒有保證,即使是專家也傾向于過于相信解釋的真實性。
固有的解釋性
通常的解釋性方法分為以下兩類:
通過事后方式解釋現(xiàn)有模型;
設計固有可解釋的(inherently interpretable)模型。?
Rudin(2018)主張使用固有可解釋的模型,該模型在設計上聲稱比黑箱模型的事后解釋提供了更多忠實的解釋(2018 arxiv,《Please stop explaining black box models for high stakes decisions》)。
本文認為不能以表面價值來論證這一觀點:所謂某個方法“固有地可解釋”是需要驗證的主張。確實,雖然注意力機制被認為具有“固有的可解釋性“(Ghaeini 等人,2018; Lee 等人,2017),但最近的工作使人們對其忠實性產(chǎn)生懷疑(Serrano 和 Smith,2019; Jain 和 Wallace,2019; Wiegreffe 和 Pinter,2019年)。
這里就不得不提到之前的一篇《The elephant in the interpretability room: Why use attention as explanation when we have saliency methods?》,對注意力解釋方法的局限性和對應的顯著性方法作出詳細闡述。可以閱讀以下本人的解讀進一步了解:https://zhuanlan.zhihu.com/p/287126616
通過效用評估
盡管解釋有許多不同的用例,例如模型調試,合法保證或對健康至關重要的保證,但另外一個具有突出評價文獻的可能用例是通過人機交互(HCI)實現(xiàn)的自動模型的智能用戶界面(IUI)來協(xié)助人類決策者。在此進行解釋的目的是增加用戶與系統(tǒng)之間的信任度,為用戶對系統(tǒng)的決定是否可能正確提供更多的微妙依據(jù)。
在一般情況下,最終評估指標是用戶在執(zhí)行任務時的表現(xiàn)(Abdul 等人,2018)。例如,Feng 和 BoydGraber(2019)在瑣事問答環(huán)境中評估了模型的各種解釋。
此處引用:2018,CHI,《Trends and trajectories for explainable, accountable and intelligible systems: An HCI research agenda.》2019,IUI,《What can ai do for me? evaluating machine learning interpretations in cooperative play.》
但是,在忠實性的語境下,我們也必須警告拒絕受到基于人機交互(HCI)的評估:在這種情況下,提高績效并不意味著忠實的指示;相反,它只能表明解釋的似然性與模型的性能之間存在的相關性。
舉個例子,假設 HCI 評估環(huán)境中有一個不忠實的解釋系統(tǒng):給出的解釋是文本輸入的熱圖,將分數(shù)歸因于各種標記。假設系統(tǒng)說明的行為如下:當輸出正確時,說明由隨機的內容詞組成;當輸出不正確時,它由隨機標點符號組成。
換句話說,當模型正確時,這種解釋更有可能看起來合理,而同時又沒有反映模型的真實決策過程。使用者通過更美觀的解釋深信不疑,因此使用該系統(tǒng)的效果更好。但是,這種解釋始終聲稱隨機標記與模型的推理過程高度相關。盡管該系統(tǒng)特別有用,但解釋所給出的主張并不能反映模型的決策。
盡管上述情況是極端的,但這種誤解并非完全不可能,因為可信度與模型性能之間的任何程度的相關性都會導致用戶性能的提高,而與忠誠度的概念無關。
這里的分析可以看出,所有基于可視化的方法的評估都無法證明解釋的忠實性。然而,目前幾乎所有的文章都是拿幾個熱力圖比較一下,感性分析……
忠實性評估的幾條指南
破了這么多舊觀念,終于該到立論的部分了——
本文提出以下準則來評估解釋的真實性。這些指南解決了我們在文獻中觀察到的常見陷阱和次優(yōu)實踐的問題。
明確評估對象。混用似然性和忠實性是有害的:應該明確評估其中一個,并針對每個評估使用適當?shù)姆椒ā.斎?#xff0c;在設計解釋技術時也應如此-明確要優(yōu)先考慮的屬性。
忠實度評估不應包括對解釋質量的判斷。我們注意到:(1)人類無法判斷一種解釋是否忠實:如果他們理解了模型,那么解釋就沒有必要了;(2)由于類似原因,我們也無法獲得對此問題的監(jiān)督。因此,人的判斷不應參與對忠誠度的評估,因為人的判斷會衡量似然性。
這似乎是一個悖論:因為無法理解模型內部發(fā)生的事情,所以需要可解釋方法;但是因為無法理解模型,我們也難以確定解釋是否忠實反映了模型內部的決策過程…… 因此,對于忠實性最好的評估還是基于某些客觀指標!
忠誠度評估不應涉及人為提供的金標準。我們應該能夠解釋與正確的模型預測相同的錯誤模型預測。依靠金牌的評估方法受到人類先驗對模型應該做什么的影響,并再次將評估推向了似然性的方向。
不要相信“固有的可解釋性”主張。除非另有證明,否則固有的可解釋性只是一個主張而非事實。“固有可解釋”模型提供的解釋必須遵循與事后解釋方法相同的標準,并使用同一套評估技術對其忠誠度進行評估。
再次強調:注意力之類的方法只具有似然性,但是其對模型的工作方式的解釋非常非常非常有限!具體請參考上面的專欄文章。
IUI 系統(tǒng)的忠實性評估不應依賴于用戶表現(xiàn)。HCI 設置中的最終任務用戶性能僅表示似然性與模型性能之間的相關性,但是這種相關性很小。盡管評估某些用例的解釋效用很重要,但它與忠誠度無關。
定義忠實性
那么,如何定義解釋方法的忠實性?
直觀地,我們希望所提供的解釋能夠在做出決策時反映模型的真實推理過程。但是,什么是模型的推理過程?如何將推理過程相互比較?
由于缺乏標準定義,不同的工作通過引入測試來衡量他們認為良好的解釋應該滿足的特性來評估他們的方法。其中一些測試可衡量忠誠度的各個方面。這些臨時定義通常對于每篇論文都是唯一的,并且彼此不一致,因此很難找到共同點。
我們發(fā)現(xiàn)了所有這些方法背后的三個假設,使我們能夠沿標準化軸組織文獻,并關聯(lián)看似不同的工作方式。此外,公開基本假設可以就其有效性和優(yōu)點進行知情的討論(我們或其他人將其留給未來的工作)。據(jù)我們所知,這些假設包含了研究界對忠誠度的當前有效定義:
假設1(模型假設):當且僅當兩個模型使用相同的推理過程時,它們才會做出相同的預測。
推論 1.1:如果解釋系統(tǒng)導致對做出相同決策的模型進行不同的解釋,那么它就是不忠實的。
這一推論可以用作反示例(counter-example)的證明。從理論上講,如果所有可能完美地模仿模型決策的模型也提供相同的解釋,則可以認為它們是忠實的。相反,表明兩個模型提供了相同的結果卻有不同的解釋,則證明了該方法不具有真實性。
2019,EMNLP,《Attention is not not explanation.》展示了如何通過對抗性訓練模型推導這些反例,這些模型可以模仿原始模型,但提供不同的解釋,同時還利用了這一假設來表明某些解釋確實包含有關模型行為的有用信息。
推論1.2:如果解釋導致的決定與其解釋的模型不同,則它是不忠實的。
一個更直接應用是通過保真度(?delity)的概念(Guidotti 等,2018;Lakkaraju 等,2019)。對于解釋本身就是能夠做出決策的模型的情況(例如決策樹或規(guī)則列表(Sushil 等人,2018)),保真度定義為解釋模型可以模仿原始模型決策的程度(比如準確性accuracy score)。
對于解釋不是可計算模型的情況,Doshi-Velez 和 Kim(2017)提出了一種通過眾包將解釋映射到?jīng)Q策的簡單方法,方法是要求人們模擬模型的決策而無需訪問模型,而只能訪問輸入和解釋(稱為正向仿真)。Nguyen(2018)進一步探索并實踐了這一想法。
2018,ACM,《A survey of methods for explaining black box models.》
2019,AAAI,《Faithful and customizable explanations of black box models.》
假設2(預測假設):對于相似的輸入,當且僅當其推理相似時,模型才會做出相似的決策。
推論2:如果解釋系統(tǒng)為相似的輸入和輸出提供不同的解釋,則它是不忠實的。
由于解釋是模型“推理”的代理,因此應滿足相同的約束條件。換句話說,對類似決策的解釋應該相似,而對不同決策的解釋應該相似。
這種假設對于證明解釋不具有忠實性更有用,因為證偽解釋的不忠實需要找到適當?shù)那闆r,可能證明需要檢查(非常大)令人滿意數(shù)量的示例,甚至整個輸入空間。
NLP 社區(qū)中最近的一次討論(Jain 和 Wallace,2019 年; Wiegreffe 和 Pinter,2019年,即《Attention is not explanation》和《Attention is not not explanation》的討論大戰(zhàn))涉及使用這一基本假設來評估注意力熱圖作為解釋。前者試圖針對每個實例對類似決定提供不同的解釋。后者對前者提出了批評,并在很大程度上基于上述模型假設。
此外,Kindermans等(2019)《The (un)reliability of saliency methods.》建議對輸入空間引入恒定的轉移,并評估解釋是否隨著最終決定保持不變而發(fā)生顯著變化。AlvarezMelis和Jaakkola(2018)《On the robustness of interpretability methods.》在術語可解釋性健壯性下正式化了這種技術的概括:解釋應不變于輸入中的小擾動(預測假設的直接結果)。Wolf 等(2019)《A formal approach to explainability.》進一步擴展了這個概念,即“模型解釋的一致性”。不幸的是,由于離散輸入,很難在 NLP 設置中應用魯棒性度量。
假設3(線性假設):輸入的某些部分對模型推理比其他部分更重要。而且,輸入的不同部分的貢獻彼此獨立。
推論3:在某些情況下,熱力圖的解釋可能是不忠實的。
該假設被考慮輸入上的熱圖(例如,注意力圖、顯著性圖)作為解釋的方法采用,在 NLP 中特別流行。熱圖是關于輸入的哪些部分比其他部分與模型決策更相關的主張。因此,我們可以設計“壓力測試”以驗證它們是否支持其主張。
為此,一種建議的刪除方法是擦除,根據(jù)解釋,將輸入中“最相關”的部分從輸入中刪除,以期模型的決策會改變(Arras 等人,2016;Feng 等人;2018 年;Serrano and Smith,2019年)。否則,可能會刪除輸入中“最不相關”的部分,以期望模型的決定不會改變(Jacovi 等人,2018)。Yu 等(2019)今兒 DeYoung 等(2019)提出了兩種全面性和充分性的度量方法作為對擦除的正式概括:通過去除高級特征或僅包含高級特征對模型的影響程度。
實現(xiàn)忠實的解釋是不可能的嗎?
上述假設目前用于以二進制方式評估忠實度:解釋是否嚴格忠實。具體來說,通過構造假設不成立的案例,它們最常被用來表明一種方法是不真實的(無論是基于attenton,還是基于saliency,還是其他的方法)。
換句話說,對于各種解釋方法,存在通過反例進行證明的明顯趨勢,即它們不是全部忠實的。
然而這種方式的評估是無用的,因為我們期望這些各種方法能夠持續(xù)產(chǎn)生負面(而不是忠實)的結果,從而延續(xù)當前的趨勢。這是因為解釋的作用近似于模型或決策的真實推理過程,因此定義會丟失信息。根據(jù)鴿籠原理,在解釋和推理之間會有偏差。
在實踐中,這在眾多顯示對抗行為或病理行為分析的工作中得到了觀察,這些行為或病理行為是由當前模型的深層非線性和高維決策邊界引起的。此外,由于我們缺乏對哪些模型或決策確實可映射到人類可讀概念的監(jiān)督,因此我們不能忽略近似誤差。
那么,如果我們需要一個能提供忠實解釋的系統(tǒng),我們應該怎么做?
通往更好的可解釋評估
我們認為,擺脫目前僵局的方法是采用一種更實用,更細致的方法來定義和評估忠誠度。我們向社區(qū)提出以下挑戰(zhàn):我們必須對忠實性進行正式的定義和評估,從而使我們可以自由地說出一種方法在實踐中足夠忠實可以用于實用。
在此,我們提出兩種可能的方式:
跨模型和任務:在特定模型或任務級別的忠誠度(以灰度表示)。也許某些模型或任務可以進行充分忠實的解釋,即使對于其他模型或任務并非如此。例如,該方法可能不忠于某些問答任務,但忠實于情感分析,可能基于這些任務的各種句法和語義屬性。
跨輸入空間:在輸入空間的子空間級別(如相似輸入的鄰域或奇異輸入本身)上的忠誠度。如果我們能夠在某種程度上確信特定決策的解釋是否忠實于模型,即使該解釋方法不被普遍認為是忠實的,也只能將其用于特定領域或實例。
結論
本文提出的意見有兩個方面:
首先,可解釋性評估通常包含對忠誠度和真實性的評估。我們應該把這兩個定義分開,只專注于評估忠誠度,而不會影響解釋的說服力。
其次,對忠誠度的評價通常采用二進制“忠實或不忠實”的方式,我們認為嚴格忠實的解釋是“獨角獸”,這將永遠找不到。相反,我們應該在更細微的“灰度”上評估忠實度,即使這些解釋不具有全球性和明確的忠實性,也可以使解釋有用。
這篇文章我認為非常值得一讀。可解釋性不應該成為玄學,有了更系統(tǒng)和科學的評估以后,更好地幫助這一領域發(fā)展。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的论NLP可解释的评估:什么才是“好”的解释?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ICLR 2021 | 美团、上交大等:
- 下一篇: 公交车司机工资多少钱 坐公交的不一