日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

可解释机器学习- LIME模型讲解|interpretable machine learning-LIME

發(fā)布時間:2023/12/18 编程问答 62 豆豆
生活随笔 收集整理的這篇文章主要介紹了 可解释机器学习- LIME模型讲解|interpretable machine learning-LIME 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Contents

  • 原理
  • 計算流程
  • 優(yōu)勢
  • 劣勢
  • Reference

原理

  • LIME生成了一個新的數(shù)據(jù)集,數(shù)據(jù)集由擾動的樣本(permuted samples)黑箱模型對應(yīng)的預(yù)測構(gòu)成。LIME在這個數(shù)據(jù)集上訓(xùn)練一個可解釋模型(比如lasso或決策樹),該模型根據(jù)生成樣本與真實(shí)樣本的近似程度(proximity)來加權(quán)
  • 如何生成擾動的樣本:
    • 對于圖像和文字,可以通過隱藏一些像素點(diǎn)(pixels)或單詞
    • 對于表格數(shù)據(jù)(tabular),LIME對于每一個特征單獨(dú)進(jìn)行擾動,比如說從正態(tài)分布中采樣,該正太分布由特征的均值和方差決定
  • LIME是在保持可解釋模型復(fù)雜度較低的情況下,盡可能減小loss(可解釋模型與原始模型的接近程度,也就是對擾動后產(chǎn)生的數(shù)據(jù)集擬合)
  • 但在實(shí)際應(yīng)用中,用戶需要確定復(fù)雜度

計算流程

  • 選擇ML模型和需要解釋的樣本點(diǎn)
  • 生成樣本
  • 根據(jù)生成樣本,使用blackbox模型產(chǎn)生預(yù)測值
  • 對樣本進(jìn)行加權(quán),權(quán)重是生成樣本點(diǎn)和參考點(diǎn)的相似程度,相似程度通過不同的核函數(shù)進(jìn)行計算(比如RBF kernel)
  • 加權(quán)線性回歸,回歸系數(shù)就是對應(yīng)特征的解釋
  • 使用InterpretML對 PCA+Random Forest組合成的黑箱模型進(jìn)行解釋,結(jié)果如下

    • 如何使用請參考:https://blog.csdn.net/qq_41103204/article/details/125796207

    優(yōu)勢

    • 即使替換了底層(underlying)的機(jī)器學(xué)習(xí)模型,仍然可以用局部的可解釋模型進(jìn)行解釋
    • 當(dāng)使用lasso或者決策樹的時候,解釋是簡短的(有選擇性的),并且是可以比較的(contrastive)。但需要更全面的解釋的時候,LIME就不合適了
    • 可用于表格數(shù)據(jù)(tabular),文本和圖像
    • 保真度度量fidelity measure (可解釋模型與黑盒預(yù)測的近似程度) 使我們很好地了解了可解釋模型在解釋感興趣的數(shù)據(jù)實(shí)例附近的黑盒預(yù)測方面的可靠性
    • 用局部代理模型創(chuàng)建的解釋可以使用除原始模型所用以外的其他 (可解釋) 特征。當(dāng)然,這些可解釋的特征必須從數(shù)據(jù)實(shí)例中派生。文本分類器可以將抽象詞嵌入作為特征,但解釋可以基于句子中是否存在詞。回歸模型可以依賴于某些屬性的不可解釋的轉(zhuǎn)換,但是可以使用原始屬性來創(chuàng)建解釋。與其他方法相比,對LIME 使用可解釋特征可能是一個很大的優(yōu)勢,尤其是當(dāng)模型使用不可解釋特征進(jìn)行訓(xùn)練時
    • 比如上面的例子,分類模型Random Forest是基于PCA降維后的特征,但是LIME可以把PCA+Random Forest當(dāng)成一個黑箱,直接在原始數(shù)據(jù)上進(jìn)行解釋。

    劣勢

    • 當(dāng)對表格式數(shù)據(jù)使用 LIME 時,**正確定義鄰域(correct definition of the neighborhood)**是一個很大的未解決的問題,需要嘗試不用的核函數(shù),來看解釋是否合理
    • 采樣可能不合理。現(xiàn)在只通過高斯分布來采樣,忽略了特征之間的相關(guān)性,這會導(dǎo)致一些不可能的數(shù)據(jù)出現(xiàn)在訓(xùn)練樣本中
    • 解釋不穩(wěn)定(instability)。兩個相近的樣本點(diǎn),解釋非常不同

    從第一張圖可以看到,正確的鄰域應(yīng)該是綠色圓圈表示的區(qū)域,要盡可能包括ML的線形區(qū)域。但是不同的核函數(shù)的寬度會帶來不同的鄰域,如圖二。

    Reference

    • https://interpret.ml/
    • https://christophm.github.io/interpretable-ml-book/
    • https://towardsdatascience.com/lime-explain-machine-learning-predictions-af8f18189bfe

    總結(jié)

    以上是生活随笔為你收集整理的可解释机器学习- LIME模型讲解|interpretable machine learning-LIME的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。