日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模型验证的常用武器k-s

發(fā)布時間:2025/3/21 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 模型验证的常用武器k-s 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

首先我們來回顧一下AUC。

AUC(Area Under Curve)被定義為ROC曲線下的面積。我們往往使用AUC值作為模型的評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數(shù)值,對應AUC更大的分類器效果更好。其中,ROC曲線的橫軸為(1-特異性),即1-預測對的bad實例/實際的bad實例數(shù);縱軸為敏感性,即預測對的good實例/實際good的實例。從而AUC可以表示模型的準確性和排序能力。

那既然有了AUC為何還要KS呢?

答案很簡單,因為他們展示模型功效的視角不一樣。

下面我們來看一下KS的計算原理。

事實上,K-S檢驗出現(xiàn)在統(tǒng)計學非參數(shù)檢驗中,其全名為Kolmogorov-Smirnov Test。

先簡單介紹下單樣本的K-S檢驗。單樣本K-S檢驗是利用樣本數(shù)據(jù)來推斷總體是否服從某一分布(如:Normal, Uniform, Poisson, Exponential),適用于探索連續(xù)型隨機變量的分布形態(tài)。

好了,單樣本K-S事實上檢驗的是分布形態(tài),那不難理解兩樣本分布的K-S檢驗主要推測的就是兩個樣本是否具有相同的分布了。

對于模型我們期望他有什么功效特征呢?那當然是模型給出的評分對于Good sample和Bad sample有很強的區(qū)分能力。也就是說對于該模型的評分結果,Good sample累積概率的分布形態(tài)和Bad sample累積概率的分布形態(tài)有顯著的差異。所以我們可以使用兩樣本分布的K-S檢驗達到我們模型驗證的目的。

驗證過程中,如果發(fā)現(xiàn)壞客戶估計值的經(jīng)驗分布與好客戶估計值的經(jīng)驗分布有顯著差異且差異表現(xiàn)為更多的壞客戶集中于低分區(qū)&更多的好客戶集中于高分區(qū),那就能說明我們的模型具備了一定的區(qū)分功效。所以我們使用K-S統(tǒng)計量對這個區(qū)分能力進行量化,K-S統(tǒng)計量等于好客戶和壞客戶的累積概率差的最大值,即:

那么如何在SAS里實現(xiàn)累積概率的作圖以及KS統(tǒng)計量的計算呢?

SAS的proc npar1way可以幫助我們輕松得到好壞樣本的累積概率分布圖以及KS統(tǒng)計量:

代碼如下

proc npar1way data=dataset wilcoxon edf;

class y;

var edf;

run;

同時可得其KS統(tǒng)計量=0.132846。

對于得到的KS值該如何評判?

以下是傳統(tǒng)的評價準則,通常要求模型KS值在0.4以上。

繼續(xù)來開一下腦洞

一般的理論介紹到這里就已經(jīng)結束了,但是KS值總有那么一點不完美,那就是KS統(tǒng)計量實際上是通過一個點的值來判斷好壞樣本分布的差異性,也就是說指標存在一定的不穩(wěn)定性。那有什么方法可以改善他的穩(wěn)定性呢?

我們不妨參考ROC——>AUC的思想,使用面積(如下圖紅色部分)來表達其分布的差異。

這個想法KPMG大數(shù)據(jù)挖掘團隊在去年就有提出過,他們定義了一個新統(tǒng)計量“K-S曲線下的面積(Area under the K-S curve)”,其將兩條累積概率曲線做差形成KS曲線,并計算其于x軸之間的面積(事實上就等于上圖紅色區(qū)域的面積),并將其面積值簡寫為AUKS。以下是他們對于AUKS的定義和評價:

,可以假設

,則

與K-S統(tǒng)計量相比,AUKS統(tǒng)計量的優(yōu)點在于:從整個評分的取值域而不是一個點來檢驗模型的優(yōu)劣,具有更好的穩(wěn)定性,對樣本量的依賴程度相對較低。我們用兩個統(tǒng)計量對評價模型進行了驗證,在模擬實驗中,與K-S統(tǒng)計量相比,AUKS統(tǒng)計量始終有更加穩(wěn)定的均值、更小的標準差和更小的變異系數(shù),作為信用評分模型的評價指標具有更好的穩(wěn)定性。

摘自:《評估信用評級模型,反思K-S指標》

KPMG大數(shù)據(jù)挖掘團隊

正如先前所說的,展示模型功效的視角有多個(如準確性,區(qū)分能力,穩(wěn)定性等),因此實踐中我們首先需要理解每個指標是從哪個視角去檢驗模型的功效,然后對于重點關注的若干視角分別選取一個指標來對模型進行驗證。

《新程序員》:云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的模型验证的常用武器k-s的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。