我的人工智能之旅——偏斜类问题
生活随笔
收集整理的這篇文章主要介紹了
我的人工智能之旅——偏斜类问题
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
偏斜類問題
正樣本數占樣本總數的比例極小時,容易出現偏斜類問題。
例如癌癥測試。樣本集合中僅有0.5%的癌癥樣本,99.5%的正常樣本。通過某一假設函數后,得到1%為癌癥患者,99%為正常樣本。雖然總的正確率高達99%,但假設函數并不理想。因為,我們的目的是為了,檢測出是否得癌。
這時候,如果將99%的準確率提升至99.2%,無疑是一個較大的提升,雖然,在數值上來看,只有0.2%。
因此,對于偏斜類問題,需要引入兩個概念,查準率(precision)和召回率(recall).
查準率&召回率
還是癌癥檢測為例。
| ? | 實際標簽(1代表得癌) | ||
| 1 | 0 | ||
| 預計標簽(1代表得癌) | 1 | A | B |
| 0 | C | D | |
預計得癌人數中,真正得癌的人數,占預計得癌人數的比例,為查準率。即
預計得癌人數中,真正得癌的人數,占實際得癌人數的比例,為召回率。即
查準率和召回率通常是此長彼消的。
比如,我們使用邏輯回歸,計算得癌風險,通過比對閥值p,預判是否得癌。高于p為癌癥,低于p為正常。
當將p設置為0.9時,預測過于嚴謹,導致查出癌癥的人數減少,準確率提高,即查準率提高。同時,由于過于嚴謹,導致部分得癌樣本未被檢出,因此召回率會比較低。
當將p設置為0.1時,結果又會反轉。查準率低,召回率高。
如何權衡查準率和召回率呢?
權衡公式F
通常采用公式F。假設查準率為m,召回率為n,那么
F值高者,對應的模型更優秀。
例如查準率,召回率都趨近于1,則F趨近于1。
兩者趨近于0,則F趨近于0.
總結
以上是生活随笔為你收集整理的我的人工智能之旅——偏斜类问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C# 使用DataMan 数据人扫码枪连
- 下一篇: 计算机网络 蔡开裕 PDF,浅议《计算机