當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

我的人工智能之旅——偏斜类问题

發布時間：2023/12/14 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了我的人工智能之旅——偏斜类问题小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

正樣本數占樣本總數的比例極小時，容易出現偏斜類問題。

例如癌癥測試。樣本集合中僅有0.5%的癌癥樣本，99.5%的正常樣本。通過某一假設函數后，得到1%為癌癥患者，99%為正常樣本。雖然總的正確率高達99%，但假設函數并不理想。因為，我們的目的是為了，檢測出是否得癌。

這時候，如果將99%的準確率提升至99.2%，無疑是一個較大的提升，雖然，在數值上來看，只有0.2%。

因此，對于偏斜類問題，需要引入兩個概念，查準率（precision）和召回率（recall）.

還是癌癥檢測為例。

預計得癌人數中，真正得癌的人數，占預計得癌人數的比例，為查準率。即

預計得癌人數中，真正得癌的人數，占實際得癌人數的比例，為召回率。即

查準率和召回率通常是此長彼消的。

比如，我們使用邏輯回歸，計算得癌風險，通過比對閥值p，預判是否得癌。高于p為癌癥，低于p為正常。

當將p設置為0.9時，預測過于嚴謹，導致查出癌癥的人數減少，準確率提高，即查準率提高。同時，由于過于嚴謹，導致部分得癌樣本未被檢出，因此召回率會比較低。

當將p設置為0.1時，結果又會反轉。查準率低，召回率高。

如何權衡查準率和召回率呢？

通常采用公式F。假設查準率為m，召回率為n，那么

F值高者，對應的模型更優秀。

例如查準率，召回率都趨近于1，則F趨近于1。

兩者趨近于0，則F趨近于0.

以上是生活随笔為你收集整理的我的人工智能之旅——偏斜类问题的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。