日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

4.5 偏斜类-机器学习笔记-斯坦福吴恩达教授

發布時間:2025/4/5 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 4.5 偏斜类-机器学习笔记-斯坦福吴恩达教授 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

偏斜類(Skewed Classes)

引子

假定我們通過邏輯回歸來預測病人是否患有癌癥:
y={0,病人未患癌癥1,病人患有癌癥y=\begin{cases}0,\quad病人未患癌癥\\1,\quad病人患有癌癥\end{cases}y={01?

并且,令人欣喜的是,測試集的錯誤率只有 1%。別著急高興,假如我們的測試樣本中只有 0.5% 患有癌癥,那么我們何不直接讓預測函數為:
hθ(x)=0h_θ(x)=0hθ?(x)=0

即,我們永遠預測病人不患病,那么準確率會高達 95%。但這可不是一件好事兒,我們追求高準確率犧牲的是病人的利益。引起這個問題的原因是樣本中出現了偏斜類(Skewed Classes),偏斜即傾斜,大量樣本傾斜向了某一類型。

查準率(Precision)與召回率(Recall)

從上面的例子我們知道,單純地使用誤差(Error)并不能完善地評價模型好壞,現在引入兩個重要的評價指標:(1)查準率(Precision);(2)召回率(Recall),并定義:

  • 陽性(Positive):表示正樣本。當預測和實際都為正樣本時,表示真陽性(True Positive);如果預測為正樣本,而實際為負樣本,則表示假陽性(False Positive)。
  • 陰性(Negative):表示負樣本。當預測和實際都為負樣本時,表示真陰性(True Negative);如果預測為負樣本,而實際為正樣本,則表示假陰性(False Negative)。

    則:
  • 查準率(Precision):
    Precision=TruePosPredicatedPos=TruePosTruePos+FalsePosPrecision=\frac{TruePos}{PredicatedPos}=\frac{TruePos}{TruePos+FalsePos}Precision=PredicatedPosTruePos?=TruePos+FalsePosTruePos?

在上例中,查準率就描述了:在我們預測患癌的病人中,確實患了癌癥的病人的比例。從公式中我們也可以得出,要想得到提高查準率,我們就要降低假陽性的出現的頻次,即,我們只有在擁有十足的把握是,才預測一個樣本為正樣本。

  • 召回率(Recall):
    Recall=TruePosActualPos=TruePosTruePos+FalseNegRecall=\frac{TruePos}{ActualPos}=\frac{TruePos}{TruePos+FalseNeg}Recall=ActualPosTruePos?=TruePos+FalseNegTruePos?

在上例中,召回率就描述了:在患癌的病人中,有多少病人被我們預測到了。從公式中我們也可以得出,要想提高召回率,我們就要降低假陰性出現的頻次,即,盡可能不放過任何可能為正樣本的樣本。

查準率和召回率的權衡

理想狀況下,我們希望假設函數能夠同時具備高準確率(High Precision)及高召回率(High Recall)。但是往往魚和熊掌不可兼得。回到預測病人患癌的例子中,假定我們的預測函數為:
y={1,hθ(x)≥0.50,otherwisey=\begin{cases}1,\quad h_\theta(x)≥0.5\\0,\quad otherwise\end{cases}y={1,hθ?(x)0.50,otherwise?

即,我們設定的預測閾值為 0.5 。這么做似乎風險不小,很多沒有患癌的病人被我們認為患有癌癥而接受了不必要的治療,因此,我們調高我們的閾值為 0.7 :
y={1,hθ(x)≥0.70,otherwisey=\begin{cases}1,\quad h_\theta(x)≥0.7\\0,\quad otherwise\end{cases}y={1,hθ?(x)0.70,otherwise?

此時,必須有較高的把握,我們才會預測一個患有癌癥,避免非癌癥患者接受到了不必要的治療,假陽性樣本少,此時我們也獲得了高查準率。然而,這么預測的代價是,有些癌癥病患體征不明顯,就被我們認為沒有患癌,從而得不到治療,假陰性樣本多,即我們的召回率偏低。

當我們嘗試構建了不同的算法模型,并且獲得了不同的查準率和召回率:

那么選擇哪個算法是最好的呢,假定我們使用平均值來權衡查準率和召回率:
Average=P+R2Average=\frac{P+R}2Average=2P+R?

按照平均值,我們會選擇算法 3,但是這并不是一個好的算法,因為其查準率太低了,我們希望有一個指標能選出查準率和召回率都高的算法,為此,引入了 F1Score :
F1Score=2PRP+RF_1Score=2\frac{PR}{P+R}F1?Score=2P+RPR?

從公式中也可以看到,分子是查準率和召回率的乘積,只有二者都較高時, F1ScoreF_1ScoreF1?Score 才會較高,特別地:
F1Score=0,ifP=0orR=0F_1Score=0,if\ P=0\ \ or\ \ R=0F1?Score=0,if?P=0??or??R=0F1Score=1,ifP=1andR=1F_1Score=1,if\ P=1\ and\ R=1F1?Score=1,if?P=1?and?R=1


F1ScoreF_1ScoreF1?Score 幫我們選出了算法1,事實也確實如此,算法1的查準率和召回率都較高。

總結

以上是生活随笔為你收集整理的4.5 偏斜类-机器学习笔记-斯坦福吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 日韩av影片在线观看 | 伊人伦理 | 岛国av在线| 亚洲精品成人久久 | 精品一区二区三区在线观看视频 | 久久1234| 一区二区三区偷拍 | 成人少妇影院yyyy | 综合久久久久 | 午夜看片在线 | 香蕉在线视频播放 | 日本免费一区二区三区四区 | 亚洲欧美日韩成人在线 | 欧美aaa级 | 北条麻纪在线观看aⅴ | 人人爱操 | 欧美一区二区三区免 | www.777色| 99久久免费精品 | 亚洲成人自拍视频 | 特级淫片aaaaaaa级 | 九九热播视频 | 男人天堂视频网站 | 久久久亚洲欧洲 | 亚洲成人高清在线 | 亚洲一区二区三区中文字幕 | 国产va在线 | 黄色片在线播放 | 国产一区二区三区免费播放 | www网站在线观看 | 免费看国产片在线观看 | 免费黄网站在线看 | 亚洲国产成人久久 | 久久激情av | 国产情侣激情自拍 | 手机在线一区 | 一道本在线观看视频 | 四虎影院国产精品 | 夜夜嗨av禁果av粉嫩av懂色av | 久久9966 | 国产99在线 | 一区精品在线观看 | 91av小视频| 国产精品乱码一区二区视频 | 高清不卡一区二区三区 | 草啪啪| 亚洲精品入口 | 韩国一区二区三区视频 | 日本男人天堂网 | 日本天堂网 | 亚洲婷婷免费 | 黄色生活毛片 | 亚洲2022国产成人精品无码区 | 日本激情视频在线观看 | 欧美性另类 | 青青久久久 | 欧美色图亚洲天堂 | 国产一区自拍视频 | 国产精品久久久精品 | 高清二区 | 精品人妻互换一区二区三区 | 国产精品theporn | 少妇精品无码一区二区三区 | 91麻豆蜜桃一区二区三区 | 91视频久久 | 国产乱人 | a天堂中文在线观看 | 91久久国产综合久久 | 久久视频在线播放 | zzjizzji亚洲日本少妇 | 999久久久精品 | 国产一级爱c视频 | 538国产精品一区二区免费视频 | 国产一级特黄aaa大片 | 日韩一级 | 91免费黄 | 夜夜骑天天操 | 国产精品久久国产精品99 | 视频在线观看免费大片 | 天天干天天搞天天射 | 午夜电影天堂 | 在线免费观看黄 | 欧美寡妇性猛交ⅹxxx | 韩漫动漫免费大全在线观看 | 国产精品成人va在线观看 | 国产精品久久久久久中文字 | 久久亚洲区 | 丁香婷婷综合激情五月色 | 最新不卡av| 一级黄毛片 | 成人免费毛片日本片视频 | 国产国产精品 | 经典一区二区三区 | 人妻av中文系列 | 成人性生交大片免费 | 在线a网站 | 久久精品综合 | 伊人成人动漫 | 91色区|