日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

深度之眼课程打卡-统计学习方法01

發布時間:2025/3/15 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度之眼课程打卡-统计学习方法01 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

文章目錄

  • 目錄
  • 前言
  • 緒論
  • 作業打卡
    • L1和L2范式
    • ROC曲線
      • 一 roc曲線
      • 二 如何畫roc曲線
      • 三 為什么使用Roc和Auc評價分類器
    • 補充 混淆矩陣
  • 參考

前言

為了增加實戰經驗,選擇了開通深度之眼vip,先試試水,效果好的話,推薦給大家。

緒論

統計學習方法主要是講李航博士統計學習方法那本書,一開始主要講解了一些基本概念。

作業打卡

L1和L2范式

l1范數的數學定義是所有數絕對值之和。
在坐標平面上它是個正方形。
l2范數的數學定義是所有數的平方和。
在坐標平面上它是個圓形。
l1適合特征少而明銳的情況,l2適合特征多而平均的情況。

ROC曲線

受試者工作特征曲線 (receiver operating characteristic curve,簡稱ROC曲線),又稱為感受性曲線(sensitivity curve)。得此名的原因在于曲線上各點反映著相同的感受性,它們都是對同一信號刺激的反應,只不過是在兩種不同的判定標準下所得的結果而已。受試者工作特征曲線就是以假陽性概率(False positive rate)為橫軸,真陽性(True positive rate)為縱軸所組成的坐標圖,和受試者在特定刺激條件下由于采用不同的判斷標準得出的不同結果畫出的曲線。
ROC曲線是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線。傳統的診斷試驗評價方法有一個共同的特點,必須將試驗結果分為兩類,再進行統計分析。ROC曲線的評價方法與傳統的評價方法不同,無須此限制,而是根據實際情況,允許有中間狀態,可以把試驗結果劃分為多個有序分類,如正常、大致正常、可疑、大致異常和異常五個等級再進行統計分析。因此,ROC曲線評價方法適用的范圍更為廣泛。

1.ROC曲線能很容易地查出任意界限值時的對疾病的識別能力。
2.選擇最佳的診斷界限值。ROC曲線越靠近左上角,試驗的準確性就越高。最靠近左上角的ROC曲線的點是錯誤最少的最好閾值,其假陽性和假陰性的總數最少。
3.兩種或兩種以上不同診斷試驗對疾病識別能力的比較。在對同一種疾病的兩種或兩種以上診斷方法進行比較時,可將各試驗的ROC曲線繪制到同一坐標中,以直觀地鑒別優劣,靠近左上角的ROC曲線所代表的受試者工作最準確。亦可通過分別計算各個試驗的ROC曲線下的面積(AUC)進行比較,哪一種試驗的 AUC最大,則哪一種試驗的診斷價值最佳。

一 roc曲線

1、roc曲線:接收者操作特征(receiveroperating characteristic),roc曲線上每個點反映著對同一信號刺激的感受性。
橫軸:負正類率(false postive rate FPR)特異度,劃分實例中所有負例占所有負例的比例;(1-Specificity)
縱軸:真正類率(true postive rate TPR)靈敏度,Sensitivity(正類覆蓋率)

2針對一個二分類問題,將實例分成正類(postive)或者負類(negative)。但是實際中分類時,會出現四種情況.

(1)若一個實例是正類,并且被預測為正類,即為真正類(True Postive TP)
(2)若一個實例是正類,但是被預測成為負類,即為假負類(False Negative FN)
(3)若一個實例是負類,但是被預測成為正類,即為假正類(False Postive FP)
(4)若一個實例是負類,但是被預測成為負類,即為真負類(True Negative TN)
TP:正確的肯定數目
FN:漏報,沒有找到正確匹配的數目
FP:誤報,沒有的匹配不正確
TN:正確拒絕的非匹配數目

列聯表如下,1代表正類,0代表負類:

由上表可得出橫,縱軸的計算公式:

(1)真正類率(True Postive Rate)TPR: TP/(TP+FN),代表分類器預測的正類中實際正實例占所有正實例的比例。Sensitivity

(2)負正類率(False Postive Rate)FPR: FP/(FP+TN),代表分類器預測的正類中實際負實例占所有負實例的比例。1-Specificity

(3)真負類率(True Negative Rate)TNR: TN/(FP+TN),代表分類器預測的負類中實際負實例占所有負實例的比例,TNR=1-FPR。Specificity

假設采用邏輯回歸分類器,其給出針對每個實例為正類的概率,那么通過設定一個閾值如0.6,概率大于等于0.6的為正類,小于0.6的為負類。對應的就可以算出一組(FPR,TPR),在平面中得到對應坐標點。隨著閾值的逐漸減小,越來越多的實例被劃分為正類,但是這些正類中同樣也摻雜著真正的負實例,即TPR和FPR會同時增大。閾值最大時,對應坐標點為(0,0),閾值最小時,對應坐標點(1,1)。

如下面這幅圖,(a)圖中實線為ROC曲線,線上每個點對應一個閾值。
橫軸FPR:1-TNR,1-Specificity,FPR越大,預測正類中實際負類越多。

縱軸TPR:Sensitivity(正類覆蓋率),TPR越大,預測正類中實際正類越多。

理想目標:TPR=1,FPR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45度對角線越好,Sensitivity、Specificity越大效果越好。

二 如何畫roc曲線

假設已經得出一系列樣本被劃分為正類的概率,然后按照大小排序,下圖是一個示例,圖中共有20個測試樣本,“Class”一欄表示每個測試樣本真正的標簽(p表示正樣本,n表示負樣本),“Score”表示每個測試樣本屬于正樣本的概率。

接下來,我們從高到低,依次將“Score”值作為閾值threshold,當測試樣本屬于正樣本的概率大于或等于這個threshold時,我們認為它為正樣本,否則為負樣本。舉例來說,對于圖中的第4個樣本,其“Score”值為0.6,那么樣本1,2,3,4都被認為是正樣本,因為它們的“Score”值都大于等于0.6,而其他樣本則都認為是負樣本。每次選取一個不同的threshold,我們就可以得到一組FPR和TPR,即ROC曲線上的一點。這樣一來,我們一共得到了20組FPR和TPR的值,將它們畫在ROC曲線的結果如下圖:

AUC(Area under Curve):Roc曲線下的面積,介于0.1和1之間。Auc作為數值可以直觀的評價分類器的好壞,值越大越好。

首先AUC值是一個概率值,當你隨機挑選一個正樣本以及負樣本,當前的分類算法根據計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值,AUC值越大,當前分類算法越有可能將正樣本排在負樣本前面,從而能夠更好地分類。

三 為什么使用Roc和Auc評價分類器

既然已經這么多標準,為什么還要使用ROC和AUC呢?因為ROC曲線有個很好的特性:當測試集中的正負樣本的分布變換的時候,ROC曲線能夠保持不變。在實際的數據集中經常會出現樣本類不平衡,即正負樣本比例差距較大,而且測試數據中的正負樣本也可能隨著時間變化。下圖是ROC曲線和Presision-Recall曲線的對比:
在上圖中,(a)和?為Roc曲線,(b)和(d)為Precision-Recall曲線。

(a)和(b)展示的是分類其在原始測試集(正負樣本分布平衡)的結果,?(d)是將測試集中負樣本的數量增加到原來的10倍后,分類器的結果,可以明顯的看出,ROC曲線基本保持原貌,而Precision-Recall曲線變化較大。

補充 混淆矩陣

混淆矩陣是除了ROC曲線和AUC之外的另一個判斷分類好壞程度的方法。以下有幾個概念需要先說明:
TP(True Positive): 真實為1,預測也為1
FN(False Negative): 真實為1,預測為0
FP(False Positive): 真實為0,預測為1
TN(True Negative): 真實為0,預測也為0
:分類模型總體判斷的準確率(包括了所有class的總體準確率)

: 預測為1的準確率

: 真實為1的準確率

: 真實為0的準確率

: 預測為0的準確率

: 對于某個分類,綜合了Precision和Recall的一個判斷指標,F1-Score的值是從0到1的,1是最好,0是最差

: 另外一個綜合Precision和Recall的標準,F1-Score的變形

因此我們知道,計算Specificity,Recall,Precision等只是計算某一分類的特性,而Accuracy和F1-Score這些是判斷分類模型總體的標準。我們可以根據實際需要,得出不同的效果。

作者:remychan
鏈接:https://www.jianshu.com/p/0fc8a0b784f1
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯系作者獲得授權并注明出處。

參考

百度百科
受試者特征工作曲線

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的深度之眼课程打卡-统计学习方法01的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。