日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

吴恩达《Machine Learning》精炼笔记 10:异常检测

發(fā)布時間:2025/3/15 编程问答 12 豆豆
生活随笔 收集整理的這篇文章主要介紹了 吴恩达《Machine Learning》精炼笔记 10:异常检测 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
作者 | Peter

編輯 |?AI有道

系列文章:

吳恩達《Machine Learning》精煉筆記 1:監(jiān)督學習與非監(jiān)督學習

吳恩達《Machine Learning》精煉筆記 2:梯度下降與正規(guī)方程

吳恩達《Machine Learning》精煉筆記 3:回歸問題和正則化

吳恩達《Machine Learning》精煉筆記 4:神經(jīng)網(wǎng)絡基礎

吳恩達《Machine Learning》精煉筆記 5:神經(jīng)網(wǎng)絡

吳恩達《Machine Learning》精煉筆記 6:關(guān)于機器學習的建議

吳恩達《Machine Learning》精煉筆記 7:支持向量機 SVM

吳恩達《Machine Learning》精煉筆記 8:聚類 KMeans 及其 Python實現(xiàn)

吳恩達《Machine Learning》精煉筆記 9:PCA 及其 Python 實現(xiàn)

在本文中主要講解了機器學習中的異常檢測問題,主要包含:

  • 問題產(chǎn)生

  • 高斯分布

  • 算法使用場景

  • 八種無監(jiān)督異常檢測技術(shù)

  • 異常檢測和監(jiān)督學習對比

  • 特征選擇

異常檢測Novelty Detection

異常是相對于其他觀測數(shù)據(jù)而言有明顯偏離的,以至于懷疑它與正常點不屬于同一個數(shù)據(jù)分布。

異常檢測是一種用于識別不符合預期行為的異常模式的技術(shù),又稱之為異常值檢測。

在商業(yè)中也有許多應用,如網(wǎng)絡入侵檢測(識別可能發(fā)出黑客攻擊的網(wǎng)絡流量中的特殊模式)、系統(tǒng)健康性監(jiān)測、信用卡交易欺詐檢測、設備故障檢測、風險識別等

問題動機

異常檢測主要是運用于非監(jiān)督學習的算法。問題的引出:通過飛機的檢測開始。

檢測飛機的引擎制造商生產(chǎn)了一批飛機引擎,測試了其中的一些特征變量,比如引擎運轉(zhuǎn)時產(chǎn)生的熱量,或者引擎的振動等。

假設有m個引擎,數(shù)據(jù)如下:

我們繪制出如下圖表:

對于給定的數(shù)據(jù)集,需要檢測xtestxtest是不是異常的,即這個測試數(shù)據(jù)不屬于這組數(shù)據(jù)的幾率是多少。

從上圖看出,在藍色圈內(nèi)屬于該組的概率高,越是偏遠的概率,屬于該組的可能性就越低。

另外兩個異常檢測的應用例子是

  • 識別欺騙行為,通過用戶多久登陸一次、訪問過的頁面、發(fā)布帖子的數(shù)量等建立模型,通過模型來識別那些不符合該模型的用戶。

  • 檢測數(shù)據(jù)中心的使用情況:內(nèi)存使用、被訪問的磁盤數(shù)量、CPU負載等


高斯分布

高斯分布也叫正態(tài)分布。分布滿足:

概率密度函數(shù)為:

均值μ為:

方差σ2為 :

高斯分布的樣例為

當均值μ相同的時候

  • 方差的平方越大,圖形是矮胖的

  • 方差的平方越小,圖形是瘦高型的

使用場景

異常檢測算法的使用場景一般是三種:

  • 在做特征工程的時候需要對異常的數(shù)據(jù)做過濾,防止對歸一化等處理的結(jié)果產(chǎn)生影響

  • 對沒有標記輸出的特征數(shù)據(jù)做篩選,找出異常的數(shù)據(jù)

  • 對有標記輸出的特征數(shù)據(jù)做二分類時,由于某些類別的訓練樣本非常少,類別嚴重不平衡,此時也可以考慮用非監(jiān)督的異常點檢測算法來做


  • 算法

    算法的具體過程是

  • 對于給定的數(shù)據(jù)集:

  • 計算每個特征的μ;σ2?的估計值

  • 兩個參數(shù)的估計值為:

  • 利用高斯分布進行計算p(x)

    兩個特征的訓練集及特征非部分情況

    三維圖表示的是密度函數(shù),z軸為根據(jù)兩個特征的值估計的p(x)的值

    當?p(x)>ε時候,預測是正常數(shù)據(jù), 否則為異常

    異常算法的設計

    當我們開發(fā)一個異常檢測系統(tǒng)時,從帶標記(異常或正常)的數(shù)據(jù)著手

    • 從其中選擇一部分正常數(shù)據(jù)用于構(gòu)建訓練集

    • 然后用剩下的正常數(shù)據(jù)和異常數(shù)據(jù)混合的數(shù)據(jù)構(gòu)成交叉檢驗集和測試集。

    八種無監(jiān)督異常檢測技術(shù)

  • 基于統(tǒng)計的異常檢測技術(shù)

  • MA滑動平均法

  • 3—Sigma(拉依達準則)

  • 基于密度的異常檢測

  • 基于聚類的異常檢測

  • 基于``K-Means`聚類的異常檢測

  • One Class SVM的異常檢測

  • Isolation Forest的異常檢測

  • PCA+MD的異常檢測

  • AutoEncoder異常檢測

  • 異常檢測和監(jiān)督學習對比

    異常檢測中采用的也是帶標記的數(shù)據(jù),和監(jiān)督學習類似。二者對比為:

    當正樣本的數(shù)量很少,甚至有時候是0,即出現(xiàn)了太多沒見過的不同的異常類型,對于這些問題,通常應該使用的算法就是異常檢測算法。

    特征選擇

    異常檢測算法是基于高斯分布的。當然不滿足高斯分布也能處理,但是最好轉(zhuǎn)成高斯分布。誤差分析是特征選擇中很重要的點。

    有些異常數(shù)據(jù)可能出現(xiàn)較高的p(x)的值,被算法當做是正常數(shù)據(jù)。通過誤差分析,增加新的特征得到新的算法,幫助我們更好地進行異常檢測。

    新特征獲取:通過原有特征進行組合,得到新的特征

    參考資料:李航-統(tǒng)計學習方法


    推薦閱讀

    (點擊標題可跳轉(zhuǎn)閱讀)

    干貨 | 公眾號歷史文章精選

    我的深度學習入門路線

    我的機器學習入門路線圖

    重磅

    AI有道年度技術(shù)文章電子版PDF來啦!

    掃描下方二維碼,添加?AI有道小助手微信,可申請入群,并獲得2020完整技術(shù)文章合集PDF(一定要備注:入群?+ 地點 + 學校/公司。例如:入群+上海+復旦。?

    長按掃碼,申請入群

    (添加人數(shù)較多,請耐心等待)

    感謝你的分享,點贊,在看三??

    總結(jié)

    以上是生活随笔為你收集整理的吴恩达《Machine Learning》精炼笔记 10:异常检测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。