日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授

發布時間:2025/4/5 windows 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器學習系統設計–垃圾郵件分類

假定我們現有一封郵件,其內容如下:

From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subject: Buy now!Deal of the week!Buy now! Rolex w4ches - $100 Med1cine (any kind) - $50 Also low cost M0rgages available.

充斥著各種誘人的促銷信息,很有可能是一封垃圾郵件(Spam)。假定我們有一個垃圾郵件的數據集,想通過機器學習的方式來學會鑒定郵件是否是垃圾郵件,通過這個范例,我們也將學習到機器學習的系統設計。

模型設計

我們令向量 x 表示垃圾郵件的特征向量,該向量包含了 100 個按字母序排序的單詞特征,這些單詞通常為垃圾郵件常出現的詞匯:discount,deal,now 等等:
xj={1第j個單詞出現0未出現x_j=\begin{cases}1\quad第j個單詞出現\\0\quad未出現\end{cases}xj?={1j0?

令 y 標簽表示該郵件是否是垃圾郵件:
y={1x是垃圾郵件0x不是垃圾郵件y=\begin{cases}1\quad x是垃圾郵件\\0\quad x不是垃圾郵件\end{cases}y={1x0x?

那么垃圾郵件分類就是一個 0/1 分類問題,可以用邏輯回歸完成,這里不再重復介紹邏輯回歸的過程了,我們考慮如何降低分類錯誤率:

  • 盡可能的擴大數據樣本:Honypot 做了這樣一件事,把自己包裝成一個對黑客極具吸引力的機器,來誘使黑客進行攻擊,就像蜜罐(honey pot)吸引密封那樣,從而記錄攻擊行為和手段。
  • 添加更多特征:例如我們可以增加郵件的發送者郵箱作為特征,可以增加標點符號作為特征(垃圾郵件總會充斥了?,!等吸引眼球的標點)。
  • 預處理樣本:正如我們在垃圾郵件看到的,道高一尺,魔高一丈,垃圾郵件的制造者也會升級自己的攻擊手段,如在單詞拼寫上做手腳來防止郵件內容被看出問題,例如把 medicine 拼寫為 med1cinie 等。因此,我們就要有手段來識別這些錯誤拼寫,從而優化我們輸入到邏輯回歸中的樣本。

錯誤分析

對于機器學習問題,吳恩達給出了一些 tips:

  • 在一開始,盡量不要將問題復雜化(不要提前優化),先快速實現一個簡單算法,然后通過交叉驗證集評估模型。這就好比在軟件工程中,不會做提前優化,而是先迭代功能。
  • 通過繪制學習曲線(learning curve),確定面臨的問題是高偏差還是高方差,來決定是添加更多訓練樣本,還是添加更多特征。
  • 甚至可以手動檢查交叉驗證集中誤差較大的樣本,確定錯誤的來源和解決策略。

舉個例子,假定交叉驗證集有 500 個樣本,即 mcvm_{cv}mcv?=500 ,我們的模型錯分了其中 100 個樣本,那么我們會通過下述手段進行錯誤分析:

  • 需要知道哪些郵件被錯分了,是假冒偽劣的推銷郵件?醫藥郵件?還是釣魚郵件?
  • 需要知道提供什么線索(特征)能幫助模型區分出這些郵件?
  • 例如,在這 100 個錯分樣本中,我們發現有 53 個樣本是釣魚郵件,因此,我們就需要考慮為模型注入識別的釣魚郵件的能力。繼續觀察,我們發現,在這 53 封釣魚郵件中,故意使用錯誤拼寫的郵件有 5 封,來源可疑(發送人可疑)的郵件有 16 封,使用了大量煽動性標點符號的郵件有 32 封。因此,對于識別釣魚郵件來說,我們更適合將煽動性標點符號添加為特征,而不用再考慮去識別錯誤拼寫。

    總結

    以上是生活随笔為你收集整理的4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。