日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★

發布時間:2025/6/17 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★ 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 一、 貝葉斯分類器分類的流程
  • 二、 拉普拉斯修正
  • 三、 貝葉斯分類器示例2



參考博客 :

  • 【數據挖掘】貝葉斯分類 ( 貝葉斯分類器 | 貝葉斯推斷 | 逆向概率 | 貝葉斯公式 | 貝葉斯公式推導 | 使用貝葉斯公式求逆向概率 )
  • 【數據挖掘】貝葉斯公式應用 拼寫糾正示例分析 ( 先驗概率 | 似然概率 | 后驗概率 )
  • 【數據挖掘】貝葉斯公式在垃圾郵件過濾中的應用 ( 先驗概率 | 似然概率 | 后驗概率 )
  • 【數據挖掘】樸素貝葉斯分類器 ( 多屬性概率計算 | 樸素貝葉斯分類案例分析 )
  • 【數據挖掘】拉普拉斯修正 ( 判別模型 | 概率模型 | 貝葉斯分類 | 拉普拉斯修正 | 樸素貝葉斯分類應用場景 | 樸素貝葉斯優缺點 )
  • 【數據挖掘】貝葉斯信念網絡 ( 馬爾科夫假設 | 結構 | 有向無環圖 | 參數 | 條件概率表 | 案例分析 )




一、 貝葉斯分類器分類的流程



已知條件 :

已知樣本 : 已知若干個樣本

未知樣本 : 給定 111 個未知樣本 , 其有 444 個屬性組成向量 X\rm XX , 樣本的分類有兩種 , Y\rm YYN\rm NN ; ( Yes / No )


分類步驟 :

計算兩個概率 , 即

① 樣本取值為 X\rm XX 向量時 , 分類為 Y\rm YY 的概率 , 公式為 P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(YX)=P(X)P(XY)P(Y)? , 其中 P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(XY)P(Y) 含義是 : 樣本分類 Y\rm YY 的概率 P(Y)\rm P(Y)P(Y) , 乘以 樣本分類為 Y\rm YY 前提下樣本取值 X\rm XX 時的概率 P(X∣Y)\rm P(X | Y)P(XY) , 是 P(XY)\rm P(XY)P(XY) 共同發生的概率 ;

② 樣本取值為 X\rm XX 向量時 , 分類為 N\rm NN 的概率 , 公式為 P(N∣X)=P(X∣N)P(N)P(X)\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(NX)=P(X)P(XN)P(N)? , 其中 P(X∣N)P(N)\rm P(X | N) P(N)P(XN)P(N) 含義是 : 樣本分類為 N\rm NN 的概率 P(N)\rm P(N)P(N) , 乘以 樣本取值 N\rm NN 時的概率 P(X∣N)\rm P(X | N)P(XN) , 是 P(XN)\rm P(XN)P(XN) 共同發生的概率 ;

上述兩個概率 , 哪個概率高 , 就將該樣本分為哪個分類 ;


先驗概率 : P(Y)\rm P(Y)P(Y) , P(N)\rm P(N)P(N) ;

后驗概率 : P(X∣Y)\rm P(X | Y)P(XY) , P(X∣N)\rm P(X | N)P(XN) ;

公式中每個元素的含義參考 【數據挖掘】貝葉斯分類 ( 貝葉斯分類器 | 貝葉斯推斷 | 逆向概率 | 貝葉斯公式 | 貝葉斯公式推導 | 使用貝葉斯公式求逆向概率 )

上述兩個公式 P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(YX)=P(X)P(XY)P(Y)?P(N∣X)=P(X∣N)P(N)P(X)\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(NX)=P(X)P(XN)P(N)? , 分母都是 P(X)\rm P(X)P(X) , 只比較分子即可 , 其中先驗概率 P(Y)\rm P(Y)P(Y) , P(N)\rm P(N)P(N) 很容易求得 , 重點是求兩個后驗概率 P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(XY)P(Y) , P(X∣N)P(N)\rm P(X | N) P(N)P(XN)P(N) ;


后驗概率 P(X∣Y)\rm P(X | Y)P(XY) 求法 : 針對 X\rm XX 向量中 444 個分量屬性的取值 , 當樣品類型是 Y\rm YY , 分量 111 取值為該分量屬性時的概率 , 同理計算出 444 個分量屬性對應的 444 個概率 , 最后將 四個概率相乘 ;

后驗概率 P(X∣Y)\rm P(X | Y)P(XY) 再乘以先驗概率 P(Y)\rm P(Y)P(Y) , 就是最終的 未知樣本分類為 Y\rm YY 類型的概率 ;


最終對比樣本 , ① 未知樣本分類為 Y\rm YY 類型的概率 , ② 未知樣本分類為 N\rm NN 類型的概率 , 哪個概率大 , 就分類為哪個類型 ;





二、 拉普拉斯修正



在計算后驗概率 P(X∣Y)\rm P(X | Y)P(XY) 時 , 需要計算出 當樣品類型是 Y\rm YY , X\rm XX 向量的 分量 111 取值為該分量屬性時的概率 , 同理計算出 444 個分量屬性對應的 444 個概率 , 最后將 四個概率相乘 ;

如果上述 444 個相乘的概率其中有一個是 000 , 那么最終結果肯定就是 000 , 這里需要避免這種情況 , 引入拉普拉斯修正 ;

直接上栗子 , 不扯公式 ;

如果計算時 , 999 個樣本是購買商品的 , 但年齡都大于 303030 , 計算過程如下 ;

P(年齡小于30∣Y)=09\rm P( 年齡小于 30 | Y) = \cfrac{0}{9}P(30Y)=90?

拉普拉斯修正就是分子加 111 , 分母加上樣本類型個數 222 ; ( 樣本有兩個類型 , Y\rm YY 購買商品 , N\rm NN 不購買商品 ) ;

P(年齡小于30∣Y)=0+19+2=111\rm P( 年齡小于 30 | Y) = \cfrac{0 + 1}{9 + 2} = \cfrac{1}{11}P(30Y)=9+20+1?=111?


注意是所有的分量的概率都要進行拉普拉斯修正 , 不能只修正這一個 ;


具體的詳細的公式以及理論查看 【數據挖掘】拉普拉斯修正 ( 判別模型 | 概率模型 | 貝葉斯分類 | 拉普拉斯修正 | 樸素貝葉斯分類應用場景 | 樸素貝葉斯優缺點 )





三、 貝葉斯分類器示例2



分類需求 : 根據 年齡 , 收入水平 , 級別 , 部門 , 人數 , 預測 " 年齡 31..3531..3531..35, 收入 41k..45k\rm 41k..45k41k..45k , systems\rm systemssystems 部門 " 的員工級別 ;


年齡收入級別部門人數
31..3531..3531..3546k..50k\rm 46k..50k46k..50ksenior\rm seniorseniorsales\rm salessales303030
26..3026..3026..3026k..30k\rm 26k..30k26k..30kjunior\rm juniorjuniorsales\rm salessales40\rm 4040
31..3531..3531..3531k..35k\rm 31k..35k31k..35kjunior\rm juniorjuniorsales\rm salessales40\rm 4040
21..2521..2521..2546k..50k\rm 46k..50k46k..50kjunior\rm juniorjuniorsystems\rm systemssystems20\rm 2020
31..3531..3531..3566k..70k\rm 66k..70k66k..70ksenior\rm seniorseniorsystems\rm systemssystems5\rm 55
26..3026..3026..3046k..50k\rm 46k..50k46k..50kjunior\rm juniorjuniorsystems\rm systemssystems3\rm 33
41..4541..4541..4566k..45k\rm 66k..45k66k..45ksenior\rm seniorseniorsystems\rm systemssystems3\rm 33
36..4036..4036..4046k..50k\rm 46k..50k46k..50ksenior\rm seniorseniormarketing\rm marketingmarketing10\rm 1010
31..3531..3531..3541k..45k\rm 41k..45k41k..45kjunior\rm juniorjuniormarketing\rm marketingmarketing4\rm 44
46..5046..5046..5036k..40k\rm 36k..40k36k..40ksenior\rm seniorseniorsecretary\rm secretarysecretary4\rm 44
26..3026..3026..3026k..30k\rm 26k..30k26k..30kjunior\rm juniorjuniorsecretary\rm secretarysecretary6\rm 66

未知樣本 取值 X\rm XX 向量" 年齡 31..3531..3531..35, 收入 41k..45k\rm 41k..45k41k..45k , systems\rm systemssystems 部門 " ;

未知樣本 分類為 senior\rm seniorsenior ( 高級 ) 類型的概率 : P(senior∣X)=P(X∣senior)P(senior)P(X)\rm P(senior | X) = \cfrac{P(X|senior) P(senior)}{P(X)}P(seniorX)=P(X)P(Xsenior)P(senior)?

未知樣本 分類為 junior\rm juniorjunior ( 低級 ) 類型的概率 : P(junior∣X)=P(X∣junior)P(junior)P(X)\rm P(junior | X) = \cfrac{P(X|junior) P(junior)}{P(X)}P(juniorX)=P(X)P(Xjunior)P(junior)?

上述兩個概率的分母 P(X)\rm P(X)P(X) 是常數 , 對比時可以忽略 , 只需要對比分子即可 ;

先驗概率 P(senior)=52165\rm P(senior) = \cfrac{52}{165}P(senior)=16552? , P(junior)=113165\rm P(junior) = \cfrac{113}{165}P(junior)=165113? , 525252 個人是 senior\rm seniorsenior 級別 , 113113113 個人是 junior\rm juniorjunior 級別 ;

后驗概率

P(X∣senior)=P(年齡31..35∣senior)×P(收入41k..45k∣senior)×P(部門systems∣senior)=852×3552×052\rm \begin{array}{lcl} \rm P(X|senior) &=& \rm P( 年齡 31..35 | senior) \times P( 收入 41k..45k | senior) \times P( 部門 systems | senior ) \\\\ &=& \cfrac{8}{52} \times \cfrac{35}{52} \times \cfrac{0}{52} \\ \end{array}P(Xsenior)?==?P(31..35senior)×P(41k..45ksenior)×P(systemssenior)528?×5235?×520??

上述后驗概率的結果為 0\rm 00 , 需要進行 拉普拉斯修正 , 上述式子中的三個概率分子都需要 +1+1+1 , 分母都需要 +2+2+2 , 分母是分類的個數 , senior\rm seniorseniorjunior\rm juniorjunior 兩個分類 , 因此分母 +2+2+2 ;

拉普拉斯修正后的結果 :

P(X∣senior)=8+152+2×35+152+2×0+152+2=954×3654×154\rm \begin{array}{lcl} \rm P(X|senior) &=& \rm \cfrac{8 + 1}{52 + 2} \times \cfrac{35 + 1}{52 + 2} \times \cfrac{0 + 1}{52 + 2} \\\\ &=& \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \\ \end{array}P(Xsenior)?==?52+28+1?×52+235+1?×52+20+1?549?×5436?×541??

P(X∣junior)=P(年齡31..35∣junior)×P(收入41k..45k∣junior)×P(部門systems∣junior)=23113×44113×4113\rm \begin{array}{lcl} \rm P(X|junior) &=& \rm P( 年齡 31..35 | junior) \times P( 收入 41k..45k | junior) \times P( 部門 systems | junior) \\\\ &=& \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \\ \end{array}P(Xjunior)?==?P(31..35junior)×P(41k..45kjunior)×P(systemsjunior)11323?×11344?×1134??

未知樣本 分類為 Y\rm YY 類型的概率 分子 : P(X∣senior)P(senior)=954×3654×154×52165≈0.0006\rm P(X|senior) P(senior) = \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \times \cfrac{52}{165} \approx 0.0006P(Xsenior)P(senior)=549?×5436?×541?×16552?0.0006

未知樣本 分類為 N\rm NN 類型的概率 分子 : P(X∣junior)P(junior)=23113×44113×4113×113165≈0.0024\rm P(X|junior) P(junior) = \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \times \cfrac{113}{165} \approx 0.0024P(Xjunior)P(junior)=11323?×11344?×1134?×165113?0.0024


該樣本分類 為 junior\rm juniorjunior , 是低級員工 ;

總結

以上是生活随笔為你收集整理的【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。