日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯

發布時間:2024/9/30 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
  • 一、概率公式:
    • 條件概率公式:

      • 事件A發生的條件下,事件B發生的概率=事件A和事件B同時發生的概率/事件A發生的概率
      • P(AB)=P(A)*P(B|A)
        • 事件A和事件B同時發生的概率=事件A發生的概率*事件A發生的條件下,事件B發生的概率
    • 全概率公式:

      • 如果事件A1 A2 A3構成了必然事件Ω,且3個A事件相互獨立,并且A1 A2 A3都是有可能發生的。那么對于該必然事件Ω中的事件B如圖:
        • 事件B發生的概率 =求和: 事件A發生的概率*事件A發生的條件下事件B發生的概率(如圖:橢圓B等于它被事件A劃開的3部分的和)
      • 全概率公式可以理解為拼接部分求整體,而貝葉斯公式理解為拆分整體求某一部分。如下:
    • 貝葉斯公式:(逆全概率公式)

    • 以A1為例,P(A1|B)表示事件B發生條件下A1發生的概率,那么需要知道事件B發生的概率作為分母(因為事件B不發生,他們就不會有同時發生),事件A1和B同時發生的概率作為分子。
      • P(B)帶入全概率公式
      • P(A1B)帶入條件概率公式的變形
    • 得到貝葉斯公式
  • 二、樸素貝葉斯
    • 定義:
      • 在機器學習中,樸素貝葉斯分類器是一系列以假設特征之間強獨立(樸素)下運用貝葉斯定理為基 礎的簡單概率分類器。
      • 樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法 。最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBM)
      • 高度可擴展的,求解過程只需花費線性時間
    • 應用:樸素貝葉斯在文本分類(text classification)的領域的應用多,無論是sklearn還是 Spark Mllib中,都只定制化地實現了在文本分類領域的算法。
      • 案例理解:根據膚色(黑,黃),頭發(卷,直)預測人是屬于亞洲還是非洲地區。
      • 樸素:假設特征間是獨立的(忽略膚色和發型的聯系)。從而變成了“低配版的貝葉斯模型”,稱 為“樸素貝葉斯”。
        • 優點是可以減少需要估計的參數的個數;缺點是會犧牲一定的分類準確率。 2*2*2
        • 貝葉斯模型的參數數量是指數型的;而樸素貝葉斯的參數數量是線性的。2*(2+2)
        • 樸素貝葉斯計算公式:

      • 拉普拉斯平滑:
        • 由于樸素貝葉斯公式中有一個缺陷:當某一個參數的概率值為0時,整個計算結果會為0,從而影響到預測結果。

        • 以上圖為例:在分子上加一個 λ,分母用標簽數乘以 λ,這是為了保證‘亞洲’概率+‘非洲’概率的計算結果是1
        • 在隨機變量各個取值的頻數上賦予一個正數,當值 ,稱為拉普拉斯平滑。
  • 三、特征工程—詞頻統計
    • (一)TF (Term Frequency 詞頻)
      • TF 詞頻,表示一個單詞在文本中出現的頻率,一般認為出現頻率越高,該單詞越重要。
      • TF一般會歸一化處理用以防止它偏向更長的文件:TF= 詞頻 / 文本總的單詞數
    • (二)TF- IDF (Inverse Document Frequency 逆向詞頻)

總結

以上是生活随笔為你收集整理的sklearn朴素贝叶斯分类器_机器学习06——朴素贝叶斯的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。