贝叶斯与朴素贝叶斯入门及实战
文章目錄
- 什么是貝葉斯
- 樸素貝葉斯
- 原理
- 樸素貝葉斯優(yōu)點
- 樸素貝葉斯缺點
- 貝葉斯模型
- 高斯分布樸素貝葉斯
- 多項式分布樸素貝葉斯
- 伯努利分布樸素貝葉斯
- 總結(jié)
- 貝葉斯實戰(zhàn)
- 生成式模型和判別式模型的區(qū)別
什么是貝葉斯
- 例如:一座別墅在過去的 20 年里一共發(fā)生過 2 次被盜,別墅的主人有一條狗,狗平均每周晚上叫 3 次,在盜賊入侵時狗叫的概率被估計為 0.9,
- 問題是:在狗叫的時候發(fā)生入侵的概率是多少?
- 另一個例子,現(xiàn)分別有 A、B 兩個容器,在容器 A 里分別有 7 個紅球和 3 個白球,在容器 B 里有 1 個紅球和 9 個白球,現(xiàn)已知從這兩個容器里任意抽出了一個球,且是紅球,問這個紅球是來自容器 A 的概率是多少?
樸素貝葉斯
- 樸素貝葉斯(Naive Bayesian)是經(jīng)典的機器學習算法之一,也是為數(shù)不多的基于概率論的分類算法。
- 樸素貝葉斯原理簡單,也很容易實現(xiàn),多用于文本分類,比如垃圾郵件過濾。
- 樸素貝葉斯可以看做是貝葉斯網(wǎng)絡的特殊情況:即該網(wǎng)絡中無邊,各個節(jié)點都是獨立的。
原理
- 主要核心思想:
樸素貝葉斯的思想基礎是這樣的:對于給出的待分類樣本特征x,求解在此樣本出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類樣本屬于哪個類別。
樸素的概念:獨立性假設,假設各個特征之間是獨立不相關的。
樸素貝葉斯優(yōu)點
算法邏輯簡單,易于實現(xiàn)(算法思路很簡單,只要使用貝葉斯公式轉(zhuǎn)化即可!)
分類過程中時空開銷小(假設特征相互獨立,只會涉及到二維存儲)
樸素貝葉斯缺點
理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為樸素貝葉斯模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的,在屬性個數(shù)比較多或者屬性之間相關性較大時,分類效果不好。
樸素貝葉斯模型(Naive Bayesian Model)的樸素(Naive)的含義是"很簡單很天真"地假設樣本特征彼此獨立. 這個假設現(xiàn)實中基本上不存在, 但特征相關性很小的實際情況還是很多的, 所以這個模型仍然能夠工作得很好。
貝葉斯模型
高斯分布樸素貝葉斯
-
特征值為連續(xù)型變量
-
高斯模型假設某一特征屬于某一類別的觀測值符合高斯分布,比如身高小于160,160~170和170以上
多項式分布樸素貝葉斯
- 文本分類,特征是單詞,值是單詞的出現(xiàn)次數(shù)
伯努利分布樸素貝葉斯
- 特征值取bool類型,文本分類中表示一個值(單詞)有沒有出現(xiàn)過
總結(jié)
-
樸素貝葉斯是一類比較簡單的算法,scikit-learn中樸素貝葉斯類庫的使用也比較簡單。相對于決策樹,KNN之類的算法,樸素貝葉斯需要關注的參數(shù)是比較少的,這樣也比較容易掌握。
-
在scikit-learn中,一共有3個樸素貝葉斯的分類算法類。分別是GaussianNB,MultinomialNB和BernoulliNB。其中GaussianNB就是先驗為高斯分布的樸素貝葉斯,MultinomialNB就是先驗為多項式分布的樸素貝葉斯,而BernoulliNB就是先驗為伯努利分布的樸素貝葉斯。
-
這三個類適用的分類場景各不相同,一般來說,如果樣本特征的分布大部分是連續(xù)值,使用GaussianNB會比較好。如果如果樣本特征的分大部分是多元離散值,使用MultinomialNB比較合適。而如果樣本特征是二元離散值或者很稀疏的多元離散值,應該使用BernoulliNB。
貝葉斯實戰(zhàn)
生成式模型和判別式模型的區(qū)別
- 判別模型(discriminative model)通過求解條件概率分布P(y|x)或者直接計算y的值來預測y。線性回歸(Linear Regression),邏輯回歸(Logistic Regression),支持向量機(SVM), 傳統(tǒng)神經(jīng)網(wǎng)絡(Traditional Neural Networks),線性判別分析(Linear Discriminative Analysis),條件隨機場(Conditional Random Field)
- 生成模型(generative model)通過對觀測值和標注數(shù)據(jù)計算聯(lián)合概率分布P(x,y)來達到判定估算y的目的。樸素貝葉斯(Naive Bayes), 隱馬爾科夫模型(HMM),貝葉斯網(wǎng)絡(Bayesian Networks)和隱含狄利克雷分布(Latent Dirichlet Allocation)、混合高斯模型
你知道的越多,你不知道的越多。
有道無術,術尚可求,有術無道,止于術。
如有其它問題,歡迎大家留言,我們一起討論,一起學習,一起進步
總結(jié)
以上是生活随笔為你收集整理的贝叶斯与朴素贝叶斯入门及实战的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 这三个移动互联网案例让你大胆追梦
- 下一篇: Vijos - 古韵之鹊桥相会(最短路|