當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Sklearn参数详解—贝叶斯

發布時間：2023/12/19 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Sklearn参数详解—贝叶斯小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

總第109篇

前言

在開始學習具體的貝葉斯參數前，你可以先看看：樸素貝葉斯詳解

樸素貝葉斯一共有三種方法，分別是高斯樸素貝葉斯、多項式分布貝葉斯、伯努利樸素貝葉斯，在介紹不同方法的具體參數前，我們先看看這三種方法有什么區別。

這三種分類方法其實就是對應三種不同的數據分布類型。

高斯分布又叫正太分布，我們把一個隨機變量X服從數學期望為μ、方差為σ^2的數據分布稱為正太分布，當數學期望μ=0,方差σ=1時稱為標準正態分布。

正太分布概率圖

伯努利分布又稱“零一分布”、“兩點分布”（即結果要么是0要么是1），是二項分布的特殊情況，之所以是特殊的二項分布，是因為二項分布是多重伯努利實驗的概率分布。舉個例子就是，伯努利分布是只扔一次硬幣正面反面的概率，而二項分布是扔多次硬幣以后得到正面反面的概率。

多項式分布（Multinomial Distribution）是二項式分布的推廣，二項分布是隨機結果值只有兩個(投硬幣的結果)，多項式分布是指隨機結果值有多個(搖骰子的結果)。

多項式模型樸素貝葉斯和伯努利模型樸素貝葉斯常用在文本分類問題中，高斯分布的樸素貝葉斯主要用于連續變量中,且假設連續變量是服從正太分布的。

高斯樸素貝葉斯

高斯樸素貝葉斯算法是假設特征的可能性(即概率)為高斯分布。

class sklearn.naive_bayes.GaussianNB(priors=None)

priors:先驗概率大小，如果沒有給定，模型則根據樣本數據自己計算（利用極大似然法）。

對象

class_prior_:每個樣本的概率
class_count:每個類別的樣本數量
theta_:每個類別中每個特征的均值
sigma_:每個類別中每個特征的方差

多項式分布貝葉斯

適用于服從多項分布的特征數據。

class sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)

alpha:先驗平滑因子，默認等于1，當等于1時表示拉普拉斯平滑。
fit_prior:是否去學習類的先驗概率，默認是True
class_prior:各個類別的先驗概率，如果沒有指定，則模型會根據數據自動學習，每個類別的先驗概率相同，等于類標記總個數N分之一。

對象

class_log_prior_:每個類別平滑后的先驗概率
intercept_:是樸素貝葉斯對應的線性模型，其值和class_log_prior_相同
feature_log_prob_:給定特征類別的對數概率(條件概率)。特征的條件概率=（指定類下指定特征出現的次數+alpha）/（指定類下所有特征出現次數之和+類的可能取值個數*alpha）
coef_: 是樸素貝葉斯對應的線性模型，其值和feature_log_prob相同
class_count_: 訓練樣本中各類別對應的樣本數
feature_count_: 每個類別中各個特征出現的次數

伯努利樸素貝葉斯

用于多重伯努利分布的數據，即有多個特征，但每個特征都假設是一個二元 (Bernoulli, boolean) 變量。

class sklearn.naive_bayes.BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)

alpha:平滑因子，與多項式中的alpha一致。
binarize:樣本特征二值化的閾值，默認是0。如果不輸入，則模型會認為所有特征都已經是二值化形式了；如果輸入具體的值，則模型會把大于該值的部分歸為一類，小于的歸為另一類。
fit_prior:是否去學習類的先驗概率，默認是True
class_prior:各個類別的先驗概率，如果沒有指定，則模型會根據數據自動學習，每個類別的先驗概率相同，等于類標記總個數N分之一。

對象

class_log_prior_:每個類別平滑后的先驗對數概率。
feature_log_prob_:給定特征類別的經驗對數概率。
class_count_:擬合過程中每個樣本的數量。
feature_count_:擬合過程中每個特征的數量。

方法

貝葉斯的方法和其他模型的方法一致。
fit(X,Y):在數據集(X,Y)上擬合模型。
get_params():獲取模型參數。
predict(X):對數據集X進行預測。
predict_log_proba(X):對數據集X預測，得到每個類別的概率對數值。
predict_proba(X):對數據集X預測，得到每個類別的概率。
score(X,Y):得到模型在數據集(X,Y)的得分情況。

你還可以看：

Sklearn參數詳解—LR模型

Sklearn參數詳解--決策樹

Sklearn參數詳解—SVM

總結

以上是生活随笔為你收集整理的Sklearn参数详解—贝叶斯的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：保时捷被传国产化将落地合肥？官方回应
下一篇：爬了菊姐的两万条评论，竟发现菊粉都是这样