带你搞懂朴素贝叶斯分类算法
最新人工智能論文:http://paperreading.club
帶你搞懂樸素貝葉斯分類算
貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡(jiǎn)單,也是常見(jiàn)的一種分類方法。這篇文章我盡可能用直白的話語(yǔ)總結(jié)一下我們學(xué)習(xí)會(huì)上講到的樸素貝葉斯分類算法,希望有利于他人理解。
?
1? 分類問(wèn)題綜述
?對(duì)于分類問(wèn)題,其實(shí)誰(shuí)都不會(huì)陌生,日常生活中我們每天都進(jìn)行著分類過(guò)程。例如,當(dāng)你看到一個(gè)人,你的腦子下意識(shí)判斷他是學(xué)生還是社會(huì)上的人;你可能經(jīng)常會(huì)走在路上對(duì)身旁的朋友說(shuō)“這個(gè)人一看就很有錢”之類的話,其實(shí)這就是一種分類操作。
?
既然是貝葉斯分類算法,那么分類的數(shù)學(xué)描述又是什么呢?
?
從數(shù)學(xué)角度來(lái)說(shuō),分類問(wèn)題可做如下定義:已知集合和,確定映射規(guī)則y = f(x),使得任意有且僅有一個(gè),使得成立。
?
其中C叫做類別集合,其中每一個(gè)元素是一個(gè)類別,而I叫做項(xiàng)集合(特征集合),其中每一個(gè)元素是一個(gè)待分類項(xiàng),f叫做分類器。分類算法的任務(wù)就是構(gòu)造分類器f。
?
分類算法的內(nèi)容是要求給定特征,讓我們得出類別,這也是所有分類問(wèn)題的關(guān)鍵。那么如何由指定特征,得到我們最終的類別,也是我們下面要講的,每一個(gè)不同的分類算法,對(duì)應(yīng)著不同的核心思想。
?
本篇文章,我會(huì)用一個(gè)具體實(shí)例,對(duì)樸素貝葉斯算法幾乎所有的重要知識(shí)點(diǎn)進(jìn)行講解。
?
2? 樸素貝葉斯分類
那么既然是樸素貝葉斯分類算法,它的核心算法又是什么呢?
是下面這個(gè)貝葉斯公式:
?
?
換個(gè)表達(dá)形式就會(huì)明朗很多,如下:
?
?
我們最終求的p(類別|特征)即可!就相當(dāng)于完成了我們的任務(wù)。
?
3? 例題分析
下面我先給出例子問(wèn)題。
?
給定數(shù)據(jù)如下:
?
?
現(xiàn)在給我們的問(wèn)題是,如果一對(duì)男女朋友,男生想女生求婚,男生的四個(gè)特點(diǎn)分別是不帥,性格不好,身高矮,不上進(jìn),請(qǐng)你判斷一下女生是嫁還是不嫁?
?
這是一個(gè)典型的分類問(wèn)題,轉(zhuǎn)為數(shù)學(xué)問(wèn)題就是比較p(嫁|(不帥、性格不好、身高矮、不上進(jìn)))與p(不嫁|(不帥、性格不好、身高矮、不上進(jìn)))的概率,誰(shuí)的概率大,我就能給出嫁或者不嫁的答案!
這里我們聯(lián)系到樸素貝葉斯公式:
?
?
我們需要求p(嫁|(不帥、性格不好、身高矮、不上進(jìn)),這是我們不知道的,但是通過(guò)樸素貝葉斯公式可以轉(zhuǎn)化為好求的三個(gè)量.
?
p(不帥、性格不好、身高矮、不上進(jìn)|嫁)、p(不帥、性格不好、身高矮、不上進(jìn))、p(嫁)(至于為什么能求,后面會(huì)講,那么就太好了,將待求的量轉(zhuǎn)化為其它可求的值,這就相當(dāng)于解決了我們的問(wèn)題!)
?
4? 樸素貝葉斯算法的樸素一詞解釋
那么這三個(gè)量是如何求得?
?
是根據(jù)已知訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)得來(lái),下面詳細(xì)給出該例子的求解過(guò)程。
回憶一下我們要求的公式如下:
?
?
那么我只要求得p(不帥、性格不好、身高矮、不上進(jìn)|嫁)、p(不帥、性格不好、身高矮、不上進(jìn))、p(嫁)即可,好的,下面我分別求出這幾個(gè)概率,最后一比,就得到最終結(jié)果。
?
p(不帥、性格不好、身高矮、不上進(jìn)|嫁) = p(不帥|嫁)*p(性格不好|嫁)*p(身高矮|嫁)*p(不上進(jìn)|嫁),那么我就要分別統(tǒng)計(jì)后面幾個(gè)概率,也就得到了左邊的概率!
?
等等,為什么這個(gè)成立呢?學(xué)過(guò)概率論的同學(xué)可能有感覺(jué)了,這個(gè)等式成立的條件需要特征之間相互獨(dú)立吧!
?
對(duì)的!這也就是為什么樸素貝葉斯分類有樸素一詞的來(lái)源,樸素貝葉斯算法是假設(shè)各個(gè)特征之間相互獨(dú)立,那么這個(gè)等式就成立了!
?
但是為什么需要假設(shè)特征之間相互獨(dú)立呢?
?
?
1、我們這么想,假如沒(méi)有這個(gè)假設(shè),那么我們對(duì)右邊這些概率的估計(jì)其實(shí)是不可做的,這么說(shuō),我們這個(gè)例子有4個(gè)特征,其中帥包括{帥,不帥},性格包括{不好,好,爆好},身高包括{高,矮,中},上進(jìn)包括{不上進(jìn),上進(jìn)},那么四個(gè)特征的聯(lián)合概率分布總共是4維空間,總個(gè)數(shù)為2*3*3*2=36個(gè)。
?
36個(gè),計(jì)算機(jī)掃描統(tǒng)計(jì)還可以,但是現(xiàn)實(shí)生活中,往往有非常多的特征,每一個(gè)特征的取值也是非常之多,那么通過(guò)統(tǒng)計(jì)來(lái)估計(jì)后面概率的值,變得幾乎不可做,這也是為什么需要假設(shè)特征之間獨(dú)立的原因。
?
2、假如我們沒(méi)有假設(shè)特征之間相互獨(dú)立,那么我們統(tǒng)計(jì)的時(shí)候,就需要在整個(gè)特征空間中去找,比如統(tǒng)計(jì)p(不帥、性格不好、身高矮、不上進(jìn)|嫁),
?
我們就需要在嫁的條件下,去找四種特征全滿足分別是不帥,性格不好,身高矮,不上進(jìn)的人的個(gè)數(shù),這樣的話,由于數(shù)據(jù)的稀疏性,很容易統(tǒng)計(jì)到0的情況。 這樣是不合適的。
?
根據(jù)上面?zhèn)z個(gè)原因,樸素貝葉斯法對(duì)條件概率分布做了條件獨(dú)立性的假設(shè),由于這是一個(gè)較強(qiáng)的假設(shè),樸素貝葉斯也由此得名!這一假設(shè)使得樸素貝葉斯法變得簡(jiǎn)單,但有時(shí)會(huì)犧牲一定的分類準(zhǔn)確率。
?
好的,上面我解釋了為什么可以拆成分開連乘形式。那么下面我們就開始求解!
?
我們將上面公式整理一下如下:
?
?
下面我將一個(gè)一個(gè)的進(jìn)行統(tǒng)計(jì)計(jì)算(在數(shù)據(jù)量很大的時(shí)候,根據(jù)中心極限定理,頻率是等于概率的,這里只是一個(gè)例子,所以我就進(jìn)行統(tǒng)計(jì)即可)。
?
p(嫁)=?
首先我們整理訓(xùn)練數(shù)據(jù)中,嫁的樣本數(shù)如下:
?
則 p(嫁) = 6/12(總樣本數(shù)) = 1/2
?
p(不帥|嫁)=?統(tǒng)計(jì)滿足樣本數(shù)如下:
?
則p(不帥|嫁) = 3/6 = 1/2 在嫁的條件下,看不帥有多少
?
p(性格不好|嫁)= ?統(tǒng)計(jì)滿足樣本數(shù)如下:
?
則p(性格不好|嫁)= 1/6
?
p(矮|嫁) = ?統(tǒng)計(jì)滿足樣本數(shù)如下:
?
則p(矮|嫁) = 1/6
?
p(不上進(jìn)|嫁) = ?統(tǒng)計(jì)滿足樣本數(shù)如下:
?
則p(不上進(jìn)|嫁) = 1/6
?
下面開始求分母,p(不帥),p(性格不好),p(矮),p(不上進(jìn))
統(tǒng)計(jì)樣本如下:
?
?
不帥統(tǒng)計(jì)如上紅色所示,占4個(gè),那么p(不帥) = 4/12 = 1/3
?
?
性格不好統(tǒng)計(jì)如上紅色所示,占4個(gè),那么p(性格不好) = 4/12 = 1/3
?
?
身高矮統(tǒng)計(jì)如上紅色所示,占7個(gè),那么p(身高矮) = 7/12
?
?
不上進(jìn)統(tǒng)計(jì)如上紅色所示,占4個(gè),那么p(不上進(jìn)) = 4/12 = 1/3
?
到這里,要求p(不帥、性格不好、身高矮、不上進(jìn)|嫁)的所需項(xiàng)全部求出來(lái)了,下面我?guī)脒M(jìn)去即可,
?
= (1/2*1/6*1/6*1/6*1/2)/(1/3*1/3*7/12*1/3)
?
下面我們根據(jù)同樣的方法來(lái)求p(不嫁|不帥,性格不好,身高矮,不上進(jìn)),完全一樣的做法,為了方便理解,我這里也走一遍幫助理解。首先公式如下:
?
?
下面我也一個(gè)一個(gè)來(lái)進(jìn)行統(tǒng)計(jì)計(jì)算,這里與上面公式中,分母是一樣的,于是我們分母不需要重新統(tǒng)計(jì)計(jì)算!
?
p(不嫁)=?根據(jù)統(tǒng)計(jì)計(jì)算如下(紅色為滿足條件):
?
?
則p(不嫁)=6/12 = 1/2
?
p(不帥|不嫁) = ?統(tǒng)計(jì)滿足條件的樣本如下(紅色為滿足條件):
?
?
則p(不帥|不嫁) = 1/6
?
p(性格不好|不嫁) = ?據(jù)統(tǒng)計(jì)計(jì)算如下(紅色為滿足條件):
則p(性格不好|不嫁) =3/6 = 1/2
?
p(矮|不嫁) = ?據(jù)統(tǒng)計(jì)計(jì)算如下(紅色為滿足條件):
?
則p(矮|不嫁) = 6/6 = 1
?
p(不上進(jìn)|不嫁) = ?據(jù)統(tǒng)計(jì)計(jì)算如下(紅色為滿足條件):
則p(不上進(jìn)|不嫁) = 3/6 = 1/2
?
那么根據(jù)公式:
?
p (不嫁|不帥、性格不好、身高矮、不上進(jìn)) = ((1/6*1/2*1*1/2)*1/2)/(1/3*1/3*7/12*1/3)
很顯然(1/6*1/2*1*1/2) > (1/2*1/6*1/6*1/6*1/2)
?
于是有p (不嫁|不帥、性格不好、身高矮、不上進(jìn))>p (嫁|不帥、性格不好、身高矮、不上進(jìn))
?
所以我們根據(jù)樸素貝葉斯算法可以給這個(gè)女生答案,是不嫁!!!!
?
5? 樸素貝葉斯分類的優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
(1) 算法邏輯簡(jiǎn)單,易于實(shí)現(xiàn)(算法思路很簡(jiǎn)單,只要使用貝葉斯公式轉(zhuǎn)化醫(yī)學(xué)即可!)
(2)分類過(guò)程中時(shí)空開銷小(假設(shè)特征相互獨(dú)立,只會(huì)涉及到二維存儲(chǔ))
?
缺點(diǎn):
?
理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實(shí)際上并非總是如此,這是因?yàn)闃闼刎惾~斯模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),分類效果不好。
?
而在屬性相關(guān)性較小時(shí),樸素貝葉斯性能最為良好。對(duì)于這一點(diǎn),有半樸素貝葉斯之類的算法通過(guò)考慮部分關(guān)聯(lián)性適度改進(jìn)。
?
整個(gè)例子詳細(xì)的講解了樸素貝葉斯算法的分類過(guò)程,希望對(duì)大家的理解有幫助~
?
參考:李航博士《統(tǒng)計(jì)學(xué)習(xí)方法》
算法雜貨鋪--分類算法之樸素貝葉斯分類(Naive Bayesian classification)
?
致謝:德川,皓宇,繼豪,施琦
原文地址:https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247483819&idx=1&sn=7f1859c0a00248a4c658fa65f846f341&chksm=ebb4397fdcc3b06933816770b928355eb9119c4c80a1148b92a42dc3c08de5098fd6f278e61e#rd
總結(jié)
以上是生活随笔為你收集整理的带你搞懂朴素贝叶斯分类算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ipv6服务器及环境搭建
- 下一篇: 关于android创建对话框报错The