【文末有福利】5个字极简入门朴素贝叶斯模型
導語:作為理科生或者程序員,引以為傲的除了身上的格子襯衫外,我們還有一樣很重要的就是邏輯思維,對于很多事,譬如一些女生的流行觀點,我們似乎天然地就喜歡拋出一句“真沒邏輯”的評價,這也為我們自己掙得了“憑實力單身”的美譽。如果你也是這樣的,那么你需要好好了解一下貝葉斯公式的基本思想。
貝葉斯公式的基本思想
樸素貝葉斯由兩部分組成,“樸素”是一種帶有假設的限定條件,“貝葉斯”則指的是貝葉斯公式。合起來,樸素貝葉斯指的就是在“樸素”假設條件下運用“貝葉斯公式”。
顯然,“樸素貝葉斯”是一條偏正短語,核心和重點是貝葉斯公式。貝葉斯公式與其說是一條公式,更不如說是一種思想。統(tǒng)計學中有兩座山頭,分別叫頻率學派和貝葉斯學派,而這兩座山頭都有各自龐大的學識體系。這里本著現(xiàn)學現(xiàn)用的原則,只揀我們馬上就能用的講。
我們一般會把符號說明安排在數(shù)學解析部分,不過這里有兩個概率符號需要提前介紹,它們是本章的主角。
● P(X) :這是概率統(tǒng)計中最基本的符號,表示X出現(xiàn)的概率。如在擲骰子的游戲中,P(6)就是指骰子出現(xiàn)數(shù)字“6”的概率。這個概率顯然為1/6。
● P(X|Y) :這是條件概率的符號,比上面的概率符號中間多了一豎,代表條件。P(X|Y)的意思是在Y發(fā)生的條件下,X發(fā)生的概率。它是貝葉斯公式的主角。
是不是覺得距離完全了解條件概率還差那么一點點兒?上文我們一起了解了出題老師的心路歷程,現(xiàn)在還是繼續(xù)請這位出題老師補上這最后的一點點吧。
我們用P(D)代表選項D為錯誤選項的概率,在正確答案均勻分布時,概率值為25%。那么P(D|C)就代表選項C為錯誤選項時,D為錯誤選項的概率。這與單純的P(D)有什么不同呢?別忘了,這位老師有一點癖好,選擇了C為錯誤選項之后,會順手把D也作為錯誤選項?,F(xiàn)在的已知條件是選項C已經(jīng)確定是錯誤選項了,在這種前提條件下,選項D是錯誤選項的概率,也即P(D|C)的值就遠遠超過了25%。這就是條件概率的意義。
對于條件概率,我還要多說一點兒。前面我們說線性模型是“鋼鐵直男”的典范,相比之下,條件概率以及后面的貝葉斯公式就是“直男們”理解少女之心的一把鑰匙。
貝葉斯的基本邏輯
作為理科生或者程序員,引以為傲的除了身上的格子襯衫外,我們還有一樣很重要的就是邏輯思維,對于很多事,譬如一些女生的流行觀點,我們似乎天然地就喜歡拋出一句“真沒邏輯”的評價,這也為我們自己掙得了“憑實力單身”的美譽。如果你也是這樣的,那么你需要好好了解一下貝葉斯公式的基本思想。
貝葉斯公式的核心是條件概率,譬如P(B|A),就表示當A發(fā)生時,B發(fā)生的概率,如果P(B|A)的值越大,說明一旦發(fā)生了A,B就越可能發(fā)生。兩者可能存在較高的相關性。
相關性就是貝葉斯公式要表達的哲學,明白了這一哲學,對于很多事情,特別是女生的流行觀點,我們將豁然開朗。譬如很多男生都曾經(jīng)被女朋友要求在節(jié)日送禮物,而理由多半是這么一句話:“我不是在乎禮物,而是在乎你用不用心?!焙芏嗄猩氩幻靼?#xff1a;你要我送禮物,又說不在乎禮物,這是什么邏輯?
那么這里我要說:女生說的是有邏輯的!只不過與男生不一樣,男生的邏輯偏重因果性,女生的邏輯偏重相關性。因果性很簡單,就是A→B,但如果A和B滿足相關性,情況則要復雜一些,譬如最經(jīng)典的數(shù)據(jù)挖掘案例“尿布和啤酒”,年輕的爸爸會在買尿布的時候順便買啤酒,這時尿布和啤酒就呈相關性,如果我們用P(尿布)來表示買尿布的概率的話,一旦P(尿布)的值增加,那么P(啤酒|尿布)的值也會增加。其意義是,當尿布的銷量增加時,啤酒的銷量也會增加,這就是相關性,但相關性不是因果性,二者雖然同時增長,但并不存在因果關系。
明白了這一點,男生就能明白女生的邏輯。對于“我不是在乎禮物,而是在乎你用不用心”這句話,我們用公式可以表達如下:
P(用心|送禮物)
那么,根據(jù)貝葉斯公式,當送禮物的發(fā)生概率越大,也即P(送禮物)的值越大, P(用心|送禮物)的值也就越大,也就表示你對這個女生越用心。這就是女生怎樣利用相關性,通過送禮物來考察你是否用心。
好了,我們大致解釋了貝葉斯公式。最后要說的是,相關性是建立在統(tǒng)計數(shù)據(jù)的基礎之上的,所以“送禮物”和“用心”到底是否具有相關性,還需要進行社會學的調(diào)查。
用貝葉斯公式進行選擇
如果你已經(jīng)熟悉機器學習算法的套路,一定已經(jīng)從上面對條件概率的描述中“聞”到了預測的味道。貝葉斯公式預測的核心思想就5個字——“看起來更像”。
在貝葉斯看來,世界不是靜止和絕對的,而是動態(tài)和相對的,希望利用已知經(jīng)驗來進行判斷。用“經(jīng)驗”進行“判斷”,經(jīng)驗怎么來?有了經(jīng)驗怎么判斷?一句話實際包含了兩輪過程。
第一輪的分級:是已知類別而統(tǒng)計特征,即某一特征在該類中的出現(xiàn)概率,是把類別分解成特征概率的過程。
第二輪的還原:是已知特征而推測類別,這里將第一輪的結果用上,是把知道統(tǒng)計情況的特征還原成某一類的過程。
說到這里,就不能不提“先驗”和“后驗”了,這兩個詞兒看起來相當哲學,也確實是康德的《純粹理性批判》中的主角。對于這里的“驗”,主張認知的人將其解釋成經(jīng)驗,主張實踐的人將其解釋成“實驗”,在我看來,先驗和后驗不妨認為是兩位諸葛亮,先驗這位是事前諸葛亮,后驗這位是事后諸葛亮。就以空城計來說,諸葛亮布陣的時候,是根據(jù)司馬懿一貫的個性,斷定他不敢進城,這是先驗。等到司馬懿真的來了,在城下猶豫不決,要退不退,諸葛亮一看就知道事妥了,這是后驗。
貝葉斯版的預測未來
先驗和后驗是怎么用于預測的呢?這里我想展示一下我在中學時學會的看發(fā)型猜女同學的“技術”。假設我的班上一共有10位女同學,其中一位叫安吉利,中學時女生個子都差不多高,又穿著一樣的校服,光看背影猜中誰是安吉利的概率是10%,基本靠蒙了,這就是先驗概率,先記作P(安吉利)。但是有一天我突然發(fā)現(xiàn),安吉利同學特別喜歡扎馬尾,不過扎馬尾又不是什么獨占的發(fā)明專利,而且這個年齡階段的女孩子又都愛扎馬尾,所以,不是所有扎馬尾的女同學都叫安吉利。
怎么辦呢?我又利用上課的時間統(tǒng)計了一下,班上女同學一共有三種發(fā)型,扎馬尾的概率大概為30%,記作P(馬尾)。而安吉利同學真的非常喜歡扎馬尾,她扎馬尾的概率高達70%,記作P(馬尾|安吉利)。這里我們用上了前面介紹的條件概率,P(馬尾|安吉利)的意思是,在女同學是安吉利的前提條件下發(fā)型是馬尾的概率,在貝葉斯公式中這又稱為似然度(Likelihood)。有了這三個統(tǒng)計數(shù)據(jù),我心里就有底了,往后見到扎馬尾的女同學,有兩成多的概率就是我們的安吉利。
其中的奧秘就是貝葉斯公式。也許你已經(jīng)察覺,扎馬尾的女同學中她是安吉利的概率也是一種條件概率,記作P(安吉利|馬尾),這就是后驗概率。根據(jù)貝葉斯公式,我們有:
P(馬尾)·P(安吉利|馬尾)= P(安吉利)·P(馬尾|安吉利)
代入我們犧牲寶貴的上課時間得到的統(tǒng)計數(shù)據(jù),則可算出:
P(安吉利|馬尾)=10%×70%/30%=23.3%
前面我們說,用先驗和后驗進行選擇判斷要分成兩個階段,現(xiàn)在有了似然度就好解釋了。先驗概率是已經(jīng)知道的,而我們通過經(jīng)驗或?qū)嶒炓私獾木褪沁@個似然度,知道似然度再加上先驗,我們就能知道后驗概率了。
可惜的是,雖然貝葉斯公式能夠告訴我誰是安吉利,但是它沒辦法告訴我。為什么安吉利同學會對馬尾如此執(zhí)迷。
下次再聊。
以上內(nèi)容摘自《機器學習算法的數(shù)學解析與Python實現(xiàn)》一書,經(jīng)出版方授權發(fā)布。
推薦閱讀
《機器學習算法的數(shù)學解析與Python實現(xiàn)》
入門機器學習的第一本書。從生活案例中理解算法,發(fā)現(xiàn)算法的樂趣,再把算法應用到機器學習中,讓你零基礎掌握算法精髓,快速進入人工智能開發(fā)領域。
***粉絲福利時間***
本次聯(lián)合【機械工業(yè)出版社華章公司】為大家?guī)?strong>5本正版新書。在本文評論中回復談談你對機器學習算法的理解,4月11日23點前,評論點贊數(shù)前5名的讀者將獲贈正版圖書1本。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結
以上是生活随笔為你收集整理的【文末有福利】5个字极简入门朴素贝叶斯模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 年度最佳代码“不管你们信不信,反正我信了
- 下一篇: 上海1.3万座玻璃幕墙建筑“一网统管”