贝叶斯告诉你,投掷硬币概率可以是90%
信貝爺, 得永生
開頭先開個玩笑, 有人說“信貝爺, 得永生” 你是否理解此中真意??
貝爺是這位, 生前是個神父。
貝葉斯分析是整個機器學習的基礎(chǔ)框架, 它的思想之深刻遠出一般人所認知的, 我們這里要從貝葉斯統(tǒng)計說起。
首先談概率,概率這件事大家都覺得自己很熟悉, 叫你說概率的定義 , 你卻不一定說的出,我們中學課本里說概率這個東西表述是一件事發(fā)生的頻率, 或者說這叫做客觀概率。
而貝葉斯框架下的概率理論確從另一個角度給我們展開了答案, 他說概率是我們個人的一個主觀概念, 表明我們對某個事物發(fā)生的相信程度。?如同Pierre Lapalace說的: Probability theory is nothing but common sense reduced to calculation. ?這正是貝葉斯流派的核心,換句話說,它解決的是來自外部的信息與我們大腦內(nèi)信念的交互關(guān)系。
兩種對于概率的解讀區(qū)別了頻率流派和貝葉斯流派。如果你不理解主觀概率就無法理解貝葉斯定律的核心思想。
貝爺居然能解決家庭糾紛?
我們來看一下貝葉斯統(tǒng)計的一個有趣的案例案例:假如你是一個女生, 你在你的老公書包里發(fā)現(xiàn)了一個別的女人的內(nèi)褲那么他出軌的概率是多少。?
圖:貝爺居然能解決家庭糾紛?
稍微熟悉這個問題的人對會知道做這個題目你要先考察基率,你要把這個問題分解為幾步考慮:
1,你老公在沒有任何概率情況下出軌的概率是多少? 如果他是個天生老實巴交的程序員或者風流倜儻的CEO, 那么顯然不該一視同仁
2,如果你老公出軌了, 那么他有一條內(nèi)褲的概率是多少, 如果他沒出軌, 出現(xiàn)這個情況概率有多少? ?想想一般人即使出軌也不會犯那么傻的錯誤, 會不會有沒出軌而出現(xiàn)內(nèi)褲的狀況? 有沒有可能是某個暗戀你老公的人的陷害?
3, 根據(jù)1 和2求解最終問題,這才是擁有大學數(shù)學能力的你該做的分析。
在這里1其實就是先驗概率P(A),而2是條件概率P(B|A), 最終得到3后驗概率P(A|B)。這三種即是貝葉斯統(tǒng)計的三要素。
基于條件概率的貝葉斯定律數(shù)學方程極為簡單:?
A即出軌, B是內(nèi)褲出現(xiàn), 你得到1,2,就可以根據(jù)公式算出根據(jù)根據(jù)內(nèi)褲出現(xiàn)判斷出軌的概率。
先驗概率在貝葉斯統(tǒng)計中具有重要意義,首先先驗概率即我們在取得證據(jù)之前所指定的概率P(A), 這個值通常是根據(jù)我們之前的常識,帶有一定的主觀色彩。 就像剛剛說的出軌的問題, 你的先驗概率代表了你對你男人的信心。
有一個非常有趣的現(xiàn)象是如果我們的先驗概率審定為1或0(即肯定或否定某件事發(fā)生), 那么無論我們?nèi)绾卧黾幼C據(jù)你也依然得到同樣的條件概率(此時P(A)=0 或 1 , P(A|B)= 0或1) 這告訴我們的第一個經(jīng)驗就是不要過早的下論斷, 下了論斷你的預(yù)測也就無法進化了, 或者可以稱之為信仰。?你如果想讓你的認知進步,就要給各種假設(shè)留一點空間。
貝葉斯分析看辛普森案
貝葉斯分析的思路對于由證據(jù)的積累來推測一個事物發(fā)生的概率具有重大作用, 它告訴我們當我們要預(yù)測一個事物, 我們需要的是首先根據(jù)已有的經(jīng)驗和知識推斷一個先驗概率, 然后在新證據(jù)不斷積累的情況下調(diào)整這個概率,整個通過積累證據(jù)來得到一個事件發(fā)生概率的過程我們稱為貝葉斯分析。
貝葉斯分析中的三要素在不同的問題中通常側(cè)重點 , 很多時候我們都是在忽略先驗概率的作用,比如描述一個人很書呆子氣讓你判斷他是大學老師還是銷售員的經(jīng)典案例(要看先驗大學老師還是銷售員哪個多啊)。?
但是有時候我們也不理解條件概率, 比如著名的辛普森案, 為了證明辛普森有殺妻之罪,檢方說辛普森之前家暴,而辯護律師說,美國有400萬女性被丈夫或男友打過,而其中只有1432人被殺,概率是2800分之一。
這其實就是勿用了后驗概率, 這里的條件是被殺而且有家暴,而要推測的事件是兇手是男友(事實上概率高達90%),這才是貝葉斯分析的正當用法, 而辯護律師卻把完全在混淆條件與要驗證的假設(shè)。
圖: 貝葉斯分析法庭也用的上哦!
理解貝葉斯分析最好的方法即圖像法, 這里的A的面積即先驗, 后驗是陰影占籃圈的百分比。
貝葉斯分析可以瞬間理解一些常用的理論, 如幸存者偏差,你發(fā)現(xiàn)一些沒讀過書的人很有錢,事實上是你發(fā)現(xiàn)就已經(jīng)是幸存者了(對應(yīng)上圖中小紅圈), 而死了的人(紅圈外的大部分面積)你都沒見到啊。
還有陰謀論, 陰謀論的特點是條件很多很復(fù)雜, 但是條件一旦成立,結(jié)論幾乎成立,你一旦考慮了先驗,這些條件成立本身即很困難, 陰謀論不攻自克。
注: 圖上紅圈和籃圈的面積, 很少我們在開始就知道, 這才是應(yīng)用中的難點。
此處貝葉斯分析的框架也在教我們?nèi)绾翁幚硖乩c一般常識的規(guī)律。
如果你太注重特例(即完全不看先驗概率) 很有可能會誤把噪聲看做信號, 而奮不顧身的跳下去。
如果恪守先驗概率, 就成為無視變化而墨守成規(guī)的人。其實只有貝葉斯流的人生存率會更高, 因為他們會重視特例, 但也不忘記書本的經(jīng)驗,根據(jù)貝葉斯公式小心調(diào)整信心,甚至會主動設(shè)計實驗根據(jù)信號判斷假設(shè),這就是我們下一步要講的。?
貝葉斯決策如何判定男女
在剛剛講到的貝葉斯統(tǒng)計分析的基礎(chǔ)上, 我們就可以引出一個更核心的概念,?貝葉斯決策。
貝葉斯決策主要包含四個部分: 數(shù)據(jù)(D), 假設(shè)(W),目標(O),決策(S)。?此處的數(shù)據(jù)即之前講到的證據(jù), 假設(shè)是我們要驗證的事實, 目標是我們最終要取得優(yōu)化的量, 決策時根據(jù)目標得到的最后行為。與上一步貝葉斯分析增加的部分是目標和決策。假設(shè)在問題里如果是連續(xù)的往往以參數(shù)空間的形式表達。
然后我們可以按照如下步驟做:
-
第一, 理清因果鏈條,哪個是假設(shè),哪個是證據(jù)。?
-
第二,給出所有可能假設(shè),即假設(shè)空間
-
第三,給出先驗概率
-
第四,根據(jù)貝葉斯概率公式求解后驗概率, 得到假設(shè)空間的后驗概率分布
-
第五,利用后驗概率求解條件期望, 得到條件期望最大值對應(yīng)的行為
貝葉斯決策如果一旦變成自動化的計算機算法, 它就是機器學習。Ok, 此處應(yīng)有掌聲,我們就用貝葉斯決策詮釋一個最簡單的機器學習分類算法- 樸素貝葉斯
假設(shè)給你一個人的身高和體重資料,你不知道他的男女性別, 你可以通過我上述給出的貝葉斯決策機制解決這個問題:
首先, 此處我們的證據(jù)是身高和體重, 假設(shè)是男或女。先驗概率是人口中的男女比例, 而我們需要掌握的條件概率是男性和女性的身高和體重分布,這應(yīng)該是很好掌握的信息。
然后我們可以根據(jù)貝葉斯公式求解后驗概率,而此處我們要做的決策時男女,目標是分類錯誤率最低,決策即性別分類。
此處我們用到一個基本假設(shè)就是證據(jù)是互相獨立的, 使我們能夠求得更簡單的公式:
圖: 樸素貝葉斯,核心在于假設(shè)證據(jù)互相獨立。由此我們得到下列乘法公式(feature對應(yīng)x)
用數(shù)學語言白表征這個問題, X特征向量,h把X映射成不同的分類, 我們要求得是P(y|x) 正確率最大的假設(shè)(y)。
投擲硬幣的概率并不是50%
事實上,貝葉斯決策很少只涉及A和B, 而是內(nèi)部包含非常關(guān)鍵的隱變量(參數(shù)),涉及我們對所研究事物的一些基本預(yù)設(shè)。比如下面這個特別簡單的例子:
拋擲硬幣,一個硬幣被投擲10次9次朝上,那么根據(jù)頻率學派的觀點, 得到第11次投擲的概率不變?yōu)?.5 ,如果你回答了0.9, 你經(jīng)常會被看成一個傻X。 其實不然,天底下哪有一樣的硬幣呢?
那么問題來了,我設(shè)一個賭局, 一次正面向上你可以受益100, 反面懲罰150, 基于剛才的事實你要不要做這個局??
我們完全可以套用貝葉斯決策的理論來。 這里的一個重要的隱變量是每一次投擲硬幣的概率,這個數(shù)字按照經(jīng)典頻率學派認定一定是0.5, 而按照貝葉斯學派的觀點, 需要把這個變量看成是未知的,具有一定先驗概率,之后嚴格按照貝葉斯公式計算新加入證據(jù)對先驗概率的影響。
此處的先驗概率即你對硬幣向上0.5這件事的信念, 你越相信這個事實, 這個分布越尖,反之越寬廣。 我們用希臘字母theta來表征這個概率。整個決策表述如下:
公式的含義是你要用求解已知9次朝上1次朝下的時候求解你下一次投擲硬幣的期望收益, 并因此決策要不要賭。
中間要驗證的假設(shè)空間即每一次投擲為正的概率,我們依然以每次事件獨立和該概率不隨時間變化為基準(如果不是問題將無限復(fù)雜),那么證據(jù)將根據(jù)上述公式改變假設(shè)空間的概率分布, 而最終的期望可以根據(jù)這個分布求出。決策即使得這個期望最大的解。
注意此處先驗十分重要,因為它影響決策的結(jié)果, 而這又是一個很主觀的東西,如果你對0.5有絕對的信心, 那么你的就會非常尖,這個時候你需要得到大量偏離0.5的證據(jù)才能逐步糾偏。?
對于書呆子樣的人,估計會傾向給出一個比較尖銳的先驗分布,相信書里說的0.5而不賭, 而一些更加傾向于相信特例的人則會給出很平坦的先驗而更大的概率去賭。最終后者發(fā)財和傾家蕩產(chǎn)的幾率都比較高,而前者比較容易旱澇保收。
當然, 在數(shù)據(jù)量超大,比如說1000次有900次為正的情況下,我們幾乎不需要考慮先驗(自己去看公式),此時幾乎可以認定投擲的概率就是0.9.
圖:證據(jù)對信念發(fā)生作用的貝葉斯過程
大腦是一個貝葉斯網(wǎng)絡(luò)?
如果我們的貝葉斯決策中牽涉的證據(jù)更復(fù)雜呢? 如果這些證據(jù)之間不是簡單獨立而是互為因果呢?這時候更為強大的工具——貝葉斯網(wǎng)絡(luò)就應(yīng)運而生。
世界上的事無一不處于復(fù)雜的聯(lián)系之中, 而貝葉斯網(wǎng)絡(luò)正是刻畫這種關(guān)聯(lián)的數(shù)學表述。
構(gòu)建一個貝葉斯網(wǎng)絡(luò)的關(guān)鍵方法是圖模型,構(gòu)建一個圖模型我們需要把具有因果聯(lián)系的各個事件用箭頭連在一起。
下圖的例子是這樣一個事件, 我們看到草坪濕潤了,那么我想推測此時天氣多云的概率 ,因為導(dǎo)致草坪濕潤的原因有下雨或者灑水車在工作, 而這兩者又都和多云有聯(lián)系,那么我們可以畫出如下圖形,按照貝葉斯概率公式逐級推出每個事件的概率。
貝葉斯網(wǎng)絡(luò)的特性是,當某點的一個證據(jù)出現(xiàn), 整個網(wǎng)絡(luò)中事件的概率都變化, 所謂看到鏡中的一絲百發(fā), 就改變你對人生中所有重大事件概率的推斷。
我們的大腦 : 有人說我們的大腦是一個貝葉斯網(wǎng)絡(luò), 這句話又對又不對 ,我們的大腦學習的原理,的確正是一個新的證據(jù)逐步和內(nèi)部信念耦合的過程,本質(zhì)即貝葉斯網(wǎng)絡(luò),但是我們大腦又是一個不完全的貝葉斯推斷機, 每個人都有一個頂層以三觀構(gòu)建,底層逐步深入個個關(guān)于具體問題看法的貝葉斯網(wǎng)路, 但是我們卻很少有能夠通過一個證據(jù)更新整個網(wǎng)絡(luò)的能力,或者是我們吸收新證據(jù)的速度也往往十分緩慢,這是為什么我們經(jīng)常具有自相矛盾的信念體系,經(jīng)常一方面喊著人性解放一方面又崇拜偶像。
梧桐一葉又有幾人知秋。
(注:本文僅代表作者觀點)
總結(jié)
以上是生活随笔為你收集整理的贝叶斯告诉你,投掷硬币概率可以是90%的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Think Bayes - 我所理解的贝
- 下一篇: 机器学习算法比较