三人成虎,概率却不足十分之五?几个贝叶斯推理故事的分享
周末了,看一些違反直覺的小問題們。
第一個問題:三人成虎,概率卻不足十分之五?
你打算去西雅圖旅游,但不確定是否會下雨。你打電話給三個在西雅圖居住但彼此不認識的朋友詢問。你的每個朋友都有2/3的可能告訴你真實情況,也有1/3的可能他們會搞砸。詢問后所有的朋友都告訴你會下雨。
那么是不是第一反應西雅圖會下雨呢?
而實際西雅圖下雨的概率有多大呢?
是直接相信直覺還是計算下?
-
首先確認觀察數據?(起名為D):三人都說會下雨。
-
假設:A:?西雅圖會下雨;B:西雅圖不會下雨。
-
另外還需要假設一個變量:西雅圖下雨的先驗概率是多少,假設為X,則不下雨的概率為(1-X)。
-
下面就可以計算條件概率了,給定D的情況下A發生的概率和給定D的情況下B發生的概率。
下面
-
P(A|D) ∝ P(A)*P(D|A) = X * 2/3 * 2/3 * 2/3 = 8X/9
-
P(B|D) ∝ P(B)*P(D|B) = (1-X) * 1/3 * 1/3 * 1/3 = (1-X)/9
假如X為0.5,則西雅圖下雨的概率
P(A|D) = 8/9。
注意:不是直接帶入X做計算
根據1965-99年記錄的氣象資料顯示,西雅圖一年有822個小時在下雨,約占全年的10%。即西雅圖會下雨的先驗概率是10%。
以此計算的后驗概率P(A|D)=8/17。
三人都可成虎,而算出的概率確不足十分之五~~
是不是覺得不可思議???!
?
第二個問題:開門大吉否?
?
有個游戲,暫且叫“開門大吉”。主持人向你展示3個關著的門, 每個門后面都有一個獎品,其中一個是汽車,另外兩個是不值錢的物品, 參與人選中一個門,如果門后面是車,則車子歸參與人所有。假設你選中了一個門A,還剩下兩個門B和C。在打開你選中的門A之前,主持人會隨機打開另外兩個門中的一個,比如B,發現門后面沒有車。這時主持人會問你要不要堅持之前的選擇A還是選擇C?
換還是不換是一個問題?
你覺得呢?
-
解決這個問題最關鍵的地方是:即我們觀察到的數據是什么?
-
在這個問題中觀察到的數據是:主持人選擇了門B,且門B后面沒有車。我們稱之為D。
-
我們需要做的假設是:車在門A后面或車在門C后面。
-
需要計算的是兩個條件概率:給定觀察數據D的條件下假設A和C成立的概率,P(A|D),P(C|D),并且P(B|D)=0。
P(A|D) ∝ P(A)*P(D|A) = 1/3 * 1/2 = 1/6 P(B|D) ∝ P(B)*P(D|B) = 0 P(C|D) ∝ P(C)*P(D|C) = 1/3 * 1 = 1/3表格表示 (想一下最后一列怎么來的)
| ? | P(H) | P(D|H) | P(H)*P(D|H) | P(H|D) |
| A | 1/3 | 1/2 * 1 | 1/6 | 1/3 |
| B | 1/3 | 0 | 0 | 0 |
| C | 1/3 | 1 | 1/3 | 2/3 |
-
假設車在門A的后面,主持人選擇打開門B的概率是1/2,?門B后面沒有車的概率是1。
-
假設車在門B的后面,主持人打開門B且后面無車的概率是0。
-
假設車在門C的后面,主持人只能選擇打開門B,概率為1。
注:
-
主持人打開的門是B還是C不影響最終的結果,只要打開的門后面沒有車,游戲就可以繼續
-
三個假設很容易提出,較難發現的是我們觀察到的是什么,即現在知道什么信息。
-
最簡單的解釋:車在門A后面的概率是1/3,不管主持人有沒有打開剩下的2個門, 只要打開的門后面沒有車,也不論主持人打開剩下的兩個門的哪一個。3個門后面肯定有一個有車,主持人打開一個門沒有車, 那么另外一個門后面有車的概率是1-1/3=2/3。
?
?
?
?
?
第三個問題:誰是殺人兇手
兇殺案現場留有兩個人的血跡,一種為常見的O型血(人群中出現概率60%), 另一種為AB型血(人群中出現概率為1%)。一位叫Oliver的人被認定為嫌疑人, 經檢測其位O型血,則請判斷現場中血跡有一個來源于Oliver的概率多大?
?
?
-
首先判斷觀察到的數據D是:現場留有2人的血跡,一個是O型,一個是AB型。
-
假設是:A:血跡有一個來源于Oliver;B:血跡都不來源于Oliver
-
P(A|D) ∝ P(A)*P(D|A) = P(A) * 1% = 0.01
-
在假設A成立的條件下,其中一份血跡來源于Oliver,為B型血的概率為1. 另一份血跡為A型血的概率為1%。
-
-
P(B|D) ∝ P(B)*P(D|B) = P(B) * 2 * 60% * 1% = 0.012
-
在假設B成立的條件下,D就是任意2個人,一個是O型,另外一個是AB型的 概率是多少;這2個人任何一個都可以為O,另一個為AB,是排列問題。
-
-
這兒我們假設P(A)==P(B)
-
實際上這個問題關注的是似然值,即當前證據時否可以定罪。所以可以忽略P(A)和P(B)。
-
這個結論表明證據與假設一致卻不一定支持假設。
?
第四個問題:老人患癌率
假設人群中每個人患癌的概率為1%。老年人(65歲)占人群比例的0.2%。患有癌癥的老年人占人群比例的0.5%。那么給定一位65歲老人,推測其患癌癥的 概率是多少?
-
觀察到的數據D:?65歲老人
-
假設?H:患有癌癥
-
P(H|D) = P(H)*P(D|H)/P(D)?=?0.5?*?1?/?0.2?/?100?=?2.5%。
?
說了這么多,都是貝葉斯定律的問題,下面看看到底是怎么回事?
?
測試下看完理論,是否可以處理后面的案例?
?
引子
-
概率的定義:概率是一個0-1之間的數,代表了我們對某個事實或預測的相信程度。
-
條件概率:?指基于某種背景信息的概率值。
-
聯合概率:指2個或多個事件同時發生的概率。
-
事件獨立性:一個事件的發生不影響其他事件即為事件的獨行性。
-
概率的數學表示:事件A發生的概率寫作?P(A), 事件B發生的概率寫作 P(B), 給定事件A后事件B發生的概率 P(B|A), 事件A和B同時發生的概率P(A and B)。
-
事件的獨立性用數學公式表示為:P(B|A) = P(B), P(A|B) = P(A)A事件是否發生對B事件的發生沒有影響,反之亦然, 即表明A事件與B事件獨立。
-
聯合概率:P(A and B) = P(A) * P(B)?當事件A和B獨立時,即 P(B|A)?=?P(B),?P(A|B)?=?P(A)?時。
若事件A和事件B不一定相互獨立呢?更通用的法則是:
P(A and B) = P(A) * P(B|A) P(A and B) = P(B) * P(A|B) -
我們舉個例子:假設有袋圓球,罐1中有30個黑球和10個白球,罐2中黑球和白球各20個。某人隨機的從一個罐子中取出`粒球,發現是黑球,問這個黑球從罐1中取出的概率有多大?
這個問題怎么解答呢?
問題是:黑球從罐1中取出的概率多大;這句話包含了2個事件,黑球和罐1.
假如我們知道取得黑球的概率P(黑球)和給定黑球后球是從罐1取得的概率P(罐1|黑球)(這個是我們要計算的,假設個變量標記下就好),? 我們可以計算出聯合概率:P(黑球 and 罐1) = P(黑球)*P(罐1|黑球)。
另外我們也可以先選擇罐1,然后再取出黑球,這樣聯合概率就是:
P(黑球 and 罐1) = P(罐1)*P(黑球|罐1)綜合以上2個公式,我們就可以得到:
P(黑球)*P(罐1|黑球) = P(罐1)*P(黑球|罐1)P(罐1|黑球) = P(罐1)*P(黑球|罐1) / P(黑球)= P(罐1)*P(黑球|罐1) / (P(罐1)*P(黑球|罐1)+P(罐2)*P(黑球|罐2))= 0.5 * 0.75 / (0.5 * 0.75 + 0.5 * 0.5)= 0.6注:這是一個簡單的例子作為引子,是一個非常規解法。例子中的P(黑球)可以比較容易計算,所 以我們只需要一步就可以算出黑球從罐1中取出的概率有多大。
貝葉斯定理
-
基于聯合概率和條件概率的貝葉斯定理推導
對于任意兩個事件A和B,P(A and B) = P(B and A);
P(A and B) = P(A) * P(B|A)P(B and A) = P(B) * P(A|B)P(A|B) = P(A)*P(B|A)/P(B)P(B|A) = P(B)*P(A|B)/P(A)在有了這兩個轉換之后,我們就可以用已知的或者容易觀察的數據來計算未知 的,不容易觀察到的部分。
-
貝葉斯定理解釋:?貝葉斯定理反應的是隨著數據的更新而得以矯正的概率值。
設定H代表我們的假說,D代表觀測數據,貝葉斯定理可以寫做
P(H|D) = P(H)*P(D|H) / P(D)-
P(H):?先驗概率,反應的是主觀對假說H的認可度,
反應的是獲得觀察數據之前的認識。 -
P(H|D):?后驗概率,在分析了觀察數據之后對假說H的新的認識,
????反應的是根據新的事實對H發生的概率的更新。 -
P(D|H):?似然值,在假設成立的條件下,可以獲得這組觀察數據的概率。
-
P(D):?在任何假設條件下,獲取到這組觀察數據的概率。通常難以計算。
-
在這個公式中,觀察數據是已經獲得的。假說也是容易提出的。在假說成立的條件下,數據的模式是可以估計的。三個變量,這兒解決了2個。
-
通常情況下,為了規避對P(D)的計算,我們會窮舉出所有獨立的假設 (在這些假設中,最多有一個是真的,也至少有一個是真的), 分別計算P(H1|D),?P(H2|D),?P(H3|D)…,? 根據所有這些概率的和為1進行歸一化,獲得各個假設在給定的當前數據模 式下成立的概率。
-
在遇到問題時,D和H也并不總會很清晰,既需要我們多梳理問題, 明確哪個觀察數據是有意義的,更需要我們熟悉較多的例子, 加深對貝葉斯定理應用的理解。
-
貝葉斯定理的現實意義
貝葉斯方法來源于托馬斯·貝葉斯生前為解決一個“逆概”問題而寫的文章。在貝葉斯之前,“正向概率”已經能夠計算,如“假設封閉袋子里有N個白球, M個黑球,隨機摸一個出來是黑球的概率有多大”。而一個自然而然的反向思考是:如果事先不知道袋子里面黑白球的比例, 隨機取出一個(或多個)球,觀察取出的球的顏色, 是否就可以推測袋子里黑白球的比例?
這正如我們日常所觀察到的都是表面的結果,很難看到事務后面的本質, 如上述例子中封閉袋子里黑白球的比例。因此我們需要根據我們的觀察, 提出一個猜測或假設,然后評估這個假設發生的概率。如算出不同猜測的可能性 大小,即后驗概率。對于連續的猜測空間,則是計算猜測的概率密度函數;最后得到最靠譜的猜測。
概括來講,貝葉斯方法是一個分而治之的思想,把難以計算的概率用先驗知識和 似然值估算出來。也反映了我們隨著觀察的不管深入,對之前的認識的不斷更新。
P(H|D) = P(H)*P(D|H)/P(D)
最優貝葉斯推理
貝葉斯推理分為兩個過程;第一步是根據觀測數據窮舉出全部獨立的模型,也叫假設;第二步是使用模型推測未知現象發生的概率。這時我們不是選擇最靠譜的模型, 而是把全部模型對未知的預測加權平均起來(權重值就是模型相應的概率)。
貝葉斯定理應用案例
判斷男女
一所學校,男生60%,女生40%。男生總是穿長褲,女生則一半穿長褲, 一半穿裙子。假設高度近視的你未帶眼鏡走在校園中, 發現迎面走來一個穿長褲的學生,但未分辨出男女, 那么推斷這個是男生的概率多大?
D是:穿長褲的學生。
H是:A:這個學生是男生;B:這個學生是女生
待求:P(A|D) = P(男生|長褲)
表格表示
| ? | P(H) | P(D|H) | P(H)*P(D|H) | P(H|D) |
| A | 0.6 | 1 | 0.6 | 3/4 |
| B | 0.4 | 0.5 | 0.2 | 1/4 |
M&M豆問題
公司在不同年份生產的M&M豆包含的不同顏色的豆的比例不同, 1994年產的M&M豆包裝中,棕色30%,黃色20%,紅色20%,綠色10%,橙色10%, 茶色10%;1996年產的M&M豆包裝中,棕色13%,黃色14%,紅色13%,綠色20%, 橙色16%,藍色24%。假設手中有兩粒M&M豆,分別是橙色和綠色, 一個來自1994年包裝,一個來自1996年包裝,求算橙色來源于1994年包裝的概率?
解題思路:
-
觀察到的數據?D:橙色球和綠色球個來自不同包裝
-
完全窮舉獨立假設
-
假設A:橙色來源于94,綠色來源于96
-
假設B:橙色來源于96,綠色來源于94
-
-
假設A和假設B發生的概率是一樣的,都為0.5.
-
似然值的計算
為了計算方便,似然值可以乘以任意一個因子,不影響結果。
為了計算方便,似然值可以乘以任意一個因子,不影響結果。
-
假設A:P(橙色|94)*P(綠色|96) = 0.1 * 0.2 * 100 = 20
-
假設B:P(橙色|96)*P(綠色|94) = 0.16 * 0.1 * 100 = 16
-
假設A:P(橙色|94)*P(綠色|96) = 0.1 * 0.2 = 0.02
-
假設B:P(橙色|96)*P(綠色|94) = 0.16 * 0.1 = 0.016
-
-
后驗概率
-
P(A|D) ∝ 0.05 * 20 = 10
-
P(B|D) ∝ 0.05 * 16 = 8
-
-
Normalize概率:P(A|D)?=?10/18?=?5/9。因為窮舉了所有假設, 所以后驗概率之和為1.
表格表示
| ? | P(H) | P(D|H) | P(H)*P(D|H) | P(H|D) |
| A | 0.5 | 10 * 20 | 100 | 5/9 |
| B | 0.5 | 16 * 10 | 80 | 4/9 |
-
在提出假設時,?假設要完整窮盡,然后給每個假設指定一個代號便于描述和理清思路。
-
不明確的變量和概率值也用一個符號表示,便于列出公式。這一點我們后面還會提到。
?
老人患癌率
假設人群中每個人患癌的概率為1%。老年人(65歲)占人群比例的0.2%。患有癌癥的老年人占人群比例的0.5%。那么給定一位65歲老人,推測其患癌癥的 概率是多少?
-
觀察到的數據D:?65歲老人
-
假設?H:患有癌癥
-
P(H|D) = P(H)*P(D|H)/P(D)?=?0.5?*?1?/?0.2?/?100?=?2.5%。
?
在利用貝葉斯定理處理問題時,要注意先驗概率的獲取。少數情況可以隨便假設 ,多數情況需要對先驗概率有個模型或者好的統計資料來計算。只有在有足夠多 的觀察或者合適的似然值模型下,先驗概率的影響才會變小。
?
吸煙與肺癌
據CDC統計,與不抽煙者相比,抽煙的男人患肺癌的幾率高23倍,抽煙的女性患 肺癌的幾率高13倍。現有一名女性,診斷為肺癌,請判斷她抽煙的概率多大?
-
首先判斷D是:女性肺癌
-
假設是:A:該女性抽煙;B:該女性不抽煙
-
假設女性中抽煙的比例是X,則不抽煙的比例為1-X。
-
假設不抽煙的人得肺癌的幾率為Y,則抽煙得肺癌的幾率為13Y。
-
P(A|D) ∝ P(A)*P(D|A) = X * 13Y
-
P(B|D) ∝ P(B)*P(D|B) = (1-X) * Y
-
概率A和概率B normalize之后和為1 (Y約去), 則P(A|D)=13X/(1+12X)
注:
-
善于假設變量,未知的變量用符號表示出來,便于梳理公式和進一步求解。
-
把一時未知的東西用簡單的符號表示下,一步步列出,有助于整理思路 ,發現解決問題的方法。
藥物測試
假設一項藥物測試的假陽性率(非特異性)和假陰性率(不敏感性)都是1%。已知人群中服用過該藥物的個體約占0.5%。如果隨機選擇一個個體檢測為陽性, 那么他服藥的概率是多少?
-
觀察到的數據?D:?藥物測試陽性
-
假設?H1:該個體服藥;?H2:該未個體服藥
-
P(H1|D) ∝ P(H1) * P(D|H1) = 0.5% * 99% = 0.495%
-
P(H2|D) ∝ P(H2) * P(D|H2) = (1-0.5%) * 1% = 0.995%
-
Normalize后,后驗概率P(H1|D) = 4.95 / (4.95+9.95) = 33.2%
-
盡管這個測試的準確率比較高,但測試結果為陽性卻表明個體沒有服藥的可能 性更大。這又一次表明基準概率(先驗概率)的重要性。
-
之所以有這么一個反直覺的結果是因為未嗑藥個體遠多于嗑藥個體。導致了假陽性率(0.995%)遠高于真陽性率(0.495%)。
-
舉個例子,假如測試了1000例個體,我們期待獲得995個未嗑藥,5個嗑藥。995個未嗑藥個體中有0.01* 995 ≈10個會出現檢測結果陽性。5個嗑藥個體中有0.99 * 5 ≈5個檢測結果陽性。所以在15個陽性檢測結果中,只有約33%為真陽性。
-
如果敏感性提高到100%,而特異性依然為99%,則:
-
P(H1|D) ∝ P(H1) * P(D|H1) = 0.5% * 100% = 0.5%
-
P(H2|D) ∝ P(H2) * P(D|H2) = (1-0.5%) * 1% = 0.995%
-
P(H1|D) = 5 / (5+9.95) = 33.4%
-
-
如果敏感性依然為99%,而特異性提高到99.5%,則:
-
P(H1|D) ∝ P(H1) * P(D|H1) = 0.5% * 99% = 0.495%
-
P(H2|D) ∝ P(H2) * P(D|H2) = (1-0.5%) * 0.5% = 0.4975%
-
P(H1|D) = 4.95 / (4.95+4.975) = 49.87%
-
-
因此提高檢測的特異性才能更好的明確檢測結果。
貝葉斯法則 (Bayes’ rule)
在概率論應用中,貝葉斯法則指事件A1相對于事件A2在給定另一事件之前和之后 的比值比(odds?ratio)。先驗比值比(prior?odds?ratio)是事件之間先驗概率的比值。后驗比值比(posterior?odds?ratio)是在給定條件事件之后的后驗概率的比值。后驗比值比正相關于先驗比值比乘以似然值(likelihood?ratio,?又稱Bayes factor)。
#?O:?odds?ratio #?^:?likelihood #?P:?probabilityO(A1:A2|B)?=?^(A1:A2|B)?*?O(A1:A2)^(A1:A2|B)?=?P(B|A1)?/?P(B|A2)O(A1:A2)?=?P(A1)?/?P(A2)O(A1:A2|B)?=?P(A1|B)?/?P(A2|B)假設一項藥物測試的假陽性率(非特異性)和假陰性率(不敏感性)都是1%。已知人群中服用過該藥物的個體約占0.5%。如果隨機選擇一個個體檢測為陽性, 那么他服藥的概率是多少?
如果用貝葉斯法則的比值比來表示:
-
個體嗑藥的prior?odds:?????????0.5:99.5?=?1:199
-
個體測試為陽性的Bayes?factor:???????????99:1
-
個體嗑藥的posterior?odds:?1*?99?:?199?*?1
Code representation
Here lists all code for bayes learning in ipython notbook format.
-
Scan version of handwritting
-
Think bayes - Chapter 2
-
Think bayes - Chapter 3
-
Think bayes - Chapter 4
References
-
Think bayes
-
Bayes example
-
數學之美番外篇:平凡而又神奇的貝葉斯方法
-
Wikipedia bayes theorem
-
Wiki bayes rules
?
?
?
?
?
?
GEO/TCGA數據
-
UCSC XENA - 集大成者(TCGA, ICGC)
-
ICGC數據庫使用
-
TCGA數據庫在線使用
-
BROAD開發的TCGA分析平臺,強大的下載功能
-
cBioPortal功能強大的TCGA再分析平臺
-
這是數據更新最實時的TCGA網站,功能強大
-
不懂R,如何進行GEO數據庫表達譜的差異分析、富集分析、蛋白互作、可視化?
-
典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集
-
典型醫學設計實驗GEO數據分析 (step-by-step) - 數據獲取到標準化
-
什么,你算出的P-value看上去像齊天大圣變的廟?
-
Excel改變了你的基因名,30% 相關Nature文章受影響,NCBI也受波及
易生信系列培訓課程,掃碼獲取免費資料
更多閱讀
?
畫圖三字經?生信視頻?生信系列教程?
心得體會?TCGA數據庫?Linux?Python?
高通量分析?免費在線畫圖?測序歷史?超級增強子
生信學習視頻?PPT?EXCEL?文章寫作?ggplot2
海哥組學?可視化套路?基因組瀏覽器
色彩搭配?圖形排版?互作網絡
自學生信
?
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的三人成虎,概率却不足十分之五?几个贝叶斯推理故事的分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 春季高考计算机专业专业分值,春季高考考哪
- 下一篇: 三亚潜水注意事项 潜水的基本常识