日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

三人成虎,概率却不足十分之五?几个贝叶斯推理故事的分享

發布時間:2023/12/8 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 三人成虎,概率却不足十分之五?几个贝叶斯推理故事的分享 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

周末了,看一些違反直覺的小問題們。

第一個問題:三人成虎,概率卻不足十分之五?

你打算去西雅圖旅游,但不確定是否會下雨。你打電話給三個在西雅圖居住但彼此不認識的朋友詢問。你的每個朋友都有2/3的可能告訴你真實情況,也有1/3的可能他們會搞砸。詢問后所有的朋友都告訴你會下雨

那么是不是第一反應西雅圖會下雨呢?

而實際西雅圖下雨的概率有多大呢?

是直接相信直覺還是計算下?

  • 首先確認觀察數據?(起名為D):三人都說會下雨。

  • 假設:A:?西雅圖會下雨;B:西雅圖不會下雨。

  • 另外還需要假設一個變量:西雅圖下雨的先驗概率是多少,假設為X,則不下雨的概率為(1-X)。

  • 下面就可以計算條件概率了,給定D的情況下A發生的概率和給定D的情況下B發生的概率。

    下面

  • P(A|D) ∝ P(A)*P(D|A) = X * 2/3 * 2/3 * 2/3 = 8X/9

  • P(B|D) ∝ P(B)*P(D|B) = (1-X) * 1/3 * 1/3 * 1/3 = (1-X)/9

假如X為0.5,則西雅圖下雨的概率

P(A|D) = 8/9。

注意:不是直接帶入X做計算

根據1965-99年記錄的氣象資料顯示,西雅圖一年有822個小時在下雨,約占全年的10%。即西雅圖會下雨的先驗概率是10%。

以此計算的后驗概率P(A|D)=8/17。

三人都可成虎,而算出的概率確不足十分之五~~

是不是覺得不可思議???!

?

第二個問題:開門大吉否?

?

有個游戲,暫且叫“開門大吉”。主持人向你展示3個關著的門, 每個門后面都有一個獎品,其中一個是汽車,另外兩個是不值錢的物品, 參與人選中一個門,如果門后面是車,則車子歸參與人所有。假設你選中了一個門A,還剩下兩個門B和C。在打開你選中的門A之前,主持人會隨機打開另外兩個門中的一個,比如B,發現門后面沒有車。這時主持人會問你要不要堅持之前的選擇A還是選擇C?

換還是不換是一個問題?

你覺得呢?

  • 解決這個問題最關鍵的地方是:即我們觀察到的數據是什么?

  • 在這個問題中觀察到的數據是:主持人選擇了門B,且門B后面沒有車。我們稱之為D。

  • 我們需要做的假設是:車在門A后面或車在門C后面。

  • 需要計算的是兩個條件概率:給定觀察數據D的條件下假設A和C成立的概率,P(A|D),P(C|D),并且P(B|D)=0。

    P(A|D) ∝ P(A)*P(D|A) = 1/3 * 1/2 = 1/6 P(B|D) ∝ P(B)*P(D|B) = 0 P(C|D) ∝ P(C)*P(D|C) = 1/3 * 1 = 1/3

    表格表示 (想一下最后一列怎么來的)

?PriorLikelihood?Posterior
?P(H)P(D|H)P(H)*P(D|H)P(H|D)
A1/31/2 * 11/61/3
B1/3000
C1/311/32/3
  • 假設車在門A的后面,主持人選擇打開門B的概率是1/2,?門B后面沒有車的概率是1。

  • 假設車在門B的后面,主持人打開門B且后面無車的概率是0。

  • 假設車在門C的后面,主持人只能選擇打開門B,概率為1。

注:

  • 主持人打開的門是B還是C不影響最終的結果,只要打開的門后面沒有車,游戲就可以繼續

  • 三個假設很容易提出,較難發現的是我們觀察到的是什么,即現在知道什么信息。

  • 最簡單的解釋:車在門A后面的概率是1/3,不管主持人有沒有打開剩下的2個門, 只要打開的門后面沒有車,也不論主持人打開剩下的兩個門的哪一個。3個門后面肯定有一個有車,主持人打開一個門沒有車, 那么另外一個門后面有車的概率是1-1/3=2/3。

?

?

?

?

?

第三個問題:誰是殺人兇手

兇殺案現場留有兩個人的血跡,一種為常見的O型血(人群中出現概率60%), 另一種為AB型血(人群中出現概率為1%)。一位叫Oliver的人被認定為嫌疑人, 經檢測其位O型血,則請判斷現場中血跡有一個來源于Oliver的概率多大?

?

?

  • 首先判斷觀察到的數據D是:現場留有2人的血跡,一個是O型,一個是AB型。

  • 假設是:A:血跡有一個來源于Oliver;B:血跡都不來源于Oliver

  • P(A|D) ∝ P(A)*P(D|A) = P(A) * 1% = 0.01

    • 在假設A成立的條件下,其中一份血跡來源于Oliver,為B型血的概率為1. 另一份血跡為A型血的概率為1%。

  • P(B|D) ∝ P(B)*P(D|B) = P(B) * 2 * 60% * 1% = 0.012

    • 在假設B成立的條件下,D就是任意2個人,一個是O型,另外一個是AB型的 概率是多少;這2個人任何一個都可以為O,另一個為AB,是排列問題。

  • 這兒我們假設P(A)==P(B)

  • 實際上這個問題關注的是似然值,即當前證據時否可以定罪。所以可以忽略P(A)和P(B)。

  • 這個結論表明證據與假設一致卻不一定支持假設。

?

第四個問題:老人患癌率

假設人群中每個人患癌的概率為1%。老年人(65歲)占人群比例的0.2%。患有癌癥的老年人占人群比例的0.5%。那么給定一位65歲老人,推測其患癌癥的 概率是多少?

  • 觀察到的數據D:?65歲老人

  • 假設?H:患有癌癥

  • P(H|D) = P(H)*P(D|H)/P(D)?=?0.5?*?1?/?0.2?/?100?=?2.5%。

?

說了這么多,都是貝葉斯定律的問題,下面看看到底是怎么回事?

?

測試下看完理論,是否可以處理后面的案例?

?

引子

  • 概率的定義:概率是一個0-1之間的數,代表了我們對某個事實或預測的相信程度。

  • 條件概率:?指基于某種背景信息的概率值。

  • 聯合概率:指2個或多個事件同時發生的概率。

  • 事件獨立性:一個事件的發生不影響其他事件即為事件的獨行性。

  • 概率的數學表示:事件A發生的概率寫作?P(A), 事件B發生的概率寫作 P(B), 給定事件A后事件B發生的概率 P(B|A), 事件A和B同時發生的概率P(A and B)。

  • 事件的獨立性用數學公式表示為:P(B|A) = P(B), P(A|B) = P(A)A事件是否發生對B事件的發生沒有影響,反之亦然, 即表明A事件與B事件獨立。

  • 聯合概率:P(A and B) = P(A) * P(B)?當事件A和B獨立時,即 P(B|A)?=?P(B),?P(A|B)?=?P(A)?時。

    若事件A和事件B不一定相互獨立呢?更通用的法則是:

    P(A and B) = P(A) * P(B|A) P(A and B) = P(B) * P(A|B)
  • 我們舉個例子:假設有袋圓球,罐1中有30個黑球和10個白球,罐2中黑球和白球各20個。某人隨機的從一個罐子中取出`粒球,發現是黑球,問這個黑球從罐1中取出的概率有多大?

    這個問題怎么解答呢?

    問題是:黑球從罐1中取出的概率多大;這句話包含了2個事件,黑球和罐1.

    假如我們知道取得黑球的概率P(黑球)和給定黑球后球是從罐1取得的概率P(罐1|黑球)(這個是我們要計算的,假設個變量標記下就好),? 我們可以計算出聯合概率:P(黑球 and 罐1) = P(黑球)*P(罐1|黑球)。

    另外我們也可以先選擇罐1,然后再取出黑球,這樣聯合概率就是:
    P(黑球 and 罐1) = P(罐1)*P(黑球|罐1)

    綜合以上2個公式,我們就可以得到:

    P(黑球)*P(罐1|黑球) = P(罐1)*P(黑球|罐1)P(罐1|黑球) = P(罐1)*P(黑球|罐1) / P(黑球)= P(罐1)*P(黑球|罐1) / (P(罐1)*P(黑球|罐1)+P(罐2)*P(黑球|罐2))= 0.5 * 0.75 / (0.5 * 0.75 + 0.5 * 0.5)= 0.6

    注:這是一個簡單的例子作為引子,是一個非常規解法。例子中的P(黑球)可以比較容易計算,所 以我們只需要一步就可以算出黑球從罐1中取出的概率有多大。

貝葉斯定理

  • 基于聯合概率和條件概率的貝葉斯定理推導

    對于任意兩個事件A和B,P(A and B) = P(B and A);

    P(A and B) = P(A) * P(B|A)P(B and A) = P(B) * P(A|B)P(A|B) = P(A)*P(B|A)/P(B)P(B|A) = P(B)*P(A|B)/P(A)

    在有了這兩個轉換之后,我們就可以用已知的或者容易觀察的數據來計算未知 的,不容易觀察到的部分。

  • 貝葉斯定理解釋:?貝葉斯定理反應的是隨著數據的更新而得以矯正的概率值。

    設定H代表我們的假說,D代表觀測數據,貝葉斯定理可以寫做

    P(H|D) = P(H)*P(D|H) / P(D)
    • P(H):?先驗概率,反應的是主觀對假說H的認可度,

      反應的是獲得觀察數據之前的認識。
    • P(H|D):?后驗概率,在分析了觀察數據之后對假說H的新的認識,

      ????反應的是根據新的事實對H發生的概率的更新。
    • P(D|H):?似然值,在假設成立的條件下,可以獲得這組觀察數據的概率。

    • P(D):?在任何假設條件下,獲取到這組觀察數據的概率。通常難以計算。

    • 在這個公式中,觀察數據是已經獲得的。假說也是容易提出的。在假說成立的條件下,數據的模式是可以估計的。三個變量,這兒解決了2個。

    • 通常情況下,為了規避對P(D)的計算,我們會窮舉出所有獨立的假設 (在這些假設中,最多有一個是真的,也至少有一個是真的), 分別計算P(H1|D),?P(H2|D),?P(H3|D)…,? 根據所有這些概率的和為1進行歸一化,獲得各個假設在給定的當前數據模 式下成立的概率。

    • 在遇到問題時,D和H也并不總會很清晰,既需要我們多梳理問題, 明確哪個觀察數據是有意義的,更需要我們熟悉較多的例子, 加深對貝葉斯定理應用的理解。

貝葉斯定理的現實意義

貝葉斯方法來源于托馬斯·貝葉斯生前為解決一個“逆概”問題而寫的文章。在貝葉斯之前,“正向概率”已經能夠計算,如“假設封閉袋子里有N個白球, M個黑球,隨機摸一個出來是黑球的概率有多大”。而一個自然而然的反向思考是:如果事先不知道袋子里面黑白球的比例, 隨機取出一個(或多個)球,觀察取出的球的顏色, 是否就可以推測袋子里黑白球的比例?

這正如我們日常所觀察到的都是表面的結果,很難看到事務后面的本質, 如上述例子中封閉袋子里黑白球的比例。因此我們需要根據我們的觀察, 提出一個猜測或假設,然后評估這個假設發生的概率。如算出不同猜測的可能性 大小,即后驗概率。對于連續的猜測空間,則是計算猜測的概率密度函數;最后得到最靠譜的猜測。

概括來講,貝葉斯方法是一個分而治之的思想,把難以計算的概率用先驗知識和 似然值估算出來。也反映了我們隨著觀察的不管深入,對之前的認識的不斷更新

P(H|D) = P(H)*P(D|H)/P(D)

最優貝葉斯推理

貝葉斯推理分為兩個過程;第一步是根據觀測數據窮舉出全部獨立的模型,也叫假設;第二步是使用模型推測未知現象發生的概率。這時我們不是選擇最靠譜的模型, 而是把全部模型對未知的預測加權平均起來(權重值就是模型相應的概率)。

貝葉斯定理應用案例

判斷男女

一所學校,男生60%,女生40%。男生總是穿長褲,女生則一半穿長褲, 一半穿裙子。假設高度近視的你未帶眼鏡走在校園中, 發現迎面走來一個穿長褲的學生,但未分辨出男女, 那么推斷這個是男生的概率多大?

D是:穿長褲的學生。

H是:A:這個學生是男生;B:這個學生是女生

待求:P(A|D) = P(男生|長褲)

表格表示

?PriorLikelihood?Posterior
?P(H)P(D|H)P(H)*P(D|H)P(H|D)
A0.610.63/4
B0.40.50.21/4

M&M豆問題

公司在不同年份生產的M&M豆包含的不同顏色的豆的比例不同, 1994年產的M&M豆包裝中,棕色30%,黃色20%,紅色20%,綠色10%,橙色10%, 茶色10%;1996年產的M&M豆包裝中,棕色13%,黃色14%,紅色13%,綠色20%, 橙色16%,藍色24%。假設手中有兩粒M&M豆,分別是橙色和綠色, 一個來自1994年包裝,一個來自1996年包裝,求算橙色來源于1994年包裝的概率?

解題思路:

  • 觀察到的數據?D:橙色球和綠色球個來自不同包裝

  • 完全窮舉獨立假設

    • 假設A:橙色來源于94,綠色來源于96

    • 假設B:橙色來源于96,綠色來源于94

  • 假設A和假設B發生的概率是一樣的,都為0.5.

  • 似然值的計算

    為了計算方便,似然值可以乘以任意一個因子,不影響結果。

    為了計算方便,似然值可以乘以任意一個因子,不影響結果。

    • 假設A:P(橙色|94)*P(綠色|96) = 0.1 * 0.2 * 100 = 20

    • 假設B:P(橙色|96)*P(綠色|94) = 0.16 * 0.1 * 100 = 16

    • 假設A:P(橙色|94)*P(綠色|96) = 0.1 * 0.2 = 0.02

    • 假設B:P(橙色|96)*P(綠色|94) = 0.16 * 0.1 = 0.016

  • 后驗概率

    • P(A|D) ∝ 0.05 * 20 = 10

    • P(B|D) ∝ 0.05 * 16 = 8

  • Normalize概率:P(A|D)?=?10/18?=?5/9。因為窮舉了所有假設, 所以后驗概率之和為1.

    表格表示

?PriorLikelihood?Posterior
?P(H)P(D|H)P(H)*P(D|H)P(H|D)
A0.510 * 201005/9
B0.516 * 10804/9
  • 在提出假設時,?假設要完整窮盡,然后給每個假設指定一個代號便于描述和理清思路。

  • 不明確的變量和概率值也用一個符號表示,便于列出公式。這一點我們后面還會提到。

?

老人患癌率

假設人群中每個人患癌的概率為1%。老年人(65歲)占人群比例的0.2%。患有癌癥的老年人占人群比例的0.5%。那么給定一位65歲老人,推測其患癌癥的 概率是多少?

  • 觀察到的數據D:?65歲老人

  • 假設?H:患有癌癥

  • P(H|D) = P(H)*P(D|H)/P(D)?=?0.5?*?1?/?0.2?/?100?=?2.5%。

?

在利用貝葉斯定理處理問題時,要注意先驗概率的獲取。少數情況可以隨便假設 ,多數情況需要對先驗概率有個模型或者好的統計資料來計算。只有在有足夠多 的觀察或者合適的似然值模型下,先驗概率的影響才會變小。

?

吸煙與肺癌

據CDC統計,與不抽煙者相比,抽煙的男人患肺癌的幾率高23倍,抽煙的女性患 肺癌的幾率高13倍。現有一名女性,診斷為肺癌,請判斷她抽煙的概率多大?

  • 首先判斷D是:女性肺癌

  • 假設是:A:該女性抽煙;B:該女性不抽煙

  • 假設女性中抽煙的比例是X,則不抽煙的比例為1-X。

  • 假設不抽煙的人得肺癌的幾率為Y,則抽煙得肺癌的幾率為13Y。

  • P(A|D) ∝ P(A)*P(D|A) = X * 13Y

  • P(B|D) ∝ P(B)*P(D|B) = (1-X) * Y

  • 概率A和概率B normalize之后和為1 (Y約去), 則P(A|D)=13X/(1+12X)

注:

  • 善于假設變量,未知的變量用符號表示出來,便于梳理公式和進一步求解。

  • 把一時未知的東西用簡單的符號表示下,一步步列出,有助于整理思路 ,發現解決問題的方法。

藥物測試

假設一項藥物測試的假陽性率(非特異性)和假陰性率(不敏感性)都是1%。已知人群中服用過該藥物的個體約占0.5%。如果隨機選擇一個個體檢測為陽性, 那么他服藥的概率是多少?

  • 觀察到的數據?D:?藥物測試陽性

  • 假設?H1:該個體服藥;?H2:該未個體服藥

  • P(H1|D) ∝ P(H1) * P(D|H1) = 0.5% * 99% = 0.495%

  • P(H2|D) ∝ P(H2) * P(D|H2) = (1-0.5%) * 1% = 0.995%

  • Normalize后,后驗概率P(H1|D) = 4.95 / (4.95+9.95) = 33.2%

  • 盡管這個測試的準確率比較高,但測試結果為陽性卻表明個體沒有服藥的可能 性更大。這又一次表明基準概率(先驗概率)的重要性。

  • 之所以有這么一個反直覺的結果是因為未嗑藥個體遠多于嗑藥個體。導致了假陽性率(0.995%)遠高于真陽性率(0.495%)。

  • 舉個例子,假如測試了1000例個體,我們期待獲得995個未嗑藥,5個嗑藥。995個未嗑藥個體中有0.01* 995 ≈10個會出現檢測結果陽性。5個嗑藥個體中有0.99 * 5 ≈5個檢測結果陽性。所以在15個陽性檢測結果中,只有約33%為真陽性。

  • 如果敏感性提高到100%,而特異性依然為99%,則:

    • P(H1|D) ∝ P(H1) * P(D|H1) = 0.5% * 100% = 0.5%

    • P(H2|D) ∝ P(H2) * P(D|H2) = (1-0.5%) * 1% = 0.995%

    • P(H1|D) = 5 / (5+9.95) = 33.4%

  • 如果敏感性依然為99%,而特異性提高到99.5%,則:

    • P(H1|D) ∝ P(H1) * P(D|H1) = 0.5% * 99% = 0.495%

    • P(H2|D) ∝ P(H2) * P(D|H2) = (1-0.5%) * 0.5% = 0.4975%

    • P(H1|D) = 4.95 / (4.95+4.975) = 49.87%

  • 因此提高檢測的特異性才能更好的明確檢測結果。

貝葉斯法則 (Bayes’ rule)

在概率論應用中,貝葉斯法則指事件A1相對于事件A2在給定另一事件之前和之后 的比值比(odds?ratio)。先驗比值比(prior?odds?ratio)是事件之間先驗概率的比值。后驗比值比(posterior?odds?ratio)是在給定條件事件之后的后驗概率的比值。后驗比值比正相關于先驗比值比乘以似然值(likelihood?ratio,?又稱Bayes factor)。

#?O:?odds?ratio #?^:?likelihood #?P:?probabilityO(A1:A2|B)?=?^(A1:A2|B)?*?O(A1:A2)^(A1:A2|B)?=?P(B|A1)?/?P(B|A2)O(A1:A2)?=?P(A1)?/?P(A2)O(A1:A2|B)?=?P(A1|B)?/?P(A2|B)

假設一項藥物測試的假陽性率(非特異性)和假陰性率(不敏感性)都是1%。已知人群中服用過該藥物的個體約占0.5%。如果隨機選擇一個個體檢測為陽性, 那么他服藥的概率是多少?

如果用貝葉斯法則的比值比來表示:

  • 個體嗑藥的prior?odds:?????????0.5:99.5?=?1:199

  • 個體測試為陽性的Bayes?factor:???????????99:1

  • 個體嗑藥的posterior?odds:?1*?99?:?199?*?1

Code representation

Here lists all code for bayes learning in ipython notbook format.

  • Scan version of handwritting

  • Think bayes - Chapter 2

  • Think bayes - Chapter 3

  • Think bayes - Chapter 4

References

  • Think bayes

  • Bayes example

  • 數學之美番外篇:平凡而又神奇的貝葉斯方法

  • Wikipedia bayes theorem

  • Wiki bayes rules

?

?

?

?

?

?

GEO/TCGA數據

  • UCSC XENA - 集大成者(TCGA, ICGC)

  • ICGC數據庫使用

  • TCGA數據庫在線使用

  • BROAD開發的TCGA分析平臺,強大的下載功能

  • cBioPortal功能強大的TCGA再分析平臺

  • 這是數據更新最實時的TCGA網站,功能強大

  • 不懂R,如何進行GEO數據庫表達譜的差異分析、富集分析、蛋白互作、可視化?

  • 典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集

  • 典型醫學設計實驗GEO數據分析 (step-by-step) - 數據獲取到標準化

  • 什么,你算出的P-value看上去像齊天大圣變的廟?

  • Excel改變了你的基因名,30% 相關Nature文章受影響,NCBI也受波及

易生信系列培訓課程,掃碼獲取免費資料

更多閱讀

?

畫圖三字經?生信視頻?生信系列教程?

心得體會?TCGA數據庫?Linux?Python?

高通量分析?免費在線畫圖?測序歷史?超級增強子

生信學習視頻?PPT?EXCEL?文章寫作?ggplot2

海哥組學?可視化套路?基因組瀏覽器

色彩搭配?圖形排版?互作網絡

自學生信

?

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

總結

以上是生活随笔為你收集整理的三人成虎,概率却不足十分之五?几个贝叶斯推理故事的分享的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。