日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学学习笔记--概率论

發(fā)布時間:2023/12/10 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数学学习笔记--概率论 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2. 概率論

2.1 概率分布與隨機變量

2.1.1 機器學(xué)習(xí)為什么要使用概率

事件的概率是衡量該事件發(fā)生的可能性的量度。雖然在一次隨機試驗中某個事件的發(fā)生是帶有偶然性的,但那些可在相同條件下大量重復(fù)的隨機試驗卻往往呈現(xiàn)出明顯的數(shù)量規(guī)律

機器學(xué)習(xí)通常必須處理不確定量,有時候也需要處理隨機量。幾乎所有的活動都需要一些在不確定性存在的情況下進行推理的能力。

不確定性和隨機性可能來自多個方面,不確定性有 3 種可能的來源:

  • 被建模系統(tǒng)內(nèi)在的隨機性。比如紙牌游戲,假設(shè)紙牌被真正混洗成了隨機順序。
  • 不完全觀測。對于確定的系統(tǒng),但是如果不能觀測到所有驅(qū)動系統(tǒng)行為的變量時,該系統(tǒng)也會呈現(xiàn)隨機性。比如讓選手選擇三扇門中的一個,并獲得門后的獎品,每個門后的獎品是確定的,但是選手無法觀測到,所以對于選手來說,結(jié)果是不確定的。
  • 不完全建模。當(dāng)采用一些必須舍棄某些信息的模型時,舍棄的信息可能導(dǎo)致模型的預(yù)測出現(xiàn)不確定性。
  • 在很多情況下,采用簡單而不確定的規(guī)則要比復(fù)雜而確定的規(guī)則更加的實用。

    可以使用概率論來量化不確定性。 用概率來表示一種信任度,概率直接和事件發(fā)生的頻率相聯(lián)系的被稱為頻率派概率,比如說某件事發(fā)生的概率是 p,這表示如果反復(fù)試驗無限次,有 p 的比例是發(fā)生這件事情;而涉及確定性水平的稱為貝葉斯概率,比如說醫(yī)生在對一個病人的診斷中判斷其患某個病的概率是 p。

    概率論在機器學(xué)習(xí)中扮演著一個核心角色,因為機器學(xué)習(xí)算法的設(shè)計通常依賴于對數(shù)據(jù)的概率假設(shè)。

    例如在機器學(xué)習(xí)(Andrew Ng)的課中,會有一個樸素貝葉斯假設(shè)就是條件獨立的一個例子。該學(xué)習(xí)算法對內(nèi)容做出假設(shè),用來分辨電子郵件是否為垃圾郵件。假設(shè)無論郵件是否為垃圾郵件,單詞x出現(xiàn)在郵件中的概率條件獨立于單詞y。很明顯這個假設(shè)不是不失一般性的,因為某些單詞幾乎總是同時出現(xiàn)。然而,最終結(jié)果是,這個簡單的假設(shè)對結(jié)果的影響并不大,且無論如何都可以讓我們快速判別垃圾郵件。

    2.1.2 變量與隨機變量有什么區(qū)別

    隨機變量(random variable)是可以隨機地取不同數(shù)值的變量。

    它表示隨機現(xiàn)象(在一定條件下,并不總是出現(xiàn)相同結(jié)果的現(xiàn)象稱為隨機現(xiàn)象)中各種結(jié)果的實值函數(shù)(一切可能的樣本點)。例如某一時間內(nèi)公共汽車站等車乘客人數(shù),電話交換臺在一定時間內(nèi)收到的呼叫次數(shù)等,都是隨機變量的實例。
    隨機變量與模糊變量的不確定性的本質(zhì)差別在于,后者的測定結(jié)果仍具有不確定性,即模糊性。

    變量與隨機變量的區(qū)別:
    當(dāng)變量的取值的概率不是1時,變量就變成了隨機變量;當(dāng)隨機變量取值的概率為1時,隨機變量就變成了變量。

    比如:
    當(dāng)變量xxx值為100的概率為1的話,那么x=100x=100x=100就是確定了的,不會再有變化,除非有進一步運算.
    當(dāng)變量xxx的值為100的概率不為1,比如為50的概率是0.5,為100的概率是0.5,那么這個變量就是會隨不同條件而變化的,是隨機變量,取到50或者100的概率都是0.5,即50%。

    2.1.3 隨機變量與概率分布的聯(lián)系

    一個隨機變量僅僅表示一個可能取得的狀態(tài),還必須給定與之相伴的概率分布來制定每個狀態(tài)的可能性。用來描述隨機變量或一簇隨機變量的每一個可能的狀態(tài)的可能性大小的方法,就是概率分布(probability distribution)**.

    隨機變量可以分為離散型隨機變量和連續(xù)型隨機變量。

    相應(yīng)的描述其概率分布的函數(shù)是:

    • 概率質(zhì)量函數(shù)(Probability Mass Function, PMF):描述離散型隨機變量的概率分布,通常用大寫字母 PPP表示。

    • 概率密度函數(shù)(Probability Density Function, PDF):描述連續(xù)型隨機變量的概率分布,通常用小寫字母ppp表示。

    2.1.4 離散型隨機變量和概率質(zhì)量函數(shù)

    PMF 將隨機變量能夠取得的每個狀態(tài)映射到隨機變量取得該狀態(tài)的概率

    • 一般而言,P(x)P(x)P(x) 表示時X=xX=x?X=x的概率,概率為 1 表示 $ X=x$ 是確定的,概率是 0 表示 $ X=x$ 是不可能的;
    • 有時候為了防止混淆,要明確寫出隨機變量的名稱P(P(P(x=x)=x)=x)
    • 有時候需要先定義一個隨機變量,然后制定它遵循的概率分布 x 服從P(P(P(x)))

    PMF 可以同時作用于多個隨機變量,即聯(lián)合概率分布(joint probability distribution) P(X=x,Y=y)P(X=x,Y=y)P(X=x,Y=y)表示 X=xX=xX=xY=yY=y?Y=y同時發(fā)生的概率,也可以簡寫成 P(x,y)P(x,y)P(x,y).

    如果一個函數(shù)PPP是隨機變量 XXX 的 PMF, 那么它必須滿足如下三個條件:

    • PPP的定義域必須是的所有可能狀態(tài)的集合
    • ?x∈?x∈?xx, $0 \leq P(x) \leq 1 $.
    • ∑x∈XP(x)=1∑_{x∈X} P(x)=1xX?P(x)=1. 我們把這一條性質(zhì)稱之為歸一化的(normalized),如果不滿足這條性質(zhì),那么可能某件事情發(fā)生的概率會是大于 1。

    2.1…5 連續(xù)型隨機變量和概率密度函數(shù)

    如果一個函數(shù)ppp是x的PDF,那么它必須滿足如下幾個條件

    • ppp的定義域必須是x的所有可能狀態(tài)的集合。
    • ?x∈X,p(x)≥0?x∈X,p(x)≥0?xX,p(x)0. 注意,我們并不要求$ p(x)≤1$,因為此處 p(x)p(x)p(x)不是表示的對應(yīng)此狀態(tài)具體的概率,而是概率的一個相對大小(密度)。具體的概率,需要積分去求。
    • ∫p(x)dx=1∫p(x)dx=1p(x)dx=1, 積分下來,總和還是1,概率之和還是1.

    注:PDFp(x)p(x)p(x)并沒有直接對特定的狀態(tài)給出概率,給出的是密度,相對的,它給出了落在面積為 δxδxδx的無線小的區(qū)域內(nèi)的概率為$ p(x)δx$.

    由此,我們無法求得具體某個狀態(tài)的概率,我們可以求得的是 某個狀態(tài) xxx 落在 某個區(qū)間[a,b][a,b][a,b]內(nèi)的概率為$ \int_{a}^{b}p(x)dx$.

    2.1.6 舉例理解條件概率

    條件概率公式如下:
    P(A∣B)=P(A∩B)/P(B)P(A|B) = P(A\cap B) / P(B) P(AB)=P(AB)/P(B)
    說明:在同一個樣本空間Ω\OmegaΩ中的事件或者子集AAABBB,如果隨機從Ω\OmegaΩ中選出的一個元素屬于BBB,那么下一個隨機選擇的元素屬于AAA 的概率就定義為在BBB的前提下AAA的條件概率。

    條件概率文氏圖示意如圖1.1所示。

    圖1.1 條件概率文氏圖示意

    根據(jù)文氏圖,可以很清楚地看到在事件B發(fā)生的情況下,事件A發(fā)生的概率就是P(A?B)P(A\bigcap B)P(A?B)除以P(B)P(B)P(B)

    舉例:一對夫妻有兩個小孩,已知其中一個是女孩,則另一個是女孩子的概率是多少?(面試、筆試都碰到過)

    窮舉法:已知其中一個是女孩,那么樣本空間為男女,女女,女男,則另外一個仍然是女生的概率就是1/3。

    條件概率法P(女∣女)=P(女女)/P(女)P(女|女)=P(女女)/P(女)P()=P()/P(),夫妻有兩個小孩,那么它的樣本空間為女女,男女,女男,男男,則P(女女)P(女女)P()為1/4,P(女)=1?P(男男)=3/4P(女)= 1-P(男男)=3/4P=1?P()=3/4,所以最后1/31/31/3

    這里大家可能會誤解,男女和女男是同一種情況,但實際上類似姐弟和兄妹是不同情況。

    2.1.7 聯(lián)合概率與邊緣概率聯(lián)系區(qū)別

    區(qū)別:
    聯(lián)合概率:聯(lián)合概率指類似于P(X=a,Y=b)P(X=a,Y=b)P(X=a,Y=b)這樣,包含多個條件,且所有條件同時成立的概率。聯(lián)合概率是指在多元的概率分布中多個隨機變量分別滿足各自條件的概率

    邊緣概率:邊緣概率是某個事件發(fā)生的概率,而與其它事件無關(guān)。邊緣概率指類似于P(X=a)P(X=a)P(X=a)P(Y=b)P(Y=b)P(Y=b)這樣,僅與單個隨機變量有關(guān)的概率。

    聯(lián)系:

    聯(lián)合分布可求邊緣分布,但若只知道邊緣分布,無法求得聯(lián)合分布。

    2.1.8 條件概率的鏈?zhǔn)椒▌t

    由條件概率的定義,可直接得出下面的乘法公式:
    乘法公式 設(shè)A,BA, BA,B是兩個事件,并且P(A)>0P(A) > 0P(A)>0, 則有
    P(AB)=P(B∣A)P(A)P(AB) = P(B|A)P(A) P(AB)=P(BA)P(A)
    推廣
    P(ABC)=P(C∣AB)P(B∣A)P(A)P(ABC)=P(C|AB)P(B|A)P(A) P(ABC)=P(CAB)P(BA)P(A)
    一般地,用歸納法可證:若P(A1A2...An)>0P(A_1A_2...A_n)>0P(A1?A2?...An?)>0,則有
    P(A1A2...An)=P(An∣A1A2...An?1)P(An?1∣A1A2...An?2)...P(A2∣A1)P(A1)=P(A1)∏i=2nP(Ai∣A1A2...Ai?1)P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)\\ =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1}) P(A1?A2?...An?)=P(An?A1?A2?...An?1?)P(An?1?A1?A2?...An?2?)...P(A2?A1?)P(A1?)=P(A1?)i=2n?P(Ai?A1?A2?...Ai?1?)
    任何多維隨機變量聯(lián)合概率分布,都可以分解成只有一個變量的條件概率相乘形式。

    2.1.9 獨立性和條件獨立性

    獨立性
    兩個隨機變量xxxyyy,概率分布可以表示成兩個因子乘積形式,一個因子只包含xxx,另一個因子只包含yyy,則可以說這兩個隨機變量相互獨立(independent)**。
    條件有時為不獨立的事件之間帶來獨立,有時也會把本來獨立的事件,因為此條件的存在,而失去獨立性。

    舉例:P(XY)=P(X)P(Y)P(XY)=P(X)P(Y)P(XY)=P(X)P(Y), 事件XXX和事件YYY獨立。此時給定ZZZ
    P(X,Y∣Z)=?P(X∣Z)P(Y∣Z)P(X,Y|Z) \not = P(X|Z)P(Y|Z) P(X,YZ)?=P(XZ)P(YZ)
    事件獨立時,聯(lián)合概率等于概率的乘積。這是一個非常好的數(shù)學(xué)性質(zhì),然而不幸的是,無條件的獨立是十分稀少的,因為大部分情況下,事件之間都是互相影響的。

    條件獨立性
    給定ZZZ的情況下,XXXYYY條件獨立,當(dāng)且僅當(dāng)
    X⊥Y∣Z?P(X,Y∣Z)=P(X∣Z)P(Y∣Z)X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z) XYZ?P(X,YZ)=P(XZ)P(YZ)
    XXXYYY的關(guān)系依賴于ZZZ,而不是直接產(chǎn)生。

    舉例定義如下事件:
    XXX:明天下雨;
    YYY:今天的地面是濕的;
    ZZZ:今天是否下雨;
    ZZZ事件的成立,對XXXYYY均有影響,然而,在ZZZ事件成立的前提下,今天的地面情況對明天是否下雨沒有影響。

    2.1.10 常見公式

    概率基礎(chǔ)的公式

    • P(A+B)=P(A)+P(B)?P(AB)P(A+B) = P(A)+P(B)-P(AB)P(A+B)=P(A)+P(B)?P(AB)
    • P(A?B)=P(A)?P(B)P(A-B)=P(A)-P(B)P(A?B)=P(A)?P(B)
    • P(AB)=P(A)P(B∣A)P(AB)=P(A)P(B|A)P(AB)=P(A)P(BA)

    全概率

    P(A)=∑iP(Bi)P(A∣Bi)P(A) = \sum_i P(B_i)P(A|B_i)P(A)=i?P(Bi?)P(ABi?)

    貝葉斯

    P(B∣A)=P(B)P(A∣B)P(A)P(B|A) = \frac{P(B)P(A|B)}{P(A)}P(BA)=P(A)P(B)P(AB)?

    2.1.11 應(yīng)用

    抽球

    n 個球,對于有放回和無放回的抽取方式

    • 有放回的抽取,抽取 m 個排成一列,求不同排列的數(shù)量:nmn^mnm

    • 沒有放回的抽取,抽取 m 個排成一列,求不同排列的數(shù)量:n!(n?m)!\frac{n!}{(n-m)!}(n?m)!n!?

    2.2 常見概率分布

    2.2.1 均勻分布

    離散隨機變量的均勻分布:假設(shè) X 有 k 個取值,則均勻分布的概率質(zhì)量函數(shù)為:
    p(X=xi)=1k,i=1,2,?,kp(X=x_i) = \frac{1}{k},i=1,2,\cdots,k p(X=xi?)=k1?,i=1,2,?,k
    連續(xù)隨機變量的均勻分布:假設(shè) X 在 [a, b] 上均勻分布,則其概率密度函數(shù)為:
    $$
    p(X=x) =

    \begin{cases}
    0,x\notin[a,b]\
    \frac{1}{b-a},x\in[a, b]
    \end{cases}
    $$

    2.2.1 Bernoulli分布

    Bernoulli分布(伯努利分布,0-1分布)是單個二值隨機變量分布, 單參數(shù)?\phi?∈[0,1]控制,?\phi?給出隨機變量等于1的概率. 主要性質(zhì)有:
    KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? P(x=1) &= \phi…
    其期望和方差為:
    KaTeX parse error: No such environment: align* at position 8: \begin{?a?l?i?g?n?*?}? E_x[x] &= \phi…
    適用范圍: 伯努利分布適合對離散型隨機變量建模.

    Multinoulli分布也叫范疇分布, 是單個k值隨機分布,經(jīng)常用來表示對象分類的分布. 其中kkk是有限值.Multinoulli分布由向量p?∈[0,1]k?1\vec{p}\in[0,1]^{k-1}p?[0,1]k?1參數(shù)化,每個分量pip_ipi?表示第iii個狀態(tài)的概率, 且pk=1?1Tpp_k=1-1^Tppk?=1?1Tp.這里1T1^T1T表示元素全為1的列向量的轉(zhuǎn)置,其實就是對于向量p中除了k的概率之和。可以重寫為pk=1?∑0k?1pip_k=1-\sum_{0}^{k-1}p_ipk?=1?0k?1?pi?

    補充二項分布、多項分布:

    二項分布,通俗點硬幣拋多次。二項分布(Binomial distribution)是n重伯努利試驗成功次數(shù)的離散概率分布。

    定義成功 x 次的概率為:f(x)=Cnxpx(1?p)n?x,x∈0,1,?,nf(x)=C_n^xp^x(1-p)^{n-x},x\in{0,1,\cdots,n}f(x)=Cnx?px(1?p)n?x,x0,1,?,n

    期望是 np, 方差是 np(1-p)

    多項式分布(Multinomial Distribution)是二項式分布的推廣。二項式做n次伯努利實驗,規(guī)定了每次試驗的結(jié)果只有兩個,如果現(xiàn)在還是做n次試驗,只不過每次試驗的結(jié)果可以有多m個,且m個結(jié)果發(fā)生的概率互斥且和為1,則發(fā)生其中一個結(jié)果X次的概率就是多項式分布。

    2.2.3 高斯分布

    高斯也叫正態(tài)分布(Normal Distribution), 概率度函數(shù)如下:
    N(x;μ,σ2)=12πσ2exp(?12σ2(x?μ)2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right ) N(x;μ,σ2)=2πσ21??exp(?2σ21?(x?μ)2)
    其中, μ\muμσ\sigmaσ分別是均值和標(biāo)準(zhǔn)差, 中心峰值x坐標(biāo)由μ\muμ給出, 峰的寬度受σ\sigmaσ控制, 最大點在x=μx=\mux=μ處取得, 拐點為x=μ±σx=\mu\pm\sigmax=μ±σ

    正態(tài)分布中,±1σ\sigmaσ、±2σ\sigmaσ、±3σ\sigmaσ下的概率分別是68.3%、95.5%、99.73%,這3個數(shù)最好記住。

    此外, 令μ=0,σ=1\mu=0,\sigma=1μ=0,σ=1高斯分布即簡化為標(biāo)準(zhǔn)正態(tài)分布:
    N(x;μ,σ2)=12πexp(?12x2)N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ) N(x;μ,σ2)=2π1??exp(?21?x2)
    對概率密度函數(shù)高效求值:
    N(x;μ,β?1)=β2πexp(?12β(x?μ)2)N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right) N(x;μ,β?1)=2πβ??exp(?21?β(x?μ)2)

    其中,β=1σ2\beta=\frac{1}{\sigma^2}β=σ21?通過參數(shù)β∈(0,∞)\beta∈(0,\infty)β0來控制分布精度。

    2.2.4 何時采用正態(tài)分布

    問: 何時采用正態(tài)分布?

    答: 缺乏實數(shù)上分布的先驗知識, 不知選擇何種形式時, 默認選擇正態(tài)分布總是不會錯的, 理由如下:

  • 中心極限定理告訴我們, 很多獨立隨機變量均近似服從正態(tài)分布, 現(xiàn)實中很多復(fù)雜系統(tǒng)都可以被建模成正態(tài)分布的噪聲, 即使該系統(tǒng)可以被結(jié)構(gòu)化分解.
  • 正態(tài)分布是具有相同方差的所有概率分布中, 不確定性最大的分布, 換句話說, 正態(tài)分布是對模型加入先驗知識最少的分布.
  • 正態(tài)分布的推廣:

    正態(tài)分布可以推廣到RnR^nRn空間, 此時稱為多位正態(tài)分布, 其參數(shù)是一個正定對稱矩陣Σ\SigmaΣ:
    N(x;μ?,Σ)=1(2π)ndet(Σ)exp(?12(x??μ?)TΣ?1(x??μ?))N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right) N(x;μ?,Σ)=(2π)ndet(Σ)1??exp(?21?(x?μ?)TΣ?1(x?μ?))
    對多為正態(tài)分布概率密度高效求值:
    N(x;μ?,β??1)=det(β?)(2π)nexp(?12(x??μ?)Tβ(x??μ?))N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right) N(x;μ?,β??1)=det(β?)?(2π)nexp(?21?(x?μ?)Tβ(x?μ?))
    此處,β?\vec\betaβ?是一個精度矩陣。

    2.2.5 指數(shù)分布

    深度學(xué)習(xí)中, 指數(shù)分布用來描述在x=0x=0x=0點處取得邊界點的分布, 指數(shù)分布定義如下:
    p(x;λ)=λIx≥0exp(?λx)p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x}) p(x;λ)=λIx0?exp(?λx)
    指數(shù)分布用指示函數(shù)Ix≥0I_{x\geq 0}Ix0?來使xxx取負值時的概率為零。

    2.2.6 Laplace 分布(拉普拉斯分布)

    一個聯(lián)系緊密的概率分布是 Laplace 分布(Laplace distribution),它允許我們在任意一點 μ\muμ處設(shè)置概率質(zhì)量的峰值
    Laplace(x;μ;γ)=12γexp(?∣x?μ∣γ)Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right) Laplace(x;μ;γ)=2γ1?exp(?γx?μ?)

    期望是 μ\muμ,方差是 2γ22\gamma^22γ2

    拉普拉斯分布比高斯分布更加尖銳和狹窄,在正則化中通常會利用這個性質(zhì)。

    2.2.7 泊松分布

    假設(shè)已知事件在單位時間(或者單位面積)內(nèi)發(fā)生的平均次數(shù)為λ,則泊松分布描述了:事件在單位時間(或者單位面積)內(nèi)發(fā)生的具體次數(shù)為 k 的概率。 概率密度函數(shù):
    p(X=k;λ)=e?λλkk!p(X=k;\lambda)=\frac{e^{-\lambda}\lambda^k}{k!} p(X=k;λ)=k!e?λλk?
    期望是 λ\lambdaλ,方差是 λ\lambdaλ.

    2.2.8 Dirac分布和經(jīng)驗分布

    Dirac分布可保證概率分布中所有質(zhì)量都集中在一個點上. Diract分布的狄拉克δ\deltaδ函數(shù)(也稱為單位脈沖函數(shù))定義如下:
    p(x)=δ(x?μ),x≠μp(x)=\delta(x-\mu), x\neq \mu p(x)=δ(x?μ),x?=μ

    ∫abδ(x?μ)dx=1,a<μ<b\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b ab?δ(x?μ)dx=1,a<μ<b

    Dirac 分布經(jīng)常作為經(jīng)驗分布(empirical distribution)的一個組成部分出現(xiàn)
    p^(x?)=1m∑i=1mδ(x??x?(i))\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)}) p^?(x)=m1?i=1m?δ(x?x(i))
    其中, m個點x1,...,xmx^{1},...,x^{m}x1,...,xm是給定的數(shù)據(jù)集, 經(jīng)驗分布將概率密度1m\frac{1}{m}m1?賦給了這些點.

    當(dāng)我們在訓(xùn)練集上訓(xùn)練模型時, 可以認為從這個訓(xùn)練集上得到的經(jīng)驗分布指明了采樣來源.

    適用范圍: 狄拉克δ函數(shù)適合對連續(xù)型隨機變量的經(jīng)驗分布.

    關(guān)于經(jīng)驗分布的另一個重要觀點是,它是訓(xùn)練數(shù)據(jù)的似然最大的那個概率密度函數(shù)。

    2.2.9 混合分布

    通過組合一些簡單的概率分布來定義新的概率分布也是很常見的。

    一種通用的組合方法就是構(gòu)造混合分布。混合分布由一些組件分布構(gòu)成。

    一個混合分布的例子就是:實值變量的經(jīng)驗分布對于每一個訓(xùn)練實例來說,就是以 Dirac 分布為組件的混合分布。

    混合模型是組合簡單概率分布來生成更豐富的一種簡單策略。一個非常強大且常見的混合模型就是高斯混合模型

    它的組件是高斯分布,每個組件有自己的參數(shù),均值和協(xié)方差矩陣。

    2.3 期望、方差、協(xié)方差、相關(guān)系數(shù)

    2.3.1 期望

    函數(shù) f(x) 關(guān)于某個分布 P(x) 的期望或者期望值是指,當(dāng) x 由 P 產(chǎn)生, f 作用于 x 的時候,f(x) 的平均值。

    在概率論和統(tǒng)計學(xué)中,數(shù)學(xué)期望(或均值,亦簡稱期望)是試驗中每次可能結(jié)果的概率乘以其結(jié)果的總和。它反映隨機變量平均取值的大小

    • 線性運算: E(ax+by+c)=aE(x)+bE(y)+cE(ax+by+c) = aE(x)+bE(y)+cE(ax+by+c)=aE(x)+bE(y)+c
    • 推廣形式: E(∑k=1naixi+c)=∑k=1naiE(xi)+cE(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}E(k=1n?ai?xi?+c)=k=1n?ai?E(xi?)+c
    • 函數(shù)期望:設(shè)f(x)f(x)f(x)xxx的函數(shù),則f(x)f(x)f(x)的期望為
      • 離散函數(shù): E(f(x))=∑k=1nf(xk)P(xk)E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}E(f(x))=k=1n?f(xk?)P(xk?)
      • 連續(xù)函數(shù): E(f(x))=∫?∞+∞f(x)p(x)dxE(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}E(f(x))=?+?f(x)p(x)dx

    注意:

    • 函數(shù)的期望大于等于期望的函數(shù)(Jensen(詹森)不等式,即E(f(x))?f(E(x))E(f(x))\geqslant f(E(x))E(f(x))?f(E(x))
    • 一般情況下,乘積的期望不等于期望的乘積。
    • 如果XXXYYY相互獨立,則E(xy)=E(x)E(y)E(xy)=E(x)E(y)E(xy)=E(x)E(y)

    2.3.2 方差

    概率論中方差用來度量隨機變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。方差是一種特殊的期望。定義為:

    Var(x)=E((x?E(x))2)Var(x) = E((x-E(x))^2) Var(x)=E((x?E(x))2)

    方差性質(zhì):

    1)Var(x)=E(x2)?E(x)2Var(x) = E(x^2) -E(x)^2Var(x)=E(x2)?E(x)2
    2)常數(shù)的方差為0;
    3)方差不滿足線性性質(zhì);
    4)如果XXXYYY相互獨立, Var(ax+by)=a2Var(x)+b2Var(y)Var(ax+by)=a^2Var(x)+b^2Var(y)Var(ax+by)=a2Var(x)+b2Var(y)

    2.3.3 協(xié)方差

    協(xié)方差是衡量兩個變量線性相關(guān)性強度及變量尺度。 兩個隨機變量的協(xié)方差定義為:
    Cov(x,y)=E((x?E(x))(y?E(y)))Cov(x,y)=E((x-E(x))(y-E(y))) Cov(x,y)=E((x?E(x))(y?E(y)))

    方差是一種特殊的協(xié)方差。當(dāng)X=YX=YX=Y時,Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)Cov(x,y)=Var(x)=Var(y)

    協(xié)方差性質(zhì):

    1)獨立變量的協(xié)方差為0。
    2)協(xié)方差計算公式:

    Cov(∑i=1maixi,∑j=1mbjyj)=∑i=1m∑j=1maibjCov(xiyi)Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)} Cov(i=1m?ai?xi?,j=1m?bj?yj?)=i=1m?j=1m?ai?bj?Cov(xi?yi?)

    3)特殊情況:

    Cov(a+bx,c+dy)=bdCov(x,y)Cov(a+bx, c+dy) = bdCov(x, y) Cov(a+bx,c+dy)=bdCov(x,y)

    2.3.4 相關(guān)系數(shù)

    相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的量。兩個隨機變量的相關(guān)系數(shù)定義為:
    Corr(x,y)=Cov(x,y)Var(x)Var(y)Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} Corr(x,y)=Var(x)Var(y)?Cov(x,y)?

    相關(guān)系數(shù)的性質(zhì):
    1)有界性。相關(guān)系數(shù)的取值范圍是 [-1,1],可以看成無量綱的協(xié)方差。
    2)值越接近1,說明兩個變量正相關(guān)性(線性)越強。越接近-1,說明負相關(guān)性越強,當(dāng)為0時,表示兩個變量沒有相關(guān)性。

    2.4 信息論

    信息論主要研究的是對一個信號包含新的多少進行量化。

    信息論的一個基本想法是一個不太可能發(fā)生的事件居然發(fā)生了,比一個非常可能發(fā)生的事件發(fā)生,能提供更多的信息。

    如果想通過這種基本想法來量化信息,需要滿足這個 3 個性質(zhì):

    • 非常可能發(fā)生的事件信息論要比較少,并且極端情況下,確保能夠發(fā)生的事件應(yīng)該沒有信息量;
    • 較不可能發(fā)生的事件具有更高的信息量;
    • 獨立事件應(yīng)具有增量的信息。例如,投擲的硬幣兩次正面朝上傳遞的信息,應(yīng)該是投擲一次硬幣證明朝上的信息量的兩倍。

    這里定義一個事件 x=xxx自信息為:
    I(x)=?logP(x)I(x) = -log P(x) I(x)=?logP(x)
    自信息量只能處理單個的輸出。可以用香農(nóng)熵來對整個概率分布中的不確定性總量進行量化:
    H(x)=?Ex~P[I(x)]=?Ex~P[logP(x)]H(x) = -E_{x\sim P}[I(x)] = -E_{x\sim P}[logP(x)] H(x)=?ExP?[I(x)]=?ExP?[logP(x)]
    也記作 H§。這里的 E 表示的就是期望,也就是說一個分布的香農(nóng)熵是指遵循這個分布的事件所產(chǎn)生的期望信息總量

    而如果對于一個隨機變量有兩個單獨的概率分布 P(x) 和 Q(x),那么可以使用KL 散度來衡量這兩個分布的差異:
    DKL(P∣∣Q)=Ex~P[logP(x)logQ(x)]=Ex~P[logP(x)?logQ(x)]D_{KL}(P||Q) = E_{x\sim P}[\frac{logP(x)}{logQ(x)}] = E_{x\sim P}[logP(x)-logQ(x)] DKL?(PQ)=ExP?[logQ(x)logP(x)?]=ExP?[logP(x)?logQ(x)]
    舉例:對于一個二值隨機分布的香農(nóng)熵,H(x)=?(1?p)log(1?p)?plogpH(x) =- (1-p)log(1-p)-plogpH(x)=?(1?p)log(1?p)?plogp

    KL散度的性質(zhì)有:

  • 非負的;
  • KL 散度為 0 的情況,當(dāng)且僅當(dāng) P 和 Q 在離散型變量的情況下是相同的分布,或者在連續(xù)型變量的情況下是“幾乎處處”相同的;
  • 常用作衡量分布之間的某種距離,但并不是真正的距離,因為它不是對稱的。
  • 一個和 KL 散度很相似的是交叉熵,即 H(P,Q)=H(P)+DKL(P∣∣Q)H(P,Q)=H(P)+D_{KL}(P||Q)H(P,Q)=H(P)+DKL?(PQ)
    H(P,Q)=?Ex~PlogQ(x)H(P,Q)=-E_{x\sim P}logQ(x) H(P,Q)=?ExP?logQ(x)
    針對 Q 最小化交叉熵等價于最小化 KL 散度,因為 Q 并不參與被省略的那一項。

    在計算這些量的時候,經(jīng)常會遇到 0log0 這個表達式,一般對這個的處理是 limx?>0xlogx=0lim_{x->0}xlogx = 0limx?>0?xlogx=0

    總結(jié)

    以上是生活随笔為你收集整理的数学学习笔记--概率论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。