當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

深入浅出深度学习（四）概率统计基础

發(fā)布時(shí)間：2023/12/15 pytorch 30 豆豆

生活随笔收集整理的這篇文章主要介紹了深入浅出深度学习（四）概率统计基础小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、數(shù)學(xué)期望、方差、協(xié)方差
1、數(shù)學(xué)期望——反映隨機(jī)變量平均取值的大小的統(tǒng)計(jì)量

2、方差——度量隨機(jī)變量與其數(shù)學(xué)期望之間的偏離程度或分散程度的統(tǒng)計(jì)
量。數(shù)據(jù)越集中則方差越小，數(shù)據(jù)越分散則方差越大。

3、協(xié)方差——衡量多維隨機(jī)變量之間相關(guān)性的一種統(tǒng)計(jì)量

方差是衡量一個(gè)變量與期望間的偏離程度，而協(xié)方差是衡量?jī)蓚€(gè)變量間的線性相關(guān)性，當(dāng)X=Y時(shí)，協(xié)方差就等于方差。
協(xié)方差大于0時(shí)，表示隨機(jī)變量X與隨機(jī)變量Y是正相關(guān)，即變化趨勢(shì)相同。
協(xié)方差小于0時(shí)，表示隨機(jī)變量X與隨機(jī)變量Y是負(fù)相關(guān)，即變化趨勢(shì)相反。
協(xié)方差等于0時(shí)，表示隨機(jī)變量X與Y間無線性相關(guān)性。

線性不相關(guān)與獨(dú)立的區(qū)別：
如果X和Y相互獨(dú)立，則協(xié)方差必為0，即線性不相關(guān)；
如果X和Y線性不相關(guān)時(shí)，隨機(jī)變量之間不一定獨(dú)立，因?yàn)楠?dú)立性考察一般性關(guān)系，而協(xié)方差是度量線性關(guān)系。

協(xié)方差和相關(guān)系數(shù)：
協(xié)方差描述了兩個(gè)隨機(jī)變量間的正負(fù)線性相關(guān)性，而相關(guān)系數(shù)通過歸一化提供了一種衡量相關(guān)性大小的統(tǒng)計(jì)量：

相關(guān)系數(shù)是在協(xié)方差的基礎(chǔ)上添加了正則化因子，從而將其限定在[-1,1]內(nèi)。

協(xié)方差矩陣：

二、信息論基礎(chǔ)
1、信息熵——簡(jiǎn)稱熵，表示隨機(jī)變量不確定性的度量。
設(shè)X是離散隨機(jī)變量，其概率分布為：

隨機(jī)變量的信息熵定義為：
（log是以2為底的對(duì)數(shù)）
當(dāng)pi=0/1時(shí)，熵為0，pi=0.5時(shí)，熵最大（類似開口向下的拋物線），熵越大說明包含的信息越多，隨機(jī)變量的不確定性就越大，

最大熵定理：當(dāng)離散隨機(jī)變量的概率分布是等概率分布時(shí)，H(X)取最大值，結(jié)果為，n表示隨機(jī)變量X有n個(gè)不同的取值。
2、條件熵——在已知隨機(jī)變量X的條件下，隨機(jī)變量Y的不確定性。
從感知上說，條件熵的值要比信息熵小，因?yàn)楫?dāng)我們有了更多的背景知識(shí)時(shí)，信息的不確定性自然也就下降了。

3、互信息——也稱為信息增益，描述兩個(gè)隨機(jī)變量之間的相關(guān)性程度，也就是給定一個(gè)隨機(jī)變量X后，另一個(gè)隨機(jī)變量Y不確定性的削弱程度，即為：

當(dāng)X與Y完全相關(guān)時(shí)，，取最大值
當(dāng)X與Y完全無關(guān)時(shí)，，取最小值

4、相對(duì)熵與交叉熵
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的目的歸結(jié)為盡量準(zhǔn)確的學(xué)習(xí)到數(shù)據(jù)間的變量關(guān)系，還原樣本數(shù)據(jù)的概率分布。交叉熵和相對(duì)熵正是衡量概率分布或函數(shù)間相似性的度量方法。
設(shè)有隨機(jī)變量X，其真實(shí)概率分布為p(x)，通過模型訓(xùn)練得到的概率分布模型為q(x)。
①相對(duì)熵（Kullback-Leibler Divergence，也稱KL散度、KL距離）

·相對(duì)熵不是傳統(tǒng)意義上的“距離”，因?yàn)橄鄬?duì)熵不具有對(duì)稱性，即

·當(dāng)預(yù)測(cè)與真實(shí)分布完全相同時(shí)，相對(duì)熵為0·若兩個(gè)分布相差越大，則相對(duì)熵越大；若兩個(gè)分布相差越小，則相對(duì)熵越小。

②交叉熵（cross-entropy）
表示X的信息熵，，由于真實(shí)分布p(x)為一個(gè)固定值，所以是一個(gè)不變量，故有成立。
化簡(jiǎn)：
交叉熵比相對(duì)熵更為簡(jiǎn)潔，且兩者存在一定的等價(jià)關(guān)系，因此一般用交叉熵來度量?jī)蓚€(gè)分布的相似性。

三、概率圖模型
概率統(tǒng)計(jì)模型參數(shù)量大且難以存儲(chǔ)，但實(shí)際上變量之間往往存在很多獨(dú)立性或近似獨(dú)立性的假設(shè)，也就是說每一個(gè)隨機(jī)變量只和極少數(shù)的隨機(jī)變量相關(guān)。概率圖模型（Probabilistic Graphical Model,PGM），根據(jù)變量間的獨(dú)立性假設(shè)，為我們提供了解決這類問題的機(jī)制，PGM以圖論和概率論為基礎(chǔ)，通過圖結(jié)構(gòu)將概率模型可視化，使我們能夠觀察復(fù)雜分布中變量的關(guān)系，同時(shí)把概率上的復(fù)雜過程理解為在圖上進(jìn)行信息傳遞的過程，無須關(guān)注太多的復(fù)雜表達(dá)式。
1.生成模型與判別模型
從形式上來說，監(jiān)督學(xué)習(xí)模型可以分為概率模型和非概率模型，概率模型利用訓(xùn)練樣本的數(shù)據(jù)，通過學(xué)習(xí)條件概率分布來進(jìn)行推斷決策；非概率模型通過學(xué)習(xí)得到?jīng)Q策函數(shù)來進(jìn)行判斷。
從算法層面來說，監(jiān)督學(xué)習(xí)又可以分為生成模型和判別模型。
生成模型：目標(biāo)是求取聯(lián)合概率分布，然后由條件概率公式求取條件概率分布：.
典型的生成模型包括：樸素貝葉斯模型，隱馬爾科夫模型等。
之所以稱上式為生成模型是因?yàn)槟Ｐ筒坏梢杂脕眍A(yù)測(cè)結(jié)果輸出，還可以通過聯(lián)合分布來生成新樣本數(shù)據(jù)集。
判別模型：由訓(xùn)練數(shù)據(jù)直接求取決策函數(shù)或條件分布，判別模型并不需要關(guān)心X和Y之間的生成關(guān)心，直接關(guān)心的是對(duì)于給定的輸入X應(yīng)該得到怎么樣的輸出Y。機(jī)器學(xué)習(xí)中的大部分分類模型都屬于判別模型，如感知機(jī)、決策樹、支持向量機(jī)、條件隨機(jī)場(chǎng)等。

總結(jié)：一般來說，兩種模型之間適合于不同條件下的學(xué)習(xí)問題，生成模型除了可以應(yīng)用在預(yù)測(cè)數(shù)據(jù)外，還可以還原出數(shù)據(jù)的聯(lián)合分布函數(shù)，因此生成模型的應(yīng)用領(lǐng)域更廣泛。判別模型得到條件概率或決策函數(shù)直接用于預(yù)測(cè)，因此在監(jiān)督學(xué)習(xí)中準(zhǔn)確率更高。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的深入浅出深度学习（四）概率统计基础的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： i5 9600k和i7 8700的有哪些
下一篇：梳理百年深度学习发展史-七月在线机器学习