深入浅出深度学习(四)概率统计基础
一、數(shù)學(xué)期望、方差、協(xié)方差
1、數(shù)學(xué)期望——反映隨機(jī)變量平均取值的大小的統(tǒng)計(jì)量
2、方差——度量隨機(jī)變量與其數(shù)學(xué)期望之間的偏離程度或分散程度的統(tǒng)計(jì)
量。數(shù)據(jù)越集中則方差越小,數(shù)據(jù)越分散則方差越大。
3、協(xié)方差——衡量多維隨機(jī)變量之間相關(guān)性的一種統(tǒng)計(jì)量
方差是衡量一個(gè)變量與期望間的偏離程度,而協(xié)方差是衡量?jī)蓚€(gè)變量間的線性相關(guān)性,當(dāng)X=Y時(shí),協(xié)方差就等于方差。
協(xié)方差大于0時(shí),表示隨機(jī)變量X與隨機(jī)變量Y是正相關(guān),即變化趨勢(shì)相同。
協(xié)方差小于0時(shí),表示隨機(jī)變量X與隨機(jī)變量Y是負(fù)相關(guān),即變化趨勢(shì)相反。
協(xié)方差等于0時(shí),表示隨機(jī)變量X與Y間無線性相關(guān)性。
線性不相關(guān)與獨(dú)立的區(qū)別:
如果X和Y相互獨(dú)立,則協(xié)方差必為0,即線性不相關(guān);
如果X和Y線性不相關(guān)時(shí),隨機(jī)變量之間不一定獨(dú)立,因?yàn)楠?dú)立性考察一般性關(guān)系,而協(xié)方差是度量線性關(guān)系。
協(xié)方差和相關(guān)系數(shù):
協(xié)方差描述了兩個(gè)隨機(jī)變量間的正負(fù)線性相關(guān)性,而相關(guān)系數(shù)通過歸一化提供了一種衡量相關(guān)性大小的統(tǒng)計(jì)量:
相關(guān)系數(shù)是在協(xié)方差的基礎(chǔ)上添加了正則化因子,從而將其限定在[-1,1]內(nèi)。
協(xié)方差矩陣:
二、信息論基礎(chǔ)
1、信息熵——簡(jiǎn)稱熵,表示隨機(jī)變量不確定性的度量。
設(shè)X是離散隨機(jī)變量,其概率分布為:
隨機(jī)變量的信息熵定義為:
(log是以2為底的對(duì)數(shù))
當(dāng)pi=0/1時(shí),熵為0,pi=0.5時(shí),熵最大(類似開口向下的拋物線),熵越大說明包含的信息越多,隨機(jī)變量的不確定性就越大,
最大熵定理:當(dāng)離散隨機(jī)變量的概率分布是等概率分布時(shí),H(X)取最大值,結(jié)果為,n表示隨機(jī)變量X有n個(gè)不同的取值。
2、條件熵——在已知隨機(jī)變量X的條件下,隨機(jī)變量Y的不確定性。
從感知上說,條件熵的值要比信息熵小,因?yàn)楫?dāng)我們有了更多的背景知識(shí)時(shí),信息的不確定性自然也就下降了。
3、互信息——也稱為信息增益,描述兩個(gè)隨機(jī)變量之間的相關(guān)性程度,也就是給定一個(gè)隨機(jī)變量X后,另一個(gè)隨機(jī)變量Y不確定性的削弱程度,即為:
當(dāng)X與Y完全相關(guān)時(shí),,取最大值
當(dāng)X與Y完全無關(guān)時(shí),,取最小值
4、相對(duì)熵與交叉熵
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的目的歸結(jié)為盡量準(zhǔn)確的學(xué)習(xí)到數(shù)據(jù)間的變量關(guān)系,還原樣本數(shù)據(jù)的概率分布。交叉熵和相對(duì)熵正是衡量概率分布或函數(shù)間相似性的度量方法。
設(shè)有隨機(jī)變量X,其真實(shí)概率分布為p(x),通過模型訓(xùn)練得到的概率分布模型為q(x)。
①相對(duì)熵(Kullback-Leibler Divergence,也稱KL散度、KL距離)
·相對(duì)熵不是傳統(tǒng)意義上的“距離”,因?yàn)橄鄬?duì)熵不具有對(duì)稱性,即
·當(dāng)預(yù)測(cè)與真實(shí)分布完全相同時(shí),相對(duì)熵為0·若兩個(gè)分布相差越大,則相對(duì)熵越大;若兩個(gè)分布相差越小,則相對(duì)熵越小。②交叉熵(cross-entropy)
表示X的信息熵,,由于真實(shí)分布p(x)為一個(gè)固定值,所以是一個(gè)不變量,故有成立。
化簡(jiǎn):
交叉熵比相對(duì)熵更為簡(jiǎn)潔,且兩者存在一定的等價(jià)關(guān)系,因此一般用交叉熵來度量?jī)蓚€(gè)分布的相似性。
三、 概率圖模型
概率統(tǒng)計(jì)模型參數(shù)量大且難以存儲(chǔ),但實(shí)際上變量之間往往存在很多獨(dú)立性或近似獨(dú)立性的假設(shè),也就是說每一個(gè)隨機(jī)變量只和極少數(shù)的隨機(jī)變量相關(guān)。概率圖模型(Probabilistic Graphical Model,PGM),根據(jù)變量間的獨(dú)立性假設(shè),為我們提供了解決這類問題的機(jī)制,PGM以圖論和概率論為基礎(chǔ),通過圖結(jié)構(gòu)將概率模型可視化,使我們能夠觀察復(fù)雜分布中變量的關(guān)系,同時(shí)把概率上的復(fù)雜過程理解為在圖上進(jìn)行信息傳遞的過程,無須關(guān)注太多的復(fù)雜表達(dá)式。
1.生成模型與判別模型
從形式上來說,監(jiān)督學(xué)習(xí)模型可以分為概率模型和非概率模型,概率模型利用訓(xùn)練樣本的數(shù)據(jù),通過學(xué)習(xí)條件概率分布來進(jìn)行推斷決策;非概率模型通過學(xué)習(xí)得到?jīng)Q策函數(shù)來進(jìn)行判斷。
從算法層面來說,監(jiān)督學(xué)習(xí)又可以分為生成模型和判別模型。
生成模型:目標(biāo)是求取聯(lián)合概率分布,然后由條件概率公式求取條件概率分布:.
典型的生成模型包括:樸素貝葉斯模型,隱馬爾科夫模型等。
之所以稱上式為生成模型是因?yàn)槟P筒坏梢杂脕眍A(yù)測(cè)結(jié)果輸出,還可以通過聯(lián)合分布來生成新樣本數(shù)據(jù)集。
判別模型:由訓(xùn)練數(shù)據(jù)直接求取決策函數(shù)或條件分布,判別模型并不需要關(guān)心X和Y之間的生成關(guān)心,直接關(guān)心的是對(duì)于給定的輸入X應(yīng)該得到怎么樣的輸出Y。機(jī)器學(xué)習(xí)中的大部分分類模型都屬于判別模型,如感知機(jī)、決策樹、支持向量機(jī)、條件隨機(jī)場(chǎng)等。
總結(jié):一般來說,兩種模型之間適合于不同條件下的學(xué)習(xí)問題,生成模型除了可以應(yīng)用在預(yù)測(cè)數(shù)據(jù)外,還可以還原出數(shù)據(jù)的聯(lián)合分布函數(shù),因此生成模型的應(yīng)用領(lǐng)域更廣泛。判別模型得到條件概率或決策函數(shù)直接用于預(yù)測(cè),因此在監(jiān)督學(xué)習(xí)中準(zhǔn)確率更高。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的深入浅出深度学习(四)概率统计基础的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: i5 9600k和i7 8700的有哪些
- 下一篇: 梳理百年深度学习发展史-七月在线机器学习