广义线性模型_算法小板报(四)——初探广义线性模型和最大熵模型
一、簡介
1948年信息論的創始人香農借鑒物理學中熵的概念,正式提出了信息熵,從數學上解決了“不確定性”的量化問題,開啟了信息論研究的先河。在物理學中有熵增加定理,一切孤立物理系統的時間演化總是趨向于熵值最大,那么從信息論的角度看,信息熵最大又意味著什么呢?
1957年,美國物理學家埃德溫 ? 杰恩斯在論文《信息論與統計物理》中首次提出了最大熵原理,并且從數學上證明了在所有對隨機事件進行預測的概率分布中,熵最大的概率分布占有絕對優勢。生活中常用的統計分布,如高斯分布、指數分布、伽馬分布全都符合最大熵原理。
本文從最大熵原理出發,探討廣義線性模型和最大熵模型之間的聯系。
二、最大熵模型
最大熵原理也是統計機器學習中的一個基本準則。最大熵原理認為,模型的學習過程中應當滿足全部的已知條件,而對未知的情況不要做任何主觀假設。在這種情況下,概率分布最為均勻,預測的風險最小。而在模型上的表現就是概率分布的信息熵最大,所以人們通常將這種模型稱之為最大熵模型。
最大熵模型的一般形式可以表述如下:
給定數據集
可以得到經驗分布
用特征函數f(x,y)描述輸入x和輸入y之間的關系,則:
這樣就可以得到求得最大熵模型的優化方程:
上述優化問題,依舊可以通過求解Lagrange對偶問題來確定最優解,最終求得的最大熵模型為:
三、指數族分布
如果概率密度函數滿足如下的形式,我們稱之為指數族分布:
在限制條件
下,可以運用最大熵原理得到上述概率分布的形式。
常見的分布(伯努利分布、多項式分布、高斯分布、指數分布、伽馬分布和狄利克雷分布等)都屬于指數族分布。
除了蘊含最大熵原理外,這個分布族還具有如下優良的性質:
1. φ(x)是相應分布的充分統計量(能為相應分布提供充分信息的統計量)。
從上述公式可以看出,最終的最大似然估計只和φ(x)有關,因此這個量被稱為最大充分統計量。(在實際應用中,無需存儲整個數據集,只需存儲充分統計量即可。)
2. φ(x)的均值和方差可以通過對對數配分函數求導得到,即:
3. 指數族分布是唯一具有共軛先驗的分布族,這在計算貝葉斯后驗概率的時候,能極大地減少計算量。
四、廣義線性模型
廣義線性模型基于以下三個決策假設,來構建模型:
基于上述三個假設,我們來分析下當y服從伯努利分布Bernoulli(μ)時的廣義線性模型。
1.對于伯努利分布Bernoulli(μ),相應的概率分布可以寫成指數族分布的形式,滿足假設1:
2.再根據假設2可得模型的輸出為:
3.再根據假設3可得:
那么模型最終的形式就是:
這也是邏輯回歸模型的最終形式。也就是說,邏輯回歸是當y服從伯努利分布下的廣義線性模型。從這個角度也解釋了為何邏輯回歸采用sigmoid函數作為映射后,輸出的結果含有預測分類標簽概率大小的物理含義。
由于廣義線性模型中η可以表述為x的線性組合,那么y的概率表達式就可以改寫成:
對比最大熵模型公式可知,廣義線性回歸本質上是特征函數選取為
的最大熵模型。
五、參考資料
[1]、《機器學習白板推導》系列視頻
嗶哩嗶哩 ( ゜- ゜)つロ 乾杯~ Bilibili?space.bilibili.com[2]、吳恩達機器學習系列視頻(cs229)
https://www.bilibili.com/video/av28468522?from=search&seid=7839894357073842802?www.bilibili.com[3]、如何理解廣義線性模型和最大熵模型關系?
如何理解廣義線性模型和最大熵模型關系??www.zhihu.com[4]、《統計學習方法》,李航著
[5]、《Machine Learning A Probabilistic Perspective》,Kevin P. Murphy
[6]、《數學之美》,吳軍著
[7]、《從擲骰子到阿爾法狗:趣談概率》,張天蓉著
總結
以上是生活随笔為你收集整理的广义线性模型_算法小板报(四)——初探广义线性模型和最大熵模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python自定义函数找最大值_pyth
- 下一篇: 工业机器人九龙坡区职教中心_山西省襄汾县