當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

广义线性模型_算法小板报(四)——初探广义线性模型和最大熵模型

發布時間：2023/12/19 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了广义线性模型_算法小板报(四)——初探广义线性模型和最大熵模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、簡介

1948年信息論的創始人香農借鑒物理學中熵的概念，正式提出了信息熵，從數學上解決了“不確定性”的量化問題，開啟了信息論研究的先河。在物理學中有熵增加定理，一切孤立物理系統的時間演化總是趨向于熵值最大，那么從信息論的角度看，信息熵最大又意味著什么呢？

1957年，美國物理學家埃德溫 ? 杰恩斯在論文《信息論與統計物理》中首次提出了最大熵原理，并且從數學上證明了在所有對隨機事件進行預測的概率分布中，熵最大的概率分布占有絕對優勢。生活中常用的統計分布，如高斯分布、指數分布、伽馬分布全都符合最大熵原理。

本文從最大熵原理出發，探討廣義線性模型和最大熵模型之間的聯系。

二、最大熵模型

最大熵原理也是統計機器學習中的一個基本準則。最大熵原理認為，模型的學習過程中應當滿足全部的已知條件，而對未知的情況不要做任何主觀假設。在這種情況下，概率分布最為均勻，預測的風險最小。而在模型上的表現就是概率分布的信息熵最大，所以人們通常將這種模型稱之為最大熵模型。

最大熵模型的一般形式可以表述如下：

給定數據集

可以得到經驗分布

用特征函數f(x,y)描述輸入x和輸入y之間的關系，則：

這樣就可以得到求得最大熵模型的優化方程：

上述優化問題，依舊可以通過求解Lagrange對偶問題來確定最優解，最終求得的最大熵模型為：

三、指數族分布

如果概率密度函數滿足如下的形式，我們稱之為指數族分布：

在限制條件

下，可以運用最大熵原理得到上述概率分布的形式。

常見的分布（伯努利分布、多項式分布、高斯分布、指數分布、伽馬分布和狄利克雷分布等）都屬于指數族分布。

除了蘊含最大熵原理外，這個分布族還具有如下優良的性質：

1. φ(x)是相應分布的充分統計量（能為相應分布提供充分信息的統計量）。

從上述公式可以看出，最終的最大似然估計只和φ(x)有關，因此這個量被稱為最大充分統計量。（在實際應用中，無需存儲整個數據集，只需存儲充分統計量即可。）

2. φ(x)的均值和方差可以通過對對數配分函數求導得到，即：

3. 指數族分布是唯一具有共軛先驗的分布族，這在計算貝葉斯后驗概率的時候，能極大地減少計算量。

四、廣義線性模型

廣義線性模型基于以下三個決策假設，來構建模型：

基于上述三個假設，我們來分析下當y服從伯努利分布Bernoulli(μ)時的廣義線性模型。

1.對于伯努利分布Bernoulli(μ)，相應的概率分布可以寫成指數族分布的形式，滿足假設1：

2.再根據假設2可得模型的輸出為：

3.再根據假設3可得：

那么模型最終的形式就是：

這也是邏輯回歸模型的最終形式。也就是說，邏輯回歸是當y服從伯努利分布下的廣義線性模型。從這個角度也解釋了為何邏輯回歸采用sigmoid函數作為映射后，輸出的結果含有預測分類標簽概率大小的物理含義。

由于廣義線性模型中η可以表述為x的線性組合，那么y的概率表達式就可以改寫成：

對比最大熵模型公式可知，廣義線性回歸本質上是特征函數選取為

的最大熵模型。

五、參考資料

[1]、《機器學習白板推導》系列視頻

嗶哩嗶哩 ( ゜- ゜)つロ乾杯~ Bilibili?space.bilibili.com

[2]、吳恩達機器學習系列視頻（cs229）

https://www.bilibili.com/video/av28468522?from=search&seid=7839894357073842802?www.bilibili.com

[3]、如何理解廣義線性模型和最大熵模型關系？

如何理解廣義線性模型和最大熵模型關系？?www.zhihu.com

[4]、《統計學習方法》，李航著

[5]、《Machine Learning A Probabilistic Perspective》，Kevin P. Murphy

[6]、《數學之美》，吳軍著

[7]、《從擲骰子到阿爾法狗：趣談概率》，張天蓉著

總結

以上是生活随笔為你收集整理的广义线性模型_算法小板报(四)——初探广义线性模型和最大熵模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python自定义函数找最大值_pyth
下一篇：工业机器人九龙坡区职教中心_山西省襄汾县

编程问答

广义线性模型_算法小板报(四)——初探广义线性模型和最大熵模型

一、簡介

二、最大熵模型

三、指數族分布

四、廣義線性模型

五、參考資料

總結

一、簡介

三、指數族分布

四、廣義線性模型

五、參考資料