两概率分布交叉熵的最小值是多少?
?PaperWeekly 原創 ·?作者 | 孫裕道
學校 | 北京郵電大學博士生
研究方向 | GAN圖像生成、情緒對抗樣本生成
引言
交叉熵(Cross Entropy)是香農信息論中一個非常重要的概念,它在深度學習和機器學習中常常被用作損失函數,給定真實類標簽分布 , 為訓練過程中模型的類別預測概率分布,交叉熵損失函數可以用于衡量 和 的相似性,從而提供了優化神經網絡參數的梯度。本文會通過回答以下四個提問更全面更深入地去了解交叉熵。
問題1:為什么交叉熵可以用于度量兩個概率分布之間的差異性?
問題2:兩個概率分布交叉熵的最小值是多少?
問題3:等概率分布的交叉熵與向量維數有什么關系?
問題4:什么實際應用場景下交叉熵作為損失函數最小值不為 0?
相對熵(KL 散度)與交叉熵
要回答清楚引言中的第一個問題,首先需要理清楚相對熵(KL 散度)與交叉熵的關系。相對熵主要用于衡量兩個概率分布之間的差異,連續概率分布的相對熵 的計算公式為:
離散概率分布的相對熵計算公式為:
以連續概率分布為例,交叉熵 的計算公式為:
信息熵 的計算公式為:
從而可知:
當神經網絡訓練一個給定的數據集的時候,該數據集中每個的樣本數據的類標簽概率分布的信息熵 (用于衡量一個分布的不確定性)是固定的。所以,相對熵 只和交叉熵 有關。由此可見,深度學習中經常使用交叉熵作為損失函數,實際上度量兩概率分布差異的是相對熵。
相對熵的最小值
針對引言中的第二個問題,從上一節可以知道,相對熵跟交叉熵有相同的變化趨勢,所以這個問題簡化為相對熵是否存在最小值。相對熵其實是一個更抽象的概念 散度的一個特例。 散度的定義和相關性質如下:
定義 1:給定一個嚴格凸的二次連續可微函數 ,在 的概率密度函數的 和 的 散度的定義為:
其中 , 確保當分布 時,; 確保散度 具有非負性。
證明:由定義可知, 是一個嚴格凸函數,所以可知局部極小值點也是全局極小值點,又因為 ,進一步則有:
當且僅當 時:
兩邊取等號。
當 散度中的 函數為 時,即為相對熵 :
所以綜上所述,當 時, 取到最小值為 。進而可以求得,交叉熵 的最小值為:
即交叉熵的最小值為信息熵。
相對熵最小值與維數的關系
引言中的第三個問題是對相對熵最小值數學性質的進一步探討。給定一個離散的等概率分布向量:
由一節可知,交叉熵的最小值為信息熵,則該分布的信息熵 為:
所以可知,當 變大的時候,信息熵 也會跟著變大,則其相對熵的最小值也會跟著變大。相應的代碼如下所示:
由實驗結果可以發現,隨著等概率分布維數的增加,其最小交叉熵的數值也增加。
多標簽分類學習
引言中第四個問題的提出,其實是要打破一個固有認知,即神經網絡參數訓練熟的時候,交叉熵的損失函數不都為 ,例如在多標簽分類學習中,交叉熵理論的最小值就不為 。多標簽分類任務與多分類任務有所不同,多分類任務是將一個實例分到某個類別中,多標簽分類任務是將某個實例分到多個類別中。如下圖所示,即為一個多標簽分類學習的一個例子,一張圖片里有多個類別,房子,樹,云等,深度學習模型需要將其一一分類識別出來。
假設 表示 維樣本空間, 表示 維標簽空間。此時訓練該多標簽分類器的損失函數可以有兩種分別是二元交叉熵函數和多元交叉熵函數。
當采用二元交叉熵函數的時候,該多標簽分類器的最后一層為 ,多標簽分類模型預測的概率向量為 ,其中 。此時真實標簽分布 和預測概率分布 的二元損失函數為:
此時該二元交叉熵的損失函數的最小值為 。
測試樣本輸入到訓練成熟多標簽分類器的時候,該樣本的預測概率向量的分量如果大于閾值 時,則表示為 1;如果小于閾值 ,則表示為 。
當采用多元交叉熵函數的時候,該多標簽分類器的最后一層為?,多標簽分類模型預測的概率向量為?,其中 。此時真實標簽分布 和預測概率分布 的多元交叉熵損失函數為:
此時該多元交叉熵的損失函數的最小值為 。測試樣本輸入到訓練成熟多標簽分類器的時候,該樣本的預測概率向量的分量如果大于閾值 時,則表示為 1;如果小于閾值 ?,則表示為。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的两概率分布交叉熵的最小值是多少?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 博后招募 | 西湖大学工学院蓝振忠深度学
- 下一篇: ACM MM 2021 | 面向多模态情