最大化_基于最大化互信息的学习目标
這篇文章主要介紹一種自監督的學習方法,即互信息最大化。到目前為止有很多論文來最大化互信息從而得到一個更好的結果,本文選擇的兩篇論文為發表在ICLR 2020上的
A Mutual Information Maximization Perspective Of Language Representation Learning?arxiv.org以及CIKM 2020上的論文
S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization?arxiv.org第一篇論文提出最大化互信息可以為目前的語言模型提供一個統一框架,第二篇論文則通過最大化互信息作為輔助loss來改善序列推薦問題。
互信息衡量兩個變量的依賴程度,可以理解為給定其中一個變量,可以多大程度的減少另一個變量的不確定性,具體為
直接優化互信息通常是很難操作的,很多工作轉而優化它的一個下界。基于Noise Contrastive Estimation的 InfoNCE已經應用在很多工作上,其定義為
其中
可以理解為兩個view 和 的相似度,最簡單的可以用內積。 是從 中采樣出來的集合,其中只有一個正樣本。右邊的公式直觀上來看很像是contrastive learning,可以理解為正樣本之間的距離要相近,正負樣本之間的距離要更遠。這個公式也和交叉熵損失很像,如果覆蓋的負樣本越多那么InfoNCE的bound就越緊。有了這個公式,作者表示很多語言模型都可以看作在這個框架下
其中
是對 和 的處理。具體分析此處不再贅述,感興趣的可以看原文。第二篇論文則是在序列推薦這個任務上具體應用最大化互信息。主要是構建來不同的view,加入四個輔助loss。第一個是建模item和attribute之間的關系,
第二個是建模序列與item之間的相關性,使用和bert一樣的mask來學習
是加入mask的序列。第三個是建模序列和attribute的關系第四個是建模序列和segment之間的關系
可以看出只要給定不同的view,就可以應用InfoNCE的公式來進行優化。整體預訓練過程為
從這兩篇論文可以看到基于自監督的最大化互信息有很大的應用空間,通過自監督的方法來學習數據中更本質的一些模式,值得在更多的任務場景中嘗試,或者直接用互信息的概念進行一些數據統計可能在業務中就會有很好的效果。
總結
以上是生活随笔為你收集整理的最大化_基于最大化互信息的学习目标的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 变频器输出功率_工业电气设计|变频器的输
- 下一篇: 下载kolla_Kolla部署实验手册