當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【AutoML】强化学习如何用于模型蒸馏？

發布時間：2025/3/20 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了【AutoML】强化学习如何用于模型蒸馏？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大家好，歡迎來到專欄《AutoML》，在這個專欄中我們會講述AutoML技術在深度學習中的應用，這一期講述在知識蒸餾中的應用。

作者&編輯 | 言有三

上一期給大家介紹了AutoML技術在模型量化中的應用，而知識蒸餾作為模型壓縮的另外一個技術，也是學術界和工業界的重點研究方向，今天給大家介紹AutoML在模型蒸餾中的應用思路。

1?N2N Learning

N2N learning是一個知識蒸餾框架，它使用增強學習算法來將teacher模型轉化為student模型，框架結構如下：

N2N learning基于一個假設，即一個教師網絡轉化成學生網絡的過程可以看作是馬爾可夫決策過程Markov Decision Process(MDP)，當前的步驟只和有限的之前幾步有關系，使用增強學習來進行優化，其基本概念如下：

狀態S：將網絡的架構作為狀態，對于任何一個大的網絡，采樣后比它小的網絡都很多，所以狀態空間非常大。

動作A與狀態轉換T：包括層的縮減以及移除操作。這一個過程通過雙向LSTM來實現，它會觀察某一層與前后層的關系，學習到是否進行約減或者刪除。

獎勵r：模型壓縮的目標是保證精度的同時盡可能壓縮模型，因此reward就是壓縮率。

在上圖結構中中包括了兩個動作，實際進行優化時依次進行：

(1) 首先選擇一組動作，用來判斷當前層的去留；

(2) 然后使用另一個策略選擇一組動作，用來決定剩下每一層的裁剪程度，偽代碼流程如下：

以上兩種動作使用的LSTM也有差異，下圖(a)是層的去留使用的LSTM，可以看出是一個雙向的LSTM，要同時考慮前向和反向的中間狀態。

下圖(b)是層的裁剪使用的LSTM，可以看出是一個單向的LSTM，其中at的值范圍是[0.1,0.2,...,1]，表示壓縮率。

而獎勵reward公式如下：

其中C表示壓縮率，A表示學生模型準確率，Ateacher表示教師模型準確率，教師網絡的輸出作為學生網絡的真值。

損失函數包括兩項，分別是學生網絡的分類損失以及蒸餾損失，其中蒸餾損失中教師網絡的輸出作為學生網絡的真值，使用L2距離。

實驗結果如下：

從結果來看，實現了非常高的壓縮率，并且性能下降不明顯。

2 關于模型優化

如果說要我在深度學習這么多方向里選擇一個的話，我會毫不猶豫地選擇模型優化。公眾號寫過很多的模型解讀了，如下是一些文章總結和直播鏈接以及資源下載。

【完結】總結12大CNN主流模型架構設計思想

「總結」言有三&天池深度學習模型設計直播匯總，贈超過200頁課件

知識星球也有一個模型結構1000變板塊，比公眾號的內容更深更廣。其中的模型優化部分主要包括緊湊模型的設計，剪枝，量化以及知識蒸餾等內容的詳細解讀，感興趣可以移步。

[1] Ashok A , Rhinehart N , Beainy F , et al. N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning[C]// ICLR 2018. 2017.

總結

本次我們簡單介紹了AutoML在知識蒸餾中的一個經典案例，更多知識蒸餾與模型優化，AutoML的內容，請大家移步有三AI知識星球長期學習。

有三AI知識星球

知識星球是有三AI的付費內容社區，里面包括各領域的模型學習，數據集下載，公眾號的付費圖文原稿，技術總結PPT和視頻，知識問答，書籍下載，項目推薦，線下活動等資源，了解詳細請閱讀以下文章：

【雜談】有三AI知識星球一周年了！為什么公眾號+星球才是完整的？

【雜談】萬萬沒想到，有三還有個保密的‘朋友圈’，那里面都在弄啥！

轉載文章請后臺聯系

侵權必究

往期精選

【AutoML】如何選擇最合適的數據增強操作
【AutoML】激活函數如何進行自動學習和配置
【AutoML】歸一化(Normalization)方法如何進行自動學習和配置
【AutoML】優化方法可以進行自動搜索學習嗎？
【AutoML】損失函數也可以進行自動搜索學習嗎？
【AutoML】如何使用強化學習進行模型剪枝？
【AutoML】強化學習如何用于模型量化？
【AutoML】當前有哪些可用的AutoML平臺？
【星球知識卡片】殘差網絡家族10多個變種學習卡片，請收下！
【星球知識卡片】移動端高效率的分組網絡都發展到什么程度了？
【星球知識卡片】注意力機制發展如何了，如何學習它在各類任務中的應用？
【星球知識卡片】模型剪枝有哪些關鍵技術，如何對其進行長期深入學習
【星球知識卡片】模型量化的核心技術點有哪些，如何對其進行長期深入學習

總結

以上是生活随笔為你收集整理的【AutoML】强化学习如何用于模型蒸馏？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【通知】有三AI更新420页14万字视觉
下一篇：【星球知识卡片】模型蒸馏的核心技术点有哪