日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记之:Deep Attention Recurrent Q-Network

發布時間:2023/12/19 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记之:Deep Attention Recurrent Q-Network 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

  

Deep Attention Recurrent Q-Network

5vision groups?

?

  ?摘要:本文將 DQN 引入了 Attention 機制,使得學習更具有方向性和指導性。(前段時間做一個工作打算就這么干,誰想到,這么快就被這幾個孩子給實現了,自愧不如啊( ⊙ o ⊙ ))

  ??引言:我們知道 DQN 是將連續 4幀的視頻信息輸入到 CNN 當中,那么,這么做雖然取得了不錯的效果,但是,仍然只是能記住這 4 幀的信息,之前的就會遺忘。所以就有研究者提出了 Deep Recurrent Q-Network (DRQN),一個結合 LSTM 和 DQN 的工作:

  1. the fully connected layer in the latter is replaced for a LSTM one ,?

  2. only the last visual frame at each time step is used as DQN's input.?

  作者指出雖然只是使用了一幀的信息,但是 DRQN 仍然抓住了幀間的相關信息。盡管如此,仍然沒有看到在 Atari game上有系統的提升。

?

   另一個缺點是:長時間的訓練時間。據說,在單個 GPU 上訓練時間達到 12-14天。于是,有人就提出了并行版本的算法來提升訓練速度。作者認為并行計算并不是唯一的,最有效的方法來解決這個問題。 

  

   最近 visual attention models 在各個任務上都取得了驚人的效果。利用這個機制的優勢在于:僅僅需要選擇然后注意一個較小的圖像區域,可以幫助降低參數的個數,從而幫助加速訓練和測試。對比 DRQN,本文的 LSTM 機制存儲的數據不僅用于下一個 actions 的選擇,也用于 選擇下一個 Attention 區域。此外,除了計算速度上的改進之外,Attention-based models 也可以增加 Deep Q-Learning 的可讀性,提供給研究者一個機會去觀察 agent 的集中區域在哪里以及是什么,(where and what)。

?

?


  

  Deep Attention Recurrent Q-Network:

?

?

   ?如上圖所示,DARQN 結構主要由 三種類型的網絡構成:convolutional (CNN), attention, and recurrent . 在每一個時間步驟 t,CNN 收到當前游戲狀態 $s_t$ 的一個表示,根據這個狀態產生一組 D feature maps,每一個的維度是 m * m。Attention network 將這些 maps 轉換成一組向量 $v_t = \{ v_t^1, ... , v_t^L \}$,L = m*m,然后輸出其線性組合 $z_t$,稱為 a context vector. 這個 recurrent network,在我們這里是 LSTM,將 context vector 作為輸入,以及 之前的 hidden state $h_{t-1}$,memory state $c_{t-1}$,產生 hidden state $h_t$ 用于:

  1. a linear layer for evaluating Q-value of each action $a_t$ that the agent can take being in state $s_t$ ;?

  2. the attention network for generating a context vector at the next time step t+1.?

?


?

  Soft attention?:?

  這一小節提到的 "soft" Attention mechanism 假設 the context vector $z_t$ 可以表示為 所有向量 $v_t^i$ 的加權和,每一個對應了從圖像不同區域提取出來的 CNN 特征。權重 和 這個 vector 的重要程度成正比例,并且是通過 Attention network g 衡量的。g network 包含兩個 fc layer 后面是一個 softmax layer。其輸出可以表示為:

  其中,Z是一個normalizing constant。W 是權重矩陣,Linear(x) = Ax + b 是一個放射變換,權重矩陣是A,偏差是 b。我們一旦定義出了每一個位置向量的重要性,我們可以計算出 context vector 為:

  另一個網絡在第三小節進行詳細的介紹。整個 DARQN model 是通過最小化序列損失函數完成訓練:

  其中,$Y_t$ 是一個近似的 target value,為了優化這個損失函數,我們利用標準的 Q-learning 更新規則:

  DARQN 中的 functions 都是可微分的,所以每一個參數都有梯度,整個模型可以 end-to-end 的進行訓練。本文的算法也借鑒了 target network 和 experience replay 的技術。

?


?

  Hard Attention

  此處的 hard attention mechanism 采樣的時候要求僅僅從圖像中采樣一個圖像 patch。

  假設 $s_t$ 從環境中采樣的時候,受到了 attention policy 的影響,attention network g 的softmax layer 給出了帶參數的類別分布(categorical distribution)。然后,在策略梯度方法,策略參數的更新可以表示為:

  其中 $R_t$ 是將來的折扣的損失。為了估計這個值,另一個網絡 $G_t = Linear(h_t)$ 才引入進來。這個網絡通過朝向 期望值 $Y_t$ 進行網絡訓練。Attention network 參數最終的更新采用如下的方式進行:

   ?其中 $G_t - Y_t$ 是advantage function estimation。

  

  作者提供了源代碼:https://github.com/5vision/DARQN ?

  

  實驗部分

  

?

?

?

?


?

  總結:  ?

?

?

  

?

?

?

?

?

?

總結

以上是生活随笔為你收集整理的论文笔记之:Deep Attention Recurrent Q-Network的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。