日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SeqGAN——对抗思想与增强学习的碰撞

發布時間:2025/3/15 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SeqGAN——对抗思想与增强学习的碰撞 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

SeqGAN這篇paper從大半年之前就開始看,斷斷續續看到現在,接下來的工作或許會與GAN + RL有關,因此又把它翻出來,又一次仔細拜讀了一番。接下來就記錄下我的一點理解。

paper鏈接

1. 背景

GAN在之前發的文章里已經說過了,不了解的同學點我,雖然現在GAN的變種越來越多,用途廣泛,但是它們的對抗思想都是沒有變化的。簡單來說,就是在生成的過程中加入一個可以鑒別真實數據和生成數據的鑒別器,使生成器G和鑒別器D相互對抗,D的作用是努力地分辨真實數據和生成數據,G的作用是努力改進自己從而生成可以迷惑D的數據。當D無法再分別出真假數據,則認為此時的G已經達到了一個很優的效果。?
它的諸多優點是它如今可以這么火爆的原因:?
- 可以生成更好的樣本?
- 模型只用到了反向傳播,而不需要馬爾科夫鏈?
- 訓練時不需要對隱變量做推斷?
- G的參數更新不是直接來自數據樣本,而是使用來自D的反向傳播?
- 理論上,只要是可微分函數都可以用于構建D和G,因為能夠與深度神經網絡結合做深度生成式模型

它的最后一條優點也恰恰就是它的局限,之前我發過的文章中也有涉及到,點點點點點我,在NLP中,數據不像圖片處理時是連續的,可以微分,我們在優化生成器的過程中不能找到“中國 + 0.1”這樣的東西代表什么,因此對于離散的數據,普通的GAN是無法work的。

2. 大體思路

這位還在讀本科的作者想到了使用RL來解決這個問題。

如上圖(左)所示,仍然是對抗的思想,真實數據加上G的生成數據來訓練D。但是從前邊背景章節所述的內容中,我們可以知道G的離散輸出,讓D很難回傳一個梯度用來更新G,因此需要做一些改變,看上圖(右),paper中將policy network當做G,已經存在的紅色圓點稱為現在的狀態(state),要生成的下一個紅色圓點稱作動作(action),因為D需要對一個完整的序列評分,所以就是用MCTS(蒙特卡洛樹搜索)將每一個動作的各種可能性補全,D對這些完整的序列產生reward,回傳給G,通過增強學習更新G。這樣就是用Reinforcement learning的方式,訓練出一個可以產生下一個最優的action的生成網絡。

3. 主要內容

不論怎么對抗,目的都是為了更好的生成,因此我們可以把生成作為切入點。生成器G的目標是生成sequence來最大化reward的期望。

在這里把這個reward的期望叫做J(θ)。就是在s0和θ的條件下,產生某個完全的sequence的reward的期望。其中Gθ()部分可以輕易地看出就是Generator Model。而QDφGθ()(我在這里叫它Q值)在文中被叫做一個sequence的action-value function 。因此,我們可以這樣理解這個式子:G生成某一個y1的概率乘以這個y1的Q值,這樣求出所有y1的概率乘Q值,再求和,則得到了這個J(θ),也就是我們生成模型想要最大化的函數。

所以問題來了,這個Q值怎么求??
paper中使用的是REINFORCE algorithm 并且就把這個Q值看作是鑒別器D的返回值。

因為不完整的軌跡產生的reward沒有實際意義,因此在原有y_1到y_t-1的情況下,產生的y_t的Q值并不能在y_t產生后直接計算,除非y_t就是整個序列的最后一個。paper中想了一個辦法,使用蒙特卡洛搜索(就我所知“蒙特卡洛”這四個字可以等同于“隨意”)將y_t后的內容進行補全。既然是隨意補全就說明會產生多種情況,paper中將同一個y_t后使用蒙特卡洛搜索補全的所有可能的sequence全都計算reward,然后求平均。如下圖所示。

就這樣,我們生成了一些逼真的sequence。我們就要用如下方式訓練D。

這個式子很容易理解,最大化D判斷真實數據為真加上D判斷生成數據為假,也就是最小化它們的相反數。

D訓練了一輪或者多輪(因為GAN的訓練一直是個難題,找好G和D的訓練輪數比例是關鍵)之后,就得到了一個更優秀的D,此時要用D去更新G。G的更新可以看做是梯度下降。

其中,

αh代表學習率。

以上就是大概的seqGAN的原理。

4. 算法

首先隨機初始化G網絡和D網絡參數。

通過MLE預訓練G網絡,目的是提高G網絡的搜索效率。

使用預訓練的G生成一些數據,用來通過最小化交叉熵來預訓練D。

  • 開始生成sequence,并使用方程(4)計算reward(這個reward來自于G生成的sequence與D產生的Q值)。

  • 使用方程(8)更新G的參數。

  • 更優的G生成更好的sequence,和真實數據一起通過方程(5)訓練D。

  • 以上1,2,3循環訓練直到收斂。

    5. 實驗

    論文的實驗部分就不是本文的重點了,有興趣的話看一下paper就可以了。

    后邊說的比較敷衍了,那…就這樣吧。

    原文地址:?http://blog.csdn.net/yinruiyang94/article/details/77675586

    總結

    以上是生活随笔為你收集整理的SeqGAN——对抗思想与增强学习的碰撞的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 亚洲精品在线影院 | 日韩色图视频 | 国产一区美女 | 在线色网站 | 成 人 免费 黄 色 | 美女狂揉羞羞的视频 | 中文字幕伦理 | 热久久免费 | 人妻少妇精品中文字幕av蜜桃 | 欧美成人不卡 | 美女扒开腿让男生捅 | 国产黄色小视频在线观看 | 欧美激情成人在线 | 精品999www| 欧色丰满女同hd | 毛片其地| 粉嫩一区二区三区 | 番号动态图 | 亚洲啪啪 | 国产日产精品一区二区三区四区 | 青青视频免费观看 | 青娱乐在线免费视频 | 久久高清av| 日韩伊人久久 | 亚洲第一页综合 | 亚洲熟妇无码乱子av电影 | 看毛片的网站 | 亚洲一区二区在线看 | 综合狠狠开心 | 自拍偷拍亚洲综合 | 用力挺进新婚白嫩少妇 | 日韩av少妇 | 天堂va蜜桃一区二区三区 | 久青草视频 | 久久香蕉综合 | 又大又硬又爽免费视频 | 日日天天 | 国产黄色影院 | 日本黄网站 | 啪啪的网站 | 久久dvd | 熟女人妇 成熟妇女系列视频 | 最近中文字幕mv | 日本免费一区二区三区四区五六区 | www.射| 久久久嫩草 | 亚洲精品1区2区 | 韩国禁欲系高级感电影 | 色综合五月 | 日韩精品视频三区 | www在线| 免费看的av网站 | 久久精品伦理 | 欧美一级免费在线观看 | 人人人妻人人澡人人爽欧美一区 | 成人吃奶视频 | 九九热免费在线 | 日韩美女免费线视频 | 成人瑟瑟 | 成年人免费看视频 | 日本va在线观看 | 色婷婷综合五月 | 女攻总攻大胸奶汁(高h) | 人妖av在线 | 中文字幕久久网 | 精品人妻无码一区二区三 | 婷婷九九 | 国产视频xxxx | 男女啪啪网站免费 | 91秘密入口 | 亚洲a√| 91亚色在线观看 | 黄瓜视频在线播放 | 久久久中文网 | 中文字幕在线观看日本 | 怡红院久久 | 99福利影院 | 91精品推荐 | 美女扒开让男人桶爽 | 久久久久久久久99精品 | 性网址 | 你懂的网址在线观看 | 国产精品久久久久久久免费大片 | 欧美在线视频播放 | 在线麻豆视频 | 国产精视频 | 69福利区| 亚洲av激情无码专区在线播放 | 四虎成人永久免费视频 | 射射综合网| 亚洲天堂五月 | 三级小说视频 | 米奇影音| www.久久久久 | 少妇性bbb搡bbb爽爽爽欧美 | 成人精品视频在线播放 | 日韩免费一区二区三区 | 欧美成人综合色 | 波多野结衣电影在线播放 |