日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

从贪心选择到探索决策:基于强化学习的多样性排序

發布時間:2024/7/5 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 从贪心选择到探索决策:基于强化学习的多样性排序 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文主要介紹發表在SIGIR'2018上的論文

From Greedy Selection to Exploratory Decision-Making: Diverse Ranking with Policy-Value Networks?www.bigdatalab.ac.cn

這篇論文利用強化學習來解決多樣性排序問題,整體思路和AlphaGo類似。

  • Motivation
  • 在信息檢索領域一個重要的目標是提供可以覆蓋很多topic的檢索結果,也就是檢索結果的多樣性。簡單來說就是選擇候選文檔的一個最小子集,這個子集能夠盡可能多的包含subtopic。因為文檔是否新穎取決于已經選擇的文檔,因此這是個NP-hard的問題。一些傳統的方法都是把檢索多樣性看成是基于相關性和新穎性的一個排序問題,這些方法的核心是利用貪心來選擇文檔,每一次從候選集合中選擇一個文檔。貪心方法雖然可以加速在線排序,但是可想而知這種方法不可避免的會陷入次優解,因為它每次選擇只考慮局部信息,而文檔的“貢獻"(utility)并不是獨立的,是與其他文檔相關聯的,每次選擇一個文檔后都會改變候選集合中的剩余文檔的utility,理想的解決方法是探索所有文檔的排序,但在實際應用中這顯然無法實現。得益于AlphaGo的成功,作者提出利用蒙特卡洛樹搜索(Monte Carlo tree search-MCTS)來改善MDP模型。新的模型 (MCTS enhanced MDP for Diverse ranking)利用一個MDP來對序列文檔的選擇進行建模,在每次進行選擇時,將query和已有文檔送給RNN來產生policy和value,policy用來進行文檔的選擇而value用來估計整體文檔排序的質量,比如 。為了防止次優解,作者使用MCTS來探索每個位置的可能的文檔排序,由此產生一個對于當前選擇的更好的policy。因為MCTS探索了更多未來可能的文檔,它給出的policy有更大的概率產生全局最優解。當有了更好的policy后,模型通過最小化loss function來進行調整。

    2. MDP和MCTS

    馬爾可夫決策過程(MDP)是建模序列決策的一個框架,關鍵部分為States,Action, Policy, Transition和Value。具體的,States 是狀態的集合,在文章中作者定義狀態為query、已有文檔排序和候選文檔的三元組;Action 是agent可以執行的離散動作集合,可選的動作會依賴于狀態s,記為 ; Policy 描述agent的行為,它是所有可能動作的一個概率分布,通過最大化長期回報進行優化;Transition 是狀態轉移函數 ,也就是根據動作 將狀態 映射為 ;Value 是狀態值函數 ,用來預測當前基于policy p下狀態s的長期回報。MDP模型中agent和環境在每個時刻 進行交互,在每個時間步 agent接收環境的狀態 ,然后選擇一個動作 ,之后 agent進入一個新的狀態 ,強化學習的目標是最大化長期回報,也就是最大化Value 。

    通過MDP做的決策(根據policy選擇置信度最大的動作)可能會陷入次優解,理論上我們應該探索所有的決策空間來得到全局最優解,但是這是不現實的。MCTS就是在決策空間中進行啟發式的搜索,這樣更容易產生比貪心更好的決策序列。給定時刻 ,policy 以及值函數 ,MCTS的目標是找到一個“加強版”的策略來進行更好的決策。MCTS包含四個過程,分別是Selection,Expansion,Simulation/Evaluation 和 Back-propagation。Selection是從根節點開始,遞歸的選擇一個最優子節點直到到達葉子節點;Expansion 指如果 不是一個終止節點,那么為 創建子節點并且根據policy選擇一個子節點 ;Simulation/Evaluation 是從 進行一次模擬直到結束。在AlphaGo Zero中使用值函數代替模擬來加速樹的搜索。Back-propagation來更新當前序列中的每個節點里的數值。MCTS最終輸出一個policy ,這個策略用來在 時刻選擇動作。MCTS會持續的進行,直到完整的episode生成為止。

    3. Algorithm

    這一部分介紹 模型,模型整體如圖

    可以看出在每個時間步模型選擇一個文檔,首先模型通過LSTM來產生 和 ,然后進行搜索,產生加強版的策略,之后根據策略選擇動作并進入下一個狀態。

    3.1定義文檔排序的MDP

    定義候選文檔全集為 ,每個文檔通過doc2vec模型轉化為向量,在時刻 ,狀態為 ,其中 為query, 是已選擇的文檔, 是候選文檔,在初始狀態( ), , 為空集;動作 是可以選擇的動作集合,也就是對應每一個候選文檔;狀態轉移 為 其中 為將 添加到 中, 為將 從 去除。每次選擇新的文檔query是保持不變的,新文檔添加到 的末尾;值函數 用來估計整體排序的質量,通過學習 來近似評價指標,比如 。具體的,值函數 的計算如下 的輸入為query和已有文檔的向量表示,輸出為cell state向量與output vector的concatenate,也就是 ;有了值函數,可以計算policy ,計算方法如下 其中 為參數,最終的策略函數 為 。

    3.2 MCTS

    有了值函數和策略函數后,作者提出使用MCTS來進行改進,也就是在每個時刻 ,根據值函數 和策略函數 進行MCTS搜索得到更好的策略 。因為MCTS探索整體的排序空間,所以 比上式得到的 會選擇更好的動作。具體算法為

    在Selection階段( line 3 - line 7),每次搜索都從根節點 開始選擇最大化upper confidence bound的文檔。注意這個根節點并不是樹的根節點,而是 時刻的狀態。最大化upper confidence bound的標準為

    由 的定義可以看出, 是動作值函數,可以看做選擇某個動作的回報,考慮的是“利用”,而 更傾向于“探索”,也就是更喜歡訪問次數少的節點, ,是平衡因子, 定義為

    是策略函數 的預測概率, 是節點的被訪問次數。上式是PUCT算法的一個變體。

    在Evaluation and expansion階段( line8 - line 19),當到達一個葉節點 時,如果是episode的結尾,那么可以用已有的評價指標進行評估,比如 ,否則可以用值函數來評估 。如果 可以展開,那么對每個動作構建新的節點并且初始化,也就是 line 11- line 16。

    在Back-propagation and update( line 20 - line 28)中,我們更新 和

    本質上 是每次從狀態 選擇動作 的對應的值函數的相加再求平均,也就是 ,文中的公式是增量更新的形式。在Algorithm 1的 line 29 - line 32,根據已有的 來計算

    3.3 利用強化學習訓練網絡

    有了更好的策略 后,在每個時刻 都使用 進行文檔選擇。當候選集合為空或者已經滿足挑選文檔個數時不再進行文檔的排序,此時利用已有的文檔排序,可以和真實的文檔計算評價指標,用 表示。所有時刻的狀態和MCTS的策略組成 ,我們要優化的目標為 第一項為平方誤差,希望值函數在每個狀態的值都和 接近;而第二項是為了讓LSTM輸出的策略與MCTS得到的策略更接近。loss function形象化表示如下圖

    整體算法如下

    可以看出針對每個query,在每個時刻選擇文檔時,利用MCTS來進行選擇。當結束排序后,根據排序結果以及每個時刻的策略 和 進行模型的更新,最終得到一個訓練好的LSTM模型。

    3.4 Online ranking

    MCTS是比較耗時的,在線上進行排序的時候可能會對服務有不小的壓力。作者提出了Online ranking的方法,就是在排序時不再進行MCTS,直接用LSTM輸出的策略。作者用實驗驗證了不使用MCTS的時候模型仍然會高于baseline。這得益于訓練時MCTS的貢獻,MCTS使模型能夠輸出更精確的策略。

    3.4 與AlphaGo Zero的不同

    雖然受到了AlphaGo Zeor的啟發,但 與之還是有不同的。作者總結了三點,第一使任務的形式化不同。圍棋是兩人進行博弈,狀態是棋盤以及落子位置,而多樣性排序只需要每次挑選一個文檔。第二是監督信息不同,在圍棋中監督信息是最后的輸贏,而在多樣性排序中監督信息是各種多樣性的評價指標。第三是網絡模型不同,AlphaGo Zero使用了殘差網絡而排序使用了LSTM,這也是由于任務不同而有不同的選擇。

    4. Experiment

    作者與其他算法進行了對比,實驗結果如下

    可以看出在測試階段使用MCTS的效果最好。除此之外,作者還對比了在沒有MCTS的排序中使用策略還是使用值函數,隨著訓練迭代的增多,使用策略效果會更好

    一個可能的原因是 的優化相對困難,尤其是在訓練的初期。

    5. 結束語

    這篇文章利用強化學習來進行多樣性排序,與已有方法相比效果由明顯的提升。用AlphaGo算法的整體框架來解決序列排序問題確實也比較自然,尤其是文檔之間還會互相的影響。這種方法也可以應用到其他序列生成的任務中,最直接的比如導航時路線生成,理想狀況下是可以根據路況來選擇道路的。強化學習應用很廣,期待能在更多的場景下發揮作用。

    原文:https://zhuanlan.zhihu.com/p/56053546 創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

    總結

    以上是生活随笔為你收集整理的从贪心选择到探索决策:基于强化学习的多样性排序的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 久久久久无码精品 | 最近免费中文字幕中文高清百度 | 清清草视频 | 国产精品 色 | 中文字幕在线观看的网站 | www.欧美成人 | 野花成人免费视频 | 国产精品 欧美精品 | 欧美日韩另类一区 | 加勒比av在线播放 | 影音先锋亚洲精品 | 91观看视频| 欧美一级乱黄 | 不卡中文字幕av | 色婷婷久久久亚洲一区二区三区 | 91天天射 | 天天搞天天 | 亚洲自拍偷拍一区 | 岛国精品 | 久久久国产精品久久久 | 国产精品高清在线观看 | 国产xxxx| 午夜视频大全 | 欧美在线va | 亚洲一区二区三区免费观看 | 亚洲永久精品ww.7491进入 | 日韩成人中文字幕 | 国产国语老龄妇女a片 | 亚洲毛片一区 | 99自拍网 | 亚洲天堂精品视频 | 国产吞精囗交免费视频 | 日本五十肥熟交尾 | 男女做爰猛烈吃奶啪啪喷水网站 | 国产精品香蕉国产 | 一区二区三区播放 | 日本欧美一区二区三区不卡视频 | 国产精品亚洲一区二区三区在线观看 | 日韩欧美国产中文字幕 | 亚洲成人不卡 | 国产清纯白嫩初高中在线观看性色 | 成人av不卡 | 天天草av | 亚洲精品66 | 三级爱爱 | 日韩欧美二区三区 | 刘玥91精选国产在线观看 | 在线观看精品一区 | 亚洲欧洲一级 | 97超碰国产精品无码蜜芽 | 日本中文有码 | 麻豆精品在线观看 | 激情五月五月婷婷 | 欧美激情aaa | 久久久成人免费视频 | 操操操插插插 | 午夜激情视频 | 亚洲性猛交富婆 | 亚洲熟悉妇女xxx妇女av | 99久久久| 狂野欧美性猛交xxxx | 欧美国产不卡 | 人人干人人干 | 超碰在线亚洲 | 51啪影院 | 麻豆一区二区三区在线观看 | 阿v视频在线免费观看 | 又大又长粗又爽又黄少妇视频 | 久久不卡免费视频 | 四虎在线观看视频 | 久久久欧美精品 | 五月天激情视频在线观看 | 久草97| 善良的女邻居在线观看 | 中国成人av | 日韩黄色高清视频 | 99综合久久| 91免费在线观看网站 | a级国产毛片| 超碰麻豆| 精品丰满少妇一区二区三区 | 亚洲国产久 | 欧美高清v| 一级黄色片大全 | 黑人无套内谢中国美女 | 午夜精品视频一区二区三区在线看 | 日韩中文字幕一区二区 | 能免费看18视频网站 | 污片网站在线观看 | 亚洲欧美一区二区三区在线观看 | 女女互慰吃奶互揉调教捆绑 | 精品无码在线视频 | 日韩欧美一本 | 老地方在线观看免费动漫 | www.夜夜操.com| 成人深夜福利视频 | 亚洲天天 | 亚洲国产爱| 国产精品18久久久久久vr下载 |