《强化学习周刊》第58期:RFQI、DRL-DBSCAN广义强化学习
No.58
智源社區(qū)
強(qiáng)化學(xué)習(xí)組
強(qiáng)
化
學(xué)
?習(xí)
研究
觀點(diǎn)
資源
活動(dòng)
周刊訂閱
告訴大家一個(gè)好消息,《強(qiáng)化學(xué)習(xí)周刊》已經(jīng)開啟“訂閱功能”,以后我們會(huì)向您自動(dòng)推送最新版的《強(qiáng)化學(xué)習(xí)周刊》。訂閱方法:
方式1:掃描下面二維碼,進(jìn)入《強(qiáng)化學(xué)習(xí)周刊》主頁(yè),選擇“關(guān)注TA”。
方式2:點(diǎn)擊本文下方的“閱讀原文”,進(jìn)入《強(qiáng)化學(xué)習(xí)周刊》Hub社區(qū)版,根據(jù)內(nèi)附的詳細(xì)訂閱步驟,完成訂閱。
關(guān)于周刊
強(qiáng)化學(xué)習(xí)作為人工智能領(lǐng)域研究熱點(diǎn)之一,其研究進(jìn)展與成果也引發(fā)了眾多關(guān)注。為幫助研究與工程人員了解該領(lǐng)域的相關(guān)進(jìn)展和資訊,智源社區(qū)結(jié)合領(lǐng)域內(nèi)容,撰寫為第58期《強(qiáng)化學(xué)習(xí)周刊》。本期周刊整理了強(qiáng)化學(xué)習(xí)領(lǐng)域相關(guān)的最新論文推薦、研究綜述及新書籍以饗諸位。
周刊采用社區(qū)協(xié)作的模式產(chǎn)生,歡迎感興趣的朋友們參與我們的工作,一起來(lái)推動(dòng)強(qiáng)化學(xué)習(xí)社群的分享、學(xué)習(xí)和交流活動(dòng)。可以掃描文末的二維碼加入強(qiáng)化學(xué)習(xí)社區(qū)群。
本期貢獻(xiàn)者:李明、劉青、小胖
論文推薦
強(qiáng)化學(xué)習(xí)近年來(lái)取得了令人矚目的成就,其應(yīng)用于各個(gè)領(lǐng)域的研究也取得較大的進(jìn)步,比如批量強(qiáng)化學(xué)習(xí)應(yīng)用于推薦系統(tǒng)、數(shù)字孿生驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí) 、基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人領(lǐng)域應(yīng)用相關(guān)的理論及其最新應(yīng)用等。
標(biāo)題:Distributionally Robust Model-Based Offline Reinforcement Learning with Near-Optimal Sample Complexity(卡內(nèi)基梅隆大學(xué):Yuejie Chi | 具有樣本復(fù)雜度接近最優(yōu)的基于分布式魯棒模型的離線強(qiáng)化學(xué)習(xí))了解詳情
簡(jiǎn)介:本文關(guān)注離線強(qiáng)化學(xué)習(xí) (RL) 中模型魯棒性和樣本效率的核心問題,其旨在學(xué)習(xí)在不主動(dòng)探索的情況下從歷史數(shù)據(jù)中執(zhí)行決策。通過考慮離線 RL 的分布式魯棒公式,重點(diǎn)關(guān)注具有由 Kullback-Leibler 散度指定的不確定性集的表格非平穩(wěn)有限范圍魯棒馬爾可夫決策過程。為應(yīng)對(duì)樣本稀缺,提出基于模型的算法將分布魯棒的值迭代與面對(duì)不確定性的悲觀原則相結(jié)合,通過精心設(shè)計(jì)的數(shù)據(jù)驅(qū)動(dòng)的懲罰項(xiàng)來(lái)懲罰魯棒的值估計(jì)。在不需要完全覆蓋狀態(tài)-動(dòng)作空間的情況下測(cè)量分布變化的歷史數(shù)據(jù)集的溫和和量身定制的假設(shè)下,建立了所提出算法的有限樣本復(fù)雜度,并表明它幾乎是不可改進(jìn)的將信息論下界匹配到水平長(zhǎng)度的多項(xiàng)式因子。這提供了首個(gè)可證明接近最優(yōu)的魯棒離線 RL 算法,該算法在模型不確定性和部分覆蓋下進(jìn)行學(xué)習(xí)。
論文鏈接:https://arxiv.org/pdf/2208.05767.pdf
標(biāo)題:Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems(騰訊:Yiyan Qi | 推薦系統(tǒng)中基于強(qiáng)化學(xué)習(xí)的長(zhǎng)期用戶滿意度多任務(wù)融合)了解詳情
簡(jiǎn)介:推薦系統(tǒng) (RS) 是一個(gè)重要的在線應(yīng)用程序,每天影響著數(shù)十億用戶。主流的 RS 排名框架由兩部分組成:預(yù)測(cè)各種用戶反饋的多任務(wù)學(xué)習(xí)模型(MTL),即點(diǎn)擊、喜歡、分享,以及結(jié)合多任務(wù)的多任務(wù)融合模型(MTF)。為了優(yōu)化長(zhǎng)期的用戶滿意度,而不是貪婪地獲得即時(shí)獎(jiǎng)勵(lì),在推薦會(huì)話中將 MTF 任務(wù)制定為馬爾可夫決策過程 (MDP),并提出了基于批量強(qiáng)化學(xué)習(xí) (RL) 的多任務(wù)融合框架 (BatchRL-MTF),包括批量 RL 框架和在線探索。前者利用 Batch RL 從固定批次數(shù)據(jù)離線學(xué)習(xí)最優(yōu)推薦策略以獲得長(zhǎng)期用戶滿意度,而后者在線探索潛在的高價(jià)值動(dòng)作以突破局部最優(yōu)困境。在十億樣本級(jí)別的真實(shí)世界數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),以展示該模型的有效性。并提出了保守的離線策略估計(jì)器(Conservative-OPEstimator)來(lái)離線測(cè)試模型。最后在真實(shí)的推薦環(huán)境中進(jìn)行在線實(shí)驗(yàn)作為少數(shù)成功應(yīng)用于 MTF 任務(wù)的 Batch RL 研究之一,該模型也已部署在大型工業(yè)短視頻平臺(tái)上,為數(shù)億用戶提供服務(wù)。
論文鏈接:https://arxiv.org/pdf/2208.04560v2.pdf
標(biāo)題:Deep Reinforcement Learning for Orchestrating Cost-Aware Reconfigurations of vRANs(University of Oulu :Fahri Wisnu Murti | 基于編排VRAN成本感知重構(gòu)的深度強(qiáng)化學(xué)習(xí))了解詳情
簡(jiǎn)介:虛擬化無(wú)線電接入網(wǎng)絡(luò) (vRAN) 是完全可配置的,并且可以在提供前所未有的網(wǎng)絡(luò)管理靈活性的商品平臺(tái)上以低成本實(shí)施。本文提出了新穎的基于深度強(qiáng)化學(xué)習(xí) (RL) 的框架,其聯(lián)合重構(gòu)基站 (BS) 的功能拆分、虛擬化中央單元 (vCU) 和分布式單元 (vDU) 的資源和位置,以及每個(gè) BS 數(shù)據(jù)流的路由。該解決方案框架是使用無(wú)模型多智能體 RL 開發(fā),其中每個(gè)智能體控制每個(gè) BS 的配置。然而,由于 BS 的聯(lián)合配置決策,每個(gè)智能體都具有多維離散動(dòng)作空間。為克服維度災(zāi)難,在每個(gè)智能體上應(yīng)用了帶有動(dòng)作分支的 Dueling 雙 Q 網(wǎng)絡(luò)。此外,代理學(xué)習(xí)其最佳策略以選擇獨(dú)立重新配置 BS 的操作。使用符合 O-RAN 的模型執(zhí)行模擬。研究結(jié)果表明,該框架成功地學(xué)習(xí)了最優(yōu)策略,可通過轉(zhuǎn)移學(xué)習(xí)輕松地應(yīng)用于不同的vRAN系統(tǒng),并顯著節(jié)省了基準(zhǔn)測(cè)試的成本。
論文鏈接:https://arxiv.org/pdf/2208.05282.pdf
標(biāo)題:Fairness Based Energy-Efficient 3D Path Planning of a Portable Access Point: A Deep Reinforcement Learning Approach(The American College of Greece:Nithin Babu | 基于公平的便攜式接入點(diǎn)節(jié)能3D路徑規(guī)劃:一種深度強(qiáng)化學(xué)習(xí)方法)了解詳情
簡(jiǎn)介:本文優(yōu)化了基于無(wú)人機(jī) (UAV) 的便攜式接入點(diǎn) (PAP) 的 3D 軌跡,該接入點(diǎn)為一組地面節(jié)點(diǎn) (GN) 提供無(wú)線服務(wù)。根據(jù) Peukert 效應(yīng),考慮了無(wú)人機(jī)電池的實(shí)用非線性電池放電。提出公平能源效率(FEE)。考慮到解決方案空間的復(fù)雜性,并使用雙延遲深度確定性策略梯度 (TD3) 演員-評(píng)論家深度強(qiáng)化學(xué)習(xí) (DRL) 框架來(lái)學(xué)習(xí)最大化系統(tǒng) FEE 的策略。通過執(zhí)行兩種類型的 RL 訓(xùn)練來(lái)展示該方法的有效性:第一種(離線)方法在整個(gè)訓(xùn)練階段保持 GN 的位置相同;第二種方法通過在每次訓(xùn)練后改變 GN 的位置,將學(xué)習(xí)到的策略推廣到任何 GN 排列。數(shù)值評(píng)估表明,忽略 Peukert 效應(yīng)會(huì)高估 PAP 的飛行時(shí)間,可以通過優(yōu)化選擇 PAP 的飛行速度來(lái)解決。此外,注意到郊區(qū)、城市和密集城市環(huán)境的 FEE 比基線情景分別提高了 88.31%、272.34% 和 318.13%。
論文鏈接:https://arxiv.org/pdf/2208.05265.pdf
標(biāo)題:Robust Reinforcement Learning using Offline Data(德克薩斯A&M大學(xué)(TAMU): Kishan Panaganti | 基于離線數(shù)據(jù)的魯棒強(qiáng)化學(xué)習(xí))了解詳情
簡(jiǎn)介:魯棒強(qiáng)化學(xué)習(xí)(RL)的目標(biāo)是學(xué)習(xí)對(duì)模型參數(shù)的不確定性具有魯棒性的策略。由于模擬器建模誤差、真實(shí)系統(tǒng)動(dòng)態(tài)隨時(shí)間的變化以及對(duì)抗性干擾,參數(shù)不確定性通常出現(xiàn)在許多真實(shí)RL應(yīng)用中。魯棒RL通常表示為最大-最小問題,其目標(biāo)是學(xué)習(xí)針對(duì)不確定性集中最差可能模型的最大值策略。本文提出了魯棒擬合Q迭代(RFQI)的魯棒RL算法,該算法僅使用離線數(shù)據(jù)集來(lái)學(xué)習(xí)最優(yōu)魯棒策略。由于魯棒Bellman算子中存在的所有模型的最小化,因此具有離線數(shù)據(jù)的魯棒RL比其非魯棒對(duì)手具有更大的挑戰(zhàn)性。這給離線數(shù)據(jù)收集、模型優(yōu)化和無(wú)偏估計(jì)帶來(lái)了挑戰(zhàn)。為此,其提出了一種系統(tǒng)的方法來(lái)克服這些挑戰(zhàn),從而產(chǎn)生了RFQI算法。研究證明了RFQI在標(biāo)準(zhǔn)假設(shè)下學(xué)習(xí)一個(gè)接近最優(yōu)的魯棒策略,并在標(biāo)準(zhǔn)基準(zhǔn)問題上證明了其優(yōu)越的性能。
論文鏈接:https://arxiv.org/pdf/2208.05129.pdf
標(biāo)題:Automating DBSCAN via Deep Reinforcement Learning(伊利諾伊大學(xué)芝加哥分校: Yingtong Dou | 通過深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)DBSCAN自動(dòng)化)了解詳情
簡(jiǎn)介:DBSCAN因其簡(jiǎn)單實(shí)用而被廣泛應(yīng)用于許多科學(xué)和工程領(lǐng)域。然而,由于其高靈敏度參數(shù),聚類結(jié)果的準(zhǔn)確性在很大程度上取決于實(shí)踐經(jīng)驗(yàn)。本文首先提出了新穎的深度強(qiáng)化學(xué)習(xí)引導(dǎo)的自動(dòng) DBSCAN 參數(shù)搜索框架,即 DRL-DBSCAN。該框架通過將聚類環(huán)境感知為馬爾可夫決策過程來(lái)模擬調(diào)整參數(shù)搜索方向的過程,其目的是在沒有人工幫助的情況下找到最佳的聚類參數(shù)。DRL-DBSCAN 使用弱監(jiān)督獎(jiǎng)勵(lì)訓(xùn)練策略網(wǎng)絡(luò)通過與集群交互來(lái)學(xué)習(xí)不同特征分布的最優(yōu)聚類參數(shù)搜索策略。此外,還提出了由數(shù)據(jù)規(guī)模驅(qū)動(dòng)的遞歸搜索機(jī)制,以有效且可控地處理大參數(shù)空間。基于提出的四種工作模式,對(duì)五個(gè)人工和真實(shí)世界的數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)。離線和在線任務(wù)的結(jié)果表明,DRL-DBSCAN不僅能持續(xù)將DBSCAN的聚類準(zhǔn)確率分別提高26%和25%,而且可以穩(wěn)定地找到優(yōu)勢(shì)參數(shù),計(jì)算效率高。
論文鏈接:https://arxiv.org/pdf/2208.04537.pdf
標(biāo)題:Generalized Reinforcement Learning: Experience Particles, Action Operator, Reinforcement Field, Memory Association, and Decision Concepts(德克薩斯大學(xué)阿靈頓分校:Po-Hsiang Chiu | 廣義強(qiáng)化學(xué)習(xí):經(jīng)驗(yàn)粒子、動(dòng)作算子、強(qiáng)化場(chǎng)、記憶關(guān)聯(lián)和決策概念)了解詳情
簡(jiǎn)介:學(xué)習(xí)涉及時(shí)變和演化系統(tǒng)動(dòng)力學(xué)的控制策略通常對(duì)主流強(qiáng)化學(xué)習(xí)算法構(gòu)成巨大挑戰(zhàn)。在大多數(shù)標(biāo)準(zhǔn)方法中,動(dòng)作通常被假定為一組剛性、固定的選擇,以預(yù)定義的方式順序應(yīng)用于狀態(tài)空間。標(biāo)準(zhǔn)動(dòng)作表示和動(dòng)作誘導(dǎo)的狀態(tài)轉(zhuǎn)換機(jī)制固有地限制了強(qiáng)化學(xué)習(xí)在復(fù)雜的現(xiàn)實(shí)應(yīng)用中的應(yīng)用,這主要是因?yàn)楫a(chǎn)生的大狀態(tài)空間很難處理,并且缺乏將學(xué)習(xí)策略推廣到狀態(tài)空間未知部分的能力。本文提出了貝葉斯風(fēng)格的廣義強(qiáng)化學(xué)習(xí)框架,首先建立參數(shù)化動(dòng)作模型的概念,以更好地處理不確定性和流體動(dòng)作行為,然后引入強(qiáng)化場(chǎng)的概念,作為物理啟發(fā)的構(gòu)造,通過學(xué)習(xí)代理的工作記憶中保持的“極化經(jīng)驗(yàn)粒子”建立。在強(qiáng)化領(lǐng)域的基礎(chǔ)上,本文進(jìn)一步推廣策略學(xué)習(xí)過程,通過將過去記憶視為具有隱式圖結(jié)構(gòu)來(lái)納入高層決策概念,其中過去記憶實(shí)例(或粒子)與定義的決策之間的相似性相互關(guān)聯(lián),從而,“聯(lián)想記憶”原理可用于增強(qiáng)學(xué)習(xí)代理的世界模型。
論文鏈接:https://arxiv.org/pdf/2208.04822.pdf
標(biāo)題:Versatile Control of Fluid-Directed Solid Objects Using Multi-Task Reinforcement Learning(南開大學(xué): Bo Ren|使用多任務(wù)強(qiáng)化學(xué)習(xí)多功能控制流體定向固體對(duì)象)了解詳情
簡(jiǎn)介:本文提出了基于學(xué)習(xí)的控制器,用于具有耦合流體和固體對(duì)象的高維動(dòng)態(tài)系統(tǒng)。此類系統(tǒng)的動(dòng)態(tài)行為可能因不同的模擬器和受用戶不斷變化的要求而變化的控制任務(wù)而異。此控制器具有高度通用性,無(wú)需重新訓(xùn)練即可適應(yīng)不斷變化的動(dòng)態(tài)行為和多項(xiàng)任務(wù),這是通過結(jié)合兩種訓(xùn)練策略來(lái)實(shí)現(xiàn)的。本文使用元強(qiáng)化學(xué)習(xí)來(lái)通知控制器模擬參數(shù)的變化。并進(jìn)一步設(shè)計(jì)了新穎的任務(wù)表示,它允許控制器通過經(jīng)驗(yàn)回放來(lái)適應(yīng)不斷變化的任務(wù)。本文強(qiáng)調(diào)了此控制器在一系列動(dòng)態(tài)豐富的任務(wù)中的魯棒性和通用性,包括從水池中舀出實(shí)心球,使用流體噴口的空中球雜技,以及零射擊轉(zhuǎn)移到看不見的模擬器和本構(gòu)模型。在所有實(shí)驗(yàn)場(chǎng)景中,該控制器始終優(yōu)于普通的多任務(wù)強(qiáng)化學(xué)習(xí)基線。
論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3554731
標(biāo)題:Digital twin-driven deep reinforcement learning for adaptive task allocation in robotic construction(韓國(guó)中央大學(xué): Dongmin Lee|數(shù)字孿生驅(qū)動(dòng)深度強(qiáng)化學(xué)習(xí)在機(jī)器人工程中的自適應(yīng)任務(wù)分配)了解詳情
簡(jiǎn)介:最近,深度強(qiáng)化學(xué)習(xí) (DRL) 方法已顯示出解決自適應(yīng)任務(wù)分配的潛力。然而,DRL 是否可以解決動(dòng)態(tài)機(jī)器人構(gòu)建環(huán)境中的自適應(yīng)任務(wù)分配問題仍然沒有答案。本文開發(fā)并測(cè)試了數(shù)字孿生驅(qū)動(dòng)的 DRL 學(xué)習(xí)方法,以探索 DRL 在機(jī)器人施工環(huán)境中自適應(yīng)任務(wù)分配的潛力。通過數(shù)字孿生合成感官數(shù)據(jù),并用于模擬 DRL 智能體可以交互的各種動(dòng)態(tài)機(jī)器人建筑工地條件。因此,智能體可以學(xué)習(xí)提高項(xiàng)目績(jī)效的自適應(yīng)任務(wù)分配策略。實(shí)驗(yàn)結(jié)果表明,與基于規(guī)則的命令式模型相比,DRL 模型的任務(wù)分配方法在三個(gè)動(dòng)態(tài)測(cè)試環(huán)境中將構(gòu)建時(shí)間減少了 36%。該方法有望成為動(dòng)態(tài)機(jī)器人構(gòu)建環(huán)境中自適應(yīng)任務(wù)分配的有效工具。并可以幫助建筑機(jī)器人應(yīng)對(duì)不確定性,并通過有效地優(yōu)先分配任務(wù)來(lái)最終提高建筑項(xiàng)目的績(jī)效。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S1474034622001689#!
標(biāo)題:Reinforcement learning-based optimal operation of ash deposit removal system to improve recycling efficiency of biomass for CO2 reduction(韓國(guó)工業(yè)技術(shù)研究院: Jonghun Lim|基于強(qiáng)化學(xué)習(xí)的除灰系統(tǒng)優(yōu)化運(yùn)行提高生物質(zhì)循環(huán)利用效率以減少二氧化碳排放)了解詳情
簡(jiǎn)介:二氧化碳回收的生物質(zhì)燃燒會(huì)產(chǎn)生大量灰燼沉積物,從而降低整體工藝效率。回收鍋爐一般采用除灰系統(tǒng)(ADRS),但ADRS運(yùn)行效率低,生物質(zhì)的回收效率降低,導(dǎo)致二氧化碳排放量增加。本文提出了基于強(qiáng)化學(xué)習(xí)優(yōu)化的 ADRS 操作,以提高生物質(zhì)對(duì)二氧化碳的回收效率。1)收集實(shí)時(shí)過程運(yùn)行數(shù)據(jù)(即煙氣、水和蒸汽的溫度),并開發(fā)了計(jì)算流體動(dòng)力學(xué)模型來(lái)預(yù)測(cè)過熱器段的煙氣溫度。2) 使用收集到的數(shù)據(jù)計(jì)算傳熱率的降低,以定義獎(jiǎng)勵(lì)更新矩陣。3)基于定義的獎(jiǎng)勵(lì)更新矩陣開發(fā)了一種改進(jìn)的Q-learning算法,并使用該算法推導(dǎo)出Q矩陣,預(yù)測(cè)在給定狀態(tài)(即每個(gè)吹灰位置)執(zhí)行給定動(dòng)作(即吹灰)的預(yù)期動(dòng)態(tài)回報(bào)(即清除灰沉積物的優(yōu)先級(jí))的函數(shù)。4) 使用得到的 Q 矩陣,得出了最優(yōu)的操作順序。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0959652622031845
標(biāo)題:Offline Reinforcement Learning with Representations for Actions(中國(guó)科學(xué)院自動(dòng)化研究所: Xingzhou Lou|具有行動(dòng)表示的離線強(qiáng)化學(xué)習(xí))了解詳情
簡(jiǎn)介:普遍應(yīng)用的離線強(qiáng)化學(xué)習(xí)(RL)方法將策略限制在離線數(shù)據(jù)集支持的區(qū)域內(nèi),以避免分布偏移問題。其忽略了數(shù)據(jù)集分布之外的潛在高獎(jiǎng)勵(lì)行為。為此,本文提出了從離線數(shù)據(jù)集推廣到分布外(OOD)動(dòng)作。其設(shè)計(jì)了新穎的動(dòng)作嵌入模型來(lái)幫助推斷動(dòng)作的效果。結(jié)果表明,此價(jià)值函數(shù)在動(dòng)作空間上達(dá)到了更好的泛化,并進(jìn)一步緩解了高估 OOD 動(dòng)作引起的分布偏移。本文對(duì)價(jià)值函數(shù)在動(dòng)作空間上的泛化能力的改進(jìn)給出了信息論的解釋。在 D4RL 上的實(shí)驗(yàn)表明,與以前的離線 RL 方法相比,該模型提高了性能,尤其是當(dāng)離線數(shù)據(jù)集的體驗(yàn)良好時(shí)。并進(jìn)一步的研究并驗(yàn)證了價(jià)值函數(shù)對(duì) OOD 動(dòng)作的泛化得到了改進(jìn),這增強(qiáng)了本文提出的動(dòng)作嵌入模型的有效性。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0020025522009033#!
標(biāo)題:Opportunistic maintenance scheduling with deep reinforcement learning(英飛凌: Alexander Valet|具有深度強(qiáng)化學(xué)習(xí)的機(jī)會(huì)性維護(hù)調(diào)度)了解詳情
簡(jiǎn)介:先進(jìn)制造工藝的高度復(fù)雜性以及制造設(shè)備的高投資成本使得維護(hù)調(diào)度的集成成為一項(xiàng)具有挑戰(zhàn)性但同樣至關(guān)重要的任務(wù)。通過考慮維護(hù)措施的機(jī)會(huì)成本,機(jī)會(huì)性維護(hù)調(diào)度具有提高運(yùn)營(yíng)績(jī)效的潛力。同時(shí),強(qiáng)化學(xué)習(xí)(RL)已被證明能夠處理復(fù)雜的調(diào)度任務(wù)。因此,應(yīng)用RL建立一個(gè)集成的維護(hù)調(diào)度模型,以在單個(gè)決策支持系統(tǒng)中考慮訂單調(diào)度和維護(hù)調(diào)度。通過使用離散事件仿真模擬了半導(dǎo)體前端晶圓制造的真實(shí)用例。在模擬場(chǎng)景中,集成調(diào)度和維護(hù)調(diào)度的性能受適用于機(jī)會(huì)維護(hù)和強(qiáng)化學(xué)習(xí)的復(fù)雜新穎啟發(fā)式算法的調(diào)節(jié)。結(jié)果表明,RL 策略能夠通過包含內(nèi)部和外部機(jī)會(huì)主義機(jī)會(huì)來(lái)學(xué)習(xí)有競(jìng)爭(zhēng)力的聯(lián)合調(diào)度策略。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0278612522001285
標(biāo)題:GPDS: A multi-agent deep reinforcement learning game for anti-jamming secure computing in MEC network(中南大學(xué): Miaojiang Chen|GPDS:用于 MEC 網(wǎng)絡(luò)中抗干擾安全計(jì)算的多智能體深度強(qiáng)化學(xué)習(xí)游戲)了解詳情
簡(jiǎn)介:移動(dòng)邊緣計(jì)算(MEC)網(wǎng)絡(luò)的開放性使其容易受到惡意干擾器的干擾攻擊,從而危及移動(dòng)用戶的通信質(zhì)量。本文考慮了基于時(shí)變信道的新型防御策略,并將惡意干擾對(duì)抗過程描述為多用戶智能博弈模型。由于干擾模型和干擾策略未知,提出了深度強(qiáng)化學(xué)習(xí)多用戶隨機(jī)博弈與后決策狀態(tài)(命名為GPDS)來(lái)智能抵抗智能攻擊者。移動(dòng)用戶需要從阻塞信道的狀態(tài)中獲取通信質(zhì)量、頻譜可用性和干擾策略。最優(yōu)決策策略的獎(jiǎng)勵(lì)定義為最大通道吞吐量的期望值,通過納什均衡得到潛在的最優(yōu)通道選擇策略。GPDS訓(xùn)練后,移動(dòng)用戶可以學(xué)習(xí)多步訓(xùn)練后的最優(yōu)頻道切換策略。實(shí)驗(yàn)結(jié)果表明,與 SOTA 算法相比,GPDS 具有更好的抗干擾性能。通過納什均衡得到潛在的最優(yōu)渠道選擇策略。GPDS訓(xùn)練后,移動(dòng)用戶可以學(xué)習(xí)多步訓(xùn)練后的最優(yōu)頻道切換策略。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0957417422015044#
標(biāo)題:Q-learning-based model predictive variable impedance control for physical human-robot collaboration(提契諾大學(xué): Loris Roveda|用于物理人機(jī)協(xié)作的基于 Q 學(xué)習(xí)的模型預(yù)測(cè)可變阻抗控制)了解詳情
簡(jiǎn)介:在許多情況下越來(lái)越需要物理人機(jī)協(xié)作。其能夠識(shí)別人類的意圖,并保證沿預(yù)期運(yùn)動(dòng)方向的安全和自適應(yīng)行為。為此,本文提出了基于 Q-Learning 的模型預(yù)測(cè)可變阻抗控制 (Q-LMPVIC) 來(lái)協(xié)助操作員完成物理人機(jī)協(xié)作 (pHRC) 任務(wù)。笛卡爾阻抗控制回路旨在實(shí)現(xiàn)解耦的順應(yīng)機(jī)器人動(dòng)力學(xué)。阻抗控制參數(shù)(即,設(shè)定點(diǎn)和阻尼參數(shù))然后在線優(yōu)化,以最大限度地提高 pHRC 的性能。為此,本文設(shè)計(jì)了一組神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)人機(jī)交互動(dòng)力學(xué)的建模,同時(shí)捕捉相關(guān)的不確定性。然后,模型預(yù)測(cè)控制器 (MPC) 使用派生的建模,并通過 Lyapunov 約束增強(qiáng)穩(wěn)定性保證。MPC 是通過使用 Q-Learning 方法來(lái)解決的,該方法在其在線實(shí)現(xiàn)中使用 actor-critic 算法來(lái)近似精確的解決方案。事實(shí)上,Q-learning 方法提供了一個(gè)準(zhǔn)確且高效的解決方案(在計(jì)算時(shí)間和資源方面)。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0004370222001114
標(biāo)題:Lifelong reinforcement learning with temporal logic formulas and reward machines(中山大學(xué): Xuejing Zheng|使用時(shí)序邏輯公式和獎(jiǎng)勵(lì)機(jī)器進(jìn)行終身強(qiáng)化學(xué)習(xí))了解詳情
簡(jiǎn)介:使用高級(jí)思想或知識(shí)不斷學(xué)習(xí)新任務(wù)是人類的一項(xiàng)關(guān)鍵能力。本文提出了使用順序線性時(shí)間邏輯公式和獎(jiǎng)勵(lì)機(jī)(LSRM) 的終身強(qiáng)化學(xué)習(xí),這使智能體能夠利用先前學(xué)習(xí)的知識(shí)來(lái)加速邏輯指定任務(wù)的學(xué)習(xí)。為了更靈活地規(guī)范任務(wù),首先引入順序線性時(shí)序邏輯(SLTL),它是對(duì)現(xiàn)有線性時(shí)序邏輯(LTL)形式語(yǔ)言的補(bǔ)充。再應(yīng)用獎(jiǎng)勵(lì)機(jī)器(RMs) 為使用高級(jí)事件編碼的任務(wù)利用結(jié)構(gòu)獎(jiǎng)勵(lì)功能,并提出 RMs 的自動(dòng)擴(kuò)展和對(duì)任務(wù)的有效知識(shí)轉(zhuǎn)移,以實(shí)現(xiàn)持續(xù)的終身學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,LSRM 通過利用 SLTL 的任務(wù)分解和終身學(xué)習(xí)過程中 RM 上的知識(shí)轉(zhuǎn)移,優(yōu)于從頭開始學(xué)習(xí)目標(biāo)任務(wù)的方法。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0950705122008358
標(biāo)題:Graph and Dynamics Interpretation in Robotic Reinforcement Learning Task(杭州電子科技大學(xué): Zonggui Yao|機(jī)器人強(qiáng)化學(xué)習(xí)任務(wù)中的圖形和動(dòng)力學(xué)解釋)了解詳情
簡(jiǎn)介:機(jī)器人控制任務(wù)通常通過強(qiáng)化學(xué)習(xí)方法以循環(huán)試驗(yàn)和學(xué)習(xí)的方式解決。典型問題之一是通過機(jī)器人不同部位的力傳遞,機(jī)器人動(dòng)力學(xué)量的計(jì)算容易被忽略。為此,本文建議使用力傳遞圖來(lái)解釋機(jī)器人運(yùn)動(dòng)遵循的力傳遞機(jī)制,并用二次模型估計(jì)機(jī)器人運(yùn)動(dòng)的動(dòng)力學(xué)量。故本文提出了基于模型的機(jī)器人控制強(qiáng)化學(xué)習(xí)框架,其中動(dòng)態(tài)模型包括兩個(gè)組件,即圖卷積網(wǎng)絡(luò)(GCN)和兩層感知(TLP)網(wǎng)絡(luò)。GCN 用作力傳遞圖的參數(shù)估計(jì)器和結(jié)構(gòu)特征提取器。TLP 網(wǎng)絡(luò)近似于應(yīng)該能夠估計(jì)機(jī)器人運(yùn)動(dòng)的動(dòng)力學(xué)量的二次模型。并將所提出的框架命名為強(qiáng)化學(xué)習(xí)方法中動(dòng)態(tài)估計(jì)的GCN(簡(jiǎn)稱GDRL)。該方法解釋了通過機(jī)器人肢體傳遞機(jī)器人力的內(nèi)在機(jī)制,因此該模型具有高度的可解釋性。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S0020025522009276
如果你正在從事或關(guān)注 強(qiáng)化學(xué)習(xí)研究、實(shí)現(xiàn)與應(yīng)用,歡迎加入“智源社區(qū)-強(qiáng)化學(xué)習(xí)-交流群”。在這里,你可以:
學(xué)習(xí)前沿知識(shí)、求解疑難困惑
分享經(jīng)驗(yàn)心得、展示風(fēng)貌才華
參與專屬活動(dòng)、結(jié)識(shí)研究伙伴
掃描下方二維碼,加入強(qiáng)化學(xué)習(xí)興趣群。
總結(jié)
以上是生活随笔為你收集整理的《强化学习周刊》第58期:RFQI、DRL-DBSCAN广义强化学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: S32V234 Camera 信号波形状
- 下一篇: 非常可爱的紫色动态星空月亮网站404页面