當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

多智能体强化学习综述-Lucian Busoniu

發(fā)布時(shí)間：2023/12/14 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了多智能体强化学习综述-Lucian Busoniu 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Multi-Agent Reinforcement Learning: A Survey
Lucian Busoniu Robert Babuska Bart De Schutter，2006

文章目錄

1. 背景知識(Backgrounds)
- A. 單智能體強(qiáng)化學(xué)習(xí)
- B. 多智能體強(qiáng)化學(xué)習(xí)
2. 多智能體學(xué)習(xí)目標(biāo)(Multi-Agent Learning Goal)
3. 多智能體強(qiáng)化學(xué)習(xí)算法簡介(Multi-Agent Reinforcement Learning Algorithms)
- A. 完全合作任務(wù)
- B. 完全競爭任務(wù)
- C. 混合任務(wù)
4. 結(jié)論與展望（Conclusion and Future Perspectives）

這篇文章對多智能體強(qiáng)化學(xué)習(xí)（MARL）的背景，目的，代表性的算法進(jìn)行了調(diào)研。

多智能強(qiáng)化學(xué)習(xí)算法分類圖下圖。

1. 背景知識(Backgrounds)

A. 單智能體強(qiáng)化學(xué)習(xí)

談多智能體強(qiáng)化學(xué)習(xí)，首先需要有一般強(qiáng)化學(xué)習(xí)的概念，一般的強(qiáng)化學(xué)習(xí)可以參考博文1和博文2。單智能體情況下，使用馬爾可夫決策過程（Markov Decision Process, MDP）來建模:

$\rho>$

其中， $X$ 是狀態(tài)空間， $U$ 是動作空間， $f$ 是轉(zhuǎn)移概率分布， $ρ\rho$ 是獎勵函數(shù)。 $k$ 時(shí)刻的長期獎勵

$Rk=∑j=0∞γjrk+j+1(1)R_k=\sum_{j=0}^{\infty}\gamma^j r_{k+j+1}\tag{1}$

在給定策略 $h$ 下的狀態(tài)動作函數(shù)為 $Q^h(x,u)=E\{R_k|x_k=x,u_k=u,h\}$ ，求解最優(yōu)策略 $h^*$ 來最大化 $Q$ 函數(shù)。使用Q-learning算法求解：

$Qk+1(xk,uk)=Qk(xk,uk)+α[rk+1+γmax?u′Qk+1(xk+1,u′)?Qk(xk,uk)](2)Q_{k+1}(x_k,u_k)=Q_{k}(x_k,u_k)+\alpha[r_{k+1}+\gamma\max_{u'}{Q_{k+1}(x_{k+1},u')}-Q_{k}(x_k,u_k)]\tag{2}$

更多單智能體深度強(qiáng)化學(xué)習(xí)這部分內(nèi)，可以參考我寫的入門專欄：

《深度強(qiáng)化學(xué)習(xí)極簡入門》

B. 多智能體強(qiáng)化學(xué)習(xí)

隨機(jī)博弈（stochastic game, SG）,或稱馬爾可夫博弈可以定義為

$<A,X,{Ui}i∈A,f,{ρi}i∈A><A,X,\{U_i\}_{i\in A},f, \{\rho_i\}_{i\in A}>$

其中 $A=\{1,...,n\}$ 表示 $n$ 個(gè)智能體， $X$ 是環(huán)境狀態(tài)空間， ${Ui}i∈A\{U_i\}_{i \in A}$ 是動作空間，則聯(lián)合動作集合 $U=×i∈AUiU=\times_{i\in A}U_i$ ， $\times U \times X \to [0,1]$ 是狀態(tài)轉(zhuǎn)移概率分布， $ρi:X×U×X→R,i∈A\rho_i:X \times U \times X \to \mathbb{R},i\in A$ 是獎勵函數(shù)。

此時(shí)的轉(zhuǎn)移概率、即時(shí)獎勵、長期回報(bào)都依賴聯(lián)合動作 $uk=[u1,k,...,un,k]?u_k=[u_{1,k},...,u_{n,k}]^{\top}$ ， $uk∈Uu_k\in U$ ， $ui,k∈Uiu_{i,k}\in U_i$ 。此時(shí)的策略也是聯(lián)合策略 $h=\{h_i\}$ ， $hi:X×Ui→[0,1]h_i:X \times U_i \to [0,1]$ 。每個(gè)智能體的Q函數(shù)依賴聯(lián)合動作和聯(lián)合策略 $Qih=X×U→RQ_i^h=X\times U \to \mathbb{R}$ 。

如果 $X=?X=\varnothing$ ，SG簡化為靜態(tài)博弈。當(dāng) $ρ1=?=ρn\rho_1=\cdots=\rho_n$ ，SG是完全合作的；當(dāng) $n=2,ρ1=?ρ2n=2,\rho_1=-\rho_2$ ，SG是完全競爭的。靜態(tài)博弈下，納什均衡（Nash Equilibrum）是對對手的最佳策略。

合作的目的就是確保所有的智能體合理地選擇期望聯(lián)合策略中自己的部分。在多均衡的博弈中，合作歸結(jié)為均衡的選擇，智能體需要不斷的選擇同一均衡中自己的部分。

2. 多智能體學(xué)習(xí)目標(biāo)(Multi-Agent Learning Goal)

完全合作的隨機(jī)博弈，可以通過最大化聯(lián)合回報(bào)來解決。但是在其他的情況下，確定一個(gè)MALRL的目標(biāo)并不容易，因?yàn)橹悄荏w的回報(bào)函數(shù)彼此之間相互關(guān)聯(lián)，難以獨(dú)立最大化。收斂到均衡點(diǎn)是多智能體學(xué)習(xí)的基本要求，并且納什均衡是用的最多的。

聚焦穩(wěn)定性的文獻(xiàn)一般認(rèn)為智能體之間常常是獨(dú)立的。而考慮適應(yīng)能力的話，一般就會考慮其他智能體的行為。如果只考慮穩(wěn)定性不考慮收斂性，那么就變成對其他智能體的跟蹤了。

下表對多智能體強(qiáng)化學(xué)習(xí)算法進(jìn)行了分類

3. 多智能體強(qiáng)化學(xué)習(xí)算法簡介(Multi-Agent Reinforcement Learning Algorithms)

這里將涉及到的算法按任務(wù)進(jìn)行分類：完全合作、完全競爭、混合任務(wù)。

A. 完全合作任務(wù)

前面說過，完全合作時(shí) $ρ1=?=ρn\rho_1=\cdots=\rho_n$ ，如果存在控制空心，學(xué)習(xí)目標(biāo)簡化為MDP，動作空間為聯(lián)合動作空間，此時(shí)的Q學(xué)習(xí)形式為：

$Qk+1(xk,uk)=Qk(xk,uk)+α[rk+1+γmax?u′Qk+1(xk+1,u′)?Qk(xk,uk)](3)Q_{k+1}(x_k,\boldsymbol{u}_k)=Q_{k}(x_k,\boldsymbol{u}_k)+\alpha[r_{k+1}+\gamma\max_{\boldsymbol{u}'}{Q_{k+1}(x_{k+1},\boldsymbol{u}')}-Q_{k}(x_k,\boldsymbol{u}_k)]\tag{3}$

如果所有的智能體都是獨(dú)立決策的，并且都采用貪婪策略，協(xié)作問題就會出現(xiàn)，即使所有的智能體都使用相同的算法并行學(xué)習(xí)共同的最優(yōu)Q函數(shù)。理論上他們可以使用貪婪策略最大化共同回報(bào)，但是貪婪的動作選擇機(jī)制以隨機(jī)的方式打破了協(xié)作，最終導(dǎo)致聯(lián)合動作是次優(yōu)的。

無需協(xié)作模型
Team Q-learning¹假設(shè)最優(yōu)聯(lián)合動作是唯一的（實(shí)際很少發(fā)生），因此原來的最優(yōu)貝爾曼方程可以直接使用。Distributed Q-learning²沒有假設(shè)協(xié)作的條件，但是這種方法只在確定性的場景下有效。每個(gè)智能體 $i$ 只通過它自己的動作來維護(hù)一個(gè)策略 $h_i(x)$ 和一個(gè)局部Q函數(shù) $Q_i(x,u_i)$ ，更新方向都是朝著怎加 $Q_i$ 進(jìn)行的：

$Qi,k+1(xk,ui.k)=max?{Qi,k(xk,ui,k),rk+1+γmax?Qi,k(xk+1,ui)}(4)Q_{i,k+1}(x_k,u_{i.k})=\max\{Q_{i,k}(x_k,u_{i,k}),r_{k+1}+\gamma \max Q_{i,k}(x_{k+1},u_i)\}\tag{4}$
$hi,k+1={ui,kifmax?uiQi,k+1(xk+1,ui)≠max?uiQi,k(xk+1,ui)hi,k(xk)otherwise(5)h_{i,k+1}=\begin{cases}u_{i,k} & \text{if}\quad\max_{u_i}Q_{i,k+1}(x_{k+1},u_i) \neq \max_{u_i}Q_{i,k}(x_{k+1},u_i) \\h_{i,k}(x_k) & \text{otherwise}\end{cases}\tag{5}$

在 $Q_{i,0}=0$ 以及共同獎勵為正的情況下，可以證明策略會收斂到最佳聯(lián)合粗略 $h?\boldsymbol{h}^*$
直接協(xié)作方法
在隨機(jī)選擇動作的時(shí)候有合作或者協(xié)商

Social conventions³和roles⁴會限制智能體的動作選擇
Coordination graph簡化協(xié)作，如果全局Q函數(shù)可以加性的分解為局部Q函數(shù)⁵-⁶
在協(xié)商選擇動作的過程中需要通信

非直接協(xié)作方法
這類方法使動作選擇朝著產(chǎn)出更大的值得方向進(jìn)行，從而控制智能體走向協(xié)作。

聯(lián)合動作學(xué)習(xí)（Joint Action Learner, JAL）⁷經(jīng)驗(yàn)地使用從別的智能體行為學(xué)習(xí)到的模型。
頻率最大Q值算法主要考慮那些在過去產(chǎn)生好的值的動作出現(xiàn)的頻率。
最優(yōu)動態(tài)學(xué)習(xí)（Optimal Adaptive Learning, OAL）⁸，朝著最近被選擇的納什均衡進(jìn)行。使用其他的方法確保最優(yōu)納什均衡最終能夠達(dá)到。
JAL和FMQ都是靜態(tài)博弈。

備注以及一些開放問題
方法的隊(duì)員之間是相互獨(dú)立的，而非直接協(xié)作方法是隊(duì)員已知的。直接協(xié)作方法在只使用公共知識的情況下隊(duì)員之間是相互獨(dú)立的，在有協(xié)商的情況下是隊(duì)員已知的。

為了提高算法的實(shí)用能力，我們需要弄清楚算法適用的規(guī)模以及在不確定或者部分可觀測下的健壯性。免協(xié)作方法特備容易受到不確定觀測的影響。

交流是MARL中解決協(xié)作問題最直接有效的方法，而這部分的研究目前不是很充分。

B. 完全競爭任務(wù)

在完全競爭博弈下（兩個(gè)智能體， $ρ1=?ρ2\rho_1=-\rho_2$ ），使用了最大最小值的概念：假設(shè)對手會怎么做會造成我的收益最小，那么把這個(gè)最小收益最大化。這種思想催生了像 $minimax?Q\text{minimax}-Q$ 這樣的算法:

$h1,k(xk,?)=argm1(Qk,xk)(6)h_{1,k}(x_k,\cdot)=\text{arg}{\bold{m1}}(Q_k,x_k)\tag{6}$
$Qk+1(xk,u1,k,u2,k)=Qk(xk,u1,k,u2,k)+α[rk+1+γm1(Qk,xk+1)?Qk(xk,u1,k,u2,k)](7)Q_{k+1}(x_k,u_{1,k},u_{2,k})=Q_{k}(x_k,u_{1,k},u_{2,k})+\alpha[r_{k+1}+\gamma \bold{m1}(Q_{k},x_{k+1})-Q_{k}(x_k,u_{1,k},u_{2,k})]\tag{7}$
其中 $m1\bold{m1}$ 是智能體1的最小最大值：
$m1(Q,x)=max?h1(x,?)min?u2∑u1h1(x,u1)Q(x,u1,u2)(8)\bold{m1}(Q,x)=\max_{h_1(x,\cdot)}\min_{u_2}\sum_{u_1}h_1(x,u_1)Q(x,u_1,u_2)\tag{8}$

在上面的算法中Q值沒有使用智能體作為下標(biāo)索引，因?yàn)榉匠屉[含的假設(shè)了 $Q_1=Q=-Q_2$ 。minmax-Q是真正的與對手無關(guān)，因?yàn)榧词棺钚∽畲蠼庥泻芏喾桨缚梢赃_(dá)到，每一種都至少會達(dá)到最小最大值這一回報(bào)，并且與對手怎么做無關(guān)。

如果智能體有一個(gè)關(guān)于對手的模型（對手已知），實(shí)際上可以達(dá)到比最小最大值更優(yōu)的回報(bào)。對手模型可以使用 $M^*$ 這樣的算法學(xué)習(xí)獲得⁹。

C. 混合任務(wù)

一般情況下，獎勵函數(shù)不會有什么限制，但是多智能體情況下會產(chǎn)生興趣沖突，比如競爭資源等。這種情況下，像均衡這樣的博弈理論會產(chǎn)生很大的影響。在多均衡的博弈中，智能體需要持續(xù)選擇同一均衡中自己對應(yīng)的部分。

接下來先介紹靜態(tài)重復(fù)的博弈，然后介紹動態(tài)博弈。

1）重復(fù)博弈

智能體跟蹤方法（Agent-tracking）
智能體可知方法（Agent-aware）
其他一些問題

2）動態(tài)隨機(jī)博弈

混合動態(tài)任務(wù)對應(yīng)于無限制的隨機(jī)博弈，此時(shí)需要考慮所有的MARL問題：延遲獎勵、非平穩(wěn)智能體、沖突目標(biāo)等。

單智能體強(qiáng)化學(xué)習(xí)（Single-agent RL）應(yīng)用于MARL存在的問題
MARL的非平穩(wěn)特性會導(dǎo)致單智能體RL大部分算法失效，這些算法沒有考慮其他智能體的行為影響（智能體只愛），智能體之間智能體之間會產(chǎn)生嚴(yán)重的干擾。盡管有局限性，但是因?yàn)楸容^簡單也有不少應(yīng)用。這些應(yīng)用中經(jīng)常將其他智能體的信息編碼輸入智能體中，相當(dāng)于間接的是基于別的智能體在做決策。
智能體獨(dú)立方法（Agent-independent）
這類算法一般都基于Q-learning，并且使用博弈理論求解器求解隨機(jī)博弈各個(gè)階段的策略和值¹⁰¹¹。在 $k$ 時(shí)刻：

$hi,k(x,?)=solvei{Q?,k(xk,?)}(9)h_{i,k}(x,\cdot)=\bold{solve}_i\{Q_{\cdot,k}(x_k,\cdot)\}\tag{9}$
$Qi,k+1(xk,uk)=Qi,k(xk,uk)+α[ri,k+1+γ?evali{Q?,k(xk+1,?)}?Qi,k(xk,uk)](10)Q_{i,k+1}(x_k,\boldsymbol{u}_k)=Q_{i,k}(x_k,\boldsymbol{u}_k)+\alpha[r_{i,k+1}+\gamma \cdot\bold{eval}_i\{Q_{\cdot,k}(x_{k+1},\cdot)\}-Q_{i,k}(x_k,\boldsymbol{u}_k)]\tag{10}$

其中， $solvei\bold{solve}_i$ 返回第 $i$ 個(gè)智能體對應(yīng)部分的均衡（策略）， $evali\bold{eval}_i$ 給出使用此均衡的期望回報(bào)。目標(biāo)設(shè)置為在每一個(gè)狀態(tài)收斂到均衡。在更新過程中會用到包含所有智能體的一個(gè)Q值表，所有智能體使用相同的算法，所有的動作、獎勵都是可觀測的。

舉例 $solve\bold{solve}$ 和 $eval\bold{eval}$ ，納什Q學(xué)習(xí)(Nash Q-learning)：

${evali{Q?,k(x,?)}=Vi(x,NE{Q?,k(x,?)})solvei{Q?,k(x,?)}=NEi{Q?,k(x,?)}(11)\begin{cases}\bold{eval}_i\{Q_{\cdot,k}(x,\cdot)\}=V_i(x,\bold{NE}\{Q_{\cdot,k}(x,\cdot)\})\\\bold{solve}_i\{Q_{\cdot,k}(x,\cdot)\}=\bold{NE}_i\{Q_{\cdot,k}(x,\cdot)\}\end{cases}\tag{11}$

其中 $NE\bold{NE}$ 表示計(jì)算納什均衡， $NEi\bold{NE}_i$ 表示均衡中智能體的第 $i$ 個(gè)策略。 $Vi(x,NE{Q?,k(x,?)})V_i(x,\bold{NE}\{Q_{\cdot,k}(x,\cdot)\})$ 表示第 $i$ 個(gè)智能體在均衡條件下在狀態(tài) $x$ 能獲得的反饋期望。Correlated Q-learning¹²以及asymmetric Q-learning工作原理類似，基于相關(guān)或者Stackelberg（領(lǐng)航-追隨）均衡。在symmetric-Q里面，追隨者不需要建立領(lǐng)航者的Q值表，但是領(lǐng)航者必須要知道追隨者的動作選擇。

智能體跟蹤方法（Agent-tracking）
智能體跟蹤這類算法會適應(yīng)學(xué)習(xí)到的其他智能體的非平穩(wěn)策略模型而不考慮收斂性。動作必須是可觀測的。Non-Stationary Converging Policies（NSCP）算法計(jì)算一個(gè)模型的最佳反應(yīng)并用其來估計(jì)值函數(shù)¹³。
智能體可知方法（Agent-aware）
智能體可知方法一般會考慮收斂的問題。Win-or-Learn-Fast Policy Hill-Climbing (WolF-PHC)算法在WoLF-IGA中將基本的Q學(xué)習(xí)和梯度策略方法組合¹⁴：

$hi,k+1(xk,ui)=hi,k(xk,ui)+{δi,kifui=arg?max?u~iQi,k+1(xk,u~i)?δi,k∣Ui∣?1otherwise(12)h_{i,k+1}(x_k,u_i)=h_{i,k}(x_k,u_i)+\begin{cases}\delta_{i,k}&\text{if}\quad u_i=\arg\max_{\tilde{u}_i}Q_{i,k+1}(x_k,\tilde{u}_i)\\ -\frac{\delta_{i,k}}{|U_i|-1}&\text{otherwise}\end{cases}\tag{12}$

當(dāng)智能體要輸?shù)臅r(shí)候梯度步長 $δi,k\delta_{i,k}$ 為 $δl\delta_\text{l}$ ，要贏的時(shí)候?yàn)?span id="ozvdkddzhkzd" class="katex--inline"> $δw\delta_\text{w}$ ， $δl>δw\delta_\text{l}>\delta_\text{w}$ 。贏的標(biāo)準(zhǔn)可以是當(dāng)前策略略和平均策略的比較(WoLF-PHC)或者是策略的二階差分(PD-WoLF¹⁵)。基本原理就是在要輸?shù)臅r(shí)候要盡快逃離目前的形式，而在贏的時(shí)候要小心的調(diào)整來達(dá)到收斂。

Extended Optimal Response (EXORL) 在雙智能體任務(wù)中，策略朝著最小化另一個(gè)智能體獎勵的方向更新。

Environment-Independent Reinforcement Acceleration (EIRA) 不對環(huán)境做任何假設(shè)，這一點(diǎn)來說，這個(gè)算法十分通用，但是也使得它無法利用任務(wù)的特殊結(jié)構(gòu)。

一些說明
博弈論傾向于在動態(tài)情況下使用靜態(tài)（階段方式）的解決方案。但是階段式的解決方案在在混合任務(wù)中是否適用現(xiàn)在沒有定論。

混合隨機(jī)博弈中，一般認(rèn)為智能體是自利的。因此，合作協(xié)同技術(shù)，像溝通、社會約定、規(guī)則等都沒有研究。然而在很多混合任務(wù)中，智能體是相互合作的，只在某些情況下存在競爭，比如競爭同一個(gè)資源。在這樣的任務(wù)中，合作協(xié)同方式是一個(gè)可行的選擇。

許多混合隨機(jī)博弈算法都受限于規(guī)模和不完整觀測，而不完整觀測對智能體獨(dú)立的方法影響較大。

4. 結(jié)論與展望（Conclusion and Future Perspectives）

前面回顧了多智能體強(qiáng)化學(xué)習(xí)面臨的挑戰(zhàn)，以及針對這些挑戰(zhàn)提出的方法，我們對這些方法進(jìn)行了總結(jié)并給出了自己的思考。接下來給出一些更一般的問題。

首先，階段性地使用博弈論在環(huán)境和智能體都是動態(tài)變化的場景下不是最合適的。目前為止（本文發(fā)表于2006年），基于博弈論的分析僅僅用在動態(tài)學(xué)習(xí)里面。

我們希望學(xué)習(xí)過程是穩(wěn)定的，這樣智能體的行為更易于控制和分析。我們也希望智能體可以自適應(yīng)于其他智能體，因?yàn)樗鼈兊膭討B(tài)特性往往是難以預(yù)測的。這樣一來，MARL算法不應(yīng)該僅僅是智能體獨(dú)立或者僅僅是智能體跟蹤。控制論里面的魯棒理論可以將穩(wěn)定性和適應(yīng)性整合為統(tǒng)一的目標(biāo)。如果一個(gè)學(xué)習(xí)算法可以做到對其他智能體的非平穩(wěn)特性魯棒穩(wěn)定，那么就能在其他智能體行為有限變化的情況下收斂。

從實(shí)用的角度出發(fā)，現(xiàn)實(shí)的學(xué)習(xí)目標(biāo)出了通常的非對稱要求外，還應(yīng)該包含暫態(tài)表現(xiàn)的邊界，如期望達(dá)到相應(yīng)水平的最大時(shí)間、暫態(tài)表現(xiàn)的下界等。這些方面已經(jīng)有一些研究了¹⁶。

認(rèn)為機(jī)器學(xué)習(xí)、博弈論以及控制論的相互結(jié)合可以大大促進(jìn)MARL的發(fā)展。

M. L. Littman, Value-function reinforcement learning in Markov games, Journal of Cognitive Systems Research, vol. 2, pp. 55-66, 2001. ??

M. Lauer and M. Riedmiller, An algorithm for distributed reinforcement learning in cooperative multi-agent systems, in Proceedings Seventeenth International Conference on Machine Learning (ICML-00), Stanford University, US, 29 June 2 July 2000, pp. 535-542. ??

C. Boutilier, Planning, learning and coordination in multiagent decision processes, in Proceedings Sixth Conference on Theoretical Aspects of Rationality and Knowledge (TARK-96), De Zeeuwse Stromen, The Netherlands, 17-20 March 1996, pp. 195-210. ??

M. T. J. Spaan, N. Vlassis, and F. C. A. Groen, High level coordination of agents based on multiagent Markov decision processes with roles, in Workshop on Cooperative Robotics, 2002 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS-02), Lausanne, Switzerland, 1 October 2002, pp. 66-73. ??

C. Guestrin, M. G. Lagoudakis, and R. Parr, Coordinated reinforcement learning, in Proceedings Nineteenth International Conference on Machine Learning (ICML-02), Sydney, Australia, 812 July 2002, pp. 227-234. ??

J. R. Kok, M. T. J. Spaan, and N. Vlassis, Non-communicative multirobot coordination in dynamic environment, Robotics and Autonomous Systems, vol. 50, no. 2-3, pp. 99-114, 2005. ??

C. Claus and C. Boutilier, The dynamics of reinforcement learning in cooperative multiagent systems, in Proceedings 15th National Conference on Articial Intelligence and 10th Conference on Innovative Applications of Articial Intelligence (AAAI/IAAI-98), Madison, US, 26-30 July 1998, pp. 746-752. ??

S. Kapetanakis and D. Kudenko, Reinforcement learning of coordination in cooperative multi-agent systems, in Proceedings 18th National Conference on Articial Intelligence and 14th Conference on Innovative Applications of Articial Intelligence (AAAI/IAAI-02), Menlo Park, US,
28 July 1 August 2002, pp. 326-331. ??

D. Carmel and S. Markovitch, Opponent modeling in multi-agent systems, in Adaptation and Learning in Multi-Agent Systems, G. Wei and S. Sen, Eds. Springer Verlag, 1996, pp. 40-52. ??

M. Bowling, Multiagent learning in the presence of agents with limitations, Ph.D. dissertation, Computer Science Dept., Carnegie Mellon University, Pittsburgh, US, May 2003. ??

A. Greenwald and K. Hall, Correlated-Q learning, in Proceedings Twentieth International Conference on Machine Learning (ICML-03), Washington, US, 21-24 August 2003, pp. 242-249. ??

V. K¨on¨onen, Asymmetric multiagent reinforcement learning, in Proceedings IEEE/WIC International Conference on Intelligent Agent Technology (IAT-03), Halifax, Canada, 13-17 October 2003, pp. 336-342. ??

M. Weinberg and J. S. Rosenschein, Best-response multiagent learning in non-stationary environments,” in Proceedings 3rd International Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS-04), New York, US, 19-23 August 2004, pp. 506-513. ??

M. Bowling and M. Veloso, Multiagent learning using a variable learning rate, Articial Intelligence, vol. 136, no. 2, pp. 215-250, 2002. ??

B. Banerjee and J. Peng, Adaptive policy gradient in multiagent learning, in Proceedings 2nd International Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS-03), Melbourne, Australia, 14-18 July 2003, pp. 686-692. ??

M. Bowling, Convergence and no-regret in multiagent learning, in Advances in Neural Information Processing Systems 17 (NIPS-04), Vancouver, Canada, 13-18 December 2004, pp. 209-216. ??

總結(jié)

以上是生活随笔為你收集整理的多智能体强化学习综述-Lucian Busoniu的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：小明的游戏（博弈论）
下一篇： office出现错误无法安装的解决办法