日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

《ICML 2020|华为诺亚方舟8篇论文入选,多智能体强化学习成热点》

發(fā)布時(shí)間:2023/12/31 综合教程 37 生活家
生活随笔 收集整理的這篇文章主要介紹了 《ICML 2020|华为诺亚方舟8篇论文入选,多智能体强化学习成热点》 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

ICML 2020|華為諾亞方舟8篇論文入選,多智能體強(qiáng)化學(xué)習(xí)成熱點(diǎn)

華為諾亞方舟實(shí)驗(yàn)室此次有8篇論文被接收,創(chuàng)下ICML歷屆論文接收量新高。研究方向涵蓋多智能體強(qiáng)化學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,1bit神經(jīng)網(wǎng)絡(luò),圖結(jié)構(gòu)數(shù)據(jù)上的主動(dòng)學(xué)習(xí),記憶增強(qiáng)學(xué)習(xí),理論樣本復(fù)雜度分析。下面我們就來看下本次接收的幾篇代表性論文。

Training Binary Neural Networks through Learning with Noisy Supervision

本文從學(xué)習(xí)的角度對(duì)二值神經(jīng)網(wǎng)絡(luò)上的二值化運(yùn)算進(jìn)行研究。與經(jīng)典的手工規(guī)則(例如Sign函數(shù))將神經(jīng)元二值化相比,我們提出映射模型(Mapping model)來學(xué)習(xí)從全精度神經(jīng)元到二值神經(jīng)元的映射。這里,每個(gè)權(quán)值不是獨(dú)立二值化,而是將權(quán)值張量作為一個(gè)整體來完成二值化,充分考慮權(quán)值之間的關(guān)聯(lián)性

為了幫助訓(xùn)練二值化映射模型,我們將傳統(tǒng)Sign函數(shù)量化的神經(jīng)元視為一些輔助監(jiān)督信號(hào),其雖然有噪聲但仍具有指導(dǎo)意義。因此,我們引入了無偏估計(jì)器以減輕噪聲的影響。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的二值化技術(shù)具有廣泛的有效性。

多智能體深度強(qiáng)化學(xué)習(xí)下的Q值路徑分解

許多現(xiàn)實(shí)世界中的復(fù)雜場(chǎng)景可以建模為多智能體系統(tǒng),因此多智能體深度強(qiáng)化學(xué)習(xí)(MARL)作為一種重要的分布式優(yōu)化技術(shù),已成為一個(gè)非常活躍的研究領(lǐng)域。

其中一類重要且普遍的場(chǎng)景為部分可觀察的合作式多智能體環(huán)境,在這種環(huán)境中,一組智能體根據(jù)自己的局部觀察和共享的全局獎(jiǎng)勵(lì)信號(hào)來學(xué)習(xí)協(xié)調(diào)其行為,以最大化系統(tǒng)總體收益。

目前主流解決方案是采用集中式訓(xùn)練、分布式執(zhí)行范式。其中最核心挑戰(zhàn)問題在于多智能體信度分配:如何為單個(gè)智能體的策略分配屬于它自身的貢獻(xiàn),從而更好地協(xié)調(diào)以最大化全局獎(jiǎng)勵(lì)。

在本文中,我們提出了一種Q值路徑分解(QPD)的信度分配機(jī)制,可以將系統(tǒng)的全局Q值自動(dòng)分解為單個(gè)智能體的Q值(如圖所示)。和先前工作通過顯示限制單個(gè)Q值和全局Q值的表示關(guān)系不同,我們首次將累積梯度歸因技術(shù)運(yùn)用到深度MARL中通過沿軌跡路徑直接分解全局Q值來為智能體進(jìn)行信度分配,并從理論上證明該分配方式下單個(gè)智能體的Q值和等于全局Q值。

我們?cè)诰哂刑魬?zhàn)性的《星際爭霸II》微觀管理任務(wù)上評(píng)估了QPD,表明其與現(xiàn)有SOTA的MARL算法相比,QPD在同質(zhì)和異質(zhì)的多智能體場(chǎng)景中均達(dá)到了先進(jìn)的性能。

一種基于行列式點(diǎn)過程的多智能體學(xué)習(xí)算法

現(xiàn)有的多智能體算法在對(duì)智能體的centralized joint Q-function做factorization的時(shí)候都需要假設(shè)每個(gè)智能體的Q_i和 Q_joint之間的關(guān)系,例如VDN假設(shè)相加性,Qmix假設(shè)單調(diào)性

本文中,我們?cè)O(shè)計(jì)了一種基于行列式點(diǎn)過程的Q_joint的描述方法,在不需要做任何假設(shè)的情況下,Q_joint可以通過行列式點(diǎn)過程所描述的行為多樣性而自動(dòng)被factorize成各自的Q_i。

給定N個(gè)物品(Item)的集合Y,每個(gè)物品 i 有自己的特征向量 wi,這個(gè)集合有 2N 個(gè)子集,存在一個(gè)行列式刻畫任意一個(gè)子集被選中的概率。行列式點(diǎn)過程( Determinantal Point Process , DPP ) ,將復(fù)雜的概率計(jì)算轉(zhuǎn)換成簡單的行列式計(jì)算,通過核矩陣(Kernel Matrix) L 的行列式計(jì)算每一個(gè)子集的概率

從直覺上來說,滿足 DPP 的過程一般有一個(gè)性質(zhì)是,相似的兩個(gè)元素同時(shí)出現(xiàn)的概率是比較小的。基于此,我們提出一個(gè)Q-DPP,用作多智能體學(xué)習(xí)中聯(lián)合Q值(Joint Q Value,Q(o, a))的函數(shù)估計(jì)器(Function Approximator)。

在Q-DPP中,我們可以把每個(gè)智能體(Agent)i 的觀測(cè)向量(Observation)和動(dòng)作 (Action)(oi, ai) 看做一個(gè)item,每個(gè)智能體的所有觀測(cè)與動(dòng)作的集合可以看做一個(gè)分區(qū)(Partition),給定所有智能體的觀測(cè)的情況下,采樣出聯(lián)合動(dòng)作 (Joint Action) 的過程可以看做從每個(gè)分區(qū)采樣一個(gè) (oi, ai) item的過程

最后通過采樣的聯(lián)合動(dòng)作計(jì)算 log det得到聯(lián)合動(dòng)作的Q值。我們通過將大的核矩陣分解為質(zhì)量(Quality)和多樣性(Diversity)矩陣, Quality 矩陣是由每個(gè)智能體的的獨(dú)立Q值構(gòu)成(Qi (oi, ai)),Diversity矩陣由需要學(xué)習(xí)的 (oi, ai) 的多樣性特征向量構(gòu)成,來綜合考慮智能體各自收益和總體的多樣性。通過這種方式,我們可以自然地將 Q(o, a) 分解為quality和diversity兩部分。

基于圖感知邏輯回歸和搶占式查詢候選集生成的屬性圖上主動(dòng)學(xué)習(xí)策略

左圖: 常規(guī)主動(dòng)學(xué)習(xí)算法 vs. 搶占式主動(dòng)學(xué)習(xí). 右圖: GEEM vs PreGEEM 對(duì)于下一個(gè)打標(biāo)簽節(jié)點(diǎn)risk預(yù)估值對(duì)比.

對(duì)于(含節(jié)點(diǎn)屬性)圖網(wǎng)絡(luò)中的節(jié)點(diǎn)分類問題是分類問題中的一項(xiàng)重要任務(wù),但通常獲取節(jié)點(diǎn)標(biāo)簽較為困難或昂貴,在有限可標(biāo)注數(shù)據(jù)的預(yù)算下通常通過主動(dòng)學(xué)習(xí)可以提高分類性能。

在圖網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)中最好的現(xiàn)有方法是基于圖神經(jīng)網(wǎng)絡(luò),但是它們通常表現(xiàn)不佳除非有大量可用的標(biāo)記節(jié)點(diǎn)作為驗(yàn)證集以選擇一組合適的超參數(shù)。在這個(gè)工作中特別針對(duì)屬性圖中的節(jié)點(diǎn)分類任務(wù),我們提出了一種基于圖的主動(dòng)學(xué)習(xí)算法Graph Expected Error Minimization (GEEM)。

我們的算法在預(yù)測(cè)階段使用了一種不需要依靠驗(yàn)證集調(diào)整超參的線性化圖卷積神經(jīng)網(wǎng)絡(luò)(linear-GCN),并在主動(dòng)學(xué)習(xí)查詢標(biāo)簽階段利用最小化預(yù)期誤差的目標(biāo)函數(shù)作為選擇下一目標(biāo)label節(jié)點(diǎn)的標(biāo)準(zhǔn)

算法主要包括兩個(gè)階段1)在模型預(yù)測(cè)階段,我們提出使用線性化的GCN模型獲取經(jīng)驗(yàn)標(biāo)簽(預(yù)測(cè)標(biāo)簽) 2)在獲取下一label節(jié)點(diǎn)過程中,我們提出通過對(duì)未標(biāo)記集合上節(jié)點(diǎn)的平均錯(cuò)誤概率來計(jì)算預(yù)期誤差并作為風(fēng)險(xiǎn)預(yù)估標(biāo)準(zhǔn),從而選擇增加此節(jié)點(diǎn)后經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的節(jié)點(diǎn)進(jìn)行l(wèi)abel

為了減少在為候選節(jié)點(diǎn)打標(biāo)簽過程帶來的延遲(在醫(yī)療等需要細(xì)節(jié)domain knowledge的場(chǎng)景,打標(biāo)簽過程潛在會(huì)超過10分鐘),我們推導(dǎo)出了GEEM的搶占式查詢候選集生成主動(dòng)學(xué)習(xí)算法并稱為PreGEEM,它在查詢/打標(biāo)簽過程中計(jì)算下一個(gè)候選打標(biāo)簽的對(duì)象。

同時(shí),我們?cè)谡撐闹刑峁┝岁P(guān)于PreGEEM風(fēng)險(xiǎn)誤差的理論邊界。最后,為了解決從幾乎從沒有標(biāo)簽數(shù)據(jù)開始學(xué)習(xí)的情況,我們提供了一種基于標(biāo)簽傳播和線性化GCN推理的混合算法,進(jìn)行自適應(yīng)模型平均。

我們?cè)谒膫€(gè)公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,展示出了在各種實(shí)驗(yàn)設(shè)定下與SOTA算法相比的明顯提升,特別是當(dāng)初始標(biāo)簽集非常有限時(shí)我們的模型明顯優(yōu)于其他方法。此外該技術(shù)在通信網(wǎng)絡(luò)中具有潛在的實(shí)用價(jià)值,例如在初始標(biāo)簽集稀缺時(shí)的通信網(wǎng)絡(luò)中故障鏈路識(shí)別場(chǎng)景中。

RNN和LSTM有長期記憶嗎?

為了克服遞歸網(wǎng)絡(luò)(RNN)學(xué)習(xí)長期依賴的困難,長短期記憶(LSTM)網(wǎng)絡(luò)于1997年被提出并后續(xù)在應(yīng)用方面取得了重大進(jìn)展。

長期記憶這個(gè)詞雖然在深度學(xué)習(xí)領(lǐng)域并沒有嚴(yán)格的定義,但是在統(tǒng)計(jì)領(lǐng)域早已有之。本文提出了能夠?qū)懗神R爾科夫鏈的遞歸網(wǎng)絡(luò)不具備長期記憶的充分條件。推理顯示,在無外部變量作為輸入時(shí),RNN和LSTM的輸出一般不具備統(tǒng)計(jì)意義上的長期記憶。

本文又將統(tǒng)計(jì)學(xué)的定義拓展到了深度學(xué)習(xí)領(lǐng)域。根據(jù)新定義,RNN依然不具備長期記憶,而LSTM模型較復(fù)雜無法直接分析。若假設(shè)LSTM的門不隨時(shí)間變化,則LSTM也不具備長期記憶。

根據(jù)上述理論成果,我們對(duì)RNN和LSTM做出最小程度的修改,使其獲得對(duì)長期相關(guān)性建模的能力。類似于ARFIMA模型中的結(jié)構(gòu),我們分別在RNN的輸入和LSTM的狀態(tài)單元處添加了一個(gè)長期記憶濾波器,得到記憶增強(qiáng)RNN和記憶增強(qiáng)LSTM模型。

實(shí)驗(yàn)表明,MRNN在長期記憶時(shí)間序列預(yù)測(cè)問題上有明顯優(yōu)勢(shì)。而由一層MLSTM單元和一層LSTM單元組成的雙層網(wǎng)絡(luò)在論文評(píng)議數(shù)據(jù)集的分類任務(wù)上的效果遠(yuǎn)好于一個(gè)兩層LSTM網(wǎng)絡(luò)。

文章鏈接:https://arxiv.org/abs/2006.03860

開源代碼:https://github.com/huawei-noah/noah-research/tree/master/mRNN-mLSTM

【與香港大學(xué)聯(lián)合研究工作】

Neural Architecture Search in a Proxy Validation Loss Landscape

本文通過最小化驗(yàn)證損失代理來搜索最佳神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。現(xiàn)有的神經(jīng)結(jié)構(gòu)搜索(NAS)方法在給定最新的網(wǎng)絡(luò)權(quán)重的情況下發(fā)現(xiàn)基于驗(yàn)證樣本的最佳神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。但是,由于在NAS中需要多次重復(fù)進(jìn)行反向傳播,使用大量驗(yàn)證樣本進(jìn)行反向傳播可能會(huì)非常耗時(shí)

在本文中,我們建議通過學(xué)習(xí)從神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)到對(duì)應(yīng)的損失的映射來近似驗(yàn)證損失情況。因此,可以很容易地將最佳神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)識(shí)別為該代理驗(yàn)證損失范圍的最小值。同時(shí),本文進(jìn)一步提出了一種新的采樣策略,可以有效地近似損失情況。

理論分析表明,與均勻采樣相比,我們的采樣策略可以達(dá)到更低的錯(cuò)誤率和更低的標(biāo)簽復(fù)雜度。在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,通過本方法進(jìn)行神經(jīng)結(jié)構(gòu)搜索可以在較低的搜索時(shí)間內(nèi)搜索到精度很高的網(wǎng)絡(luò)結(jié)構(gòu)。

Lower Complexity Bounds for Finite-Sum Convex-Concave Minimax Optimization Problems

這個(gè)工作主要考慮如下的minimax優(yōu)化問題:

其中每一個(gè)fi是L光滑并且關(guān)于x凸,關(guān)于y凹的函數(shù),這個(gè)優(yōu)化方程包含了多個(gè)流行的機(jī)器學(xué)習(xí)應(yīng)用問題,例如:regularized empirical risk minimization,AUC maximization,robust optimization 和reinforcement learning

我們的工作主要針對(duì)通常被用來解決這一優(yōu)化問題的隨機(jī)一階方法,即Proximal Incremental First-order Oracle (PIFO)來進(jìn)行統(tǒng)計(jì)分析,目標(biāo)是要找到一個(gè)距離該問題的真實(shí)解足夠接近的鞍點(diǎn)(ε-saddle point)。

我們?cè)谖恼轮凶C明了PIFO算法至少需要

復(fù)雜度來找到這個(gè)鞍點(diǎn),這里需要的條件是fi需要L-smooth以及μ-strongly-convex-μ-strongly-concave,而作為范圍更廣的IFO算法,有前人證明了它所需要的上界同樣是該值,所以這個(gè)下界是精確的最優(yōu)下界。

同時(shí)也說明,加入額外的stochastic proximal操作并不會(huì)減少所需要的樣本復(fù)雜度。更進(jìn)一步,我們對(duì)非μ-strongly-convex-μ-strongly-concave的另外兩種情況,也給出了相應(yīng)的復(fù)雜度下界。

這些結(jié)果都得益于我們提出了一種新的下界分析框架,我們的構(gòu)造把Nesterov’s classical tridiagonal matrix分解為n個(gè)組來促進(jìn)對(duì)IFO和PIFO的理論分析。

【與北京大學(xué)聯(lián)合研究工作】

發(fā)布于 16 小時(shí)前


總結(jié)

以上是生活随笔為你收集整理的《ICML 2020|华为诺亚方舟8篇论文入选,多智能体强化学习成热点》的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。