WSDM 2022 | 一种用于在线广告自动竞价的协作竞争多智能体框架
丨目錄:
· 摘要
· 背景
· 基礎概念
·??IL的行為分析
· 我們的方法
· 實驗
· 總結
· 參考文獻
??摘要
在在線廣告中,自動競價已經成為廣告主優化自身廣告性能的必需工具,自動競價允許廣告主通過簡單地設置計劃目標以及相應約束來優化其關心的廣告性能指標。之前的工作大多從單智能體的角度考慮自動競價問題,少有考慮建模智能體之間的相互影響。本文從分布式多智能體系統的角度研究自動競價智能體的設計問題,并提出了一個通用的多智能體自動競價框架,稱為MAAB(Multi-Agent Auto-bidding),用以學習自動競價策略。首先,我們研究自動競價智能體之間的競爭與合作關系,并提出了一種基于溫度調控的獎勵分配機制來建立自動競價智能體之間的混合協作競爭關系。通過調節競價智能體之間的協作與競爭,從而達到了一種能夠同時保證廣告主自身效用和社會福利最大化的均衡狀態。其次,我們觀察到協作關系會引導智能體走向共謀出低價的行為模式,從而破壞平臺生態。為了解決這個問題,我們引入了門檻智能體來為每一個自動競價智能體設置一個個性化的競價門檻。第三,為了將MAAB部署到擁有數百萬廣告主的大型廣告系統中,我們提出了一種基于平均場方法,通過將目標相同的廣告主分組為一個均值自動競價智能體,廣告主之間的復雜交互得以簡化,從而使MAAB得以高效訓練。在工業離線數據集以及阿里巴巴廣告平臺的實驗表明,本文的方法在社會福利以及平臺收入上能夠超越基準算法。
論文下載:https://arxiv.org/pdf/2106.06224.pdf
??背景
在線廣告已經成為廣告主提高其產品曝光機會的一種不可或缺的工具。在傳統的廣告拍賣中,廣告主需要對每一次廣告拍賣進行手動出價,然而這種細粒度的出價過程需要廣告主對參竟環境有全面的了解。為減輕廣告主的競價優化負擔,在線平臺部署了各種類型的自動出價服務,例如谷歌的 AdWords 廣告活動管理工具、百度的鳳巢以及淘寶的超級推薦產品。這些服務使得廣告主可以通過簡單地表達其目標和約束,然后由自動出價智能體優化其廣告效果。在線廣告的自動出價的過程如下圖所示:
其中自動出價智能體由廣告平臺負責設計,該智能體目標是在廣告主設置的約束下,根據廣告主設置的目標來優化其出價策略。在阿里媽媽超級推薦&引力魔方上存在多種訴求,大體可以分為三類:優化點擊、優化成交和優化收藏加購。這些自動出價智能體之間存在相互競爭關系。為了學習自動競價智能體的競價策略,最自然的方式就是去為每一個自動競價智能體求解一個獨立的優化問題,而將其他智能體出價的影響隱式地建模為環境的一部分。然而這種方式忽略了拍賣機制本質上是一個多智能體系統,即最終的拍賣結果取決于所有智能體的出價,且任一智能體的策略的改變會影響到其他所有智能體的策略。因此若不做任何的協調,則所有智能體會處于一個無約束狀態,進而降低系統的整體效果。因此我們希望構建一個多智能體框架,通過精心設計協作機制來引導智能體走向一個具有較好系統性能的均衡狀態。然而這面臨以下幾個挑戰:
智能體間復雜的競爭與合作關系使得聯合優化個體效果和系統整體性能變得困難。一方面,在完全競爭的環境下,每個廣告主的效用可以被極度優化,但預算充足或可接受成本更高的廣告主將會以更加激進的出價方式以獲得更多的曝光,導致流量的按需分配無法實現,進而導致對社會福利的負面影響。另一方面,在完全協作的優化范式中,盡管能夠讓所有廣告主以最優化整體社會福利為目標進行出價,但這可能會犧牲單個廣告主的效果,同時廣告主可能學得“共謀”出低價的行為,導致平臺受損。因此,為了平衡個體效果和整體社會福利,一個可能的方案是構建一個混合合作-競爭框架(MCC, mixed cooperative-competitive),來使平臺能夠在社會福利和平臺收入之間進行一個靈活的取舍。為實現混合合作-競爭,現有方案一般通過手動修改獎賞函數或改變與環境有關的參數來達到該目標,然而前者在拍賣場景下并沒有一個確定的獎賞函數形式,而后者僅在模擬器中可行。
MCC中的合作關系可能會損害平臺的收入,例如合作的出價智能體可能會共謀出低價。盡管保留價是一種保證平臺收入的有效方法,但如何在MCC框架中優化保留價來減少對社會福利的影響仍是一個開放性問題。
MCC框架在工業界的實現也是一個巨大的挑戰。理想情況下每個廣告主對應一個智能體,但這個數量級過于巨大,且每個智能體得到的獎賞過于稀疏,導致難以學得一個較好的出價策略。
基于以上挑戰,我們提出了合作-競爭多智能體自動出價框架(MAAB, Multi-Agent Auto-bidding),其主要思想如下:
為了平衡出價智能體間的競爭和合作關系,我們提出了一種基于溫度調控的獎勵分配機制。即將一次拍賣中的獎賞根據softmax函數產出的權重分配給各方智能體。此外,softmax函數中引入的溫度參數可以有效調控智能體之間的競爭與合作關系。
為了減少智能體合作共謀出價導致平臺收入受損的問題,我們引入了門檻智能體來為每一個自動出價智能體設置一個個性化的競價門檻。直覺上,門檻智能體的目標是通過提高競價門檻來獲取較高的平臺收入,然而自動競價智能體則具有一個相反的目標,即降低出價門檻使得可以以較低的成本獲取流量。門檻智能體和出價智能體是通過一種對抗的方式進行聯合訓練,直到彼此策略達到某種均衡點。
我們提出一種類似平均場的方法來解決來自工業場景大規模多智能體系統的挑戰。通過將同目標的智能體聚合為一個平均自動出價智能體,百萬級別廣告主之間復雜的交互可以被簡化,使得在大規模多智能體系統中部署自動競價服務變為可能。
??基礎概念
1. 自動出價模型
廣告主訴求和約束多種多樣,預算約束是最常見的一種約束形式。為了簡化說明,我們以BCB計劃為例介紹我們的機制設計。
對BCB計劃來說,假設一段時間內(如一天)有T個參竟機會,日預算為的計劃i對機會t出價。如果他出價最高則競得該流量,并按照GSP進行扣費,消耗記為,并獲得價值。BCB計劃目標則是在總消耗小于預算的約束下,最大化其獲得的價值,即:
其中表示是否競得流量。
2. 馬爾科夫過程
一個部分觀測的馬爾科夫過程可以表示為
402 Payment Required
。其中s是環境的真實狀態,o是能夠觀測到的狀態,觀測函數為:。在任一時刻,任一智能體根據觀測做出的動作為:。當所有智能體動作執行后,每個智能體可以得到一個獎賞 ,且環境狀態變為s',轉移函數記為:。為折扣系數,每個智能體需要通過優化其策略最大化累計獎賞:我們采用馬爾科夫過程建模自動出價中的多智能體系統。每個自動出價智能體i的動作為出價,其觀測狀態由三部分構成:,分別為剩余預算、流量價值和剩余競價機會。出價受業務限制,一般存在上下界。獎賞為,競得后通過二價算得扣費,則下一時刻的觀測變量為402 Payment Required
。每個智能體目標為優化競得流量的價值總和:3. 獨立學習 (IL, Independent Learner)
在多智能體強化學習領域,最常用的訓練方式是同時學習非中心化的價值函數和策略,比如Independent 𝑄 -learning ,每個agent共享環境,并同時分別用DQN或者Q-learning訓練獨立Q函數。在后面我們將這種agent記為IL。
IL中每個agent的Q函數表示為:,其參數表示為。函數的訓練細節DQN一致。replay buffer中的存儲了。loss為:
其中是target network的參數,是每個智能體用于訓練的獎賞,有兩種:
環境獎賞,即每個智能體從環境中獲得的自己的獎賞。當時,各智能體之間是完全競爭的,稱為CM-IL。
總獎賞,是所有智能體獎賞之和,也為此次分配結果的社會總福利(Social welfare)。當時,各智能體是合作關系,即為了總社會福利共同努力,此時他們為合作關系,稱為CO-IL。
我們也定義了合作和競爭關系如下:假設一次拍賣中有兩個智能體,這次展現對兩個智能體的價值分別為:、,假設,當他們的出價滿足時,這兩個智能體間的關系是合作的,否則是競爭的。這種定義是基于直覺的,合作的目標是為了更大的社會總福利。
??IL的行為分析
在本節中,我們分析了CM-IL和CO-IL兩種模式下的自動出價智能體的表現,并發現CM-IL會導致寡頭現象的產生并不利于社會總福利,而CO-IL雖然具有較高的社會福利,但會損害平臺收入。為了直觀闡明以上結論,我們構建了一個由兩個自動出價智能體構成的環境,這兩個自動出價智能體的目標都是在固定預算內最大化他們的總價值。我們分別以CM-IL和CO-IL模式訓練50k輪,并從以下三種指標觀察其最終效果:
智能體1獲得的總價值:智能體2獲得的價值由社會福利以及智能體1獲取的總價值反推出來,因此沒有繪出。
社會福利:社會福利為所有智能體價值的總和。
平臺收入:扣費使用GSP機制。
假設兩個智能體預算總和為,預算分配比例參數為,則兩個智能體的預算分別為:和,我們嘗試了不同和的參數組合,在此環境下得到的實驗結果如下圖所示:
其中每張圖中的每一個單元中的數值代表在不同參數組合下的實驗結果。我們首先觀察CM-IL下的智能體1獲取的價值,如圖(a)所示,當 ,即智能體1預算顯著多于2時,智能體1獲得的總價值為(39, 38, 41, 36),其顯著多于智能體2所獲得的價值(19, 19, 16, 21)。此時智能體1通過出更高的出價獲取了大部分展現機會,形成了寡頭現象。同時這種寡頭現象也導致了較低社會福利,如圖(c)和(d)所示,CM-IL達到了比CO-IL更低的社會福利,特別是在具有充足預算的設置下(例如當時,CO-IL的社會福利為(64,64,64),顯著低于CM-IL的社會福利(57,56,58)。
適當的合作可以通過防止寡頭現象的產生從而提高社會福利。這可以通過比較圖(a)和圖(b)得出:有較多預算時(),智能體1的價值從(39,38,41,36)降低為(35,38,33,33),而具有較少預算時(),智能體1的價值從(20,16,17,22)提高為(20,25,28,30)。這表明CO-IL更多是通過展現價值而非預算來進行展現機會的分配,并且就社會福利而言,CO-IL的這種方式顯然達到了一種更好的均衡。
然而CO-IL也會導致部分廣告主利益受損,尤其當存在其他廣告主的value顯著大于它時。同時,合作也會使各智能體“合謀”降低出價,導致平臺收入受損(對比(f)和(d))。
總的來說,競爭和合作狀態會導致兩種極端情況:競爭會導致在預算差異過大時出現寡頭現象,進而損害社會總福利;合作能達到更高的社會總福利,但會導致平臺收入和部分廣告主利益受損。
??我們的方法
為了在大規模多智能體環境中兼顧社會總福利和平臺收入,我們提出了MAAB框架。該框架示意圖如下圖所示:
框架主要包含三部分:
為平衡競爭與合作關系,提出基于溫度調控的獎勵分配機制(Temperature Regularized Credit Assignment, TRCA);
為了降低因合作導致的平臺收入損失,引入門檻智能體;
用于大規模多智能體系統的平均場方法。
下面我們進行詳細的介紹。
基于溫度調控的獎勵分配機制TRCA
受上文實驗中IL在競爭和合作下分別產生的極端行為啟發,我們提出了TRCA這種獎勵分配機制,來建立多智能間的一種混合合作競爭關系。
TRCA的主要思路是給每個智能體的獎賞賦以一個權重參數。這個權重衡量了每個智能體對總獎賞的貢獻,因此各智能體的獎賞為:。其中我們將定義為
402 Payment Required
。它是一個softmax式的權重,滿足和。超參()決定了競爭和合作的程度,為了分析是如何影響智能體行為的,我們以一輪拍賣中的兩個智能體的情況進行簡要分析,并給出下面的定理證明在此處省略,有興趣的同學可以查看原文。:證明在此處省略,感興趣的同學可以查看原文。
由上可知,當大于一定閾值時,智能體將會傾向于合作狀態,反之則處于競爭狀態。因此我們可以使用來很方便的調節混合競爭合作狀態中競爭和合作的相對程度,進而達到平臺收入與社會福利之間的適當取舍。
門檻智能體
在線廣告的一個目標是實現平臺和廣告主的雙贏。如上節仿真實驗可知,盡管合作有助于提升社會總福利,但各智能體會傾向于共謀出低價,導致平臺收入下降。在本節中,我們提出了幾種提升平臺收入的方法。
最簡單的方法是設置一個固定的出價門檻。當自動出價智能體出價時,使用TRCA獎賞,反之獎賞為0:。但固定的門檻很難設置,過高會損失廣告主收益,過低則對提升平臺收入無益。
一種進階方法,是對每次參竟設置自適應出價門檻。我們可以新增一個面向平臺收入的智能體,并使用RL方法優化其設置出價門檻的策略。但該智能體的獎賞很難定義。如果簡單地將其獎賞定義為平臺收入,那么這個智能體會傾向于設置一個過高出價門檻。另一方面,同一拍賣中的不同自動出價智能體具有差異化的個體信息,因此共用一個出價門檻可能并非一個好選擇。
基于以上分析,我們在MAAB中提出使用多門檻智能體,每一個門檻智能體為對應的自動出價智能體提供一個出價門檻。每次拍賣中,門檻智能體和出價智能體分別給出出價門檻和出價。參竟后我們得到客戶收益并計算得到TRCA獎賞,同時門檻智能體獲得平臺收入,其定義為單次拍賣中的扣費。同時,為了防止門檻智能體出過高的競價門檻,我們提出了一種稱為門檻門控(bar gate)機制的方法。門檻門控機制為每對出價智能體和門檻智能體輸出:
然后我們采用和分別作為兩個智能體的獎賞。注意門檻智能體僅用作訓練,在線執行階段不發揮作用。
門檻智能體和出價智能體采用同時訓練的方式。門檻智能體致力于提升平臺收入,出價智能體致力于提升客戶收益。門檻門控機制將這兩種不同的獎賞建立了一種關系。一方面,當門檻過高,雙方都獲得0獎賞,此時門檻智能體會降低門檻,出價智能體則增加出價,直到兩方達成一致,即,此時雙方才能同時獲得獎賞。另一方面,當門檻過低時,雙方均會獲得一定的收益,但下一輪門檻智能體會嘗試提升出價,同時受TRCA中合作關系鼓勵出價智能體會嘗試降低出價,直到穩態形成。
總的來說,我們提出的這個多門檻智能體和對應的獎賞設計,能夠通過將出價提升至合適水平來提升平臺收入。值得一提的是,這個方案看起來和保留價很相似,但我們提出的門檻智能體僅在訓練階段生效,在執行階段被移除,因此在線的GSP機制仍然得到保留。
用于大規模多智能體系統的平均場方法
在實踐中,我們面臨上百億的參竟機會和數百萬的參竟計劃,理想情況下每個計劃應當對應一個出價智能體,這些智能體同時進行訓練,但這會導致計算資源緊張以及獎賞稀疏等問題。一個可行方案是把智能體按照更高視角、按照某種劃分標準做聚類。聚類后的智能體會有更稠密的獎賞,同時訓練的智能體個數也大大減少。我們的方法中提出使用計劃間最本質的不同來做計劃分組,即計劃的訴求。當然也可以使用其他原則進行分組。按照待優化目標分組后,我們得到,其中每組包含了對應目標下的所有計劃。但是,在對每組訓練可以應用于組內所有計劃的出價策略時,還面臨以下困難:
Q-learning算法中需要下時刻狀態下的最大Q值用于訓練,但聚類后的下時刻狀態未知
計劃間通常有不同的預算約束,每條流量對應的流量價值也不同,共用策略存在困難
為了解決上述問題,我們的平均場方法如下:
其主要思想是平均策略先基于平均預算等觀測變量計算平均出價,組內各計劃則在平均價值的基礎上,考慮自身流量價值與平均價值的相對大小關系調整其出價。在詳細介紹我們的方案前,我們首先介紹下我們使用的符號的含義。我們將一段時間(如15分鐘)看做是一個時間戳,每段時間內會陸續出現展現機會。將時間戳t內的所有參竟機會集合記作,為其中一次展現機會。代表展現機會e對計劃的價值。表示計劃k是否贏得了展現機會e,即它的ecpm排序分=是否最高。上述方案的馬爾科夫過程的具體定義如下:
觀測狀態:平均智能體i在時刻t的觀測值被定義為:。其中是在時刻t的剩余預算,其初始值為。為流量的平均價值。是剩余出價機會。
動作空間:平均智能體的動作為平均出價。計劃在展現機會e上的出價為,其中。clip(.)用于保證最終出價不會出現極端值。
獎賞函數:獎賞也定義在一個聚合粒度:
402 Payment Required
轉移函數:展現機會e上獲勝計劃的期望扣費為,其中j為ecpm排序中下一位廣告的下標。因此平均智能體的消耗為:,則下一時刻觀測狀態為,當剩余預算為0是,智能體的出價只能為0.
在線階段,組內計劃共享一個出價策略。如對于計劃,出價策略的輸入為計劃k自身觀測狀態(而非組內平均狀態),策略輸出即為其出價。
配合以上平均智能體模型,我們的門檻智能體和TRCA獎賞也需要進行一些適配:TRCA中的替換為平均出價;門檻智能體也采用平均場方法,每個平均出價智能體對應一個門檻智能體。如此我們的方法就可在大規模廣告系統中進行訓練了。
? 實驗
離線數據集仿真
離線數據集
離線數據集來自阿里巴巴廣告系統在2020年某天中某6小時的參竟日志。包含了約70w次展現機會,每次參竟約有400個廣告參竟。日志中包含了廣告主id、時間、廣告主目標、流量價值預估值、原始手動出價等信息。日志中的計劃按照其目標大體可以分為三類:優化點擊的、優化購買的、優化收藏加購的,后文我們將這三組計劃分別記為CLICK, CONV, CART 。
評估指標
我們主要關注兩個指標:(1) 社會總福利(Social welfare);(2)平臺收入,拍賣機制使用GSP機制。
預算約束
對于離線實驗,我們首先令所有平均智能體出最高價,然后計算按最高進行出價的總扣費,記為 。然后計劃 的預算設置為 。
我們考慮兩種設置:1),,這種設置下所有自動競價智能體的預算一致(記為setting 1);2),,這種為預算不均衡的設定(記為setting 2)。
對比方法
(1)MSB(Manually set bids):人工設定的出價,即廣告主的原始出價。
(2)DQN-S:單智能體版本的IL,每一類需求對應一個智能體,假設其他廣告使用原始出價進行訓練。
(3)CM-IL
(4)CO-IL
(5)MAAB,即我們的方法。
實驗結果
離線實驗結果如下圖:
我們發現,傳統的手動競價(MSB)方式并沒有取得很好的效果,其社會福利為64.5,平臺的收入為16.9,且是所有方法中最差的。相比之下,DQN-S在三個組的價值(29.3, 35.8, 36.0),社會福利(101.0)和平臺收入(68.3)上均更優,這是得益于RL可以較好地控制預算的使用。
然而,DQN-S的性能仍然受到其他智能體出價固定這一不切實際的假設的限制。采用多智能體學習范式可以進一步消除這種假設,例如CM-IL無論從社會福利(例如,setting 1中104.1 > 101.0)還是平臺的收入上(例如,setting 1中86.8 > 68.3)均優于DQN-S。
然而,這種競爭關系可能并不能幫助實現更好的社會福利,這一點可以從CM-IL與CO-IL的比較中看出。CO-IL建模智能體之間的合作關系,因此其在社會福利上略優于CM-IL(Setting 1中104.3 > 104.1,Setting 2中103.0 > 99.6),然而,這種提升是以犧牲平臺收入為代價的(Setting 1 中 66.9 < 86.8,Setting 2中52.9 < 85.0)。
在這兩個極端之間,MAAB采用了TRCA并以混合合作競爭的方式建立智能體之間的關系,從而實現了社會福利與收入之間更好的均衡。如表所示,MAAB的社會福利優于CM-IL(在Setting 1中為105.3 > 104.1,在Setting 2中103.4 > 99.6),同時在收入方面顯著優于CO-IL(在Setting 1中為80.6 > 66.9,在Setting 2中為69.0 > 52.9)。
在線實驗
我們也進行了線上AB實驗,效果如下表(各指標數值均進行了歸一化),能夠看出我們的方法能夠在有限的平臺收入損失下,有效的提升社會總福利。
消融實驗
TRCA有效性
為了評估TRCA在建模合作和競爭關系上的有效性,我們去除MAAB中門檻智能體,并將該方法成為MIX-IL,然后通過調整MIX-IL中的參數進行離線實驗分析。越大關系越傾向于合作,越小關系越傾向于競爭。當時,MIX-IL等價于CM-IL;當時,MIX-IL等價于CO-IL。
我們使用和進行實驗,我們嘗試了= 0, 2, 4, ,結果如下:
可以看到合作和競爭程度可以很方便的通過調節來平衡。
門檻智能體的影響
為了驗證門檻智能體在提升平臺收入上的必要性以及自適應門檻智能體的效果,我們用這兩種方法和MAAB進行了比較:(1)MIX-IL:無門檻智能體;(2)MAAB-fix:使用固定的門檻智能體動作:。預算設定為:和。離線實驗結果如下:
對比MIX-IL和MAAB-fix,可以看到出價門檻對平臺收入的明顯提升,門檻越高提升越大(99.6->114.3->164.9)。但同時過高的門檻也會降低社會福利(104->99.3),過低的門檻平臺收入提升有限。采用自適應門檻的MAAB則能兼顧兩者,在社會福利損失有限情況(104->103.9)下大幅度提升平臺收入。
??總結
自動出價已經成為在線廣告中優化廣告主投放效果的基礎工具。我們提出的MAAB是一個能用于大規模廣告系統自動出價的多智能體強化學習框架,它主要有三個貢獻:
(1)提出了TRCA,建立了自動出價智能體間的混合競爭-合作關系。
(2)提出了在訓練時使用門檻智能體提升平臺收入。
(3)使用了平均場方法,將MAAB用于大規模廣告平臺。
未來我們將會持續探索TRCA中的溫度參數實時動態調整,和升級門檻智能體的獎賞方案設計以加快其收斂。
參考文獻
[1] Gagan Aggarwal, Ashwinkumar Badanidiyuru, and Aranyak Mehta. 2019. Autobidding with constraints. In WINE. Springer, 17–30.
[2] Han Cai, Kan Ren, Weinan Zhang, Kleanthis Malialis, Jun Wang, Yong Yu, and Defeng Guo. 2017. Real-time bidding by reinforcement learning in display advertising. In WSDM. 661–670.
[3] Google Ads Help Center. 2021. About automated bidding. https://support.google. com/google-ads/answer/2979071. Accessed: January 24, 2021.
[4] Carl Davidson and Raymond Deneckere. 1986. Long-run competition in capacity, short-run competition in price, and the Cournot model. The Rand Journal of Economics (1986), 404–415.
[5] Paul Dütting, Zhe Feng, Harikrishna Narasimhan, David Parkes, and Sai Srivatsa Ravindranath. 2019. Optimal auctions through deep learning. In ICML. PMLR, 1706–1715.
[6] Benjamin Edelman, Michael Ostrovsky, and Michael Schwarz. 2007. Internet advertising and the generalized second-price auction: Selling billions of dollars worth of keywords. American economic review 97, 1 (2007), 242–259.
[7] eMarketer. 2015. Worldwide retail ecommerce sales: eMarketer’s updated estimates and forecast through 2019. (2015).
[8] Facebook. 2021. Facebook. https://www.facebook.com/business/m/one-sheeters/ facebook-bid-strategy-guide. Accessed: January 24, 2021.
[9] Jakob Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, and Shimon Whiteson. 2018. Counterfactual multi-agent policy gradients. In AAAI, Vol. 32.
[10] Google. 2021. Google AdWords API. https://developers.google.com/adwords/ api/docs/guides/start. Accessed: January 24, 2021.
[11] Ziyu Guan, Hongchang Wu, Qingyu Cao, Hao Liu, Wei Zhao, Sheng Li, Cai Xu, Guang Qiu, Jian Xu, and Bo Zheng. 2021. Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search. arXiv preprint arXiv:2106.04075 (2021).
[12] Garrett Hardin. 2009. The tragedy of the commons. Journal of Natural Resources Policy Research 1, 3 (2009), 243–253.
[13] Pablo Hernandez-Leal, Bilal Kartal, and Matthew E Taylor. 2019. A survey and critique of multiagent deep reinforcement learning. AAMAS 33, 6 (2019), 750–797.
[14] Junqi Jin, Chengru Song, Han Li, Kun Gai, Jun Wang, and Weinan Zhang. 2018. Real-time bidding with multi-agent reinforcement learning in display advertising. In CIKM. 2193–2201.
[15] Jean-Michel Lasry and Pierre-Louis Lions. 2007. Mean field games. Japanese journal of mathematics 2, 1 (2007), 229–260.
[16] Joel Z Leibo and Marc Lanctot. 2017. Multi-agent Reinforcement Learning in Sequential Social Dilemmas. (2017). arXiv:arXiv:1702.03037v1
[17] Michael L Littman. 1994. Markov games as a framework for multi-agent reinforcement learning. In Machine learning proceedings 1994. Elsevier, 157–163.
[18] Xiangyu Liu, Chuan Yu, Zhilin Zhang, Zhenzhe Zheng, Yu Rong, Hongtao Lv, Da Huo, Yiqing Wang, Dagui Chen, Jian Xu, Fan Wu, Guihai Chen, and Xiaoqiang Zhu. 2021. Neural Auction: End-to-End Learning of Auction Mechanisms for E-Commerce Advertising. In SIGKDD. 3354–3364.
[19] Ryan Lowe, Yi I Wu, Aviv Tamar, Jean Harb, OpenAI Pieter Abbeel, and Igor Mordatch. 2017. Multi-agent actor-critic for mixed cooperative-competitive environments. In NIPS. 6379–6390.
[20] Robert C Marshall and Leslie M Marx. 2007. Bidder collusion. Journal of Economic Theory 133, 1 (2007), 374–402.
[21] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. 2015. Human-level control through deep reinforcement learning. nature 518, 7540 (2015), 529–533.
[22] Mehryar Mohri and Andres Munoz Medina. 2014. Learning theory and algorithms for revenue optimization in second price auctions with reserve. In ICML. PMLR, 262–270.
[23] Roger B Myerson. 1981. Optimal auction design. Mathematics of operations research 6, 1 (1981), 58–73.
[24] Michael Ostrovsky and Michael Schwarz. 2011. Reserve prices in internet advertising auctions: A field experiment. In EC. 59–60.
[25] Tabish Rashid, Mikayel Samvelyan, Christian Schroeder, Gregory Farquhar, Jakob Foerster, and Shimon Whiteson. 2018. QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning. In ICML. 4295–4304.
[26] Peter Sunehag, Guy Lever, Audrunas Gruslys, Wojciech Marian Czarnecki, Vinícius Flores Zambaldi, Max Jaderberg, Marc Lanctot, Nicolas Sonnerat, Joel Z Leibo, Karl Tuyls, et al. 2018. Value-Decomposition Networks For Cooperative Multi-Agent Learning Based On Team Reward.. In AAMAS. 2085–2087.
[27] Ardi Tampuu, Tambet Matiisen, Dorian Kodelja, Ilya Kuzovkin, Kristjan Korjus, Juhan Aru, Jaan Aru, and Raul Vicente. 2017. Multiagent cooperation and competition with deep reinforcement learning. PloS one 12, 4 (2017), e0172395.
[28] Ming Tan. 1993. Multi-agent reinforcement learning: Independent vs. cooperative agents. In ICML. 330–337.
[29] David RM Thompson and Kevin Leyton-Brown. 2013. Revenue optimization in the generalized second-price auction. In EC. 837–852.
[30] Chao Wen, Xinghu Yao, Yuhui Wang, and Xiaoyang Tan. 2020. SMIX (𝜆): Enhancing Centralized Value Functions for Cooperative Multi-Agent Reinforcement Learning.. In AAAI. 7301–7308.
[31] Di Wu, Xiujun Chen, Xun Yang, Hao Wang, Qing Tan, Xiaoxun Zhang, Jian Xu, and Kun Gai. 2018. Budget constrained bidding by model-free reinforcement learning in display advertising. In CIKM. 1443–1451.
[32] Xiao Yang, Daren Sun, Ruiwei Zhu, Tao Deng, Zhi Guo, Zongyao Ding, Shouke Qin, and Yanfeng Zhu. 2019. Aiads: Automated and intelligent advertising system for sponsored search. In SIGKDD. 1881–1890.
[33] Yaodong Yang, Rui Luo, Minne Li, Ming Zhou, Weinan Zhang, and Jun Wang. 2018. Mean field multi-agent reinforcement learning. In ICML. PMLR, 5571–5580.
[34] Shuai Yuan, Jun Wang, Bowei Chen, Peter Mason, and Sam Seljan. 2014. An empirical study of reserve price optimisation in real-time bidding. In SIGKDD. 1897–1906.
END
也許你還想看
丨阿里媽媽技術團隊4篇論文入選WSDM 2022
丨WSDM 2022 | 合約廣告自適應統一分配框架
丨WSDM 2022 | 基于元學習的多場景多任務商家建模
丨WSDM 2022 | 點擊率模型特征交叉方向的發展及CAN模型介紹
歡迎關注「阿里媽媽技術」,了解更多~
瘋狂暗示↓↓↓↓↓↓↓
總結
以上是生活随笔為你收集整理的WSDM 2022 | 一种用于在线广告自动竞价的协作竞争多智能体框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: WSDM 2022 | 点击率模型特征交
- 下一篇: Deep GSP : 面向多目标优化的工