當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

索尼搞了个大新闻！AI打败人类三冠王登上Nature封面

發(fā)布時間：2023/12/6 综合教程 44 生活家

生活随笔收集整理的這篇文章主要介紹了索尼搞了个大新闻！AI打败人类三冠王登上Nature封面小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

今天，索尼真是背刺了一把任天堂。

早上任天堂在直面會上公布了諸多游戲大作：異度之刃3、火焰紋章無雙、馬里奧前鋒……可謂占盡風(fēng)頭。

然而，萬萬沒想到，索尼的3A游戲大作居然搞了個更大的新聞，登上了Nature封面。

把游戲宣發(fā)做到了頂級學(xué)術(shù)期刊封面，我服。

不過這篇文章可不是加錢打廣告，而是實(shí)實(shí)在在的技術(shù)論文——

一只來自索尼的AI，名叫GT Sophy。

且看這位AI賽車手的比賽畫面，先是一個機(jī)智變道繞開對手的卡位：

隨后在彎道膠著時大秀操作，以190km/h的速度一舉反超，將對手甩到身后。

可別覺得AI在賽車游戲里戰(zhàn)勝人類沒啥特別的，要知道，這樣的比賽是在GT賽車中進(jìn)行的——

這是一款高度擬真的賽車游戲，也就是說，選手們幾乎就是在真·開車。

△圖右為GT世界冠軍Takuma Miyazono

而GT Sophy也是世界上首個在此類需要持續(xù)判斷和高速反應(yīng)的賽車游戲中，戰(zhàn)勝人類冠軍的AI。

斯坦福汽車研究中心聯(lián)合主任Chris Gerdes教授就對此表示：

“GT Sophy在比賽中如此熟練地超越人類駕駛員，這對于人工智能而言是一項(xiàng)里程碑式的進(jìn)步。”

值得一提的是，最新一代GT系列游戲Gran Turismo 7將在3月4日正式登陸PS4/PS5平臺。

雖然玩家們不太可能在第一時間對戰(zhàn)GT Sophy，但索尼已經(jīng)表示，他們正在努力將這只強(qiáng)大的AI整合到GT賽車中。

AI戰(zhàn)勝人類，在很多人聽來已經(jīng)不夠新鮮。

但與過去在國際象棋、圍棋等棋類游戲，或星際爭霸、Dota等動作游戲中一展拳腳的AI相比，賽車那看似“先到終點(diǎn)就贏”的簡單目標(biāo)，實(shí)際上要復(fù)雜得多：

比如剎車，就是一種不斷探索汽車輪胎與道路之間摩擦力的“物理戰(zhàn)”。

轉(zhuǎn)彎時剎車太早，可能就無法順利過彎，還會損失車速；

剎車太晚，又難以保持想要的路線軌跡，甚至導(dǎo)致車體旋轉(zhuǎn)。

整個比賽過程中，賽車手必須時刻保持對周圍環(huán)境的判斷，并能根據(jù)路況作出及時的反應(yīng)。

同時，駕駛技巧、針對不同對手的戰(zhàn)術(shù)策略、甚至是遵守規(guī)則的賽車精神和禮儀……都是一個賽車AI所必備的素養(yǎng)。

為了達(dá)成這些目標(biāo)，索尼將AI的訓(xùn)練場設(shè)在了自家的GT賽車系列的游戲中。

這是一款PS平臺獨(dú)占游戲，全名Gran Turismo，是一個汽車行業(yè)中的真實(shí)名詞，意為“能夠長距離行駛的高性能車”。

這款游戲主打的就是真實(shí)駕駛感，甚至可以通過一套帶力反饋的方向盤外設(shè)體會到橫向g值、前輪滑移率、車重、車輛的調(diào)教特性等各種細(xì)膩的路感反饋。

在GT游戲中，研究這種通常使用10到20臺PS游戲機(jī)、同等數(shù)量的計算實(shí)例、一臺異步更新神經(jīng)網(wǎng)絡(luò)的GPU，從頭開始訓(xùn)練這個叫做GT Sophy的AI。

訓(xùn)練主要針對兩個連續(xù)值的維度：轉(zhuǎn)向和速度。

同時，為了把GT Sophy和人類拉到同一起跑線上，研究者們還調(diào)慢了它的操作速度：

對游戲的交互頻率為10赫茲（人類標(biāo)準(zhǔn)是60赫茲），反應(yīng)時間則分別為100毫秒、200毫秒、250毫秒。

在一張完整的地圖中，研究者以6秒為單位，將智能體所跑的賽道量化為一段一段的“靜態(tài)地圖段”，并將每一段賽道的左右邊緣和中心線編碼為60個等距的三維點(diǎn)：

訓(xùn)練場準(zhǔn)備好了，現(xiàn)在就是讓GT Sophy真正成為一名會轉(zhuǎn)彎、會思考的賽車手。

索尼使用了一種新的深度學(xué)習(xí)算法，也叫做量化回歸的行為者-評價者（QR-SAC）方法。

AI智能體會被扔到一個沒有指令的環(huán)境中，并根據(jù)評價者（也就是價值函數(shù)）的評估來選擇行動，并根據(jù)完成目標(biāo)的結(jié)果而獲得獎勵或懲罰。

比如，智能體會因?yàn)楸３指咚偾斑M(jìn)而獲獎勵，也會因?yàn)槌鼋?、撞墻或失去牽引力受到懲罰。

這種獎懲機(jī)制使智能體迅速得到積極的反饋，慢慢開始熟悉在賽道上的行為。

事實(shí)上，GT Sophy只用了幾個小時就學(xué)會了在賽道上行駛，并很快就在Maggiore賽道上超越了17700名玩家：

但這種單純的速度，或者說賽道完成進(jìn)度上的獎勵并不足以激勵智能體贏得比賽。

因?yàn)槿绻麑κ炙俣茸銐蚩欤悄荏w就完全可以通過跟隨并學(xué)習(xí)對手的“偷懶”的方式積累大量獎勵，最終也能完成目標(biāo)。

于是，研究者們增加了“超車獎勵”，并且，相對于對手的距離的改變也會與獎勵積分成比例。

同時，賽車的碰撞上也有獎懲機(jī)制，研究人員設(shè)置了一種較為保守的獎勵：

在確保智能體能以足夠強(qiáng)悍的駕駛風(fēng)格贏得勝利的同時，也不至于會粗暴地將其他賽車趕出道路，而遭受真正的賽車規(guī)則的懲罰。

最終，GT Sophy在GT賽車比賽中勝過了2021年TGR GT杯冠軍、2020年國家杯世界冠軍和2021年亞軍、2018年國家杯亞洲/大洋洲冠軍等多位世界頂級賽車手。

在比賽中，GT Sophy在三條賽道上都取得了第一名。

而在比賽中，它能夠執(zhí)行幾種類型的轉(zhuǎn)彎，有效地利用漂移，擾亂后面車輛，攔截對手并執(zhí)行其他緊急操縱。

不過，研究者也提到，GT Sophy在戰(zhàn)略決策方面還存在著一些改進(jìn)的空間：有時會在同一條跑道上留出足夠的空間，讓對手有機(jī)可乘。

看到這里，你覺得GT Sophy能力如何？

反正幾位世界級選手們是服氣了。

在GT賽車世界級賽事上斬獲三冠的宮園拓真（Takuma Miyazono）表示：

“Sophy的速度非?？欤瑔稳r間勝過了此前對最佳車手的預(yù)期。”

——在其中一場比賽中，GT Sophy Rouge以5.8秒的優(yōu)勢戰(zhàn)勝了第二名山中智明（2021年TGR GT杯冠軍），最快圈速為1：54.373，比山中快了2秒多。

而GT Sophy的能力顯然不僅僅能在游戲中大殺四方。

斯坦福汽車研究中心聯(lián)合主任Chris Gerdes教授就指出，GT Sophy背后的AI技術(shù)，可以幫助開發(fā)自動駕駛汽車：

GT Sophy在賽道上的成功表明，有朝一日，神經(jīng)網(wǎng)絡(luò)在自動駕駛汽車軟件中的作用可能比現(xiàn)在更大。

目前，神經(jīng)網(wǎng)絡(luò)算法在自動駕駛汽車軟件中主要負(fù)責(zé)跟蹤道路標(biāo)記、感知障礙，控制軟件則仍依賴于人為設(shè)定的規(guī)則。

豐田研究所高級經(jīng)理Avinash Balachandran也表示，“在賽車中應(yīng)用機(jī)器學(xué)習(xí)和自主控制令人興奮”。

還有不少網(wǎng)友認(rèn)為，這一AI或許與索尼新成立的電動汽車公司有關(guān)，或許再過幾年，這個AI就能在其自動駕駛技術(shù)中看到了。

當(dāng)然對于索尼玩家來說，最期待的是：下個月上市的GT7能否加入這個最強(qiáng)AI？

好消息是GT7仍會登陸上一代游戲機(jī)PS4，沒買到PS5的玩家也能嘗嘗鮮了。

總結(jié)

以上是生活随笔為你收集整理的索尼搞了个大新闻！AI打败人类三冠王登上Nature封面的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：法系车变天！曝东风标致、东风雪铁龙或法、
下一篇： iPod Max是苹果最值得期待的新品：

综合教程

索尼搞了个大新闻！AI打败人类三冠王 登上Nature封面

總結(jié)

索尼搞了个大新闻！AI打败人类三冠王登上Nature封面