日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

人类对大脑多巴胺机制理解错了!顶级版AlphaGo背后技术启发脑科学

發布時間:2023/11/21 综合教程 48 生活家
生活随笔 收集整理的這篇文章主要介紹了 人类对大脑多巴胺机制理解错了!顶级版AlphaGo背后技术启发脑科学 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

  賴可乾明十三發自凹非寺
  量子位報道公眾號 QbitAI

  人工智能,往往從人類思維方式中獲取靈感。

  但現在反過來了!

  人工智能的進步,已經能夠為揭秘大腦如何學習提供啟發。

  這是來自 DeepMind 的最新研究,剛登上 Nature,研究證明:

  分布式強化學習,也就是 AlphaGo 的頂級版 Alpha Zero 和 AlphaStar 背后的核心技術,為大腦中的獎賞通路如何工作提供了新解釋。

  如此結論,也讓 DeepMind 創始人哈薩比斯非常激動,發表推文表示:

我們在機器學習方面的研究,能夠重新認識大腦的工作機制,這是非常令人興奮的!

  他當然有理由興奮。

  從長遠來看,這也證明了 DeepMind 提出的算法與大腦運作邏輯相似,也就意味著能夠更好地拓展到解決復雜的現實世界問題上。

  而且一直以來,哈薩比斯的目標就是打造通用人工智能。

  Alpha 系列背后利器:分布式強化學習

  強化學習,就是讓智能體在一個未知的環境中,采取一些行動,然后收獲回報,并進入下一個狀態。

  而時間差分學習(temporal difference learning,TD)算法,可以說是強化學習的中心。

  它是一種學習如何根據給定狀態的未來值,來預測價值的方法。

  算法會將新的預測和預期進行比較。

  如果發現兩者不同,這個“時間差分”就會把舊的預測調整到新的預測中,讓結果變得更加準確。


當未來不確定時,未來的回報可以表示為一種概率分布。有些可能是好的結果(藍綠色),有些結果可能是不好的(紅色)。

  一個特定的行為所帶來的未來獎勵數量,通常是未知且隨機。在這種情況下,標準的 TD 算法學習去預測的未來回報是平均的。

  而分布式強化學習則是更復雜的預測方式,會預測所有未來獎勵的概率分布

  那人類大腦的多巴胺獎賞機制是怎么樣的呢?

  然后研究的雛形就在 DeepMind 研究人員的腦海中生根了。

  不研究不知道,一研究真的“嚇一跳”。

  過去,人們認為多巴胺神經元的反應,應該都是一樣的。

  有點像在一個詩唱班,每個人唱的都是一模一樣的音符。

  但研究小組發現,單個多巴胺的神經元似乎有所不同——所呈現的積極性是多樣的。

  于是研究人員訓練小鼠執行一項任務,并給予它們大小各異且不可預測的獎勵。

  他們從小鼠腹側被蓋區域(Ventral tegmental area,控制多巴胺向邊緣和皮質區域釋放的中腦結構)中發現了“分布式強化學習”的證據。

  這些證據表明,獎勵預測是同時并行地由多個未來結果表示的。

  這和分布式機器學習的原理也太像了吧?

  解釋大腦多巴胺系統

  實驗運用了光識別技術來記錄小鼠大腦中腹側被蓋區中單個多巴胺神經元的反應。

  腹側被蓋區富含多巴胺與5-羥色胺神經,是兩條主要的多巴胺神經通道的一部分

  基于強化學習理論,研究假設大腦存在多巴胺的獎賞預測誤差(RPE)。

  一個信號會引起一個獎賞預測,當獎賞預測低于分布的均值時,會引起負的 RPE,而較大的獎勵會引起正的 RPE。

  在一般強化學習中,獲得的獎勵幅度低于平均值分布將引起消極(負)的 RPE,而較大的幅度將引出積極(正)的 RPE(如上圖a左所示)。

  在分布式強化學習中,每個通道都攜帶不同的 RPE 價值預測,不同通道的積極程度不同。

  這些值的預測反過來又為不同的 RPE 信號提供了參考點。在最后的結果上,一個單一的獎勵結果可以同時激發積極(正)的 RPE 和消極的 RPE(如上圖a右所示)。

  記錄結果顯示,小鼠大腦的多巴胺神經元反轉點根據積極程度的不同而不同。符合分布式強化學習的特點(如上圖b所示)。

  為了驗證神經元反應多樣性不是隨機的,研究者做了進一步驗證。

  將隨機地將數據分成兩半,并在每一半中獨立地估計反轉點。結果發現其中一半的反轉點與另一半的反轉點是相關的。

  為了進一步了神經元對獎賞預測的處理方式。研究者給神經元進行了三種不同的信號刺激。

  分別是 10%、50%、90% 的獎賞概率,并同時記錄了四個多巴胺神經元的反應。

  每條軌跡都是對三種線索之一的平均反應,零時是開始時間。

  結果顯示,一些細胞將 50% 的線索編碼為 90% 的線索,而另一些細胞同時將 10% 的線索編碼為 10% 的線索。

  最后 ,研究者還進行了驗證,試圖從多巴胺細胞的放電率來解碼獎賞分布。

  通過進行推理,成功地重建了一個與老鼠參與的任務中獎勵的實際分配相匹配的分配。

  初步驗證了小鼠的大腦分布式強化學習機制,給研究員帶來了更多的思考:

是什么電路或細胞級機制導致了不對稱的多樣性?

不同的 RPE 通道是如何與相應的獎勵預測在解剖學上結合?

  這些大腦的謎團都有待于進一步了解。

  而且這一研究結果也驗證了之前多巴胺分布對成癮和抑郁等精神障礙機制影響的假說。

  有理論認為,抑郁癥和雙相情感障礙都可能涉及關于未來的負面情緒。

  這些情緒與未來的負面預測偏差有關,偏差則可能來自于 RPE coding28、29 中的不對稱。

  但更多的意義,則是對當前機器學習技術發展的激勵。

  DeepMind 神經科學研究負責人 Matt Botvinick 說:“當我們能夠證明大腦使用的算法,與我們在人工智能工作中使用的算法類似時,這將增強我們的信心。”

  跨學科研究團隊的成果

  這篇論文中一共有 3 位共同一作,也是跨學科團隊的研究成果。

  排在第一位的是 Will Dabney,DeepMind 的高級研究科學家。


Will Dabney

  本科畢業于美國奧克拉荷馬大學,在馬薩諸塞大學阿默斯特分校獲得了博士學位。

  在加入 DeepMind 之前,曾在亞馬遜的 Echo 團隊工作過。

  2016 年加入 DeepMind。

  第二位共同一作是 Zeb Kurth-Nelson,他是 DeepMind 的研究科學家。


Zeb Kurth-Nelson

  博士畢業于明尼蘇達大學,2016 年加入 DeepMind。

  第三位共同一作是 Naoshige Uchida,來自于哈佛大學,是分子和細胞生物學教授。


Naoshige Uchida

  此外,DeepMind 創始人哈薩比斯也在作者之列。

  他一直都希望,能夠通過人工智能的突破也將幫助我們掌握基礎的科學問題。

  而現在的研究發現,他們致力的研究方向,竟然能夠給人們研究大腦帶來啟發,無疑堅定了他們的研究信心。

  One More Thing

  就在這篇論文登上 Nature 的同時,DeepMind 還有另外一篇研究出現了同一期刊上。

  它就是 DeepMind 在 2018 年 12 月問世的 AlphaFold,一個用人工智能加速科學發現的系統。

  僅僅基于蛋白質的基因序列,就能預測蛋白質的 3D 結構,而且結果比以前的任何模型都要精確。

  DeepMind 稱,這是自己在科學發現領域的第一個重要里程碑,在生物學的核心挑戰之一上取得了重大進展。

  截止到現在,DeepMind 提出 Alpha 系列,從 AlphaGo,到 AlphaZero,再到 AlphaStar,以及現在的 AlphaFold,一門 4 子,全上了 Nature。

  唉…頂級研究機構的快樂,就是這么樸實無華,且枯燥。

  傳送門

  https://www.nature.com/articles/s41586-019-1924-6

總結

以上是生活随笔為你收集整理的人类对大脑多巴胺机制理解错了!顶级版AlphaGo背后技术启发脑科学的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。