日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习Reinforcement Learning

發布時間:2025/4/5 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 强化学习Reinforcement Learning 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Abstract

Abstract

背景

強化學習算法概念


背景

(1) 強化學習的歷史發展

1956年Bellman提出了動態規劃方法。
1977年Werbos提出只適應動態規劃算法。
1988年sutton提出時間差分算法。
1992年Watkins 提出Q-learning 算法。
1994年rummery 提出Saras算法。
1996年Bersekas提出解決隨機過程中優化控制的神經動態規劃方法。
2006年Kocsis提出了置信上限樹算法。
2009年kewis提出反饋控制只適應動態規劃算法。
2014年silver提出確定性策略梯度(Policy Gradents)算法。
2015年Google-deepmind 提出Deep-Q-Network算法。

(2) 強化學習概念起源

強化學習是機器學習中的一個領域,強調如何基于環境而行動,以取得最大化的預期利益。其靈感來源于心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。

這個方法具有普適性,因此在其他許多領域都有研究,例如博弈論、控制論、運籌學、信息論、仿真優化、多主體系統學習、群體智能、統計學以及遺傳算法。在運籌學和控制理論研究的語境下,強化學習被稱作“近似動態規劃”(approximate dynamic programming,ADP)。在最優控制理論中也有研究這個問題,雖然大部分的研究是關于最優解的存在和特性,并非是學習或者近似方面。在經濟學和博弈論中,強化學習被用來解釋在有限理性的條件下如何出現平衡。

(3) 強化學習與監督學習、非監督學習區別

  • Supervised learning:是從一個已經標記的訓練集中進行學習,訓練集中每一個樣本特征可以視為是對該situation的描述,而其label可以視為是應該執行的正確的action,但是有監督的學習不能學習交互的情景,因為在交互的問題中獲得期望行為的樣例是非常不實際的,agent只能從自己的經歷(experience)中進行學習,而experience中采取的行為并一定是最優的。這時利用RL就非常合適,因為RL不是利用正確的行為來指導,而是利用已有的訓練信息來對行為進行評價。
  • Unsupervised learning:因為RL利用的并不是采取正確行動的experience,從這一點來看和無監督的學習確實有點像,但是還是不一樣的,無監督的學習的目的可以說是從一堆未標記樣本中發現隱藏的結構(通過數據之間的關聯性將數據分類),而RL的目的是最大化reward signal。
  • Reinforcement learning:強化學習的目標是使得回報reward最大化maximize。強化學習和非監督學習的關鍵部分就是回報的選擇。強化學習是學習狀態和行為之間的映射關系,agent必須通過不斷嘗試才能發現采取哪種行為能夠產生最大回報。

總的來說,RL與其他機器學習算法不同的地方在于:其中沒有監督者,只有一個reward信號;反饋是延遲的,不是立即生成的;時間在RL中具有重要的意義;agent的行為會影響之后一系列的data。

reference:

https://blog.csdn.net/qq_20499063/article/details/78762596

https://blog.csdn.net/qq_20499063/article/details/78762596

強化學習算法

在標準RL框架[10]中,agent在許多時間步長上與外部環境進行交互。 在此,s是所有可能狀態的集合,而a是所有可能動作的集合。 在每個時間步t,處于狀態st的代理從環境中感知觀察信息Ot,采取行動并從獎勵源Rt接收反饋。 然后,代理轉換到新狀態st + 1,并確定與該轉換關聯的獎勵Rt + 1(st,at,st + 1)。 代理可以從上次訪問的狀態中選擇一個動作。 強化學習代理的目標是以最小的延遲收集最大可能的回報。

reference:

  • Leslie Pack Kaelbling, Michael L Littman, and Andrew W Moore. Reinforcement learning: A survey.?Journal of artificial intelligence research, 4:237–285, 1996.

  • ?

    ?

    ?

    ?

    ?

    《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

    總結

    以上是生活随笔為你收集整理的强化学习Reinforcement Learning的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。