A. Harry Klopf是谁?
在閱讀Richard S. Sutton和Andrew G. Barto合著的《Reinforcement Learning:An Introduction》第一版時,我們就看到作者在書的開頭單列一頁寫到“In memory of A. Harry Klopf”,但網上幾乎搜索不到關于 A. Harry Klopf的資料。在第一版的前言部分,也僅僅有兩句話提及了Harry,分別是:
從以上兩段話我們可以看到,Harry啟發了作者去探索強化學習,并為他們做了一些前期工作。我們可以從另一句同樣來自第一版前言中的話話窺得一二:“雖然強化學習明顯激發了一些最早的有關學習的計算研究,但大多數研究人員已經開始研究其他方面,例如模式分類,監督學習和自適應控制,或者他們完全放棄了關于學習的研究。因此,學習如何從環境中獲取某些東西所涉及的特殊問題得到的關注相對較少。”由此,作者選擇了這一條少有人走的路——強化學習,一走就是四十年。
但是我們得到的有關Harry的信息仍然有限,直到2018年12月《強化學習》第二版的出現,在這一版的前言部分,作者用半頁多的筆墨講述了他們和Harry的故事,現摘抄并翻譯如下:
“與第一版一樣,本書的這一版本致力于紀念A. Harry Klopf。正是哈利把我們介紹給對方,正是他對大腦和人工智能的想法引發了我們對強化學習的長期探索。Harry在神經生理學方面受過長期訓練,對機器智能很感興趣,他曾是俄亥俄州賴特 - 帕特森空軍基地空軍科學研究所(AFOSR)的航空電子理事會的高級科學家。他對在解釋自然智能和為機器智能提供基礎方面強調包括動態平衡和糾錯模式分類方法在內的均衡尋求過程的重要性表示不滿。(He was dissatisfied with the great importance attributed to equilibrium-seeking processes, including homeostasisand error-correcting pattern classification methods, in explaining natural intelligence and in providing a basis for machine intelligence.)他指出,試圖最大化某些東西(無論可能是什么)的系統在本質上與均衡尋求系統不同,他認為最大化系統是理解自然智能的重要方面和構建人工智能的關鍵。Harry幫助從AFOSR獲得資金,用于評估這些和相關想法的科學價值的項目。該項目于20世紀70年代末在馬薩諸塞州阿默斯特大學(UMass Amherst)進行,最初由Michael Arbib,William Kilmer和Nico Spinelli領導,他們是阿默斯特大學計算機與信息科學系的教授,也是該大學系統神經科學控制論中心的創始成員,一個專注于神經科學和人工智能交叉的有遠見的團隊。Barto,那時是一位剛獲得博士學位的密歇根大學學生,被聘為該項目的博士后研究員。與此同時,在斯坦福大學攻讀計算機科學和心理學的本科生Sutton與Harry就他們對刺激時間在經典限制下的作用的共同興趣進行了交流。(Sutton, an undergraduate studying computer science and psychology at Stanford, had been corresponding with Harry regarding their mutual interest in the role of stimulus timing in classical conditioning. )Harry向阿默斯特大學小組建議,Sutton將是該項目的一個很好的補充。因此,Sutton成為阿默斯特大學的研究生,并在Barto的指導下獲得了博士學位,此時Barto已成為副教授。本書中提到的強化學習研究正是Harry策劃的項目的結果,并受到他的思想的啟發。此外,Harry將我們作者帶到一起,進行了長期愉快的互動。通過將這本書獻給Harry,我們向他表示敬意,不僅因為他把我們帶進了強化學習領域,而且還使我們相互合作。”
以上翻譯原文來自于《強化學習》第二版前言部分,部分專有名詞由機器翻譯,如有翻譯錯誤希望大家指正。
參考資料:《強化學習》第二版PDF
總結
以上是生活随笔為你收集整理的A. Harry Klopf是谁?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 美通社日历 | 媒体关注、会展信息、企业
- 下一篇: java+js+html 实现webSo