日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

Grasp2Vec:通过自我监督式抓取学习物体表征

發布時間:2023/11/27 生活经验 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Grasp2Vec:通过自我监督式抓取学习物体表征 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

從很小的時候開始,人類就能夠識別最喜歡的物品,并將它們撿起來,盡管從未有人明確教過他們這樣做。認知發展研究表明,與周圍物體互動的能力在培養物體感知和操縱能力(例如有目的的抓取)的過程中起著至關重要的作用。通過與周圍的環境互動,人類能夠以自我監督的方式學習:我們知道自己作出的動作,并會從結果中學習。在機器人領域,人們正在積極研究這種自我監督學習,因為這使機器人系統能夠在不需要大量訓練數據或人工監督的情況下進行學習。

受物體恒存概念的啟發,Google提出了 Grasp2Vec,這是一種簡單但非常高效的算法,可用于獲取物體表征。Grasp2Vec 基于這樣一種直覺,即抓起任何物體的嘗試都會提供一些信息。如果機器人抓住并舉起某個物體,則此物體在被抓取前必須存在于場景中。此外,機器人知道它抓取的物體目前在自己手中,因此物體被移出了場景。通過這種形式的自我監督,機器人可以根據抓取后場景中的視覺變化來學會識別物體。

基于之前與 X Robotics 的合作(即一系列機器人同時僅通過單目攝像機輸入來學習抓取家居用品),Google使用機械臂來 “無目的地” 抓取物體,而這種體驗使機器人可以學習豐富的物體表征。然后它們可以將這些表征用于獲得 “有目的抓取” 的能力,即機械臂之后可以根據用戶指令抓取物體。效果如下所示:

構建感知獎勵函數

在強化學習 (RL) 的框架中,任務成功與否可以通過 “獎勵函數” 來衡量。通過使獎勵最大化,機器人可以從頭開始自學各種抓取技能。當成功可以由簡單的傳感器測量結果來衡量時,設計獎勵函數并非難事。舉一個簡單的例子,當機器人按下某個按鈕時,它會直接得到獎勵。

但是,如果我們的成功標準取決于對手頭任務的感知認識,那么設計獎勵函數就會困難得多。例如實例抓取任務,我們向機器人呈現一張圖片,其中需要其抓取的物體正被抓著。在機器人嘗試抓取該物體后,它會檢查手中的物體。此任務的獎勵函數可以歸結為回答物體識別問題:這些物體是否與目標匹配?

在左圖中,機器臂正抓著刷子,背景中有一些物體(黃色杯子、藍色塑料塊)。在右圖中,機器臂正抓著黃色杯子,背景中有刷子。如果左圖是所需結果,則正確的獎勵函數應該能夠 “理解” 上面兩張圖片對應不同的物體

為解決這一識別問題,我們需要能夠從非結構化圖像數據(沒有任何人為標注)中提取有意義對象概念的感知系統,以無監督的方式學習對物體的視覺感知。無監督學習算法的核心是對數據作出結構性假設。常見的假設是我們可以將圖像壓縮成低維空間,并從之前的幀預測出視頻中的對應幀。然而,如果沒有對數據內容的進一步假設,則這些假設往往不足以用來學習分離對象表征。

那么如果我們在數據收集期間,使用機器人實際分離不同對象呢?機器人領域為表征學習提供了絕佳的機會,由于機器人可以操縱物體,因此能夠提供數據中所需的變化因素。我們的方法基于以下想法:被抓取的物體會從場景中移除。這會產生:

  • 抓取前的場景圖像
  • 抓取后的場景圖像
  • 抓取物體本身的單獨視圖

左圖:抓取前的物體 中間:抓取后的物體 右圖:所抓取的物體

那么,如果我們定義一個從圖像中提取 “對象集” 的嵌入函數,則該函數應該存在以下減法關系:

Google使用完全卷積架構和簡單的度量學習算法來實現這種等式關系。在訓練時,下圖中展示的架構會將抓取前和抓取后的圖像嵌入到密集空間特征圖中。這些特征圖經平均池化后變為向量,“抓取前” 和 “抓取后” 向量之間的差異代表一組物體。該向量和被抓取物體的相應向量表征會通過 N 配對目標歸于等價。

經過訓練后,我們的模型會自然出現兩個有用的屬性。

1.對象相似性

第一個屬性是向量嵌入之間的余弦距離,這讓我們可以比較對象,并確定它們是否相同。此屬性可用于實現強化學習的獎勵函數,并使機器人能夠在沒有人為提供標簽的情況下學習實例抓取。

2.尋找目標對象

第二個屬性是我們可以將場景空間圖和對象嵌入結合起來,以確定 “查詢對象” 在圖像空間中的位置。通過獲取空間特征圖的元素積和查詢對象的對應向量,我們可以在空間圖中找到與查詢對象 “匹配” 的所有像素。

使用 Grasp2Vec 嵌入在場景中尋找物體。左上方的圖像展示了箱子中的物體。左下方是我們希望抓取的查詢對象。通過將查詢對象向量的點積與場景圖像的空間特征相結合,我們得到每像素的 “激活圖”(右上方的圖像),其中展示了圖像中的相應區域與查詢對象的相似度。此響應圖可用于尋找要抓取的物體

當存在多個與查詢對象匹配的物體時,或者即使查詢中包含多個對象(兩個向量的平均值),我們的方法仍然有效。例如,以下是在場景中檢測到多個橙色塊的情況。

所生成的 “熱圖” 可用于規劃機器人尋找目標對象的方法。我們將 Grasp2Vec 的定位和實例識別功能與 “無目的抓取” 的策略相結合,在數據收集期間實現機器人找到已見過物體的 80% 成功率,以及找到未見過新物體的 59% 成功率。

結論

在這篇文章中,我們展示了機器人抓取技能如何生成用于學習對象中心表征的數據。然后,我們可以利用表征學習來 “引導” 機器人學習實例抓取等更復雜的技能,同時保留自主抓取系統的自我監督學習屬性。

除了我們自己的研究以外,最近的許多論文也研究了如何通過抓取、推壓以及采用其他方法操縱環境中的物體,從而將自我監督互動應用于獲取表征。展望未來,我們不僅對機器學習能夠通過更出色的感知和控制能力為機器人帶來哪些成果而感到興奮,還對機器人在新的自我監督范式中能為機器學習帶來哪些改變感到期待。

本文摘自Google最新的技術文章,結合自己的一些感悟略作調整。

總結

以上是生活随笔為你收集整理的Grasp2Vec:通过自我监督式抓取学习物体表征的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。