T-LESS:制作RGBD 6D姿态数据集和标签
T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects
該數據集網址已公開:http://cmp.felk.cvut.cz/t-less/
摘要:該數據集采集的目標為工業應用、紋理很少的目標,同時缺乏區別性的顏色,且目標具有對稱性和互相關性,數據集由三個同步的傳感器獲得,一個結構光傳感器,一個RGBD sensor,一個高分辨率RGBsensor,從每個傳感器分別獲得了3.9w訓練集和1w測試集,此外為每個目標創建了2個3D model,一個是CAD手工制作的另一個是半自動重建的。訓練集圖片的背景大多是黑色的,而測試集的圖片背景很多變,會包含不同光照、遮擋等等變換(之所以這么做作者說是為了使任務更具有挑戰性)。
Intoduction:
無紋理的剛性物體在人類環境中很常見,檢測和精確定位它們來自圖像出現在各種應用中。剛性物體的姿態具有六個自由度,即三個
旋轉和三個平移,以機器人技術為例,6D對象姿勢有助于空間推理并允許最終執行者對一個物體采取行動。
紋理的缺乏導致物體的檢測無法依賴傳統的光學局部信息和描述子(即局部顏色特征信息),但是近年來缺乏紋理的目標可以依賴于3D特征,可以依賴梯度信息和深度信息。
本實驗采用的設備:
1.結構光RGBD sensor:Primesense Carmine 1.09
2.RGBD sensor:Microsoft Kinect v2
3.RGB camera:Canon IXUS
這些傳感器都是時間同步的,且具有相同的視角(怎樣做到具有相同的視角)。
接下來作者介紹了一些其他的數據集,令人印象深刻的有:1.A new benchmark for pose estimation with
ground truth from virtual reality(使用合成的方式創建數據集)
同時作者解釋了本數據集的優勢在于:1.大量跟工業相關的目標;2.訓練集都是在可控的環境下抓取的;3.測試集有大量變換的視角;4.圖片是由同步和校準的sensor抓取的;5.準確的6D pose標簽;6.每個目標有兩種3D模型;
作者制作數據的過程:
1.數據由上圖的裝置獲取,有一個轉盤,待檢測物體房子啊轉盤上,夾具上安裝著sensor,角度是可以調節的,標記塊用于標記相機姿態(外參),標記塊固定在轉盤上,標記塊垂直地延展到了轉盤外面,是為了提升在較低的立體面的姿態預測。為了獲取訓練數據,object被放在轉盤的中央,后面是一個黑色的背景,這是為了保證在所有的立體面都是黑色的背景。在測試集的獲取上,我們將物體放在標記塊上,或者在物體下面放上本或者其他東西來制造背景。object表面的深度在0.53m-0.92m,Carmine RGBD相機的井深在0.35-1.4m,Kinect的在0.5~4.5m。
2.傳感器的標定
相機的內參和畸變系數是由標準棋盤格和opencv軟件完成的。所有傳感器都是同步的,且外在與轉盤進行了校準。傳感器必須同步,因為圖片是在轉盤轉動的時候采集的。外參的獲取是通過BCH碼的Markers,圖像采集檢測可以獲取它們的2D坐標,同時又已知它們的2D坐標,就可以得到一系列2D~3D點對,然后通過PnP算法求解相機姿態,然后通過非線性優化最小化累計誤差,關于像素點在圖片當中的最小均方誤差,1.27 px for Carmine, 1.37 px for Kinect, and 1.50 px for Canon。因為整體誤差不止有內參矯正誤差,還有角點檢測誤差,還有傳感器姿態估計偏差,所以整體的偏差比上述的要大。
3.訓練集和測試集
對于紋理較少的目標,通常的檢測方案是采用模板匹配,對每一個目標從不同角度采集圖片,造模板的話,從85度到-85度,每個10度取一個角度,然后偏正角每隔5度取一個角度,這樣每個目標就可以造1872個訓練集,但由于物體是對稱的,只取上半視野即可得到所有情況的樣本,取85度到5度即可。測試集的話取75度到5度、偏正角仍然5度一取,所以每個目標一共有772=502張圖片。為了移除圖片中不相關的部分,我們需要對圖片進行裁剪,為了讓背景否都變成黑色,我們通過CAD模型在相機內外參下的映射獲取背景Mask,把Mask涂黑,去除Marker的影響。
4.深度修正(Depth Correction)
RGBD獲取的深度信息也是有偏差的,深度修正主要是通過Marker,首先取出0.53 –0.92 m 的點(這是object出現的位置),根據Marker PnP獲取深度采用多項式公式對其進行修正,修正后sensor的深度信息誤差大大減小,Carmine從12.4 mm to 2.8 mm,Kinect從7.0 mm to 3.6 mm。
5.3D模型
對于每一個目標,我們要創建一個手工的CAD模型和一個半自動重建的模型。模型都是以3D網格以及頂點法線的格式提供。表面顏色信息只在重建模型中存在,兩個模型都有用MeshLab針對每個頂點計算法線。
重建模型由fastfusion創建(是一個Steinbrucker提供的3D映射系統)。fastfusion的輸入是從Carmine獲得RGBD圖像以及通過Marker獲得的相機姿態,對于每一個目標,兩個局部的模型先進行重建,一個是“上半球”的視野,一個是“下半球"的視野,這兩個局部模型用ICP算法對頂點進行對齊。之后是人工肉眼精修,看表面的顏色細節是否正確。最后的精修是依賴于相機的姿態,將其映射到基準幀,更新姿態,從所有圖片中去重建模型原貌。當然,模型當中會包含一些小錯誤需要人工剔除,比如金屬、光滑、透明的表面的深度信息往往是不正確的,需要剔除。重建模型通過ICP算法校準到CAD模型,精修過程是手工的。通過ICP算法來評估這兩種模型,平均距離差為1.01mm,對于大小幾十甚至幾百毫米的物體來說,這個差距很小,但是還是有區別的,CAD模型包含一些內面的部分。
6.Ground Truth Poses
為了給測試圖獲取6D姿態標簽,要建立密集的場景的3D模型,這有504張RGBD圖和Marker標記出的姿態完成。用目標的CAD模型手工對準場景模型,為了提高準確性,將目標模型渲染到高分辨率的場景模型,并且手工調整誤對準的地方直到滿意為止。最終的轉換姿勢就是標簽姿態。
下面來驗證6D標簽的準確性:
把通過Marker獲取姿態的渲染深度和sensor獲取的深度進行相減,如果超過5cm就認為是outlier,是外點的原因主要有以下兩點:1.sensor獲取的深度信息不準2.目標有部分被遮擋;
Carmine抓取的深度信息比較準確,與渲染的深度差值近乎于0,對于Kinect,我們發現RGB圖和深度圖有些輕微的失調。
接下來是實驗部分:
我們在Hodan提出的6d定位方案上進行試驗,其輸入是圖片以及目標在圖片中的位置,目的是獲取目標的6D姿態。我們拿Carmine獲取的RGBD圖進行實驗,CAD模型可以用于之前提到的Pose精修,loss如下(通過預測姿態和標簽姿態造成的平均實際距離差):
當e<=k*d的時候視為預測正確,k=0.1,d是所有模型法線對的最大距離(也就是目標直徑),目標至少有10%的可見度才考慮此評估。從下圖可以看出,遮擋是對結果準確度影響最大最嚴重的。
5.0總結
本文提供了數據集 T-LESS,針對工業相關無紋理對稱目標。且提供了多樣的傳感器信息和精準的ground_truth,運用數據集進行初步的結果評估發現6D姿態檢測還有很大的進步空間。
個人總結
拋開各種修正算法,就是用Marker獲取的姿態作為ground truth,然后處理圖像,將網絡輸入的圖像中的Marker涂成黑色。
總結
以上是生活随笔為你收集整理的T-LESS:制作RGBD 6D姿态数据集和标签的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 12.05计算机导论课后总结
- 下一篇: 超级课程表导入课程显示服务器繁忙,超级课