當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】3D深度学习简介

發布時間：2025/3/12 pytorch 18 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习】3D深度学习简介小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在過去的幾年里，像微軟Kinect或Asus Xtion傳感器這樣，既能提供彩色圖像又能提供密集深度圖像的新型相機系統變得唾手可得。人們對此類系統的期望很高，它們將推動機器人技術和視覺與增強現實領域中基于3D感知的新應用。

三維深度學習方法已經從使用三維數據的派生表示轉變為直接使用原始數據。在方法方面，將二維卷積神經網絡應用于三維數據已轉化為專門為三維場景設計的方法，這大大提高了對象分類和語義分割等任務的性能。

本文將重點介紹最近的三維對象分類和語義分割。我們將首先回顧一些獲取和表示三維數據的常用方法的背景，接下來，介紹三種不同的基本三維數據表示方法。最后，我們將介紹未來有希望的新研究方向，并從我們的角度總結該領域的未來方向。

三維表示

獲取三維數據后，需要將其表示為一種形式，作為正在構建的處理流的輸入。

以下是常見的四種表述：

(a) 點云；(b) 體素網格；(c) 三角網格；(d) 多視圖表示

1、點云是三維空間中點的集合；每個點由某個（x、y、z）位置確定，我們還可以為其指定其他屬性（如RGB顏色）。

2、體素網格是從點云發展而來的，體素類似于三維空間中的像素。

3、多邊形網格由一組具有公共頂點的凸多邊形曲面組成，這些曲面可以近似于幾何曲面。

4、多視圖表示是從不同模擬視角獲得的渲染二維多邊形網格圖像的集合。

多視圖表示是將深度學習模型應用于三維場景的最簡單方法。該問題已轉化為二維問題，但它仍允許在一定程度上對三維幾何結構進行推理。這一思想的早期應用基于[1]一種簡單但非常有效的網絡體系結構，它可以從三維對象的多個二維視圖中學習特征描述符。在預先訓練好的VGG網絡中逐個輸入圖像，以提取顯著特征，組合這些結果向量，并將這些信息傳遞給剩余的卷積層以進行進一步的特征學習。

固定數量的二維視圖仍然只是底層三維結構的不完美近似。由于從二維圖像獲得的特征信息有限，語義分割等任務，尤其是在跨越更復雜的對象和場景時，變得更具挑戰性，這些缺點促使人們研究直接使用三維數據進行學習的方法。

通過體素網格學習可以解決多視圖表示的主要缺點。體素網格縮小了2D和3D之間的差距。它們是圖像最接近的三維表示，這使得二維DL概念很容易應用于三維場景。

Maturana和Scherer于2015年提出的VoxNet[2]是第一個在具有給定體素網格的對象分類任務上實現優異性能的VoxNet，VoxNet使用概率占用網格，其中每個體素包含體素在空間中被占用的概率。這樣做的一個優點是，它允許網絡區分已知為自由的體素和占用率未知的體素。

該體系結構由兩個卷積層和一個池層組成，兩個完全連接的層用于計算輸出類別得分向量。VoxNet代表著邁向真正3D學習的一大步，但體素網格仍有一些缺點。首先，與點云相比，它們失去了分辨率。因為如果表示復雜結構的不同點非常接近，它們將綁定在同一個體素中。同時，與稀疏環境中的點云相比，體素網格可能會導致不必要的高內存使用率，這是因為它們主動消耗內存來表示空閑和未知空間，而點云只包含已知點。

考慮到使用基于體素的方法的問題，最近的工作集中在直接對原始點云數據進行操作的架構上。Qi等人于2016年提出的PointNet是處理這種不規則3D數據的最早方法。當我們在點云中給定N個點時，網絡需要學習一個獨特的特征，該特征相對于這些N個輸入點的完整排列是恒定的，因為這些輸入為神經網絡提供了點的順序，而不影響基礎幾何結構。此外，網絡應對點云旋轉、平移和其他變換具有魯棒性，縮放操作不應影響預測結果。

為了解決學習點云幾何變換不變表示的問題，PointNet使用了一個稱為T-Net的小型網絡，該網絡將仿射變換應用于輸入點云。這個概念類似于空間變換網絡，但要簡單得多，因為不需要定義新類型的層。T-Net是一個可學習的參數組合，這些參數使PointNet能夠將輸入點云轉換為固定和標準化的空間，從而確保整個網絡對即使是最細微的變化也具有魯棒性。

整個PointNet體系結構繼承了最基本的方法、T-Net和多層，它們為點云創建特征表示。然而，除了對象分類之外，PointNet還支持對象和場景的語義分割。

結論

在過去的 5 年中，3D 深度學習方法已經從使用 3D 數據的派生表示轉變為使用原始數據。在這個過程中，我們采用的方法已經從簡單的卷積神經網絡應用于3D數據轉變為專門為3D場景設計的方法，極大地提高了對象分類和語義分割等任務的性能。

在過去的5年中，三維深度學習方法已經從使用三維數據的派生表示法轉變為使用原始數據。在這個過程中，我們采用的方法已經從簡單的應用于三維數據的卷積神經網絡轉變為專門為三維場景設計的方法，這大大提高了對象分類和語義分割等任務的性能。

參考

[1] Multi-view Convolutional Neural Networks for 3D Shape Recognition

[2] VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition (2015)

[3] PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯黃海廣老師《機器學習課程》視頻課

本站qq群851320808，加入微信群請掃碼：

總結

以上是生活随笔為你收集整理的【深度学习】3D深度学习简介的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【深度学习】揭秘2021抖音和快手APP
下一篇：梳理百年深度学习发展史-七月在线机器学习