日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

<u id="kdbw3"><legend id="kdbw3"><abbr id="kdbw3"></abbr></legend></u>

<fieldset id="kdbw3"></fieldset>

<ruby id="kdbw3"></ruby>

<noframes id="kdbw3"></noframes>

歡迎訪問生活随笔！

生活随笔

生活随笔是一个全网技术分享平台，涵盖前端开发（HTML/CSS/JavaScri...

生活随笔

當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记：PointNet

發布時間：2025/3/21 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记：PointNet 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

PointNet

1、四個問題

要解決什么問題？

3D點云是一種很重要的幾何數據結構。由于其存在空間關系不規則的特點，因此不能直接將已有的圖像分類分割框架套用到點云上。
許多研究者會將3D點云轉換為3D體素（voxel grids ）或者一系列圖片，然后套用到現有的深度學習框架上，取得了非常好的效果。但是將點云體素化勢必會改變點云數據的原始特征，造成不必要的數據損失。
因此，作者想要做的就是設計一個可以直接處理3d點云數據的深度學習框架。

用了什么方法解決？

提出了PointNet，它可以直接將3d點云作為輸入，輸出預測的類別。
由于直接以點云作為輸入，而最大的難點在于點云的點數是不確定且無序的。
核心方法是巧妙地使用了一個Max Pooling，解決了這個問題。

效果如何？

盡管網絡結構很簡單，PointNet在許多任務上的表現還是很好的，甚至超過了state-of-the-art。

還存在什么問題？

PointNet只關注了3D點云的全局信息，對于局部信息的利用不夠充分，一定程度上限制了網絡的性能。

2、論文概述

2.1、簡介

因為點云和mesh都是不規則的，大多數學者都會先將這類數據先轉換為標準的3D體素（voxel grids ）或者多視角下的圖片，然后再送入深度學習框架中進行處理。
PointNet可以直接接收點云作為輸入，然后輸出預測的分類結果或是每個點的語義分割結果。
網絡結構十分簡單，核心在于巧妙地使用了一個對稱函數：Max Pooling。
網絡隨著訓練會學習到一系列函數，可以從3d點云中選取出感興趣的或是信息含量大的特征點，并進行編碼。
最后的全連接層會將提取得到的信息聚合到全局描述子中，代表了整個形狀的信息。
一個有趣的發現是，PointNet會試著使用一個稀疏的關鍵點集來表示整個輸入點云，與粗略地提取物體的骨架很類似。
PointNet的應用：

2.2、PointNet

PointNet的輸入時歐式空間中的點組成的點集。主要有三個屬性：
無序性。不像圖像的像素或者三維的體素，點云是一系列沒有特定順序的點。因此，網絡需要保證面對 $n$ 個點的3D點云的 $N!$ 種順序置換的可能情況具有不變性。
點與點之間相關性。這些點來自于一個具有距離度量的空間，也就意味著點之間不是獨立的，近鄰點本身就是一個有意義的子集。因此，模型需要能夠捕獲近鄰點的局部結構特征。
旋轉（平移）不變性。對于幾何物體，網絡提取到的點集的特征應該不會受到旋轉和平移等變換的影響。
三個關鍵結構：
- 最大池化層，用來將從所有的點上提取得來的信息聚合到一起。
- 局部信息和全局信息結合結構。
- 兩個對齊網絡T-Net，用來將輸入點和特征點進行對齊。

網絡結構其實很簡單，主要參考這張流程圖就能理解了。
- T-Net用來生成變換矩陣，作用是用來對齊特征，使特征更利于提取。輸入是 $\times 3$ ，那么第一個T-Net生成的就是一個 $\times 3$ 的仿射變換矩陣；由于第二個T-Net的輸入時 $\times 64$ ，那么生成的變換矩陣就是一個 $64 \times 64$ 的變換矩陣。
- 使用mlp提取特征，也可以理解為卷積核為1的1維卷積。
- 使用Max Pooling將全局特征 $\times 1024$ ，kernel size直接取為 $n$ ，得到 $\times 1024$ 維的全局特征。
- 后續再進行特征提取，用于分類或是分割任務。

2.2.1、用來處理無序輸入的對稱函數

目前有以下三種策略：
將輸入排序成一個標準的順序。
將輸入當做一個序列輸入RNN，但是需要進行數據增強，將所有可能得置換順序的數據都用來訓練。
使用一個對稱函數來將所有點的信息聚合。
作者最終選擇使用max pooling來聚合全局信息，并在后面從理論上證明了，當特征維數足夠大時，max pooling可以模擬論文中所述的任意對稱函數f。推導略。

2.2.2、聚合全局和局部信息

在計算得到全局點云特征向量后，將其與前面的點特征拼接在一起。隨后再從拼接后的特征向量中提取特征，這時既有局部信息也有全局信息。

2.2.3、對齊網絡

輸入的點云是 $\times 3$ ，通過一個小網絡T-Net預測出一個放射變換矩陣，并直接乘在輸入上。
對齊網絡也可以擴展到特征空間中，通過一個小網絡T-Net預測出一個特征變換矩陣，乘在輸出的特征向量上。
考慮到在特征空間上的變換矩陣比普通的空間變換矩陣（3維）的維度高得多，這會給優化增加不小的難度。所以另外還要在最后的softmax損失上加上一個正則化項： $L_{reg} = \|I - A^T A\|_F^2$ 。其中 $A$ 是T-Net預測得到的特征對齊矩陣。對角矩陣不會丟失輸入信息，這也是我們所期望的。作者提到，加上正則化項之后訓練會更穩定。

2.3、實驗

在ModelNet40數據集上的分類任務結果：

在ShapeNet數據集上的分割結果。

PointNet的參數量相比其他state-of-the-art的架構小得多。

3、參考資料

https://blog.csdn.net/sunfei05/article/details/80351524

https://blog.csdn.net/yongxiebin9947/article/details/79368752

總結

以上是生活随笔為你收集整理的论文笔记：PointNet的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文笔记：ShuffleNet v2
下一篇：论文笔记：Image Caption(S

<ruby id="3jnjc"></ruby>

<style id="3jnjc"><i id="3jnjc"></i></style>

<table id="3jnjc"><th id="3jnjc"><strike id="3jnjc"></strike></th></table>

<fieldset id="3jnjc"><i id="3jnjc"></i></fieldset>

<samp id="3jnjc"><delect id="3jnjc"></delect></samp>

<ruby id="3jnjc"></ruby>

<ruby id="3jnjc"></ruby>