日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

[MICCAI 2019 | CVPR 2020] 图数据,点云相关文章总结综述,一篇即可看完文章模型结构和创新

發布時間:2024/1/18 ChatGpt 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [MICCAI 2019 | CVPR 2020] 图数据,点云相关文章总结综述,一篇即可看完文章模型结构和创新 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[1] Integrating 3D Geometry of Organ for Improving Medical Image Segmentation,MICCAI2019,Part5

?????? 器官形狀和位置的先驗知識在醫學影像分割中起著重要作用。但是,傳統的2D / 3D分割方法通常以像素/體素分類器的方式工作,其訓練目標無法明確地合并3D形狀知識。本文中提出了一種深度形狀感知網絡來學習器官的3D幾何形狀。更具體地說,該網絡在基于圖形的CNN中使用3D網格表示,可以有效處理形狀推斷和精度傳播。將形狀感知模塊集成到主干FCN中,并在多任務框架中共同訓練完整模型后。中間特征表示的判別能力在幾何關系和分割正則化方面都得到了增強。網絡不僅可以輸出準確的分割結果,而且還可以同時生成平滑的3D網格,可用于進一步的3D形狀分析。

?

?

?

[2] An Efficient PointLSTM for Point Clouds Based Gesture Recognition, CVPR2020

?????? 點云包含豐富的空間信息,為手勢識別提供了補充線索。本文將手勢識別公式化為不規則的序列識別問題,旨在捕獲點云序列之間的長期空間相關性。因而提出了PointLSTM框架,以在保持空間結構的同時傳播過去到未來的信息。PointLSTM將過去相鄰點的狀態信息與當前功能相結合,以通過權重共享的LSTM層更新當前狀態。

?????? 本文認為,RGB數據相比,點云精確地描述了對象表面的潛在幾何結構和距離信息。遞歸神經網絡(RNN)和長短期記憶(LSTM)在序列建模方面是可以借鑒的。借助LSTM,可以捕獲時空對應隨時間變化的運動和外觀變化。但是大多數點云數據都是無序的,直接在未對齊的點云序列上應用權重共享的LSTM層會導致優化困難。因此,如何在保持空間結構的同時利用時間信息是不規則序列建模的主要挑戰。

?????? 本文因此提出了PointLSTM,框架如下。

?????? LSTM與注意力機制天然就有一定的關系,這篇文章的解決的問題是在長時間序列的數據處理問題。

?

[3] PatchVAE: Learning Local Latent Codes for Recognition,CPVR2020

??????

??????

本文認為,要訓練一個新結構,則必須為該概念收集數千個帶有標簽的示例,并訓練功能強大的分類器,因為當前基于深度神經網絡的模型生成需要大量的標記數據。但是,受監督的學習范式不適用于諸如醫療保健和機器人技術之類的應用程序,這些應用程序由于隱私問題或專家人工注釋的高昂成本而難以獲取注釋數據。在這種情況下,無監督學習十分適用。

?????? 本文因此提出了一種新穎的無監督VAE模型,該表示形式僅對圖像中在整個數據集中重復的部分進行編碼,即圖像中經常出現的部分。通過避免整個圖像的重建,模型專注于在許多圖像上重復且一致的區域。在基于編碼器-解碼器的生成模型中,本文限制編碼器體系結構以學習此類重復部分-既包括這些部分(或圖像中的小塊)的外觀表示形式,也包括這些部分的出現位置。本文認為這種PatchVAE模型比標準β-VAEs的學習的識別性要好得多。

?????? 本周推到了其數學結構

?????? 回顧beta-VAE的損失函數

?????? 給定圖像x,令f =φ(x)是確定性映射,該映射生成大小為h×w×de的3D張量f,總共有L = h×w個網格單元。 為了讓編碼器網絡僅對與高度重復的色塊相對應的圖像部分進行編碼(例如,隨機出現的噪聲patch不太可能經常出現,而諸如臉,輪子,窗戶等圖案會在多個圖像上重復出現),將f對應預測圖像中頻繁出現的部分,并僅使用這些預測的部分來重構圖像。

?????? 在encoder中,給定圖像的映射f =φ(x),學習每個網格位置l(其中l∈{1,...,L})的部分表示。即圖中出現的zapp和zlocc(對應這部分在網格位置l處的存在或不存在)參數化。使用兩個網絡QAf和QOf分別參數化zapp和zlocc的后驗分布QAf(zapp | f)和QOf(zlocc | f)。

?????? 由于映射f =φ(x)是確定性的,因此可以將這些分布重寫為QAf(zapp |φ(x))和QOf(zlocc |φ(x))來進行解碼。利用給定zocc和zapp的生成器或解碼器網絡G重建圖像。首先,對zapp進行采樣,然后對后代中每個位置l的部分出現zbinarylocc進行采樣

?????? 然后僅在zlocc = 1的地方使用zapp組成最后的向量z,輸入decoder開始訓練。即

?????? 最后patchVAE的損失函數為

?????? 本文聲稱自己的模型可以摒棄數據集中不重要的部分,僅針對持續出現的部分進行編碼和解碼,并稱此模型的識別度相比于一般模型要好。我認為,如果能講通—我們的生成模型也需要排除數據集中的噪聲,并且聲稱人眼/機器識別度更好的點云數據,那就能講得通將這個模型用在我們的模型上的動機。

?

本文認為,要訓練一個新結構,則必須為該概念收集數千個帶有標簽的示例,并訓練功能強大的分類器,因為當前基于深度神經網絡的模型生成需要大量的標記數據。但是,受監督的學習范式不適用于諸如醫療保健和機器人技術之類的應用程序,這些應用程序由于隱私問題或專家人工注釋的高昂成本而難以獲取注釋數據。在這種情況下,無監督學習十分適用。

?????? 本文因此提出了一種新穎的無監督VAE模型,該表示形式僅對圖像中在整個數據集中重復的部分進行編碼,即圖像中經常出現的部分。通過避免整個圖像的重建,模型專注于在許多圖像上重復且一致的區域。在基于編碼器-解碼器的生成模型中,本文限制編碼器體系結構以學習此類重復部分-既包括這些部分(或圖像中的小塊)的外觀表示形式,也包括這些部分的出現位置。本文認為這種PatchVAE模型比標準β-VAEs的學習的識別性要好得多。

?????? 本周推到了其數學結構

?????? 回顧beta-VAE的損失函數

?????? 給定圖像x,令f =φ(x)是確定性映射,該映射生成大小為h×w×de的3D張量f,總共有L = h×w個網格單元。 為了讓編碼器網絡僅對與高度重復的色塊相對應的圖像部分進行編碼(例如,隨機出現的噪聲patch不太可能經常出現,而諸如臉,輪子,窗戶等圖案會在多個圖像上重復出現),將f對應預測圖像中頻繁出現的部分,并僅使用這些預測的部分來重構圖像。

?????? 在encoder中,給定圖像的映射f =φ(x),學習每個網格位置l(其中l∈{1,...,L})的部分表示。即圖中出現的zapp和zlocc(對應這部分在網格位置l處的存在或不存在)參數化。使用兩個網絡QAf和QOf分別參數化zapp和zlocc的后驗分布QAf(zapp | f)和QOf(zlocc | f)。

?????? 由于映射f =φ(x)是確定性的,因此可以將這些分布重寫為QAf(zapp |φ(x))和QOf(zlocc |φ(x))來進行解碼。利用給定zocc和zapp的生成器或解碼器網絡G重建圖像。首先,對zapp進行采樣,然后對后代中每個位置l的部分出現zbinarylocc進行采樣

?????? 然后僅在zlocc = 1的地方使用zapp組成最后的向量z,輸入decoder開始訓練。即

?????? 最后patchVAE的損失函數為

?????? 本文聲稱自己的模型可以摒棄數據集中不重要的部分,僅針對持續出現的部分進行編碼和解碼,并稱此模型的識別度相比于一般模型要好。我認為,如果能講通—我們的生成模型也需要排除數據集中的噪聲,并且聲稱人眼/機器識別度更好的點云數據,那就能講得通將這個模型用在我們的模型上的動機。

?

[4] Hierarchical Graph Attention Network for Visual Relationship Detection, CVPR2020

?????? 文章認為,視覺關系檢測(VRD)通過<subject-predicate-object>的結構三元組來描述兩個對象之間的關系。現有的基于圖的方法主要通過對象級圖來表示關系,而對象級圖則忽略了對三重態級依賴關系的建模,所以提出了一種分層圖形注意網絡(HGAT),以捕獲對象和三元組級的依賴關系。對象級圖旨在捕獲對象之間的交互,而三元組圖則建模關系之間的依賴關系。另外,引入了先驗知識和注意力機制來將冗余或丟失的邊緣固定在根據空間相關性構造的圖上。

??????

?????? 本文的圖注意力網絡主要用于目標檢測(廣義上的分類任務)。

?

?

[5] From Image Collections to Point Clouds with Self-supervised Shape and Pose Networks, CVPR2020

?

??????

?????? 本文專注于從2D圖像生成3D點云。與使用3D監督或多視圖監督的其他模型不同的是,本文在訓練期間也僅使用單視圖圖像。這使得該模型只需要收集對象類別和相應輪廓的圖像即可。本文利用可微分的點云渲染器以2D監督進行訓練,以自監督的方式學習3D點云重構和估計網絡。提出的技術的關鍵處在于,通過將隨機采樣的3D幾何預測加入點云中實現循環一致性。

?????? 可以看出,本文的2D圖像并非常規2D自然圖像,而是專門的輪廓圖。

?????? 本文的模型借鑒了cycle-GAN的思想來進行單邊域轉換,但是總體結構是數個VAE模型的組合。

?????? 本文是大框架上的借鑒。可以考慮將常規的VAE-GAN改進為上圖的cycle-GAN來優化模型生成。

?

[4] C-Flow: Conditional Generative Flow Models for Images and 3D Point Clouds, CVPR2020

?????? 本文提出了一個基于flow的生成模型,并認為雖然這樣的模型在精確的對數似然評估和精確的潛在變量推斷中具有優勢,但是它們仍處于起步階段,沒有像其他生成模型那樣受到廣泛關注。本文中的C-Flow是一種可將規范化flow引進行多模式數據建模的模型。 C-Flow基于可逆映射的并行序列,其中源flow在各個步驟引導目標flow,從而對生成過程進行控制。

??????

?????? 文章認為基于flow的生成模式相對于VAE和GAN,在精細度上更有優勢。下面是生成圖

?

總結

以上是生活随笔為你收集整理的[MICCAI 2019 | CVPR 2020] 图数据,点云相关文章总结综述,一篇即可看完文章模型结构和创新的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。