【今日CV 计算机视觉论文速览 第135期】Mon, 24 Jun 2019
今日CS.CV 計算機視覺論文速覽
Mon, 24 Jun 2019
Totally 16 papers
?上期速覽?更多精彩請移步主頁
Interesting:
?RGB-D攝像頭的稀疏深度圖補全, 這篇文章提出了一種基于相關性對稀疏深度圖進行補全的網絡,充分利用了RGB的信息來進行補充。首先提出了匹配深度和RGB圖的方法(2D deep canonical correlation analysis, 2D2CCA),隨后將RGB的特征映射到深度空間中去,補償缺失的深度信息。分別使用了Lidar信息和深度相機的信息進行了實驗。(from 南加州大學)
研究中提出的模型如下圖所示,分別從深度圖和RGB圖中利用稀疏mask提取了對應的信息,和互補信息:
下圖顯示了稀疏注意力卷積卷積操作和從深度圖中采樣的操作,分別為均勻采樣、立體稀疏器采樣和ORB采樣:
最終在室外KITTI和cityscape數據集上的效果:
和室內NYUv2的效果:
測評度量以及測評的方法:
ref:SAConv is inspired by local attention mask [31].
三種稀疏采樣方法值得學習:
Uniform sparsifier uniformly samples the dense depth map, simulating the scanning effect caused by LiDAR which is nearly uniform.
Stereo sparsifier only samples the depth measurements on the edge or textured objects in the scene to simulate the sparse patterns generated by stereo matching or direct VSLAM.
ORB sparsifier only maintains the depth measurements according to the location of ORB features in the corresponding RGB images. ORB sparsifier simulates the output sparse depth map from feature based VSLAM.
?像素級的深度估計基準方法和數據, 研究人員提出了一個高精度的深度估計算法測評基準,包括了多種天氣情況,具有高分辨率50Mcamera和25‘’的角分辨率。(from )
相關方法ref:Monodepth [14] as representative for monocular depth estimation, semi-global matching (SGM) [17] for traditional stereo and PSMnet [4] for deep stereo algorithms, and Sparse2Dense [30] as a depth completion method for lidar measurements using RGB image
data.
Daily Computer Vision Papers
| Fully Decoupled Neural Network Learning Using Delayed Gradients Authors Huiping Zhuang, Yi Wang, Qinglai Liu, Zhiping Lin 使用反向傳播BP來訓練神經網絡需要連續地傳遞激活和梯度,這迫使網絡模塊以同步方式工作。這被認為是鎖定,即從BP繼承的前向,后向和更新鎖定。在本文中,我們提出了一種完全解耦的訓練方案,使用延遲梯度FDG來打破所有這些鎖定。所提出的方法將神經網絡分成多個模塊,這些模塊在不同的GPU中獨立地和異步地訓練。我們還引入了梯度收縮過程,以減少由延遲梯度引起的陳舊梯度效應。此外,我們證明了所提出的FDG算法保證了訓練期間的統計收斂。通過訓練深度卷積神經網絡來執行實驗,以在基準數據集上執行分類任務。所提出的FDG能夠訓練非常深的網絡100層和非常大的網絡3500萬個參數,具有顯著的速度增益,同時優于現有技術方法和標準BP。 |
| Evolution Attack On Neural Networks Authors YiGui Luo, RuiJia Yang, Wei Sha, WeiYi Ding, YouTeng Sun, YiSi Wang 已經進行了許多研究來證明神經網絡對敵對范例的脆弱性。訓練有素且表現良好的模型可以被視覺上不可察覺的擾動所欺騙,即,在輕微擾動之后,原始正確分類的圖像可能被錯誤分類。在本文中,我們提出了一種使用進化算法攻擊此類網絡的黑盒策略。首先,我們將對抗性示例的生成形式化為擾動的優化問題,該擾動表示在每個像素處添加到原始圖像的噪聲。為了以黑盒方式解決這個優化問題,我們發現進化算法完全符合我們的要求,因為它可以在沒有任何梯度信息的情況下工作。因此,我們測試各種演化算法,包括簡單的遺傳算法,參數探索政策梯度,OpenAI演化策略和協方差矩陣自適應演化策略。實驗結果表明,協方差矩陣自適應進化策略在該優化問題中表現最佳。此外,我們還進行了幾項實驗,以探索不同正則化對提高對抗性例子質量的影響。 |
| Acute Lymphoblastic Leukemia Classification from Microscopic Images using Convolutional Neural Networks Authors Jonas Prellberg, Oliver Kramer 當用于流式細胞術的昂貴設備不可用時,檢查白血病的血液顯微圖像是必要的。自動化系統可以減輕醫療專家執行此檢查的負擔,并且可能對快速篩查大量患者特別有幫助。我們使用具有擠壓和激勵模塊的ResNeXt卷積神經網絡提出了一種簡單而有效的分類方法。該方法在C NMC在線挑戰中進行了評估,并在測試集上獲得了88.91的加權F1評分。代碼可在 |
| ***Deep RGB-D Canonical Correlation Analysis For Sparse Depth Completion Authors Yiqi Zhong, Cho Ying Wu, Suya You, Ulrich Neumann 在本文中,我們提出了完成網絡CFCNet,一個端到端深度模型,用于使用RGB信息進行稀疏深度完成任務。我們首先提出2D深度正則相關分析作為網絡約束,以確保RGB和深度編碼器捕獲最相似的語義。然后,我們將RGB特征轉換為深度域。互補RGB信息用于完成缺失的深度信息。我們在室外和室內場景數據集上進行了大量實驗。對于室外場景,使用KITTI和Cityscape,分別使用激光雷達和立體相機捕獲深度信息。對于室內場景,我們使用具有立體ORB特征稀疏器和SLAM RGBD數據集的NYUv2。實驗證明我們的CFCNet優于使用這些數據集的最新技術方法。與SLAM RGBD數據集上的最新方法相比,我們的最佳結果將精確估計的百分比從13.03提高到58.89 394。 |
| **FBK-HUPBA Submission to the EPIC-Kitchens 2019 Action Recognition Challenge Authors Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz 在本報告中,我們描述了我們提交EPIC Kitchens 2019行動認可挑戰的技術細節。為了參與挑戰,我們開發了許多CNN LSTA 3和HF TSN 2變體,并提交了來自這兩個模型系列編譯的集合的預測。我們的提交在公共排行榜上以團隊名稱FBK HUPBA顯示,在S1設置上獲得了35.54的前1個動作識別準確度,在S2設置上獲得了20.25。 |
| ***Pixel-Accurate Depth Evaluation in Realistic Driving Scenarios Authors Tobias Gruber, Mario Bijelic, Felix Heide, Werner Ritter, Klaus Dietmayer 這項工作提供了深度估計和完成的評估基準,使用高分辨率深度測量,角度分辨率高達25弧秒,類似于每像素深度可用的50萬像素攝像頭。現有的數據集,例如KITTI基準,僅提供稀疏參考測量,其具有較低角度分辨率的數量級,這些稀疏測量被現有深度估計方法視為地面實況。我們建議在日,夜,霧,雨等不同天氣條件下記錄的四種特征汽車場景中進行評估。因此,我們的基準測試可以評估深度感應方法對惡劣天氣和不同駕駛條件的穩健性。使用提出的評估數據,我們表明當前的立體方法提供了比單眼方法和惡劣天氣下激光雷達完成更加穩定的深度估計。 |
| Rules of the Road: Predicting Driving Behavior with a Convolutional Model of Semantic Interactions Authors Joey Hong, Benjamin Sapp, James Philbin 我們關注的是在復雜的真實世界駕駛場景中預測實體未來狀態的問題。以前的研究使用低水平信號來預測短時間范圍,并沒有解決如何利用行業自駕車系統嚴重依賴的關鍵資產1大型3D感知工作,提供具有豐富屬性的代理的高精度3D狀態,2詳細準確的環境通道,交通信號燈,人行橫道等語義地圖。我們提出了一種統一的表示,它在空間網格中編碼這種高級語義信息,允許使用深度卷積模型來融合復雜的場景環境。這使得學習實體實體和實體環境交互能夠在代理行為的整體時間模型內的每個時間步驟中進行簡單的前饋計算。我們提出了使用標準監督學習將未來建模為未來狀態分布的不同方法。我們引入了一個新穎的數據集,提供了行業級的豐富感知和語義輸入,并且憑經驗證明我們可以有效地學習駕駛行為的基本原理。 |
| Predicting Future Opioid Incidences Today Authors Sandipan Choudhuri, Kaustav Basu, Kevin Thomas, Arunabha Sen 根據疾病控制中心疾病預防控制中心的數據,僅在2017年,阿片類藥物就已在美國造成72,000多人死亡。盡管在地方,州和聯邦層面做出了各種努力,但該流行病的影響正在逐漸惡化,2016年至2017年期間阿片類藥物相關死亡人數增加12.5,這一事實證明了這一點。預測分析可以發揮重要作用通過向衛生保健專業人員,決策者和第一響應者等多個層次的利益相關者提供決策工具,在防治艾滋病方面發揮作用。根據過去的數據生成阿片類藥物發病率熱圖,幫助這些利益相關者可視化阿片類藥物流行病的深遠影響。熱圖的這種事后創建僅提供回顧性信息,因此,對于當前或未來時間框架中的預防性動作可能不那么有用。在本文中,我們提出了一種新穎的深度神經結構,它可以學習阿片類物質發生率數據中微妙的時空變化,并準確預測未來的熱圖。我們評估了我們的模型在兩個開源數據集上的效果,即Cincinnati Heroin Overdose數據集和ii Connecticut Drug Related Death Dataset。 |
| Backpropagation-Friendly Eigendecomposition Authors Wei Wang, Zheng Dang, Yinlin Hu, Pascal Fua, Mathieu Salzmann 特征分解ED廣泛用于深度網絡。然而,無論是直接使用ED還是使用Power Iteration方法對其進行近似,其結果的反向傳播往往在數值上不穩定,特別是在處理大型矩陣時。雖然可以通過將數據劃分為小型和任意組來減輕這種情況,但這樣做沒有理論依據,并且無法充分利用ED的強大功能。在本文中,我們介紹了一種數值穩定且可微分的方法來利用深度網絡中的特征向量。它可以處理大型矩陣而無需拆分它們。我們證明了我們的方法比ZCA白化標準ED和PI更好的穩健性,批量標準化的替代方案,以及PCA去噪,我們將其作為深度網絡的新標準化策略引入,旨在進一步降低網絡的功能。 |
| Data-Efficient Learning for Sim-to-Real Robotic Grasping using Deep Point Cloud Prediction Networks Authors Xinchen Yan, Mohi Khansari, Jasmine Hsu, Yuanzheng Gong, Yunfei Bai, S ren Pirk, Honglak Lee 為機器人操縱訓練深度網絡策略是非常昂貴和耗時的,因為它依賴于收集大量的現實世界數據。為了在現實世界中良好地工作,該策略需要查看該任務的許多實例,包括場景中的各種對象布置以及對象幾何,紋理,材料和環境照明的變化。 |
| A Fourier Perspective on Model Robustness in Computer Vision Authors Dong Yin, Raphael Gontijo Lopes, Jonathon Shlens, Ekin D. Cubuk, Justin Gilmer 實現分布式轉變的穩健性是計算機視覺的長期和具有挑戰性的目標。數據增強是一種常用的方法,用于提高健壯性,但是在整個損壞類型中,健壯性增益通常不一致。實際上,在存在隨機噪聲的情況下提高性能通常會降低其他損壞(例如對比度變化)的性能。了解何時以及為何出現這些類型的權衡取舍是減輕它們的關鍵一步。為此,我們調查了最近觀察到的由高斯數據增強和對抗性訓練引起的權衡。我們發現這兩種方法都提高了集中在高頻域的損壞的魯棒性,同時降低了集中在低頻域的破壞的魯棒性。這表明通過數據增加來減輕這些權衡的一種方法是使用更多樣化的增強集。為此,我們觀察到AutoAugment是最近提出的針對清潔精度優化的數據增強策略,它在CIFAR 10 C和ImageNet C基準測試中實現了最先進的穩健性。 |
| SGANVO: Unsupervised Deep Visual Odometry and Depth Estimation with Stacked Generative Adversarial Networks Authors Tuo Feng, Dongbing Gu 最近端到端的無監督深度學習方法已經實現了超出視覺深度和自我運動估計任務的幾何方法的效果。這些基于數據的學習方法在一些具有挑戰性的場景中表現得更加穩健和準確。編碼器解碼器網絡已廣泛用于深度估計,并且RCNN已經在自我運動估計中帶來顯著改進。此外,最新使用生成性對抗網絡GAN的深度和自我運動估計已經證明通過在游戲學習過程中生成圖片可以進一步改善估計。本文提出了一種新的無監督網絡系統,用于視覺深度和自我運動估計Stacked Generative Adversarial Network SGANVO。它由一堆GAN層組成,其中最低層估計深度和自我運動,而較高層估計空間特征。由于在層上使用循環表示,它還可以捕獲時間動態。詳情請參見圖1。我們選擇最常用的KITTI 1數據集進行評估。評估結果表明,我們提出的方法可以產生更好或可比較的深度和自我運動估計結果。 |
| Informative Image Captioning with External Sources of Information Authors Sanqiang Zhao, Piyush Sharma, Tomer Levinboim, Radu Soricut 圖像標題應該流暢地呈現給定圖像中的基本信息,包括信息性的,細粒度的實體提及以及這些實體交互的方式。然而,當前字幕模型通常經過訓練以生成僅包含共同對象名稱的字幕,因此不能滿足重要的信息量維度。我們提出了一種機制,用于將圖像信息與假定由某些上游模型生成的細粒度標簽整合到一個標題中,該標題以流暢和信息的方式描述圖像。我們介紹了一種基于Transformer的多模式,多編碼器模型,它可以攝取圖像特征和多個實體標簽源。我們證明我們可以學習如何控制輸出中這些實體標簽的外觀,從而產生流暢且信息豐富的字幕。 |
| Synthesizing Images from Spatio-Temporal Representations using Spike-based Backpropagation Authors Deboleena Roy, Priyadarshini Panda, Kaushik Roy 尖峰神經網絡SNN為當前的人工神經網絡提供了一種有前景的替代方案,以實現低功率事件驅動的神經形態硬件。基于尖峰的神經形態應用需要處理并從時空數據中提取有意義的信息,隨著時間的推移表示為一系列尖峰序列。在本文中,我們提出了一種在基于尖峰的環境中從多種模態合成圖像的方法。我們使用尖峰自動編碼器將圖像和音頻輸入轉換為緊湊的時空表示,然后對其進行解碼以進行圖像合成。為此,我們使用直接訓練算法計算輸出層膜電位的損失,并通過使用神經元激活函數的S形近似來反向傳播它,以實現可微分性。尖峰自動編碼器以MNIST和Fashion MNIST為基準,實現了非常低的重建損失,與人工神經網絡相當。然后,訓練尖峰自動編碼器以跨音頻和視覺兩種模態學習數據的有意義的時空表示。我們通過首先生成,然后利用這種共享的多模態空間時間表示,在基于尖峰的環境中合成來自音頻的圖像。我們的音頻到圖像合成模型在將TI 46位音頻樣本轉換為MNIST圖像的任務上進行了測試。我們能夠以高保真度合成圖像,并且該模型實現了針對ANN的競爭性能。 |
| Closing the Accuracy Gap in an Event-Based Visual Recognition Task Authors Bodo R ckauer, Nicolas K nzig, Shih Chii Liu, Tobi Delbruck, Yulia Sandamirskaya 移動和嵌入式應用需要基于神經網絡的模式識別系統,以在嚴格的計算預算下運行良好。與常用的基于幀的同步視覺系統和CNN相比,由基于事件的視覺輸入驅動的異步,尖峰神經網絡以低延遲響應輸入中的稀疏,突出特征,從而在運行時實現高效率。基于事件的數據流的離散性質使得異步神經網絡的直接訓練具有挑戰性。本文研究異步尖峰神經網絡,通過從基于幀的數據訓練的傳統CNN轉換獲得。作為一個例子,我們考慮CNN訓練,以引導機器人跟隨移動目標。我們確定了轉換的可能缺陷,并演示了所提出的解決方案如何使異步網絡的分類準確度僅比原始同步CNN的性能低3,同時要求減少12倍的計算。在應用于簡單任務的同時,這項工作是針對機器人應用的低功耗,快速和嵌入式神經網絡視覺解決方案邁出的重要一步。 |
| *Automated crater shape retrieval using weakly-supervised deep learning Authors Mohamad Ali Dib, Kristen Menou, Chenchong Zhu, Noah Hammond, Alan P. Jackson 火山口形狀確定是一項復雜且耗時的任務,到目前為止已經避免了自動化。我們訓練最先進的計算機視覺算法,以識別月球上的隕石坑并檢索它們的大小和形狀。該模型的計算主干是MaskRCNN,一種實例分割通用框架,可檢測圖像中的凹坑,同時為每個跟蹤其外緣的凹坑生成掩模。然后我們的后處理管道找到與這些掩模最接近的擬合橢圓,允許我們檢索火山口橢圓度。我們的模型能夠正確識別保留集中的87個已知隕石坑,同時預測我們的訓練數據中不存在的數千個額外隕石坑。手動驗證這些隕石坑的一部分表明它們中的大多數是真實的,我們將其作為我們模型在學習識別隕石坑時的強度的指標,盡管訓練數據不完整。我們的模型預測的火山口大小,橢圓度和深度分布與人類生成的結果一致。該模型允許我們對月球高地和瑪麗亞之間的火山口直徑和形狀分布的差異進行大規模搜索,并且我們排除任何具有高統計顯著性的差異。 |
| Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩請移步主頁
pic from pexels.com
總結
以上是生活随笔為你收集整理的【今日CV 计算机视觉论文速览 第135期】Mon, 24 Jun 2019的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 个人微信小程序云开发总结心得
- 下一篇: 设计一个十进制纯机械乘法器,继续大数乘法