【AI视野·今日CV 计算机视觉论文速览 第157期】Mon, 16 Sep 2019
AI視野·今日CS.CV 計算機視覺論文速覽
Mon, 16 Sep 2019
Totally 33 papers
?上期速覽?更多精彩請移步主頁
Interesting:
?DeepHomography內容感知的單應性估計, 由于傳統單應性估計方法對于圖像質量十分敏感,低紋理和低光照會造成估計誤差。先前基于學習的估計方法大多為合成圖像的監督學習或基于航空圖像的非監督學習,忽略了深度不一致在單應性中的作用。同時對于圖像的統一處理忽視了前景和動態目標。這篇文章提出了一種新的非監督方法,首先對于圖像進行掩膜學習排除異常區域(無紋理),隨后基于得到的特征計算損失代替了直接從圖像得到損失,同時還提出了一個新的數據集包含了多種具有挑戰的情況。(from 電子科大 曠視)
排除動態、模糊和低紋理的掩膜生成:
一些數據集內得到的結果:
code:https://github.com/JirongZhang/DeepHomography
?熒光顯微鏡數據合成與實例分割, 研究人員提出了一種合成方法生成熒光顯微鏡模擬數據集,并利用空間約束的循環一致性對抗網絡來進行細胞核檢測。(from 普渡 印第安納大學)
訓練方法與合成數據:
細胞核檢測與掩膜分割,下圖為語義分割網絡:
分割結果:
數據合成方法:Nuclei Segmentation of Fluorescence Microscopy Images Using Three Dimensional Convolutional Neural Networks
Three Dimensional Fluorescence Microscopy Image Synthesis and Segmentation,cvpr2018 CVMI workshop
實驗室主頁:https://engineering.purdue.edu/~micros/publications.html
?FakeSpotter一個AI合成假臉欺詐檢測基線模型, (from 南洋理工、九州大學、阿里巴巴、小米)
利用每一層神經元的行為作為特征:
這篇文章頁腳中有很多參考代碼可以學習
?有云臺單目相機的跟隨機器人, (from 中科院大學)
?FoodTracker實時食物檢測的移動端實現, (from McGill University)
檢測結果和營養分析:
dataset:UECFood100 [11] and UECFood256 [12] benchmarks
?3D U2-Net基于三維Unet的多域醫學圖像分割方法,(from 浙大 鵬城實驗室)
?異常圖像檢測,檢測出背離整體分布的異常圖像,(from 飛利浦研究 羅蒙索夫大學)
?基于雙分支圖網絡的語義分割方法,(from 牛津 北大 深動科技)
同時基于空間特征和通道維度進行處理:
?基于在線多尺度卷積稀疏編碼模型實現,并利用簡化最大后驗框架和ADMM算法求解得到視頻去雨雪效果,(from 西安交大)
Daily Computer Vision Papers
| MRI Brain Tumor Segmentation using Random Forests and Fully Convolutional Networks Authors Mohammadreza Soltaninejad, Lei Zhang, Tryphon Lambrou, Guang Yang, Nigel Allinson, Xujiong Ye 在本文中,我們提出了一種新的基于學習的多模態MRI圖像中腦腫瘤自動分割方法,該方法包含兩組機器學習和手工制作的特征。完全卷積網絡FCN形成機器學習功能,基于文本的功能被視為手工制作的功能。隨機森林RF用于將MRI圖像體素分類為正常腦組織和腫瘤的不同部分,即水腫,壞死和增強腫瘤。該方法在BRATS 2017挑戰數據集上進行評估。結果表明,該方法提供了有希望的分割。對于整個腫瘤,核心和增強腫瘤,針對地面真相的自動腦腫瘤分割的平均骰子重疊測量值分別為0.86,0.78和0.66。 |
| Hierarchical Joint Scene Coordinate Classification and Regression for Visual Localization Authors Xiaotian Li, Jakob Verbeek, Juho Kannala 視覺本地化對計算機視覺和機器人技術中的許多應用至關重要。為了解決單圖像RGB定位問題,現有技術的基于特征的方法通過在查詢圖像和預先構建的3D模型之間匹配局部描述符來解決任務。最近,已經利用深度神經網絡來直接學習場景中的原始像素和3D坐標之間的映射,因此通過正向傳遞通過網絡隱式地執行匹配。在這項工作中,我們提出了一種新的分層聯合分類回歸網絡,以從單個RGB圖像以粗略到精細的方式預測像素場景坐標。網絡由一系列輸出層組成,每個輸出層都以先前輸出的輸出為條件,最終輸出層對坐標進行回歸,其他輸出層產生粗略的位置標簽。我們的實驗表明,所提出的方法優于vanilla場景坐標回歸網絡,并且在大型環境中更具可擴展性。通過數據增強,它可以在三個基準數據集上實現最先進的單圖像RGB定位性能。 |
| Recurrent Connectivity Aids Recognition of Partly Occluded Objects Authors Markus Roland Ernst, Jochen Triesch, Thomas Burwick 前饋卷積神經網絡是核心對象識別的普遍模型。對于諸如閉塞等具有挑戰性的條件,神經科學家認為視覺皮層中的反復連接有助于物體識別。在這項工作中,我們研究人工神經網絡是否以及如何也可以從循環連接中受益。為此,我們系統地比較了由自下而上B,橫向L和自上而下T連接組成的架構。為了評估性能,我們引入了兩個新穎的立體遮擋對象數據集,它們彌合了從數字分類到識別3D對象的差距。該任務包括識別由多個遮擋物對象遮擋的一個目標對象。我們發現循環模型的性能明顯優于前饋模型,后者在參數復雜度方面具有匹配性。我們表明,對于具有挑戰性的刺激,循環反饋能夠正確地修改網絡的初始前饋猜測。總的來說,我們的結果表明,人工和生物神經網絡都可以利用復發來改善對象識別。 |
| Brain-Like Object Recognition with High-Performing Shallow Recurrent ANNs Authors Jonas Kubilius, Martin Schrimpf, Ha Hong, Najib J. Majaj, Rishi Rajalingham, Elias B. Issa, Kohitij Kar, Pouya Bashivan, Jonathan Prescott Roy, Kailyn Schmidt, Aran Nayebi, Daniel Bear, Daniel L. K. Yamins, James J. DiCarlo 深度卷積人工神經網絡人工神經網絡是靈長類腹側溪流視覺處理機制的候選模型的領先類型。雖然最初受到大腦解剖學的啟發,但在過去的幾年中,這些人工神經網絡已經從AlexNet中的簡單八層架構演變為極其深入和分支的架構,展示了越來越好的對象分類性能,但卻質疑它們仍然是大腦的樣子。特別是,來自機器學習社區的典型深度模型通常難以映射到大腦的解剖結構上,因為它們具有大量的層和缺少生物學上重要的連接,例如復發。在這里,我們證明了更好的解剖學對齊大腦和機器學習的高性能以及神經科學測量不必相互矛盾。我們開發了CORnet S,一個淺層人工神經網絡,具有四個解剖學映射區域和循環連接,由Brain Score指導,這是一種新的大規模神經和行為基準綜合,用于量化靈長類動物腹側視覺流模型的功能保真度。盡管比大多數模型要淺得多,但CORnet S是Brain Score的頂級模型,并且在ImageNet上的表現優于同樣緊湊的模型。此外,我們對CORnet S電路變體的廣泛分析表明,復發是Brain Score和ImageNet前1名表現的主要預測因素。最后,我們報告CORnet S IT神經群體的時間演變類似于實際的猴子IT群體動態。總之,這些結果建立了CORnet S,一種緊湊的,復現的ANN,作為靈長類腹側視覺流的當前最佳模型。 |
| Video Rain/Snow Removal by Transformed Online Multiscale Convolutional Sparse Coding Authors Minghan Li, Xiangyong Cao, Qian Zhao, Lei Zhang, Chenqiang Gao, Deyu Meng 監控視頻中的視頻雨雪是計算機視覺社區的一項重要任務,因為視頻中存在雨雪會嚴重降低許多監控系統的性能。已經廣泛研究了各種方法,但是大多數方法僅在穩定的背景場景下考慮一致的雨雪。然而,從實際監控攝像機捕獲的雨雪在時間上總是高度動態,偶爾會改變背景場景。針對這一問題,本文提出了一種新的雨雪清除方法,該方法充分考慮了雨雪和視頻序列背景場景的動態統計。具體來說,雨雪被編碼為在線多尺度卷積稀疏編碼OMS CSC模型,不僅可以精確地傳遞真實雨雪的稀疏散射和多尺度形狀,而且可以通過實時改善的參數很好地編碼其時間動態配置。該模型。此外,對背景場景施加的變換算子被進一步嵌入到所提出的模型中,其精細地傳達動態背景變換,例如旋轉,縮放和失真,不可避免地存在于真實視頻序列中。如此構造的方法自然可以更好地適應動態雨雪以及背景變化,并且還適合于處理歸因于其在線學習模式的流視頻。所提出的模型在簡明的最大后MAP框架中制定,并且可以通過ADMM算法容易地求解。與現有技術的在線和離線視頻雨雪清除方法相比,該方法在視覺和數量上均可在合成和真實視頻數據集上實現更好的性能。具體來說,我們的方法可以以相對較高的效率實施,顯示其實時視頻雨雪清除的潛力。 |
| Dual Graph Convolutional Network for Semantic Segmentation Authors Li Zhang, Xiangtai Li, Anurag Arnab, Kuiyuan Yang, Yunhai Tong, Philip H.S. Torr 利用長距離上下文信息是像素明智的預測任務(例如語義分割)的關鍵。與之前使用多尺度特征融合或擴張卷積的工作相比,我們提出了一種新穎的圖卷積網絡GCN來解決這個問題。我們的雙圖卷演化網絡DGCNet通過在單個框架中建模兩個正交圖來模擬輸入特征的全局背景。第一個組件模擬圖像中像素之間的空間關系,而第二個組件模擬沿網絡特征圖的通道維度的相互依賴性。這通過將特征投影到新的較低維度空間中來有效地完成,其中可以在重新投影到原始空間之前對所有成對交互進行建模。我們的簡單方法比強基線提供了實質性的好處,并在Cityscapes 82.0平均IoU和Pascal Context 53.7平均IoU數據集上實現了最先進的結果。 |
| Weakly-Supervised 3D Pose Estimation from a Single Image using Multi-View Consistency Authors Guillaume Rochette, Chris Russell, Richard Bowden 我們提出了一種新穎的數據驅動正則化器,用于3D人體姿態估計的弱監督學習,消除了影響現有方法的漂移問題。我們通過將立體聲重建問題轉移到網絡本身的損失中來實現這一點。這避免了在訓練之前重建3D數據的需要,并且與先前的半監督方法不同,避免了對監督訓練的預熱期的需要。我們的方法的概念和實現簡單性是其吸引力的基礎。通過我們額外的基于投影的損失,不僅可以直接增加許多弱監督方法,而且很明顯它如何塑造重建并防止漂移。因此,我們相信它將成為任何研究弱監督3D重建的研究人員的寶貴工具。對可用的最大的多攝像機和無標記數據集Panoptic進行評估,我們獲得的精度基本上與在訓練中充分利用3D groundtruth的強監督方法無法區分。 |
| A Collaborative Approach using Ridge-Valley Minutiae for More Accurate Contactless Fingerprint Identification Authors Ritesh Vyas, Ajay Kumar 非接觸式指紋識別已成為各種電子商務和執法應用中個人識別的可靠且用戶友好的替代方案。然而,從文獻中已經知道,與從基于接觸的指紋傳感器獲得的那些相比,非接觸式指紋圖像提供非常低的匹配精度。本文開發了一種新方法,可顯著改善目前可用的非接觸式指紋匹配功能。我們系統地分析了補充嶺谷信息的范圍,并引入了新方法,以實現與目前常用的現有指紋匹配器相比更高的匹配精度。我們還研究了最少探索的指紋顏色空間轉換選項,這些選項可以在更準確的非接觸式指紋匹配中發揮關鍵作用。本文介紹了使用NBIS,MCC和COTS匹配器的不同公開的非接觸式指紋數據庫的實驗結果。我們始終如一的優異成績驗證了所提方法對更準確的非接觸式指紋識別的有效性。 |
| BPnP: Further Empowering End-to-End Learning with Back-Propagatable Geometric Optimization Authors Bo Chen, Tat Jun Chin, Nan Li 在本文中,我們提出了BPnP,一種通過PnP求解器進行反向傳播的新方法。我們證明了這種幾何優化過程的梯度可以使用隱式函數定理來計算,就好像它是可微分的一樣。此外,我們開發了一個殘差整合技巧,使用BPnP平滑穩定地進行端到端姿態回歸。我們還提出了一種成形算法,該算法成功地使用BPnP進行關鍵點回歸。 |
| DARTS+: Improved Differentiable Architecture Search with Early Stopping Authors Hanwen Liang, Shifeng Zhang, Jiacheng Sun, Xingqiu He, Weiran Huang, Kechen Zhuang, Zhenguo Li 最近,對自動化神經架構設計過程的興趣越來越大,而可分辨架構搜索DARTS方法使該過程在幾天內就可用了。特別地,引入了稱為一次性模型的超網絡,通過該網絡可以用梯度下降連續搜索該體系結構。然而,當搜索時期的數量變大時,經常觀察到DARTS的性能崩潰。同時,在選定的體系結構中可以找到許多跳過連接。在本文中,我們聲稱崩潰的原因是在DARTS的雙層優化中存在合作和競爭,其中架構參數和模型權重交替更新。因此,我們提出了一種簡單有效的算法,名為DARTS,通過在滿足某個標準時提前停止搜索過程來避免崩潰并改善原始DARTS。我們證明了提出的早期停止標準在避免崩潰問題方面是有效的。我們還對基準數據集進行了實驗,并展示了我們的DARTS算法的有效性,其中DARTS在CIFAR10上達到2.32測試誤差,在CIFAR100上達到14.87,在ImageNet上達到23.7。我們進一步指出,通過手動設置少量搜索時期,隱含地將早期停止的想法包括在一些現有的DARTS變體中,同時我們給出了早期停止的明確標準。 |
| Part-Guided Attention Learning for Vehicle Re-Identification Authors Xinyu Zhang, Rufeng Zhang, Jiewei Cao, Dong Gong, Mingyu You, Chunhua Shen 車輛識別Re ID通常需要人們識別車輛之間的細粒度視覺差異。除了容易受到視點變化和變形影響的車輛的整體外觀之外,車輛部件還提供了區分近似相同車輛的關鍵線索。在這些觀察的啟發下,我們引入了一個部分引導注意網絡PGAN來精確定位突出的部分區域,并有效地將全局和部分信息結合起來用于判別性特征學習。 PGAN首先檢測不同部件組件和顯著區域的位置,而不管車輛身份如何,其作為自下而上的關注來縮小可能的搜索區域。為了估計檢測到的部分的重要性,我們提出了一個部分注意模塊PAM,以自適應地定位具有高注意力權重的最具辨別力的區域,并抑制具有相對較低權重的不相關部分的分心。 PAM由Re ID損失引導,因此提供自上而下的關注,使得能夠在汽車部件和其他顯著區域的水平上計算注意力。最后,我們匯總了全局外觀和部件功能,以進一步提高功能性能。 PGAN在端到端框架中結合了部分引導的自下而上和自上而下的關注,全局和部分視覺特征。大量實驗表明,所提出的方法在四個大規模基準數據集上實現了新的現有技術車輛Re ID性能。 |
| Towards Generalizable Forgery Detection with Locality-aware AutoEncoder Authors Mengnan Du, Shiva Pentyala, Yuening Li, Xia Hu 隨著深度學習技術的進步,現在可以生成超逼真的假圖像和視頻。這些被操縱的偽造品可能會吸引大量觀眾,并對我們的社會產生不利影響。盡管已經花費了大量精力來檢測偽造品,但是它們的性能在以前看不見但相關的操作上顯著下降,并且檢測泛化能力仍然是個問題。為了彌補這一差距,在本文中,我們提出了Locality aware AutoEncoder LAE,它結合了細粒度表示學習和在統一框架中強制執行局部性。在訓練過程中,我們使用像素智能掩模來規范LAE的局部解釋,以強制模型學習偽造區域的內在表示,而不是捕獲訓練集中的偽像并學習偽相關以執行檢測。我們進一步提出了一個積極的學習框架,以選擇具有挑戰性的候選人進行標記,以減少注釋工作以規范解釋。實驗結果表明,LAE確實可以專注于偽造區域做出決策。結果進一步表明,與通過替代操作方法產生的偽造品的現有技術相比,LAE實現了優異的泛化性能。 |
| Rethinking Zero-Shot Learning: A Conditional Visual Classification Perspective Authors Kai Li, Martin Renqiang Min, Yun Fu 零鏡頭學習ZSL旨在僅基于類的語義描述來識別看不見的類的實例。現有算法通常通過學習從一個特征空間到另一個特征空間的映射來將其表示為語義視覺對應問題。盡管是合理的,但先前的方法基本上以隱式方式丟棄了視覺特征的高度珍貴的辨別能力,因此產生了不期望的結果。我們將ZSL重新表述為條件視覺分類問題,即,基于從語義描述中學習的分類器對視覺特征進行分類。通過這種重新設計,我們開發了針對各種ZSL設置的算法對于傳統設置,我們建議訓練一個深度神經網絡,通過基于情節的訓練方案從語義屬性直接生成視覺特征分類器。對于廣義設置,我們將高度學習連接起來。用于所見類的判別分類器和用于看不見類的生成分類器以對所有類的視覺特征進行分類對于轉換設置,我們利用未標記的數據來有效地校準分類器生成器,使用新穎的學習而不忘記自我訓練機制??并通過魯棒性指導過程廣義交叉熵損失。大量實驗表明,在所有ZSL設置中,我們提出的算法在大多數基準數據集上的顯著優勢明顯優于現有技術。 |
| FoodTracker: A Real-time Food Detection Mobile Application byDeep Convolutional Neural Networks Authors Jianing Sun, Katarzyna Radecka, Zeljko Zilic 我們提供了一種移動應用程序,用于實時識別單個圖像中的多對象食物的食物項目,然后返回具有組分和近似量的營養成分。我們的工作分為兩部分。首先,我們構建了一個深度卷積神經網絡,與最先進的檢測策略YOLO融合,實現了近80個平均精度的同時多目標識別和定位。其次,我們將我們的模型調整為具有擴展營養分析功能的移動應用程序。在app側推斷和解碼模型輸出后,我們在實時或本地模式下呈現包括邊界框位置和類標簽的檢測結果。我們的模型非常適合移動設備,具有可忽略的推理時間和較小的內存要求,并具有深度學習算法。 |
| Content-Aware Unsupervised Deep Homography Estimation Authors Jirong Zhang, Chuan Wang, Shuaicheng Liu, Lanpeng Jia, Jue Wang, Ji Zhou 兩幅圖像之間的魯棒單應性估計是一項基本任務,已廣泛應用于各種視覺應用。傳統的基于特征的方法通常根據匹配的特征檢測圖像特征并根據RANSAC異常值去除擬合單應性。然而,單應性的質量很大程度上依賴于圖像特征的質量,其在低光和低紋理圖像方面易于出錯。另一方面,先前的深度單應性方法要么合成用于監督學習的圖像,要么采用用于無監督學習的空間圖像,兩者都忽略了在單應性估計中深度差異的重要性。此外,它們同等地處理圖像內容,包括動態對象和近距離前景的區域,這進一步降低了估計的質量。在這項工作中,為了克服這些問題,我們提出了一種采用新架構設計的無監督深度單應法。我們在估計過程中學習掩模以拒絕異常區域。此外,我們計算了我們學到的深層特征的損失,而不是像以前那樣直接比較圖像內容。此外,還提供了一個綜合數據集,涵蓋了常規和具有挑戰性的案例,例如質地差和非平面干擾。通過與基于特征和以前的深度方法的比較來驗證我們的方法的有效性。代碼即將在Github上發布。 |
| Unsupervised Image Regression for Heterogeneous Change Detection Authors Luigi T. Luppino, Filippo M. Bianchi, Gabriele Moser, Stian N. Anfinsen 異構多時相衛星圖像中的變化檢測是遙感中一個新興且具有挑戰性的主題。特別是,主要挑戰之一是以無人監督的方式解決問題。在本文中,我們提出了一種基于親和矩陣和圖像回歸比較的雙時態異構變化檢測的無監督框架。首先,我們的方法量化了從兩個圖像中的共同定位的圖像塊計算的親和度矩陣的相似性。這樣做是為了自動識別可能未改變的像素。將識別的像素作為偽訓練數據,我們學習轉換以將第一圖像映射到另一圖像的域,反之亦然。選擇四種回歸方法進行變換高斯過程回歸,支持向量回歸,隨機森林回歸,以及最近提出的稱為均勻像素變換的核回歸方法。為了評估我們框架的潛力和局限性,以及每種回歸方法的優缺點,我們對兩個真實數據集進行了實驗。結果表明,親和度矩陣的比較本身已經可以被認為是變化檢測方法。然而,顯示圖像回歸以改善單獨前一步驟獲得的結果,并產生準確的變化檢測圖,盡管多時間輸入數據具有異質性。值得注意的是,隨機森林回歸方法通過實現與其他方法類似的精確度而優異,但具有顯著更低的計算成本并且具有快速且穩健的超參數調整。 |
| Transferable Adversarial Robustness using Adversarially Trained Autoencoders Authors Pratik Vaishnavi, Kevin Eykholt, Atul Prakash, Amir Rahmati 事實證明,機器學習是解決許多應用領域中復雜問題的極其有用的工具。這種流行使其成為惡意行為者的有吸引力的目標。對抗性機器學習是一個充分研究的研究領域,其中對手試圖通過仔細操縱輸入來在機器學習算法中引起可預測的錯誤。作為回應,已經提出了許多技術來加強機器學習算法并減輕對抗性攻擊的影響。在這些技術中,對抗性訓練增強了對抗性輸入的訓練數據,已被證明是一種有效的防御技術。然而,對抗性訓練在計算上是昂貴的,并且對抗性能的改進僅限于單個模型。在本文中,我們提出了對抗訓練的自動編碼器增強,這是第一個對某些自適應對手具有魯棒性的可轉移對抗防御。我們通過對分類損失進行對等訓練自動編碼器,從分類管道中解除對抗魯棒性。我們表明,我們的方法可以獲得與MNIST,Fashion MNIST和CIFAR 10數據集上最先進的對抗訓練模型相媲美的結果。此外,我們可以將我們的方法轉移到其他易受攻擊的模型,并在沒有額外培訓的情況下提高其對抗性能。最后,我們將防御與集合方法相結合,并將對抗性訓練與多個易受攻擊的預訓練模型并行化。在單一的對抗訓練課程中,自動編碼器可以在易受攻擊的模型上實現與標準對抗訓練相當或更好的對抗性能。 |
| Efficient 2.5D Hand Pose Estimation via Auxiliary Multi-Task Training for Embedded Devices Authors Prajwal Chidananda, Ayan Sinha, Adithya Rao, Douglas Lee, Andrew Rabinovich Magic Leap, Inc 2D關鍵點估計是人體和手部三維姿態估計問題的重要前提。在這項工作中,我們討論了在具有高度約束的存儲器和計算包絡的嵌入式設備上部署極其高效的2.5D手姿態估計所需的數據,體系結構和訓練過程,例如AR VR可穿戴設備。我們的2.5D手部姿勢估計包括由自我中心圖像上的關節位置的2D關鍵點估計,由深度傳感器捕獲,并且使用相應的深度值提升到2.5D。我們的貢獻是兩倍我們討論數據標記和增強策略,網絡架構中的模塊與現有技術的MobileNetV2架構相比,共同導致3個翻牌計數和2個參數數量。 b我們提出了一種輔助多任務培訓策略,以補償網絡的小容量,同時實現與MobileNetV2相當的性能。我們的32位訓練模型的存儲器占用空間小于300千字節,工作頻率超過50赫茲,小于35 MFLOP。 |
| Measuring the Effects of Non-Identical Data Distribution for Federated Visual Classification Authors Tzu Ming Harry Hsu, Hang Qi, Matthew Brown 聯合學習使視覺模型能夠使用來自移動設備的真實世界數據以隱私保護方式進行培訓。鑒于其分布式特性,這些設備上的數據統計數據可能會有很大差異。在這項工作中,我們通過聯邦學習來研究這種非相同數據分布對視覺分類的影響。我們提出了一種合成具有連續相同范圍的數據集的方法,并為聯合平均算法提供性能測量。我們表明,隨著分布的不同,性能會下降,并通過服務器動力提出緩解策略。 CIFAR 10上的實驗表明,在一系列不相同的情況下,分類性能得到了改善,在最偏斜的環境中分類精度從30.1提高到76.9。 |
| Automatic Hip Fracture Identification and Functional Subclassification with Deep Learning Authors Justin D Krogue, Kaiyang V Cheng, Kevin M Hwang, Paul Toogood, Eric G Meinberg, Erik J Geiger, Musa Zaid, Kevin C McGill, Rina Patel, Jae Ho Sohn, Alexandra Wright, Bryan F Darger, Kevin A Padrez, Eugene Ozhinsky, Sharmila Majumdar, Valentina Pedoia 目的髖部骨折是發病率和死亡率的常見原因。使用深度學習自動識別和分類髖部骨折可以通過減少診斷錯誤和減少手術時間來改善結果。方法回顧1118項研究中的髖關節和骨盆X線片,并通過邊界框標記3034髖,分類為正常,移位股骨頸骨折,非移位股骨頸骨折,股骨轉子間骨折,既往ORIF或既往關節成形術。訓練基于深度學習的對象檢測模型以自動化邊界框的放置。密集連接的卷積神經網絡DenseNet在邊界框圖像的一個子集上進行訓練,并在一??個保持的測試集上評估其性能,并通過比較100個圖像子集與兩組人類觀察者的團隊訓練放射科醫師和矯形外科醫生,以及高級急診醫學,放射學和整形外科的居民。結果我們模型的骨折二元精度為93.8 95 CI,91.3 95.8,靈敏度為92.7 95 CI,88.7 95.6,特異性95.0 95 CI,91.5 97.3。多類別分類準確度為90.4 95 CI,87.4 92.9。與人類觀察者相比,我們的模型在所有條件下至少達到了專家級別的分類。此外,當該模型被用作輔助時,人類表現得到改善,輔助居民表現接近于獨立的團契培訓專家表現。結論我們的深度學習模型以至少專家水平的準確度識別和分類髖部骨折,并且當用作輔助改善人類表現時,輔助居民表現接近于無輔助團體訓練的參加者。 |
| Flow Models for Arbitrary Conditional Likelihoods Authors Yang Li, Shoaib Akbar, Junier B. Oliva 了解數據集特征之間的依賴關系是大多數無監督學習任務的核心。然而,大多數生成建模方法僅關注聯合分布p x并利用模型,其中在給定其余觀察到的協變量x o p x u mid x o的情況下獲得某些特征子集的條件分布是難以處理的。傳統的條件方法為一組固定的協變量提供了一個模型,該協變量以另一組固定的觀察到的協變量為條件。相反,在這項工作中,我們開發了一個模型,該模型能夠通過易處理的條件可能性產生所有條件分布p x u mid x o,用于任意x u。我們提出了基于流動生成模型的變量變化的新穎擴展,任意條件流模型AC Flow,其可以以觀察到的協變量的任意子集為條件,這是先前不可行的。我們將AC Flow應用于特征的插補,并通過引入輔助目標來開發用于多重和單個插補的統一平臺,該輔助目標為流動模型提供原則性的單一最佳猜測。大量的實證評估表明,我們的模型在合成和現實世界數據集中的圖像修復和特征插補中實現了單一和多重插補的最先進性能。代碼可在 |
| White-Box Adversarial Defense via Self-Supervised Data Estimation Authors Zudi Lin, Hanspeter Pfister, Ziming Zhang 在本文中,我們研究了如何防御分類器以防止使用巧妙修改的輸入數據欺騙分類器的對抗性攻擊的問題。與之前的作品相比,這里我們專注于白盒對抗防御,攻擊者不僅可以完全訪問分類器,還可以獲得盡可能強大攻擊的防御者。在這樣的上下文中,我們建議將防御者視為功能性的,更高階的函數,其以函數作為其參數來表示函數空間,而不是常規的固定函數。從這個角度來看,應該針對每個對抗性輸入單獨實現和優化防御者。為此,我們提出了RIDE,一種有效且可證明收斂的自監督學習算法,用于個人數據估計,以保護預測免受敵對攻擊。我們展示了圖像識別中對抗性防御性能的顯著改善,例如分別在現有BPDA攻擊者下的MNIST,CIFAR 10和ImageNet數據集上的98,76,43測試精度。 |
| A superpixel-driven deep learning approach for the analysis of dermatological wounds Authors Gustavo Blanco, Agma J. M. Traina, Caetano Traina Jr., Paulo M. Azevedo Marques, Ana E. S. Jorge, Daniel de Oliveira, Marcos V. N. Bedo 背景。基于圖像的皮膚病傷口內不同組織的識別增強了患者的護理,因為它不需要侵入性評估。本手稿提出了一種名為QTDU的方法,該方法將深度學習模型與超像素驅動的分割方法相結合,用于評估皮膚潰瘍組織的質量。 |
| FakeSpotter: A Simple Baseline for Spotting AI-Synthesized Fake Faces Authors Run Wang, Lei Ma, Felix Juefei Xu, Xiaofei Xie, Jian Wang, Yang Liu 近年來,我們目睹了生成對抗網絡GAN及其在圖像合成中的變體的空前成功。這些技術被廣泛用于合成虛假面孔,這對現有的面部識別FR系統構成嚴重挑戰,并且隨著假貨傳播和加劇錯誤信息而給社交網絡和媒體帶來潛在的安全威脅。不幸的是,這些AI合成假面的強大探測器仍處于起步階段,尚未準備好完全應對這一新興挑戰。目前,基于圖像取證和基于學習的方法是檢測假面孔的兩大類策略。在這項工作中,我們提出了一種基于監測神經元行為的替代方法。對神經元覆蓋和相互作用的研究已經成功地證明它們可以作為深度學習系統的測試標準,特別是在暴露于對抗性攻擊的環境下。在這里,我們推測監測神經元行為也可以作為檢測假臉的資產,因為逐層神經元激活模式可以捕獲對假檢測器很重要的更微妙的特征。根據經驗,我們已經證明,基于神經元覆蓋行為的擬議FakeSpotter與簡單的線性分類器相結合,可以大大優于經過深度訓練的卷積神經網絡CNN,用于發現AI合成假面。在三個深度學習基于DL的FR系統上進行了大量實驗,其中兩個GAN變體用于合成假面,并且在兩個公共高分辨率面部數據集上進行了大量實驗,證明了FakeSpotter作為一個簡單但強大的假人臉檢測基線的潛力。狂野的。 |
| Human Following for Wheeled Robot with Monocular Pan-tilt Camera Authors Zheng Zhu, Hongxuan Ma, Wei Zou 由于其在實際應用中的潛力,人類對移動機器人的追隨已經見證了顯著的進步。目前,大多數人類跟隨系統配備有深度傳感器以獲得人和機器人之間的距離信息,其受到感知要求和噪聲的影響。在本文中,我們設計了一種帶有單眼云臺攝像機的輪式移動機器人系統,可以跟隨人類,它可以在視野中保持目標并同時保持跟隨。該系統由快速人體探測器,實時準確的視覺跟蹤器,移動機器人和云臺攝像機統一控制器組成。在視覺跟蹤算法中,利用連體網絡和光流信息同時定位和回歸人類。為了使用單目相機執行以下操作,引入人體高度的約束來設計控制器。在實驗中,人類跟蹤在模擬和真實的機器人平臺中進行和分析,這證明了整個系統的有效性和穩健性。 |
| 3D U$^2$-Net: A 3D Universal U-Net for Multi-Domain Medical Image Segmentation Authors Chao Huang, Hu Han, Qingsong Yao, Shankuan Zhu, S. Kevin Zhou 像U Net這樣的完全卷積神經網絡一直是醫學圖像分割中最先進的方法。實際上,網絡是高度專業化的,并且針對每個分段任務單獨訓練。代替多個模型的集合,非常希望學習用于不同任務的通用數據表示,理想地是單個模型,其中添加了針對每個任務的最少數量的參數。受近期圖像分類多領域學習成功的啟發,我們首次探索了一種處理多種醫學分割任務的有前途的通用架構,并且可以擴展到新任務,無論不同的器官和成像方式如何。我們的3D通用U Net 3D U 2網絡基于可分離卷積,假設來自不同域的圖像具有特定于域的空間相關性,可以通過信道方式卷積進行探測,同時還共享可以通過逐點卷積建模的交叉信道相關性。我們在五個器官分割數據集上評估3D U 2網絡。實驗結果表明,該通用網絡能夠在分割精度方面與傳統模型競爭,而只需要大約1個參數。此外,我們觀察到該體系結構可以輕松有效地適應新域,而不會犧牲用于學習通用網絡共享參數化的域中的性能。我們將3D U 2 Net的代碼放入公共領域。網址 |
| Multiple Partitions Aligned Clustering Authors Zhao Kang, Zipeng Guo, Shudong Huang, Siying Wang, Wenyu Chen, Yuanzhang Su, Zenglin Xu 多視圖聚類是一項重要但具有挑戰性的任務,因為難以集成來自多個表示的信息。大多數現有的多視圖聚類方法探索數據點所在空間中的異構信息。由于不可避免的噪音或觀點之間的不一致,這種常見做法可能導致重大信息丟失。由于不同的視圖允許相同的集群結構,因此自然空間應該是所有分區。與現有技術正交,在本文中,我們建議通過融合分區來利用多視圖信息。具體而言,我們通過不同的旋轉矩陣對齊每個分區以形成一致的聚類指示符矩陣。此外,為每個視圖分配權重以考慮視圖的聚類容量差異。最后,在統一框架中共同學習基本分區,權重和一致性聚類。我們證明了我們的方法在幾個真實數據集上的有效性,其中發現了相對于其他最先進的多視圖聚類方法的顯著改進。 |
| Center-Extraction-Based Three Dimensional Nuclei Instance Segmentation of Fluorescence Microscopy Images Authors David Joon Ho, Shuo Han, Chichen Fu, Paul Salama, Kenneth W. Dunn, Edward J. Delp 熒光顯微鏡是分析組織中3D亞細胞結構的重要工具。表征組織的重要步驟涉及細胞核分割。在本文中,描述了使用卷積神經網絡CNN分割核的兩階段方法。特別地,由于3D數據集的大小和復雜性,手動創建用于訓練目的的標記體積是不實際的,因此本文描述了一種基于空間受限的循環一致性對抗網絡生成合成顯微鏡體積的方法。所提出的方法在多個真實的顯微鏡數據集上進行測試,并且優于其他常用的分割技術。 |
| SegNAS3D: Network Architecture Search with Derivative-Free Global Optimization for 3D Image Segmentation Authors Ken C. L. Wong, Mehdi Moradi 深度學習大大減少了對圖像分割中手動特征選擇的需求。然而,網絡架構優化和超參數調整大多是手動和耗時的。盡管在計算機視覺中對網絡體系結構搜索的研究越來越多,但大多數工作集中在圖像分類而非分割,并且在醫學圖像分割方面的努力非常有限,特別是在3D中。為了解決這個問題,我們在此提出了一個框架SegNAS3D,用于三維圖像分割的網絡架構搜索。在該框架中,網絡體系結構包括互連的構建塊,其由諸如卷積和跳過連接的操作組成。通過將塊結構表示為可學習的有向非循環圖,可以通過衍生自由全局優化一起學習諸如特征通道的數量和使用深度監督的選項之類的超參數。對具有19個結構的43個3D腦磁共振圖像的實驗實現了平均Dice系數為82。每個架構搜索在三個GPU上需要不到三天的時間,并且生成的架構比手動創建的架構要小得多。 |
| Encoding High-Level Visual Attributes in Capsules for Explainable Medical Diagnoses Authors Rodney LaLonde, Drew Torigian, Ulas Bagci 由于難以解釋決策,深度神經網絡通常被稱為黑盒子。這是機器學習更深層次趨勢的特征,其中預測性能通常以可解釋性為代價。在某些領域,例如基于圖像的診斷任務,了解機器生成預測背后的原因對于評估信任至關重要。在這項研究中,我們介紹了膠囊網絡的新穎設計,以提供可解釋的診斷。我們提出的深度可解釋的膠囊結構稱為DX Caps,可以在膠囊載體內編碼高水平的視覺屬性,以便同時產生肺癌的惡性預測以及放射科醫師用于解釋其預測的六種視覺可解釋屬性的近似值。為了減少這個更深層網絡的參數和內存負擔,我們引入了一個新的膠囊平均池功能。通過這種簡單但基本的補充,膠囊網絡可以以比以前更深的方式設計。我們的整體方法可以表征為多任務學習,我們學習在我們獨特構建的深層膠囊網絡的載體內近似肺結節的六個高級視覺屬性,同時分割結節并預測其惡性潛在診斷。通過1000多次CT掃描測試,我們的實驗結果表明,我們提出的算法可以近似于肺結節的視覺屬性遠遠好于深度多路徑密集3D CNN。當首次應用于此任務時,所提出的網絡也比基線可解釋的膠囊網絡X Caps和CapsNet實現更高的診斷準確度。據我們所知,這是第一個研究膠囊網絡進行視覺屬性預測的研究,特別是可解釋的醫學圖像診斷。 |
| A method for Cloud Mapping in the Field of View of the Infra-Red Camera during the EUSO-SPB1 flight Authors Alessandro Bruno, Anna Anzalone, Carlo Vigorito for the JEM EUSO collaboration EUSO SPB1于2017年4月24日在新西蘭瓦納卡的美國宇航局氣球發射場發布,于5月7日降落在南太平洋。分析由氣球上的儀器收集的數據以搜索UHECR超高能宇宙射線空氣淋浴的UV脈沖特征。夜間云的存在會影響UHECR的間接測量,因此了解探測器觀測期間的氣象條件至關重要。在飛行過程中,機上EUSO SPB1 UCIRC攝像機芝加哥大學紅外線攝像機獲取了紫外望遠鏡視野中的圖像。可用的夜間和白天圖像包括在兩個紅外波段中觀察到的大氣氣象條件的信息。已經研究了云的存在,采用了一種方法,該方法被開發用于為每個可用的紅外圖像提供密集的云度圖。最終的掩模用于在IR相機像素分辨率下給出像素云量信息,該分辨率幾乎是UV相機的4倍。在這項工作中,通過使用基于不同低級圖像特征分析的專家系統獲得云度圖。此外,需要應用圖像增強步驟作為處理未校準數據的預處理步驟。 |
| Perceptual Image Anomaly Detection Authors Nina Tuluptceva, Bart Bakker, Irina Fedulova, Anton Konushin 我們提出了一種新的圖像異常檢測方法,其中使用從正常數據的某些分布中抽取的樣本的算法旨在檢測分布異常樣本。我們的方法包括編碼器和發生器的組合,用于將圖像分布映射到預定義的潛在分布,反之亦然。它利用Generative Adversarial Networks來學習這些數據分布,并使用感知損失來檢測圖像異常。為了實現這一目標,我們引入了一種新的相似性度量,它表達了圖像之間的感知相似性,并且對圖像對比度的變化具有魯棒性。其次,我們介紹了一種新方法,用于在沒有用于超參數調整的驗證數據集的情況下選擇多目標損失函數圖像重建和分布映射的權重。在訓練之后,我們的模型測量輸入圖像的異常,作為它與建模數據分布的最近生成圖像之間的感知差異。所提出的方法在幾個公開可用的圖像基準上進行了廣泛的評估,并實現了最先進的性能。 |
| Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩請移步主頁
膜拜一下巔峰算力:) 百P算力 1024*Ascend910(*32 Da Vinci AI core) pic from huaweis.com
總結
以上是生活随笔為你收集整理的【AI视野·今日CV 计算机视觉论文速览 第157期】Mon, 16 Sep 2019的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 针对“扫雷“和“植物大战僵尸“游戏,分析
- 下一篇: Halcon图像读取的方式