【AI视野·今日CV 计算机视觉论文速览 第155期】Fri, 6 Sep 2019
生活随笔
收集整理的這篇文章主要介紹了
【AI视野·今日CV 计算机视觉论文速览 第155期】Fri, 6 Sep 2019
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
AI視野·今日CS.CV 計(jì)算機(jī)視覺論文速覽
Fri, 6 Sep 2019
Totally 42 papers
?上期速覽?更多精彩請(qǐng)移步主頁(yè)
Interesting:
?C3DPO基于2D關(guān)鍵點(diǎn)抽取和構(gòu)建三維模型, (from Facebook AI Research)
?POLY-GAN用于時(shí)尚合成的多個(gè)條件GAN網(wǎng)絡(luò), (from 羅徹斯特理工)
? Soft Fine-tuning有效的領(lǐng)域知識(shí)遷移方法, (from 字節(jié)跳動(dòng))
?TIGEr自動(dòng)圖像標(biāo)注評(píng)測(cè)系統(tǒng), (from 伊利諾伊 UCSB 微軟)
?基于重力估計(jì)視頻中人體身高, (from 洛桑理工)
ref:工業(yè)零件抓取及其數(shù)據(jù)集:https://precise-grasping.jialiangz.me/
Daily Computer Vision Papers
| Explanation based Handwriting Verification Authors Mihir Chauhan, Mohammad Abuzar Shaikh, Sargur N. Srihari 深度學(xué)習(xí)系統(tǒng)的缺點(diǎn)是它們的輸出不伴隨著規(guī)劃。在法醫(yī)手寫驗(yàn)證等領(lǐng)域,必須為陪審員提供解釋。手寫驗(yàn)證的目標(biāo)是找到一個(gè)信息的度量,無(wú)論給定的手寫樣本是由相同還是不同的編寫者寫的。我們提出了一種方法來(lái)生成解釋由卷積神經(jīng)網(wǎng)絡(luò)CNN提供的置信度,CNN將輸入圖像映射到專家提供的15個(gè)注釋功能。我們的系統(tǒng)包括1個(gè)功能學(xué)習(xí)網(wǎng)絡(luò)FLN,一個(gè)可區(qū)分的系統(tǒng),2個(gè)用于提供解釋的推理模塊。此外,推理模塊提供兩種類型的解釋a基于每個(gè)特征的分類概率之間的余弦相似性,b基于使用定向概率圖模型的對(duì)數(shù)似然比LLR。我們使用特征學(xué)習(xí)網(wǎng)絡(luò)FLN和每個(gè)推理模塊的組合進(jìn)行實(shí)驗(yàn)。我們使用XAI AND數(shù)據(jù)集評(píng)估我們的系統(tǒng),每個(gè)樣本包含13700個(gè)手寫樣本和15個(gè)響應(yīng)專家檢查的特征。該數(shù)據(jù)集是為公共使用而發(fā)布的,并且可以擴(kuò)展這些方法以提供其他驗(yàn)證任務(wù)的解釋,如面部驗(yàn)證和生物醫(yī)學(xué)比較。該數(shù)據(jù)集可作為未來(lái)基于解釋的手寫驗(yàn)證研究的基礎(chǔ)和基準(zhǔn)。代碼可以在github上找到。 |
| Harnessing the Power of Deep Learning Methods in Healthcare: Neonatal Pain Assessment from Crying Sound Authors Md Sirajus Salekin, Ghada Zamzmi, Rahul Paul, Dmitry Goldgof, Rangachar Kasturi, Thao Ho, Yu Sun 臨床環(huán)境中的新生兒疼痛評(píng)估具有挑戰(zhàn)性,因?yàn)樗遣贿B續(xù)的和有偏見的。由于臨床狀況,發(fā)育遲緩,俯臥位或其他外部因素,面部身體閉塞可在此類環(huán)境中發(fā)生。在這種情況下,哭聲可用于有效評(píng)估新生兒疼痛。在本文中,我們研究了新型CNN架構(gòu)N CNN以及其他CNN架構(gòu)VGG16和ResNet50用于評(píng)估新生兒哭聲的疼痛。實(shí)驗(yàn)結(jié)果表明,使用我們的新型N CNN評(píng)估新生兒聲音引起的疼痛具有很強(qiáng)的臨床潛力,并為目前的評(píng)估實(shí)踐提供了可行的替代方案。 |
| C3DPO: Canonical 3D Pose Networks for Non-Rigid Structure From Motion Authors David Novotny, Nikhila Ravi, Benjamin Graham, Natalia Neverova, Andrea Vedaldi 我們提出了C3DPO,一種從無(wú)約束圖像中的2D關(guān)鍵點(diǎn)注釋中提取可變形物體的3D模型的方法。我們通過(guò)學(xué)習(xí)深度網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)這一目標(biāo),該網(wǎng)絡(luò)一次從單個(gè)視圖重建3D對(duì)象,考慮部分遮擋,并明確地分解視點(diǎn)變化和對(duì)象變形的影響。為了實(shí)現(xiàn)這種分解,我們引入了一種新穎的正則化技術(shù)。我們首先表明,當(dāng)且僅當(dāng)重建形狀存在某種規(guī)范化函數(shù)時(shí),因子分解才是成功的。然后,我們與重建函數(shù)一起學(xué)習(xí)規(guī)范化函數(shù),這限制了結(jié)果的一致性。我們展示了對(duì)于許多基準(zhǔn)測(cè)試不使用地面實(shí)況3D監(jiān)控的方法的最新重建結(jié)果,包括Up3D和PASCAL3D。 |
| Neural Style-Preserving Visual Dubbing Authors Hyeongwoo Kim, Mohamed Elgharib, Michael Zollh fer, Hans Peter Seidel, Thabo Beeler, Christian Richardt, Christian Theobalt 配音是一種將視頻內(nèi)容從一種語(yǔ)言翻譯成另一種語(yǔ)言的技術(shù)。然而,現(xiàn)有技術(shù)的視覺配音技術(shù)直接將面部表情從源頭復(fù)制到目標(biāo)演員而不考慮身份特定的特性,例如獨(dú)特的微笑類型。我們提供了一種從單個(gè)視頻輸入保留視覺配音方式的風(fēng)格,在修改面部表情(包括嘴部動(dòng)作)以匹配外語(yǔ)時(shí),它保持了目標(biāo)演員的簽名風(fēng)格。我們的方法的核心是運(yùn)動(dòng)風(fēng)格的概念,特別是面部表情,即人臉特定的表情變化,這是面部編輯應(yīng)用中超出視覺準(zhǔn)確性的另一個(gè)重要因素。我們的方法基于復(fù)發(fā)的生成對(duì)抗網(wǎng)絡(luò),其捕獲面部表情的時(shí)空共激活,并且能夠在保持其風(fēng)格的同時(shí)生成和修改目標(biāo)演員的面部表情。我們使用循環(huán)一致性和口腔表達(dá)損失以無(wú)人監(jiān)督的方式使用非同步源和目標(biāo)視頻訓(xùn)練我們的模型,并使用分層神經(jīng)面部渲染器合成逼真的視頻幀。我們的方法產(chǎn)生時(shí)間上連貫的結(jié)果,并處理動(dòng)態(tài)背景。我們的結(jié)果表明,我們的配音方法比以前的方法更好地保持了目標(biāo)演員的特殊風(fēng)格,即使是廣泛不同的源和目標(biāo)演員。 |
| Stack-VS: Stacked Visual-Semantic Attention for Image Caption Generation Authors Wei Wei, Ling Cheng, Xianling Mao, Guangyou Zhou, Feida Zhu 最近,自動(dòng)圖像標(biāo)題生成一直是多模態(tài)翻譯任務(wù)工作的重點(diǎn)。現(xiàn)有方法可以粗略地分為兩類,即自上而下和自下而上,前者將稱為視覺水平特征的圖像信息直接傳遞到字幕中,后者使用被稱為semanticlevel屬性的提取字來(lái)生成描述。然而,先前的方法或者通常基于一級(jí)解碼器,或者部分地利用視覺級(jí)別或語(yǔ)義級(jí)別信息的一部分來(lái)生成圖像標(biāo)題。在本文中,我們通過(guò)組合自下而上和自上而下的注意力模型來(lái)有效地處理輸入圖像的視覺水平和語(yǔ)義級(jí)別信息,我們解決了這個(gè)問(wèn)題并提出了一種稱為Stack VS的創(chuàng)新多階段架構(gòu),用于豐富的精細(xì)圖像標(biāo)題生成。 。具體來(lái)說(shuō),我們還提出了一種新穎精心設(shè)計(jì)的堆棧解碼器模型,它由一系列解碼器單元構(gòu)成,每個(gè)解碼器單元包含兩個(gè)LSTM層,交互工作以重新優(yōu)化視覺水平特征向量和語(yǔ)義級(jí)屬性嵌入的注意權(quán)重,以便生成一個(gè)很好的圖像標(biāo)題。對(duì)流行的基準(zhǔn)數(shù)據(jù)集MSCOCO的廣泛實(shí)驗(yàn)顯示了對(duì)不同評(píng)估指標(biāo)的顯著改進(jìn),即,與現(xiàn)有技術(shù)相比,BLEU 4 CIDEr SPICE得分的改進(jìn)分別為0.372,1.226和0.216。 |
| Intrinsic Dynamic Shape Prior for Fast, Sequential and Dense Non-Rigid Structure from Motion with Detection of Temporally-Disjoint Rigidity Authors Vladislav Golyanik, Andr Jonas, Didier Stricker, Christian Theobalt 雖然近年來(lái)從可重構(gòu)性問(wèn)題的角度對(duì)運(yùn)動(dòng)NRSfM的致密非剛性結(jié)構(gòu)進(jìn)行了廣泛的研究,但幾乎沒(méi)有嘗試將其引入實(shí)際領(lǐng)域。傳播緩慢的原因是嚴(yán)重的病態(tài),對(duì)運(yùn)動(dòng)和變形線索的高度敏感性以及在絕大多數(shù)實(shí)際場(chǎng)景中難以獲得可靠的點(diǎn)軌跡。為了填補(bǔ)這一空白,我們提出了一種混合方法,該方法使用NRSfM從輸入序列中提取先前的形狀知識(shí),并將其用作動(dòng)態(tài)形狀,然后在具有重現(xiàn)的情況下進(jìn)行順序表面恢復(fù)。我們的動(dòng)態(tài)形狀先驗(yàn)重建DSPR方法可以與現(xiàn)有的密集NRSfM技術(shù)相結(jié)合,同時(shí)其能量功能通過(guò)實(shí)時(shí)速率的隨機(jī)梯度下降進(jìn)行優(yōu)化,以用于新的入射點(diǎn)軌跡。所提出的具有新核心NRSfM方法的多功能框架在處理不準(zhǔn)確和噪聲點(diǎn)軌道的能力方面優(yōu)于其他幾種方法,前提是我們可以根據(jù)變形變化圖像序列訪問(wèn)代表。綜合實(shí)驗(yàn)突出了不同干擾效應(yīng)下的收斂特性和DSPR的準(zhǔn)確性。我們還進(jìn)行了跟蹤和重建的聯(lián)合研究,并展示了在閉塞下塑形壓縮和心臟重建的應(yīng)用。我們?cè)诓煌膱?chǎng)景中實(shí)現(xiàn)了最先進(jìn)的度量精度和壓縮比。 |
| FreeAnchor: Learning to Match Anchors for Visual Object Detection Authors Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, Qixiang Ye 現(xiàn)代的基于CNN的物體探測(cè)器在單元IoU上的物體錨點(diǎn)交叉的限制下為地面實(shí)況對(duì)象分配錨點(diǎn)。在這項(xiàng)研究中,我們提出了一種學(xué)習(xí)匹配方法來(lái)打破IoU限制,允許對(duì)象以靈活的方式匹配錨點(diǎn)。我們的方法,稱為FreeAnchor,通過(guò)將檢測(cè)器訓(xùn)練公式化為最大似然估計(jì)MLE過(guò)程,將手工制作的錨分配更新為自由錨匹配。 FreeAnchor的目標(biāo)是學(xué)習(xí)功能,這些功能可以在分類和本地化方面最好地解釋一類對(duì)象。 FreeAnchor通過(guò)優(yōu)化檢測(cè)定制的可能性來(lái)實(shí)現(xiàn),并且可以以即插即用的方式與基于CNN的檢測(cè)器融合。 MS COCO的實(shí)驗(yàn)表明,FreeAnchor的表現(xiàn)優(yōu)于同行,并且利潤(rùn)率很高。 |
| Semantic-Aware Scene Recognition Authors Alejandro L pez Cifuentes, Marcos Escudero Vi olo, Jes s Besc s, lvaro Garc a 場(chǎng)景識(shí)別是目前計(jì)算機(jī)視覺領(lǐng)域中最具挑戰(zhàn)性的研究領(lǐng)域之一。這可能是由于類之間的模糊性,幾個(gè)場(chǎng)景類的圖像可能共享相似的對(duì)象,這導(dǎo)致它們之間的混淆。當(dāng)特定場(chǎng)景類的圖像明顯不同時(shí),問(wèn)題會(huì)更加嚴(yán)重。卷積神經(jīng)網(wǎng)絡(luò)CNN顯著提高了場(chǎng)景識(shí)別的性能,盡管它仍然遠(yuǎn)遠(yuǎn)低于其他識(shí)別任務(wù),例如對(duì)象或圖像識(shí)別。在本文中,我們描述了一種基于端到端多模態(tài)CNN的場(chǎng)景識(shí)別的新方法,其通過(guò)關(guān)注模塊組合圖像和上下文信息。以語(yǔ)義分割的形式的上下文信息用于通過(guò)利用在語(yǔ)義表示中編碼的信息來(lái)對(duì)從RGB圖像提取的特征進(jìn)行門控,該信息是場(chǎng)景對(duì)象和東西的集合及其相對(duì)位置。該選通過(guò)程加強(qiáng)了對(duì)指示性場(chǎng)景內(nèi)容的學(xué)習(xí),并通過(guò)將CNN的感知場(chǎng)重新聚焦于它們來(lái)增強(qiáng)場(chǎng)景消歧。四個(gè)公開可用數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提出的方法優(yōu)于其他所有現(xiàn)有技術(shù)方法,同時(shí)顯著減少了網(wǎng)絡(luò)參數(shù)的數(shù)量。本文中使用的所有代碼和數(shù)據(jù)均可在此處獲得 |
| Utilizing Temporal Information in DeepConvolutional Network for Efficient Soccer BallDetection and Tracking Authors Anna Kukleva, Mohammad Asif Khan, Hafez Farazi, Sven Behnke 足球檢測(cè)被認(rèn)為是RoboCup比賽中的關(guān)鍵挑戰(zhàn)之一。它需要一個(gè)高效的視覺系統(tǒng),能夠以高精度和召回率處理檢測(cè)任務(wù),并提供強(qiáng)大和低推理時(shí)間。在這項(xiàng)工作中,我們提出了一種新的卷積神經(jīng)網(wǎng)絡(luò)CNN方法來(lái)檢測(cè)圖像序列中的足球。與僅使用當(dāng)前幀或圖像進(jìn)行檢測(cè)的現(xiàn)有方法相比,我們利用幀的歷史。使用歷史記錄允許在球消失或在一些幀中部分遮擋的情況下有效地跟蹤球。我們的方法利用空間時(shí)間相關(guān)性并基于其運(yùn)動(dòng)的軌跡來(lái)檢測(cè)球。我們用三種卷積方法呈現(xiàn)我們的結(jié)果,即時(shí)間卷積網(wǎng)絡(luò)TCN,ConvLSTM和ConvGRU。我們首先使用完全卷積編碼器解碼器架構(gòu)來(lái)解決圖像的檢測(cè)任務(wù),然后,我們將其用作我們的時(shí)間模型的輸入,并共同學(xué)習(xí)圖像序列中的檢測(cè)任務(wù)。我們?cè)谧鳛檫@項(xiàng)工作的一部分準(zhǔn)備的新數(shù)據(jù)集上評(píng)估我們的所有實(shí)驗(yàn)。此外,我們提出實(shí)證結(jié)果,以支持在具有挑戰(zhàn)性的情景中使用球的歷史的有效性。 |
| An Active Learning Approach for Reducing Annotation Cost in Skin Lesion Analysis Authors Xueying Shi, Qi Dou, Cheng Xue, Jing Qin, Hao Chen, Pheng Ann Heng 自動(dòng)皮膚病變分析在臨床實(shí)踐中非常重要,因?yàn)槠つw癌是最常見的人類惡性腫瘤之一。現(xiàn)有的深度學(xué)習(xí)方法在這項(xiàng)具有挑戰(zhàn)性的任務(wù)中取得了顯著的成績(jī),但是,它在很大程度上依賴于大規(guī)模標(biāo)記數(shù)據(jù)集。在本文中,我們提出了一種新的主??動(dòng)學(xué)習(xí)框架,用于經(jīng)濟(jì)有效的皮膚病變分析。目標(biāo)是有效地選擇和利用更少的標(biāo)記樣本,同時(shí)網(wǎng)絡(luò)仍然可以實(shí)現(xiàn)最先進(jìn)的性能。我們的樣本選擇標(biāo)準(zhǔn)互補(bǔ)地考慮信息性和代表性,源自測(cè)量模型確定性的分離方面和覆蓋樣本多樣性。為了明智地使用所選樣本,我們進(jìn)一步設(shè)計(jì)了一種簡(jiǎn)單而有效的策略來(lái)聚合像素空間中的類內(nèi)圖像,作為一種新的數(shù)據(jù)增強(qiáng)形式。我們針對(duì)兩項(xiàng)任務(wù)驗(yàn)證了我們提出的ISIC 2017皮膚損傷分類挑戰(zhàn)數(shù)據(jù)的方法。僅使用多達(dá)50個(gè)樣本,我們的方法可以在兩個(gè)任務(wù)上實(shí)現(xiàn)最先進(jìn)的性能,這些任務(wù)與全數(shù)據(jù)訓(xùn)練相當(dāng)或超過(guò)準(zhǔn)確度,并且大大優(yōu)于其他眾所周知的主動(dòng)學(xué)習(xí)方法。 |
| Detector With Focus: Normalizing Gradient In Image Pyramid Authors Yonghyun Kim, Bong Nam Kang, Daijin Kim 圖像金字塔可以擴(kuò)展許多物體檢測(cè)算法以解決多尺度上的檢測(cè)。然而,在圖像金字塔的重采樣過(guò)程期間的插值引起梯度變化,該梯度變化是原始圖像和縮放圖像之間的梯度的差異。我們的主要觀點(diǎn)是漸變的方差增加使得分類器難以正確分配類別。我們通過(guò)制定原始圖像和縮放圖像之間的梯度期望比來(lái)證明梯度變化的存在,然后提出一種簡(jiǎn)單而新穎的梯度歸一化方法來(lái)消除這種變化的影響。所提出的歸一化方法減少了圖像金字塔中的方差,并允許分類器專注于較小的覆蓋范圍。我們展示了行人檢測(cè),姿態(tài)估計(jì)和物體檢測(cè)三種不同視覺識(shí)別問(wèn)題的改進(jìn)。該方法通常適用于基于具有梯度的圖像金字塔的許多視覺算法。 |
| Depth Map Estimation for Free-Viewpoint Television Authors Dawid Mieloch, Olgierd Stankiewicz, Marek Doma ski 本文提出了一種專用于自由視點(diǎn)電視FTV的新的深度估計(jì)方法。對(duì)分段執(zhí)行估計(jì),因此它們的大小可用于控制深度圖的質(zhì)量與其估計(jì)的處理時(shí)間之間的折衷。所提出的算法可以將多個(gè)任意定位的視圖作為其輸入,其同時(shí)用于產(chǎn)生多個(gè)視圖間一致的輸出深度圖。所呈現(xiàn)的深度估計(jì)方法使用新穎的并行化和時(shí)間一致性增強(qiáng)方法,其顯著減少深度估計(jì)的處理時(shí)間。基于對(duì)FTV中虛擬視圖質(zhì)量的分析,已經(jīng)對(duì)提議進(jìn)行了實(shí)驗(yàn)評(píng)估。結(jié)果表明,與現(xiàn)有技術(shù)相比,該方法提供了深度圖質(zhì)量的改進(jìn),同時(shí)降低了深度估計(jì)的復(fù)雜度。深度圖的一致性對(duì)于合成視頻的質(zhì)量以及因此在3D場(chǎng)景中導(dǎo)航的體驗(yàn)質(zhì)量至關(guān)重要,也得到極大改善。 |
| Efficient Neural Architecture Transformation Searchin Channel-Level for Object Detection Authors Junran Peng, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan 最近,神經(jīng)結(jié)構(gòu)搜索在大規(guī)模圖像分類方面取得了巨大成功。相比之下,關(guān)注對(duì)象檢測(cè)的體系結(jié)構(gòu)搜索的工作有限,主要是因?yàn)闄z測(cè)器總是需要昂貴的ImageNet預(yù)訓(xùn)練。作為替代品,從頭開始的培訓(xùn)需要更多的時(shí)代來(lái)收斂并且不會(huì)帶來(lái)任何計(jì)算節(jié)省。為克服這一障礙,本文介紹了一種實(shí)用的神經(jīng)網(wǎng)絡(luò)變換搜索NATS算法,用于目標(biāo)檢測(cè)。 NATS不是搜索和構(gòu)建整個(gè)網(wǎng)絡(luò),而是在現(xiàn)有網(wǎng)絡(luò)的基礎(chǔ)上探索架構(gòu)空間并重用其權(quán)重。我們提出了一種新的神經(jīng)結(jié)構(gòu)搜索策略,在通道級(jí)而不是路徑級(jí),并設(shè)計(jì)一個(gè)專門針對(duì)對(duì)象檢測(cè)的搜索空間。通過(guò)這兩種設(shè)計(jì)的組合,可以發(fā)現(xiàn)架構(gòu)轉(zhuǎn)換方案以使設(shè)計(jì)用于圖像分類的網(wǎng)絡(luò)適應(yīng)對(duì)象檢測(cè)的任務(wù)。由于我們的方法是基于梯度的,并且只搜索變換方案,因此可以在搜索和再訓(xùn)練階段中使用在ImageNet中預(yù)訓(xùn)練的模型的權(quán)重,這使得整個(gè)過(guò)程非常有效。轉(zhuǎn)換后的網(wǎng)絡(luò)不需要額外的參數(shù)和FLOP,并且對(duì)硬件優(yōu)化很友好,這在實(shí)時(shí)應(yīng)用中是實(shí)用的。在實(shí)驗(yàn)中,我們展示了像ResNet和ResNeXt這樣的NATSon網(wǎng)絡(luò)的有效性。我們的轉(zhuǎn)換網(wǎng)絡(luò)與各種檢測(cè)框架相結(jié)合,在保持快速的同時(shí)實(shí)現(xiàn)了COCO數(shù)據(jù)集的顯著改進(jìn)。 |
| Adaptive Graph Representation Learning for Video Person Re-identification Authors Yiming Wu, Omar El Farouk Bourahla, Xi Li, Fei Wu, Qi Tian 近年來(lái)見證了基于深度學(xué)習(xí)的視頻人物識(shí)別Re ID的巨大發(fā)展。視頻人Re ID的關(guān)鍵因素是如何有效地構(gòu)建判別性視頻特征表示,以便對(duì)諸如遮擋之類的許多復(fù)雜情況具有魯棒性。最近基于部分的方法利用空間和時(shí)間關(guān)注來(lái)提取代表性的局部特征。雖然在先前的方法中忽略了各部分之間的相關(guān)性,但為了利用不同部分的關(guān)系,我們提出了一種用于視頻人Re ID的創(chuàng)新的自適應(yīng)圖表表示學(xué)習(xí)方案,其實(shí)現(xiàn)了相關(guān)區(qū)域特征之間的上下文交互。具體來(lái)說(shuō),我們利用姿勢(shì)對(duì)齊連接和特征親和關(guān)系來(lái)構(gòu)造自適應(yīng)結(jié)構(gòu)感知鄰接圖,其模擬圖節(jié)點(diǎn)之間的內(nèi)在關(guān)系。我們?cè)卩徑訄D上執(zhí)行特征傳播以迭代地細(xì)化原始區(qū)域特征,將鄰居節(jié)點(diǎn)信息考慮用于部件特征表示。為了學(xué)習(xí)緊湊和有辨別力的表示,我們進(jìn)一步提出了一種新穎的時(shí)間分辨率感知正則化,它強(qiáng)制了相同身份的不同時(shí)間分辨率之間的一致性。我們對(duì)四個(gè)基準(zhǔn)進(jìn)行了廣泛的評(píng)估,即iLIDS VID,PRID2011,MARS和DukeMTMC VideoReID,實(shí)驗(yàn)結(jié)果達(dá)到了競(jìng)爭(zhēng)性能,證明了我們提出的方法的有效性。 |
| Effective Domain Knowledge Transfer with Soft Fine-tuning Authors Zhichen Zhao, Bowen Zhang, Yuning Jiang, Li Xu, Lei Li, Wei Ying Ma 卷積神經(jīng)網(wǎng)絡(luò)需要大量數(shù)據(jù)用于訓(xùn)練。考慮到在某些特定任務(wù)中數(shù)據(jù)收集和標(biāo)記的困難,現(xiàn)有方法通常使用在大型源域上預(yù)訓(xùn)練的模型,例如ImageNet,然后在這些任務(wù)上微調(diào)它們。但是,來(lái)自源域的數(shù)據(jù)集在微調(diào)過(guò)程中被簡(jiǎn)單地丟棄。我們認(rèn)為可以更好地利用源數(shù)據(jù)集并使微調(diào)受益。本文首先介紹了一般歧視的概念,用以描述網(wǎng)絡(luò)區(qū)分未經(jīng)訓(xùn)練的模式的能力,然后通過(guò)實(shí)驗(yàn)證明一般的歧視可能會(huì)增強(qiáng)目標(biāo)領(lǐng)域的總體辨別能力。此外,我們提出了一種新穎且重量輕的方法,即軟微調(diào)。與通過(guò)目標(biāo)域上的損失函數(shù)直接替代優(yōu)化目標(biāo)的傳統(tǒng)微調(diào)不同,軟微調(diào)通過(guò)保持先前的損失并且輕柔地去除它來(lái)有效地保持一般區(qū)分。通過(guò)這樣做,軟微調(diào)可以提高網(wǎng)絡(luò)對(duì)數(shù)據(jù)偏差的魯棒性,同時(shí)加速收斂。我們?cè)趲讉€(gè)視覺識(shí)別任務(wù)上評(píng)估我們的方法。廣泛的實(shí)驗(yàn)結(jié)果支持軟微調(diào)為所有評(píng)估任務(wù)提供一致的改進(jìn),并且顯著優(yōu)于現(xiàn)有技術(shù)。代碼將向公眾提供。 |
| POD: Practical Object Detection with Scale-Sensitive Network Authors Junran Peng, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan 尺度敏感對(duì)象檢測(cè)仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù),其中大多數(shù)現(xiàn)有方法無(wú)法明確地學(xué)習(xí)它并且對(duì)于尺度方差不具有魯棒性。此外,大多數(shù)現(xiàn)有方法在訓(xùn)練期間效率較低或在推理期間較慢,這對(duì)實(shí)時(shí)應(yīng)用不友好。在本文中,我們提出了一種具有尺度敏感網(wǎng)絡(luò)的實(shí)用目標(biāo)檢測(cè)方法。我們的方法首先為每個(gè)網(wǎng)絡(luò)階段的每個(gè)卷積濾波器預(yù)測(cè)所有位置共享的全局連續(xù)尺度。為了有效地學(xué)習(xí)比例,我們平均空間特征并從通道中提取比例。為了快速部署,我們提出了一種尺度分解方法,該方法將魯棒小數(shù)尺度轉(zhuǎn)換為每個(gè)卷積濾波器的固定積分尺度的組合,其利用擴(kuò)張卷積。我們?cè)诓煌渲玫囊浑A段和兩階段算法上演示它。對(duì)于實(shí)際應(yīng)用,我們的方法的培訓(xùn)是效率和簡(jiǎn)單性,擺脫了復(fù)雜的數(shù)據(jù)采樣或優(yōu)化策略。在測(cè)試期間,所提出的方法不需要額外的操作,并且非常支持像TensorRT和TVM那樣的硬件加速。在COCO測(cè)試開發(fā)中,我們的模型可以在一級(jí)探測(cè)器上實(shí)現(xiàn)41.5 mAP,在基于ResNet 101的兩級(jí)探測(cè)器上實(shí)現(xiàn)42.1 mAP,在沒(méi)有額外FLOPS的情況下分別優(yōu)于基線2.4和2.1。 |
| A Better Way to Attend: Attention with Trees for Video Question Answering Authors Hongyang Xue, Wenqing Chu, Zhou Zhao, Deng Cai 我們提出了一種新的視頻問(wèn)答應(yīng)用模型。注意力模型的主要思想是定位視覺數(shù)據(jù)中信息最豐富的部分。目前,關(guān)注機(jī)制非常受歡迎。但是,大多數(shù)現(xiàn)有的視覺注意機(jī)制都將問(wèn)題視為一個(gè)整體。他們忽略單詞級(jí)語(yǔ)義,其中每個(gè)單詞可以有不同的注意力,有些單詞不需要注意。他們也沒(méi)有考慮句子的語(yǔ)義結(jié)構(gòu)。盡管用于視頻問(wèn)題回答的擴(kuò)展軟注意力E SA模型利用了單詞級(jí)別的注意力,但它在長(zhǎng)問(wèn)題句子上表現(xiàn)不佳。在本文中,我們提出了異構(gòu)樹結(jié)構(gòu)存儲(chǔ)網(wǎng)絡(luò)HTreeMN用于視頻問(wèn)答。我們提出的方法基于問(wèn)句的語(yǔ)法分析樹。 HTreeMN以不同的方式處理單詞,其中使用注意模塊處理文本視覺單詞,而不使用textit語(yǔ)言單詞。它還通過(guò)基于解析樹的遞歸結(jié)構(gòu)組合鄰居來(lái)利用句子的語(yǔ)義結(jié)構(gòu)。對(duì)單詞和視頻的理解被傳播并從葉子合并到根。此外,我們構(gòu)建了一個(gè)分層注意機(jī)制來(lái)提煉出席的功能。我們?cè)趦蓚€(gè)數(shù)據(jù)集上評(píng)估我們的方法。實(shí)驗(yàn)結(jié)果表明我們的HTreeMN模型優(yōu)于其他注意力模型,特別是復(fù)雜問(wèn)題。我們的代碼可以在github上找到。我們的代碼可在 |
| Synthesizing Coupled 3D Face Modalities by Trunk-Branch Generative Adversarial Networks Authors Baris Gecer, Alexander Lattas, Stylianos Ploumpis, Jiankang Deng, Athanasios Papaioannou, Stylianos Moschoglou, Stefanos Zafeiriou 生成逼真的3D面對(duì)計(jì)算機(jī)圖形和計(jì)算機(jī)視覺應(yīng)用非常重要。通常,關(guān)于3D面部生成的研究圍繞面部表面的線性統(tǒng)計(jì)模型。然而,這些模型不能忠實(shí)地代表面部紋理或面部法線,這對(duì)于照片真實(shí)面部合成非常關(guān)鍵。最近,證明了Generative Adversarial Networks GAN可用于生成高質(zhì)量的面部紋理。然而,生成過(guò)程要么省略幾何和法線,要么使用獨(dú)立過(guò)程來(lái)產(chǎn)生3D形狀信息。在本文中,我們提出了第一種聯(lián)合生成高質(zhì)量紋理,形狀和法線的方法,可用于照片真實(shí)合成。為此,我們提出了一種新穎的GAN,它可以利用不同的模態(tài)生成數(shù)據(jù),同時(shí)利用它們的相關(guān)性。此外,我們演示了如何在表達(dá)式上調(diào)整生成并使用各種面部表情創(chuàng)建面部。此預(yù)印本中顯示的定性結(jié)果由于尺寸限制而被壓縮,全分辨率結(jié)果和附帶的視頻可在項(xiàng)目頁(yè)面找到 |
| Training Compact Neural Networks via Auxiliary Overparameterization Authors Yifan Liu, Bohan Zhuang, Chunhua Shen, Hao Chen, Wei Yin 觀察到過(guò)度參數(shù)化,即設(shè)計(jì)其參數(shù)數(shù)量大于統(tǒng)計(jì)所需的神經(jīng)網(wǎng)絡(luò)以適合訓(xùn)練數(shù)據(jù)可以改善優(yōu)化和概括,同時(shí)緊湊網(wǎng)絡(luò)更難以優(yōu)化。但是,過(guò)度參數(shù)化會(huì)導(dǎo)致測(cè)試時(shí)間推斷速度變慢,功耗也會(huì)增加。為了解決這個(gè)問(wèn)題,我們提出了一種新穎的輔助模塊來(lái)模擬過(guò)度參數(shù)化的效果。在培訓(xùn)期間,我們使用輔助模塊擴(kuò)展緊湊型網(wǎng)絡(luò)以形成更寬的網(wǎng)絡(luò)以協(xié)助優(yōu)化,而在推理期間僅保留原始緊湊型網(wǎng)絡(luò)。此外,我們建議自動(dòng)搜索分層輔助結(jié)構(gòu),以避免啟發(fā)式添加監(jiān)督。在實(shí)驗(yàn)中,我們探索了幾個(gè)具有挑戰(zhàn)性的資源約束任務(wù),包括輕量分類,語(yǔ)義分割和具有硬參數(shù)共享的多任務(wù)學(xué)習(xí)。我們憑經(jīng)驗(yàn)發(fā)現(xiàn),所提出的輔助模塊可以保持緊湊網(wǎng)絡(luò)的復(fù)雜性,同時(shí)顯著提高性能。 |
| Gravity as a Reference for Estimating a Person's Height from Video Authors Didier Bieler, Semih G nel, Pascal Fua, Helge Rhodin 在沒(méi)有額外假設(shè)的情況下從單眼圖像估計(jì)人的度量高度是不合適的。現(xiàn)有解決方案要么需要手動(dòng)校準(zhǔn)地平面和相機(jī)幾何形狀,特殊相機(jī)或已知尺寸的參考物體。我們專注于運(yùn)動(dòng)線索并利用地球上的重力作為無(wú)所不在的參考對(duì)象來(lái)轉(zhuǎn)換加速度,并隨后將圖像像素中測(cè)量的高度轉(zhuǎn)換為以米為單位的值。我們需要運(yùn)動(dòng)視頻作為輸入,其中重力是唯一的外力。此限制與恢復(fù)人員身高的現(xiàn)有解決方案的限制不同,因此,我們的方法開辟了新的應(yīng)用領(lǐng)域。我們?cè)诶碚撋虾徒?jīng)驗(yàn)上表明,簡(jiǎn)單的運(yùn)動(dòng)軌跡分析足以從像素測(cè)量值轉(zhuǎn)換到人的度量高度,在跳躍運(yùn)動(dòng)時(shí)達(dá)到高達(dá)3.9厘米的MAE,并且這可以在沒(méi)有攝像機(jī)和地平面校準(zhǔn)的情況下工作。 |
| Image Captioning with Very Scarce Supervised Data: Adversarial Semi-Supervised Learning Approach Authors Dong Jin Kim, Jinsoo Choi, Tae Hyun Oh, In So Kweon 構(gòu)建由大量圖像和每個(gè)圖像的若干字幕組成的有組織數(shù)據(jù)集是一項(xiàng)艱巨的任務(wù),這需要大量的人力。另一方面,分別收集大量圖像和句子可能非常容易。在本文中,我們開發(fā)了一種新的數(shù)據(jù)有效的半監(jiān)督框架,用于訓(xùn)練圖像字幕模型。我們通過(guò)學(xué)習(xí)關(guān)聯(lián)它們來(lái)利用大量不成對(duì)的圖像和字幕數(shù)據(jù)。為此,我們提出的半監(jiān)督學(xué)習(xí)方法通??過(guò)生成對(duì)抗網(wǎng)絡(luò)為未配對(duì)的樣本分配偽標(biāo)簽,以學(xué)習(xí)圖像和標(biāo)題的聯(lián)合分布。為了評(píng)估,我們構(gòu)建了幾乎不成對(duì)的COCO數(shù)據(jù)集,即MS COCO字幕數(shù)據(jù)集的修改版本。實(shí)驗(yàn)結(jié)果表明,與幾個(gè)強(qiáng)基線相比,我們的方法有效,特別是當(dāng)配對(duì)樣本的數(shù)量很少時(shí)。 |
| Future Frame Prediction Using Convolutional VRNN for Anomaly Detection Authors Yiwei Lu, Mahesh Kumar K, Seyed shahabeddin Nabavi, Yang Wang 視頻中的異常檢測(cè)旨在報(bào)告任何不符合正常行為或分布的內(nèi)容。然而,由于現(xiàn)實(shí)生活中的異常視頻剪輯的稀疏性,收集用于監(jiān)督學(xué)習(xí)的注釋數(shù)據(jù)是異常麻煩的。受半監(jiān)督學(xué)習(xí)生成模型實(shí)用性的啟發(fā),我們提出了一種基于變分自動(dòng)編碼器VAE的新型序貫生成模型,用于卷積LSTM ConvLSTM的未來(lái)幀預(yù)測(cè)。據(jù)我們所知,這是從模型角度考慮基于異常檢測(cè)框架的未來(lái)幀預(yù)測(cè)中的時(shí)間信息的第一項(xiàng)工作。我們的實(shí)驗(yàn)表明,我們的方法優(yōu)于三個(gè)基準(zhǔn)數(shù)據(jù)集的最新方法。 |
| Poly-GAN: Multi-Conditioned GAN for Fashion Synthesis Authors Nilesh Pandey, Andreas Savakis 我們提出了Poly GAN,這是一種新穎的條件GAN架構(gòu),由Fashion Synthesis推動(dòng),這種應(yīng)用將服裝自動(dòng)放置在任意姿勢(shì)的人體模型圖像上。 Poly GAN允許在多個(gè)輸入上進(jìn)行調(diào)節(jié),適用于許多任務(wù),包括圖像對(duì)齊,圖像拼接和修復(fù)。現(xiàn)有方法具有類似的管道,其中三個(gè)不同的網(wǎng)絡(luò)用于首先將服裝與人體姿勢(shì)對(duì)齊,然后執(zhí)行對(duì)齊的服裝的縫合并最終細(xì)化結(jié)果。 Poly GAN是第一個(gè)使用通用架構(gòu)執(zhí)行所有三個(gè)任務(wù)的實(shí)例。我們的新穎架構(gòu)強(qiáng)制編碼器的所有層的條件,并利用從編碼器的粗層到解碼器的各個(gè)層的跳過(guò)連接。 Poly GAN能夠以任意姿勢(shì)基于模型的RGB骨架執(zhí)行服裝的空間變換。此外,Poly GAN可以執(zhí)行圖像拼接,無(wú)論衣服的方向如何,并且當(dāng)衣服面膜包含不規(guī)則的孔時(shí),可以對(duì)其進(jìn)行修補(bǔ)。我們的系統(tǒng)使用DeepFashion數(shù)據(jù)集實(shí)現(xiàn)了結(jié)構(gòu)相似性指數(shù)度量和初始得分度量的最新定量結(jié)果。 |
| Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning Authors Lifeng Fan, Wenguan Wang, Siyuan Huang, Xinyu Tang, Song Chun Zhu 本文探討了從原子水平和事件水平理解社交視頻中人類凝視交流的新問(wèn)題,這對(duì)研究人類社會(huì)交往具有重要意義。為了解決這個(gè)新穎且具有挑戰(zhàn)性的問(wèn)題,我們提供了一個(gè)大型視頻數(shù)據(jù)集VACATION,它涵蓋了各種日常社交場(chǎng)景和凝視通信行為,包括對(duì)象和人臉的完整注釋,人類關(guān)注,以及原子級(jí)別和通信結(jié)構(gòu)和標(biāo)簽。事件級(jí)別。與VACATION一起,我們提出了一個(gè)時(shí)空?qǐng)D神經(jīng)網(wǎng)絡(luò),以明確地表示社交場(chǎng)景中的不同注視交互,并通過(guò)消息傳遞推斷原子級(jí)注視通信。我們進(jìn)一步提出具有編碼器解碼器結(jié)構(gòu)的事件網(wǎng)絡(luò)以預(yù)測(cè)事件級(jí)別注視通信。我們的實(shí)驗(yàn)表明,所提出的模型在預(yù)測(cè)原子水平和事件水平凝視方面顯著改善了各種基線 |
| Program-Guided Image Manipulators Authors Jiayuan Mao, Xiuming Zhang, Yikai Li, William T. Freeman, Joshua B. Tenenbaum, Jiajun Wu 人類能夠?yàn)楦鞣N層面的圖像構(gòu)建整體表示,從局部對(duì)象到成對(duì)關(guān)系,再到全局結(jié)構(gòu)。結(jié)構(gòu)的解釋涉及推理圖像中對(duì)象的重復(fù)和對(duì)稱性。在本文中,我們提出了程序引導(dǎo)圖像操縱器PG IM,誘導(dǎo)神經(jīng)符號(hào)程序像表示來(lái)表示和操縱圖像。給定圖像,PG IM檢測(cè)重復(fù)的模式,誘導(dǎo)符號(hào)程序,并使用由程序引導(dǎo)的神經(jīng)網(wǎng)絡(luò)來(lái)操縱圖像。 PG IM從單個(gè)圖像中學(xué)習(xí),利用其內(nèi)部統(tǒng)計(jì)數(shù)據(jù)。盡管僅在圖像修復(fù)方面受過(guò)訓(xùn)練,但PG IM可直接在統(tǒng)一框架中進(jìn)行外推和規(guī)則編輯。大量實(shí)驗(yàn)表明,PG IM在所有任務(wù)中都具有卓越的性能。 |
| Weakly Supervised Universal Fracture Detection in Pelvic X-rays Authors Yirui Wang, Le Lu, Chi Tung Cheng, Dakai Jin, Adam P. Harrison, Jing Xiao, Chien Hung Liao, Shun Miao 髖部和骨盆骨折是嚴(yán)重的傷害,危及生命的并發(fā)癥。然而,骨盆X射線PXR中骨折的診斷錯(cuò)誤非常普遍,這推動(dòng)了對(duì)計(jì)算機(jī)輔助診斷CAD解決方案的需求。一個(gè)主要的挑戰(zhàn)在于裂縫是需要局部分析的局部模式。不幸的是,駐留在醫(yī)院圖片存檔和通信系統(tǒng)中的PXR通常不指定興趣區(qū)域。在本文中,我們提出了一種兩階段髖骨和骨盆骨折檢測(cè)方法,使用弱監(jiān)督ROI挖掘執(zhí)行局部骨折分類。第一階段使用大容量完全卷積網(wǎng)絡(luò),即深度具有高抽象水平,在多實(shí)例學(xué)習(xí)設(shè)置中自動(dòng)從訓(xùn)練數(shù)據(jù)中的整個(gè)PXR挖掘可能的正肯定和肯定的硬負(fù)ROI。第二階段訓(xùn)練較小容量模型,即較淺且更通用的,具有開采的ROI以執(zhí)行局部分析以對(duì)裂縫進(jìn)行分類。在推理過(guò)程中,我們的方法通過(guò)將兩個(gè)階段的概率輸出鏈接在一起來(lái)一次性檢測(cè)髖部和骨盆骨折。我們?cè)? 410個(gè)PXR上評(píng)估我們的方法,報(bào)告了ROC曲線值為0.975的區(qū)域,這是現(xiàn)有技術(shù)中最先進(jìn)的裂縫檢測(cè)方法。此外,我們表明,在23位讀者的初步讀者研究中,我們的兩階段方法可以與人類醫(yī)生相比,甚至超過(guò)急診醫(yī)生和外科醫(yī)生。 |
| Large-scale Tag-based Font Retrieval with Generative Feature Learning Authors Tianlang Chen, Zhaowen Wang, Ning Xu, Hailin Jin, Jiebo Luo 字體選擇是設(shè)計(jì)工作流程中最重要的步驟之一。傳統(tǒng)方法依賴于有序列表,這些列表需要大量的領(lǐng)域知識(shí),并且即使對(duì)于經(jīng)過(guò)培在本文中,我們解決了基于大規(guī)模標(biāo)記的字體檢索的問(wèn)題,其目的是為字體選擇過(guò)程帶來(lái)語(yǔ)義,并使沒(méi)有專業(yè)知識(shí)的人能夠有效地使用字體。我們收集了高質(zhì)量專業(yè)字體的大規(guī)模字體標(biāo)記數(shù)據(jù)集。該數(shù)據(jù)集包含近20,000種字體,2,000種標(biāo)簽和數(shù)十萬(wàn)種字體標(biāo)簽關(guān)系。我們提出了一種新穎的生成特征學(xué)習(xí)算法,該算法利用了字體的獨(dú)特特征。關(guān)鍵思想是字體圖像是合成的,因此可以通過(guò)學(xué)習(xí)算法進(jìn)行控制。我們?cè)O(shè)計(jì)了一個(gè)集成的渲染和學(xué)習(xí)過(guò)程,以便一個(gè)圖像的視覺特征可用于重建另一個(gè)具有不同文本的圖像。生成的特征捕獲重要的字體設(shè)計(jì)細(xì)節(jié),同時(shí)對(duì)諸如文本等令人討厭的因素具有魯棒性。我們提出了一種新穎的注意機(jī)制來(lái)重新加權(quán)關(guān)節(jié)視覺文本建模的視覺特征。我們將特征和注意機(jī)制結(jié)合在一個(gè)新穎的識(shí)別檢索模型中。實(shí)驗(yàn)結(jié)果表明,對(duì)于基于大規(guī)模標(biāo)簽的字體檢索的重要問(wèn)題,我們的方法明顯優(yōu)于現(xiàn)有技術(shù)。 |
| ApproxNet: Content and Contention Aware Video Analytics System for the Edge Authors Ran Xu, Jinkyu Koo, Rakesh Kumar, Peter Bai, Subrata Mitra, Ganga Maghanath, Saurabh Bagchi 視頻需要大量時(shí)間才能通過(guò)網(wǎng)絡(luò)傳輸,因此在邊緣設(shè)備上對(duì)實(shí)時(shí)視頻進(jìn)行分析,就像捕獲它一樣,它已經(jīng)成為一個(gè)重要的系統(tǒng)驅(qū)動(dòng)程序。然而,這些邊緣設(shè)備(例如,IoT設(shè)備,監(jiān)視相機(jī),AR VR小配件)受資源限制。這使得無(wú)法在其上運(yùn)行最先進(jìn)的重型深度神經(jīng)網(wǎng)絡(luò)DNN,并且在各種情況下提供低且穩(wěn)定的延遲,例如,設(shè)備上的資源可用性的變化,內(nèi)容特征或來(lái)自用戶的要求。在本文中,我們介紹了AspectNet,一個(gè)用于邊緣的視頻分析系統(tǒng)。它使新穎的動(dòng)態(tài)近似技術(shù)能夠在不同的系統(tǒng)條件和資源爭(zhēng)用,視頻內(nèi)容的復(fù)雜性和用戶要求的變化下實(shí)現(xiàn)期望的推斷等待時(shí)間和準(zhǔn)確度折衷。它通過(guò)在單個(gè)DNN模型中啟用兩個(gè)近似旋鈕來(lái)實(shí)現(xiàn)這一點(diǎn),而不是創(chuàng)建和維護(hù)一組模型,例如在MCDNN Mobisys 16中。集合模型在輕量級(jí)設(shè)備上遇到內(nèi)存問(wèn)題,并且響應(yīng)于運(yùn)行時(shí)更改而在模型之間產(chǎn)生大的切換損失。我們表明,ApproxNet可以在運(yùn)行時(shí)無(wú)縫適應(yīng)視頻內(nèi)容的變化和系統(tǒng)動(dòng)態(tài)的變化,為視頻流上的對(duì)象檢測(cè)提供低而穩(wěn)定的延遲。我們比較了ResNet 2015,MCDNN和MobileNets Google 2017的準(zhǔn)確性和延遲。 |
| Do Cross Modal Systems Leverage Semantic Relationships? Authors Shah Nawaz, Muhammad Kamran Janjua, Ignazio Gallo, Arif Mahmood, Alessandro Calefati, Faisal Shafait 當(dāng)前的交叉模態(tài)檢索系統(tǒng)使用R K度量來(lái)評(píng)估,該度量不利用語(yǔ)義關(guān)系而是嚴(yán)格遵循手動(dòng)標(biāo)記的圖像文本查詢對(duì)。因此,當(dāng)前的系統(tǒng)不能很好地概括野外看不見的數(shù)據(jù)。為了解決這個(gè)問(wèn)題,我們提出了一種新的測(cè)量方法SemanticMap來(lái)評(píng)估交叉模態(tài)系統(tǒng)的性能。我們提出的度量評(píng)估了潛在嵌入空間中圖像和文本表示之間的語(yǔ)義相似性。我們還提出了一種使用單流網(wǎng)絡(luò)進(jìn)行雙向檢索的新型交叉模態(tài)檢索系統(tǒng)。所提出的系統(tǒng)基于使用擴(kuò)展中心損失訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),最小化來(lái)自類中心的潛在空間中的圖像和文本描述的距離。在我們的系統(tǒng)中,文本描述也被編碼為圖像,這使我們能夠?yàn)槲谋竞蛨D像使用單個(gè)流網(wǎng)絡(luò)。據(jù)我們所知,我們的工作是采用單流網(wǎng)絡(luò)進(jìn)行交叉模態(tài)檢索系統(tǒng)的第一次。所提出的系統(tǒng)在兩個(gè)公開可用的數(shù)據(jù)集上進(jìn)行評(píng)估,包括MSCOCO和Flickr30K,并且已經(jīng)顯示出與現(xiàn)有技術(shù)方法相當(dāng)?shù)慕Y(jié)果。 |
| CT Data Curation for Liver Patients: Phase Recognition in Dynamic Contrast-Enhanced CT Authors Bo Zhou, Adam Harrison, Jiawen Yao, Chi Tung Cheng, Jing Xiao, Chien Hung Liao, Le Lu 隨著對(duì)更具描述性的機(jī)器學(xué)習(xí)模型的需求在醫(yī)學(xué)成像中的增長(zhǎng),由于數(shù)據(jù)缺乏而導(dǎo)致的瓶頸將加劇。因此,收集足夠大規(guī)模的數(shù)據(jù)將需要自動(dòng)化工具從雜亂和真實(shí)世界的數(shù)據(jù)集中收集數(shù)據(jù)標(biāo)簽對(duì),例如醫(yī)院PACS。這是我們工作的重點(diǎn),我們提出了一個(gè)原則數(shù)據(jù)管理工具,用于提取多階段CT肝臟研究,并從現(xiàn)實(shí)世界和異質(zhì)醫(yī)院PACS數(shù)據(jù)集中識(shí)別每個(gè)掃描階段。模擬典型的部署方案,我們首先從我們的機(jī)構(gòu)合作伙伴處獲取一組噪聲標(biāo)簽,這些標(biāo)簽是使用DICOM標(biāo)簽中的簡(jiǎn)單規(guī)則進(jìn)行文本挖掘的。我們使用定制和簡(jiǎn)化的3D SE架構(gòu)訓(xùn)練深度學(xué)習(xí)系統(tǒng),以識(shí)別非對(duì)比,動(dòng)脈,靜脈和延遲相位動(dòng)態(tài)CT肝臟掃描,過(guò)濾掉任何其他內(nèi)容,包括其他類型的肝臟對(duì)比研究。為了盡可能多地利用訓(xùn)練數(shù)據(jù),我們還引入了一個(gè)聚合的交叉熵?fù)p失,可以從僅識(shí)別為對(duì)比的掃描中學(xué)習(xí)。對(duì)7680例患者成像研究的43K掃描數(shù)據(jù)集進(jìn)行的大量實(shí)驗(yàn)表明,我們的3DSE結(jié)構(gòu),通過(guò)我們的聚合損失,可以達(dá)到0.977的平均F1,并且可以正確地收獲高達(dá)92.7的研究,這明顯優(yōu)于文本開采和標(biāo)準(zhǔn)損失方法,也優(yōu)于其他更復(fù)雜的模型架構(gòu)。 |
| AFP-Net: Realtime Anchor-Free Polyp Detection in Colonoscopy Authors Dechun Wang, Ning Zhang, Xinzi Sun, Pengfei Zhang, Chenxi Zhang, Yu Cao, Benyuan Liu 結(jié)直腸癌CRC是一種常見的致命疾病。在全球范圍內(nèi),CRC是男性中第三位最常診斷的癌癥,女性是第二位。對(duì)于結(jié)腸直腸癌,最好的篩查試驗(yàn)是結(jié)腸鏡檢查。在結(jié)腸鏡檢查過(guò)程中,內(nèi)窺鏡尖端的微型攝像機(jī)會(huì)生成結(jié)腸內(nèi)部粘膜的視頻。視頻數(shù)據(jù)顯示在監(jiān)視器上,供醫(yī)生檢查整個(gè)結(jié)腸的內(nèi)層并檢查結(jié)腸直腸息肉。結(jié)腸直腸息肉的檢測(cè)和去除與結(jié)腸直腸癌的死亡率降低有關(guān)。然而,即使對(duì)于非常有經(jīng)驗(yàn)的醫(yī)生來(lái)說(shuō),結(jié)腸鏡檢查過(guò)程中息肉檢測(cè)的漏診率通常很高。原因在于息肉在形狀,大小,紋理,顏色和光照方面的高度變化。雖然具有挑戰(zhàn)性,但隨著物體檢測(cè)技術(shù)的巨大進(jìn)步,自動(dòng)息肉檢測(cè)仍然顯示出在保持高精度的同時(shí)降低假陰性率的巨大潛力。在本文中,我們提出了一種新型無(wú)錨息肉探測(cè)器,可以在不使用預(yù)定義錨盒的情況下定位息肉。為了進(jìn)一步加強(qiáng)模型,我們利用上下文增強(qiáng)模塊和余弦地面實(shí)況投影。我們的方法可以實(shí)時(shí)響應(yīng),同時(shí)實(shí)現(xiàn)99.36精度和96.44召回的最先進(jìn)性能。 |
| Are Adversarial Robustness and Common Perturbation Robustness Independant Attributes ? Authors Alfred Laugros, Alice Caplier, Matthieu Ospici 神經(jīng)網(wǎng)絡(luò)已被證明對(duì)常見的擾動(dòng)很敏感,如模糊,高斯噪聲,旋轉(zhuǎn)等。它們也容易受到一些被稱為對(duì)抗性例子的人為惡意破壞的攻擊。對(duì)抗性示例研究最近變得非常流行,有時(shí)甚至?xí)档蛯?duì)抗魯棒性一詞的對(duì)抗性。然而,我們不知道對(duì)抗性穩(wěn)健性在多大程度上與全球穩(wěn)健性相關(guān)。同樣,我們不知道對(duì)各種常見擾動(dòng)(例如翻譯或?qū)Ρ榷葥p失)的穩(wěn)健性是否有助于對(duì)抗性破壞。我們打算研究神經(jīng)網(wǎng)絡(luò)的穩(wěn)健性與兩種擾動(dòng)之間的聯(lián)系。通過(guò)我們的實(shí)驗(yàn),我們提供了第一個(gè)基準(zhǔn),旨在評(píng)估神經(jīng)網(wǎng)絡(luò)對(duì)常見擾動(dòng)的魯棒性。我們表明,增加對(duì)精心選擇的常見擾動(dòng)的魯棒性,可以使神經(jīng)網(wǎng)絡(luò)對(duì)看不見的常見擾動(dòng)更加魯棒。我們還證明了對(duì)常見擾動(dòng)的對(duì)抗魯棒性和魯棒性是獨(dú)立的。我們的結(jié)果使我們相信神經(jīng)網(wǎng)絡(luò)的魯棒性應(yīng)該在更廣泛的意義上得到解決。 |
| Tensor Oriented No-Reference Light Field Image Quality Assessment Authors Wei Zhou, Likun Shi, Zhibo Chen 光場(chǎng)圖像LFI質(zhì)量評(píng)估變得越來(lái)越重要,這有助于更好地指導(dǎo)沉浸式媒體的采集,處理和應(yīng)用。然而,由于LFI固有的高維特性,LFI質(zhì)量評(píng)估變成多維問(wèn)題,需要考慮空間和角度尺寸的質(zhì)量下降。因此,我們提出了一種基于張量理論的新型Tensor定向無(wú)參考光場(chǎng)圖像質(zhì)量評(píng)估器Tensor NLFQ。具體地,由于LFI被認(rèn)為是低秩4D張量,因此通過(guò)Tucker分解獲得四個(gè)定向子孔徑視圖堆棧的主要分量。然后,主成分空間特征PCSC被設(shè)計(jì)為考慮其全局自然性和局部頻率特性來(lái)測(cè)量LFI的空間維度質(zhì)量。最后,提出張量角度變化指數(shù)TAVI,通過(guò)分析視圖堆棧中第一主成分和每個(gè)視圖之間的結(jié)構(gòu)相似性分布來(lái)測(cè)量角度一致性質(zhì)量。四個(gè)公開可用的LFI質(zhì)量數(shù)據(jù)庫(kù)的廣泛實(shí)驗(yàn)結(jié)果表明,所提出的Tensor NLFQ模型優(yōu)于最先進(jìn)的2D,3D,多視圖和LFI質(zhì)量評(píng)估算法。 |
| The application of Convolutional Neural Networks to Detect Slow, Sustained Deformation in InSAR Timeseries Authors N. Anantrasirichai, J. Biggs, F. Albino, D. Bull 用于檢測(cè)衛(wèi)星InSAR圖像變形的自動(dòng)化系統(tǒng)可用于開發(fā)用于火山和城市環(huán)境的全球監(jiān)測(cè)系統(tǒng)。在這里,我們探索了CNN的極限,用于檢測(cè)包裹干涉圖中緩慢,持續(xù)的變形。使用合成數(shù)據(jù),我們估計(jì)僅變形信號(hào)的檢測(cè)閾值為3.9cm,當(dāng)考慮大氣偽影時(shí)為6.3cm。由于在不改變SNR的情況下產(chǎn)生更多條紋,過(guò)度包裹將其分別減小到1.8cm和5.0cm。我們測(cè)試了Campi Flegrei和Dallol累積變形的時(shí)間序列方法,其中過(guò)度包裝可將分類性能提高多達(dá)15個(gè)。我們提出了一種均值濾波方法,用于將不同包裹參數(shù)的結(jié)果組合成標(biāo)志變形。在Campi Flegrei,60天后檢測(cè)到8.5cm的變形,在Dallol,310天后檢測(cè)到3.5cm的變形。這相當(dāng)于3厘米和4厘米的累積位移,與基于合成數(shù)據(jù)的估計(jì)一致。 |
| Robust Navigation with Language Pretraining and Stochastic Sampling Authors Xiujun Li, Chunyuan Li, Qiaolin Xia, Yonatan Bisk, Asli Celikyilmaz, Jianfeng Gao, Noah Smith, Yejin Choi 視覺和語(yǔ)言導(dǎo)航的核心VLN挑戰(zhàn)是構(gòu)建健壯的指令表示和動(dòng)作解碼方案,這些方案可以很好地概括到以前看不見的指令和環(huán)境。在本文中,我們報(bào)告了兩種簡(jiǎn)單但非常有效的方法來(lái)應(yīng)對(duì)這些挑戰(zhàn)并導(dǎo)致新的最新技術(shù)性能。首先,我們調(diào)整大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,以學(xué)習(xí)更好地概括以前看不見的指令的文本表示。其次,我們提出了一種隨機(jī)抽樣方案,以減少訓(xùn)練中的專家操作和測(cè)試中的采樣操作之間的相當(dāng)大的差距,以便代理可以學(xué)習(xí)在長(zhǎng)時(shí)間順序動(dòng)作解碼期間糾正自己的錯(cuò)誤。結(jié)合這兩種技術(shù),我們?cè)诜块g到房間的基準(zhǔn)測(cè)試中實(shí)現(xiàn)了新的最新技術(shù)水平,其中6個(gè)絕對(duì)增益優(yōu)于先前的最佳結(jié)果47 53,成功率由路徑長(zhǎng)度度量加權(quán)。 |
| Super-resolved Chromatic Mapping of Snapshot Mosaic Image Sensors via a Texture Sensitive Residual Network Authors Mehrdad Shoeiby, Lars Petersson, Mohammad Ali Armin, Sadegh Aliakbarian, Antonio Robles Kelly 本文介紹了一種同時(shí)對(duì)快照鑲嵌傳感器采集的圖像進(jìn)行超分辨和彩色預(yù)測(cè)的新方法。這些傳感器允許使用低功率,小尺寸,固態(tài)CMOS傳感器采集光譜圖像,這些傳感器可以視頻幀速率工作,無(wú)需復(fù)雜的光學(xué)設(shè)置。盡管它們具有期望的特性,但它們的主要缺點(diǎn)源于這些傳感器獲取的圖像的空間分辨率低的事實(shí)。此外,快照鑲嵌傳感器中的彩色映射并不簡(jiǎn)單,因?yàn)閭鞲衅鱾魉偷念l帶往往很窄并且在它們工作的范圍內(nèi)不均勻地分布。我們通過(guò)使用配備有紋理敏感塊的殘余信道關(guān)注網(wǎng)絡(luò)來(lái)解決應(yīng)用于彩色映射的這一缺點(diǎn)。我們的方法明顯優(yōu)于傳統(tǒng)的插值圖像方法,然后應(yīng)用顏色匹配功能。這項(xiàng)工作確立了該領(lǐng)域的最新技術(shù)水平,同時(shí)還向研究界提供了包含296個(gè)注冊(cè)的立體多光譜RGB圖像對(duì)的數(shù)據(jù)集。 |
| REO-Relevance, Extraness, Omission: A Fine-grained Evaluation for Image Captioning Authors Ming Jiang, Junjie Hu, Qiuyuan Huang, Lei Zhang, Jana Diesner, Jianfeng Gao 用于評(píng)估圖像字幕系統(tǒng)的常用指標(biāo),例如BLEU和CIDEr,提供單一分?jǐn)?shù)來(lái)衡量系統(tǒng)的整體有效性。該分?jǐn)?shù)通常不足以指示給定系統(tǒng)發(fā)生的具體錯(cuò)誤。在這項(xiàng)研究中,我們提出了一種細(xì)粒度的評(píng)估方法REO,用于自動(dòng)測(cè)量圖像字幕系統(tǒng)的性能。 REO從三個(gè)方面評(píng)估字幕的質(zhì)量1與基礎(chǔ)事實(shí)的相關(guān)性,2與基本事實(shí)無(wú)關(guān)的內(nèi)容的額外性,以及圖像和人類參考中元素的省略。對(duì)三個(gè)基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)表明,我們的方法與人類判斷具有更高的一致性,并提供比其他指標(biāo)更直觀的評(píng)估結(jié)果。 |
| Towards Precise Robotic Grasping by Probabilistic Post-grasp Displacement Estimation Authors Jialiang Zhao, Jacky Liang, Oliver Kroemer 精確的機(jī)器人抓取對(duì)于許多工業(yè)應(yīng)用是重要的,例如裝配和碼垛,其中物體的位置需要被控制和已知。然而,由于傳感和控制中的噪聲以及未知的物體特性,實(shí)現(xiàn)精確的抓取是具有挑戰(zhàn)性的。我們提出了一種通過(guò)訓(xùn)練兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)來(lái)計(jì)算機(jī)器人抓握的方法,該方法既健壯又精確,一個(gè)用于預(yù)測(cè)抓握的魯棒性,另一個(gè)用于預(yù)測(cè)抓握后物體位移的分布。我們的網(wǎng)絡(luò)在超過(guò)1000個(gè)工業(yè)零件的數(shù)據(jù)集上進(jìn)行模擬深度圖像訓(xùn)練,并成功部署在真實(shí)的機(jī)器人上,無(wú)需進(jìn)一步微調(diào)。在現(xiàn)實(shí)世界的實(shí)驗(yàn)中,所提出的位移估計(jì)器在新物體上實(shí)現(xiàn)了0.68cm和3.42deg的平均預(yù)測(cè)誤差。 |
| Decoupled Box Proposal and Featurization with Ultrafine-Grained Semantic Labels Improve Image Captioning and Visual Question Answering Authors Soravit Changpinyo, Bo Pang, Piyush Sharma, Radu Soricut 對(duì)象檢測(cè)在當(dāng)前的視覺和語(yǔ)言任務(wù)解決方案中發(fā)揮著重要作用,如圖像字幕和視覺問(wèn)答。然而,像Faster R CNN這樣的流行模型依賴于為邊界框及其相應(yīng)的語(yǔ)義標(biāo)簽注釋基礎(chǔ)事實(shí)的昂貴過(guò)程,使其不太適合作為轉(zhuǎn)移學(xué)習(xí)的原始任務(wù)。在本文中,我們研究了解耦框提議和特征化對(duì)下游任務(wù)的影響。關(guān)鍵的見解是,這使我們能夠利用以前無(wú)法用于標(biāo)準(zhǔn)對(duì)象檢測(cè)基準(zhǔn)的大量標(biāo)記注釋。根據(jù)經(jīng)驗(yàn),我們證明這可以導(dǎo)致有效的轉(zhuǎn)移學(xué)習(xí)和改進(jìn)的圖像字幕和視覺問(wèn)答模型,這是根據(jù)公開可用的基準(zhǔn)測(cè)量的。 |
| DCGANs for Realistic Breast Mass Augmentation in X-ray Mammography Authors Basel Alyafi, Oliver Diaz, Robert Marti 乳腺癌的早期檢測(cè)對(duì)可固化性有很大貢獻(xiàn),并且使用乳房X線照相圖像,這可以非侵入性地實(shí)現(xiàn)。監(jiān)督深度學(xué)習(xí),目前占主導(dǎo)地位的CADe工具,在計(jì)算機(jī)視覺中的對(duì)象檢測(cè)中發(fā)揮了重要作用,但它受限于需要大量標(biāo)記數(shù)據(jù)的特性。當(dāng)涉及需要高成本和耗時(shí)注釋的醫(yī)療數(shù)據(jù)集時(shí),這變得更加嚴(yán)格。此外,醫(yī)療數(shù)據(jù)集通常是不平衡的,這種情況往往會(huì)妨礙分類器的性能。本文的目的是學(xué)習(xí)少數(shù)群體的分布,以合成新的樣本,以改善乳房X光檢查中的病變檢測(cè)。深度卷積生成性對(duì)抗網(wǎng)絡(luò)DCGAN可以有效地生成乳房腫塊。他們接受培訓(xùn),增加一個(gè)乳腺攝影數(shù)據(jù)集的大小子集,并用于生成多樣和逼真的乳房腫塊。在通過(guò)完全卷積網(wǎng)絡(luò)對(duì)110質(zhì)量和正常組織塊的不平衡數(shù)據(jù)集進(jìn)行分類的環(huán)境中測(cè)試包括所生成的圖像和/或應(yīng)用水平和垂直翻轉(zhuǎn)的效果。通過(guò)使用DCGAN以及使用原始圖像的翻轉(zhuǎn)增強(qiáng)來(lái)報(bào)告最大0.09的F1得分改善。我們證明DCGAN可以用于合成具有相當(dāng)多樣性的照片逼真的乳房腫塊。結(jié)果表明,在這種環(huán)境中附加合成圖像以及翻轉(zhuǎn),優(yōu)于單獨(dú)翻轉(zhuǎn)的傳統(tǒng)增強(qiáng)方法,作為訓(xùn)練集大小的函數(shù)提供更快的改進(jìn)。 |
| TIGEr: Text-to-Image Grounding for Image Caption Evaluation Authors Ming Jiang, Qiuyuan Huang, Lei Zhang, Xin Wang, Pengchuan Zhang, Zhe Gan, Jana Diesner, Jianfeng Gao 本文提出了一種名為TIGEr的新指標(biāo),用于圖像字幕系統(tǒng)的自動(dòng)評(píng)估。流行指標(biāo),例如BLEU和CIDEr,僅基于參考字幕和機(jī)器生成的字幕之間的文本匹配,可能導(dǎo)致有偏見的評(píng)估,因?yàn)閰⒖伎赡懿煌耆采w圖像內(nèi)容,并且自然語(yǔ)言本質(zhì)上是模糊的。基于機(jī)器學(xué)習(xí)的文本圖像接地模型,TIGEr不僅可以根據(jù)字幕表示圖像內(nèi)容的程度來(lái)評(píng)估字幕質(zhì)量,還可以評(píng)估機(jī)器生成的字幕與人工生成字幕的匹配程度。我們的實(shí)證檢驗(yàn)表明,與其他現(xiàn)有指標(biāo)相比,TIGEr與人類判斷具有更高的一致性。我們還通過(guò)測(cè)量人類判斷與度量分?jǐn)?shù)之間的相關(guān)性,全面評(píng)估字幕評(píng)估中度量的有效性。 |
| Online Regularization by Denoising with Applications to Phase Retrieval Authors Zihui Wu, Yu Sun, Jiaming Liu, Ulugbek S. Kamilov 通過(guò)去噪RED進(jìn)行正則化是解決成像逆問(wèn)題的有力框架。大多數(shù)RED算法都是迭代批處理程序,這限制了它們對(duì)非常大的數(shù)據(jù)集的適用性。在本文中,我們通過(guò)引入一種新的在線RED On RED算法來(lái)解決這一局限,該算法一次處理一小部分?jǐn)?shù)據(jù)。我們通過(guò)闡明其在相位檢索中的適用性,在凸面設(shè)置中建立On RED的理論收斂性,并通過(guò)實(shí)證討論其在非凸面中的有效性。我們的結(jié)果表明,在處理大型數(shù)據(jù)集時(shí),On RED是傳統(tǒng)RED算法的有效替代方法。 |
| Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩請(qǐng)移步主頁(yè)
pic from pexels.com
總結(jié)
以上是生活随笔為你收集整理的【AI视野·今日CV 计算机视觉论文速览 第155期】Fri, 6 Sep 2019的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 金蝶K3 数据表知识整理(不断完善)
- 下一篇: AI产品经理成长路