别魔改网络了,Google研究员:模型精度不高,是因为你的Resize方法不够好
作者丨小馬
編輯丨極市平臺(tái)
本文原創(chuàng)首發(fā)于極市平臺(tái)公眾號(hào),轉(zhuǎn)載請(qǐng)獲得授權(quán)并標(biāo)明出處。
【寫在前面】
盡管近年來(lái)卷積神經(jīng)網(wǎng)絡(luò)很大地促進(jìn)了計(jì)算機(jī)視覺(jué)的發(fā)展,但一個(gè)重要方面很少被關(guān)注:圖像大小對(duì)被訓(xùn)練的任務(wù)的準(zhǔn)確性的影響 。通常,輸入圖像的大小被調(diào)整到一個(gè)相對(duì)較小的空間分辨率(例如,224×224),然后再進(jìn)行訓(xùn)練和推理。這種調(diào)整大小的機(jī)制通常是固定的圖像調(diào)整器(image resizer)(如:雙行線插值)但是這些調(diào)整器是否限制了訓(xùn)練網(wǎng)絡(luò)的任務(wù)性能呢? 作者通過(guò)實(shí)驗(yàn)證明了典型的線性調(diào)整器可以被可學(xué)習(xí)的調(diào)整器取代,從而大大提高性能 。雖然經(jīng)典的調(diào)整器通常會(huì)具備更好的小圖像感知質(zhì)量(即對(duì)人類識(shí)別圖片更加友好),本文提出的可學(xué)習(xí)調(diào)整器不一定會(huì)具備更好的視覺(jué)質(zhì)量,但能夠提高CV任務(wù)的性能。
在不同的任務(wù)中,可學(xué)習(xí)的圖像調(diào)整器與baseline視覺(jué)模型進(jìn)行聯(lián)合訓(xùn)練。這種可學(xué)習(xí)的基于cnn的調(diào)整器創(chuàng)建了機(jī)器友好的視覺(jué)操作,因此在不同的視覺(jué)任務(wù)中表現(xiàn)出了更好的性能 。作者使用ImageNet數(shù)據(jù)集來(lái)進(jìn)行分類任務(wù),實(shí)驗(yàn)中使用四種不同的baseline模型來(lái)學(xué)習(xí)不同的調(diào)整器,相比于baseline模型,使用本文提出的可學(xué)習(xí)調(diào)整器能夠獲得更高的性能提升。
背景
目前的resize方法一般都是已經(jīng)設(shè)計(jì)好的,不可學(xué)習(xí)的,典型的有NEAREST,BILINEAR,BICUBIC。
我們先來(lái)看看這些resize算法的不同效果:
原圖:
NEAREST:
BILINEAR:
BICUBIC:
可以看出,對(duì)人來(lái)說(shuō),不同的resize方法差別還是蠻大的。那么對(duì)于模型來(lái)說(shuō)應(yīng)該采用什么樣的resize方法呢?為此,作為提出了采用可學(xué)習(xí)的resizer model來(lái)對(duì)圖片進(jìn)行resize,以進(jìn)一步提高CV任務(wù)的性能。
1. 論文和代碼地址
Learning to Resize Images for Computer Vision Tasks
論文地址:https://arxiv.org/abs/2103.09950
代碼地址:未開源
全文鏈接:別魔改網(wǎng)絡(luò)了,Google研究員:模型精度不高,是因?yàn)槟愕腞esize方法不夠好
關(guān)注極市平臺(tái)公眾號(hào),獲取最新CV干貨。
總結(jié)
以上是生活随笔為你收集整理的别魔改网络了,Google研究员:模型精度不高,是因为你的Resize方法不够好的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 自注意力真的是Transformer的必
- 下一篇: 网络架构之争:三大主流架构对决,谁是王者