云从科技的Pixel-Anchor论文解读
云從科技的Pixel-Anchor論文解讀
導(dǎo)讀參考
目前基于深度學(xué)習(xí)的文本檢測框架可以分為兩類,一類是基于像素級別的圖像語義分割,另一類是來源于通用的物體檢測框架,譬如基于錨 (anchor) 的檢測和回歸。
基于像素分割的文本檢測框架首先通過圖像語義分割獲得可能的文本像素,之后通過像素點直接回歸或者對文本像素的聚合得到最終的文本定位;而基于錨檢測回歸的文本檢測框架是在通用物體檢測的基礎(chǔ)之上,通過設(shè)置更多不同長寬比的錨來適應(yīng)文本變長的特性,以達(dá)到文本定位的效果。
基于像素分割的文本檢測往往具有更好的精確度,但是對于小尺度的文本,因為適用的文本像素過于稀疏,檢出率通常不高,除非以犧牲檢測效率為代價對輸入圖像進(jìn)行大尺度的放大;基于錨檢測回歸的文本檢測對文本尺度本身不敏感,對小文本的檢出率高,但是對于大角度的密集文本塊,錨匹配的方式會不可避免的陷入無法適從的矛盾之中,此外,由于這種方法是基于文本整體的粗粒度特征,而并不是基于像素級別的精細(xì)特征,它的檢測精度往往不如基于像素分割的文本檢測。對于中文這樣文本長度跨度很大的語言,目前的這兩種方法在長文本上的效果都不盡人意。
這是一種端到端的深度學(xué)習(xí)文本檢測框架Pixel-Anchor,通過特征共享的方式高效的把像素級別的圖像語義分割和錨檢測回歸放入一個網(wǎng)絡(luò)之中,把像素分割結(jié)果轉(zhuǎn)換為錨檢測回歸過程中的一種注意力機(jī)制,使得錨檢測回歸的方法在獲得高檢出率的同時,也獲得高精確度。此外,對于如中文這樣文本長度跨度很大的語言,在Pixel-Anchor中,提出了一個自適應(yīng)的預(yù)測層,針對不同層級的特征所對應(yīng)的感受野范圍,設(shè)計不同的錨以及錨的空間位置分布,以更高的效率更好的適應(yīng)變化的文本長度。
pixel-anchor針對east部分的改進(jìn)-pixel
針對EAST的改進(jìn),文章延續(xù)FOTS對EAST的改進(jìn),
以下插件:ASPP OHEM:對分類和回歸。
ASPP來自deeplab中,其主要作用是在不降低feature map分辨率的情況下,提升網(wǎng)絡(luò)的感受野,即可以提升模型獲取上下文信息的能力。它會帶來什么效果呢?
首先,是分割效果更為精準(zhǔn)。分割一個物體,網(wǎng)絡(luò)往往借助的是該物體周圍的信息,比如,分割前景,我們需要找到背景信息;當(dāng)感受野變大時,對于較長的文本或者較大的文本,可以很好的找到其邊界,進(jìn)而分割出較高質(zhì)量的文本區(qū)域;其次,感受野的提升,會使得回歸距離變長。即geo_map中的值表示,當(dāng)前像素到四條邊的距離。而網(wǎng)絡(luò)建立起當(dāng)前像素與邊界之間的距離關(guān)系。當(dāng)上下文信息充足時,可以準(zhǔn)確的建立起距離關(guān)系,進(jìn)而邊界預(yù)測足夠精準(zhǔn)。因此文章加入ASPP的作用主要是以上兩點,分割精準(zhǔn)+邊界定位精準(zhǔn)。
OHEM常用來進(jìn)行困難樣本挖掘。對于文字區(qū)域的分割,存在樣本的不平衡,文字區(qū)域往往占比比較小,背景占比比較大。同時,對于一張圖中的多個文本,小的文本區(qū)域的損失往往被大文本區(qū)域損失覆蓋;而且還有一種情況,背景中存在難以區(qū)分的樣本,這些背景容易導(dǎo)致模型將類似的文本區(qū)域分為背景。因此加入OHEM,可以對這部分背景信息進(jìn)行挖掘,同時在訓(xùn)練過程中正負(fù)樣本進(jìn)行均衡,避免了類別不均衡的問題。以上就是該文章對EAST部分的改進(jìn)。其實OHEM來自FOTS對EAST的改進(jìn),ASPP在此之前已經(jīng)嘗試過,確實會帶來邊界預(yù)測的提升。對于這部分EAST,除了預(yù)測以往的文本區(qū)域的score_map和geo_map, 同時預(yù)測一張attention map用于對anchor-based分支的信息的輔助。
pixel-anchor針對SSD部分的改進(jìn)-anchor
文章在EAST的基礎(chǔ)上,加入了anchor-based檢測分支,主要針對文字尺度以及寬高比較大的變化,文章對SSD進(jìn)行了定制。如上面右圖所示。文章主要利用來自ResNet50中的1/4和1/16的feature map:對于1/4的map,由于其處于底層,因此具有一定的分辨率,對于檢測較小的文字具有一定優(yōu)勢。同時由于此處的特征語義信息較弱,文章將east分支得到的attention map用在此處,主要為了對該層加入一定的語義信息。具體操作為,對來自east的attention map輸出進(jìn)行exp激活,然后與1/4 feature map進(jìn)行對應(yīng)位置的加權(quán)。這么做的好處是,對1/4feature map上的信息,屬于文本的像素進(jìn)行加強(qiáng),對于不屬于文本的像素進(jìn)行抑制,突出文本信息。文章說,這么做可以很大程度的減少錯誤檢測。這里需要解釋下為什么anchor-based的方法檢測小目標(biāo)會出現(xiàn)較高的fp.原因在于,在較高分辨率的feature map上生成proposals時,由于像素點比較多,目標(biāo)較小,因此整張圖中網(wǎng)格都處于負(fù)樣本區(qū)域,極少數(shù)網(wǎng)格落在正樣本區(qū)域。這樣在預(yù)測是,負(fù)樣本較正樣本多,而且負(fù)樣本的方差較大,因此容易導(dǎo)致分類的錯誤,因此容易出現(xiàn)fp.對于1/16的map,文章進(jìn)一步的進(jìn)行特征提取,一是為了獲得更大的感受野,二是為了獲得多尺度的信息。分別為1/32. 1/64, 1/64, 1/64。但是為了避免出現(xiàn)很小的feature map,文章在后面的feature map保持在1/64。但為了繼續(xù)提升感受野,文章在后面兩個尺度的的生成時,加入了空洞卷積,在分辨率不減小的情況下,獲得較大感受野。對于每一層的feature map,文章在其后加入APL層,層中內(nèi)容如上圖右圖中的左半部分所示,分別為不同的卷積核搭配不同的寬高比,實現(xiàn)對不同尺度,不同角度的文本的cover.如3x3為方框,3x5主要為了檢測水平傾斜的文字,5x3為了檢測垂直傾斜的文字。1xn,nx1主要為了檢測水平和豎排長行的文字。可以看到有夸張的1:35,35:1的寬高比,這在中文場景是很常見的。在經(jīng)過以上APL層之后,將得到的proposal進(jìn)行拼接,預(yù)測最終搞得四邊形區(qū)域。
總結(jié)
以上是生活随笔為你收集整理的云从科技的Pixel-Anchor论文解读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自动切换手机耳机模式和话筒模式
- 下一篇: 转:我在淘宝这7年(四)