ICDAR 2019论文:自然场景文字定位技术详解
自然場(chǎng)景文字定位是文字識(shí)別中非常重要的一部分。與通用的物體檢測(cè)相比,文字定位更具挑戰(zhàn)性,文字在長(zhǎng)寬比、尺度和方向上有更大范圍的變化。針對(duì)這些問題,本文介紹一種融合文字片段及金字塔網(wǎng)絡(luò)的場(chǎng)景文字定位方法。該方法將特征金字塔機(jī)制應(yīng)用到單步多框檢測(cè)器以處理不同尺度文字,同時(shí)檢測(cè)多個(gè)文字片段以及學(xué)習(xí)出文字片段之間8-neighbor連接關(guān)系,最后通過8-neighbor連接關(guān)系將文字片段連接起來,實(shí)現(xiàn)對(duì)不同方向和長(zhǎng)寬比的文字定位。此外,針對(duì)文字通常較小特點(diǎn),擴(kuò)大檢測(cè)網(wǎng)絡(luò)中backbone模型深層特征圖,以獲得更好性能。
本文提出的方法已發(fā)表在文檔分析與識(shí)別國(guó)際會(huì)議ICDAR2019 (International Conference on Document Analysis and Recognition)上,審稿人評(píng)論該方法為“As it is of more practical uses”,認(rèn)可了它的實(shí)用性。
ICDAR是由國(guó)際模式識(shí)別學(xué)會(huì)(IAPR)組織的專業(yè)會(huì)議之一,專注于文本領(lǐng)域的識(shí)別與應(yīng)用。ICDAR大會(huì)每?jī)赡昱e辦一次,目前已發(fā)展成文字識(shí)別領(lǐng)域的旗艦學(xué)術(shù)會(huì)議。為了提高自然場(chǎng)景的文本檢測(cè)和識(shí)別水平,國(guó)際文檔分析和識(shí)別會(huì)議(ICDAR)于2003年設(shè)立了魯棒文本閱讀競(jìng)賽(“Robust Reading Competitions”)。至今已有來自89個(gè)國(guó)家的3500多支隊(duì)伍參與。ICDAR 2019將于今年9月20-25日在澳大利亞悉尼舉辦。 美團(tuán)今年聯(lián)合國(guó)內(nèi)外知名科研機(jī)構(gòu)和學(xué)者,提出了”中文門臉招牌文字識(shí)別”比賽(ICDAR 2019 Robust Reading Challenge on?Reading Chinese Text on Signboards)。
背景
自然場(chǎng)景圖像中的文字識(shí)別已被廣泛應(yīng)用在現(xiàn)實(shí)生活中,例如拍照翻譯,自動(dòng)駕駛,圖像檢索和增強(qiáng)現(xiàn)實(shí)等,因此也有越來越多的專家學(xué)者對(duì)其進(jìn)行研究。自然場(chǎng)景文字定位是指對(duì)場(chǎng)景圖像中所有文本的精確定位,是自然場(chǎng)景文字識(shí)別中第一步也是最重要的一步。由于自然場(chǎng)景下文本顏色、大小、寬高比、字體、方向、光照條件和背景等具有較大變化(如圖1),因此它是非常具有挑戰(zhàn)性的。
圖 1 自然場(chǎng)景文字圖片
深度學(xué)習(xí)技術(shù)在物體識(shí)別和檢測(cè)等計(jì)算機(jī)視覺任務(wù)方面已經(jīng)取得了很大進(jìn)展。許多最先進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的目標(biāo)檢測(cè)框架,如Faster RCNN、SSD 和FPN[1]等,已被用來解決文本檢測(cè)問題并且性能遠(yuǎn)超傳統(tǒng)方法。
深度卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)多層級(jí)網(wǎng)絡(luò)結(jié)構(gòu),淺層特征圖具有高分辨率及小感受野,深層特征圖具有低分辨率及大感受野。具有小感受野的淺層特征點(diǎn)對(duì)于小目標(biāo)比較敏感,適合于小目標(biāo)檢測(cè),但是淺層特征具有較少的語義信息,與深層特征相比具有較弱的辨別力,導(dǎo)致小文本定位的性能較差。另一方面,場(chǎng)景文字總是具有夸張的長(zhǎng)寬比(例如一個(gè)很長(zhǎng)的英文單詞或者一條中文長(zhǎng)句)以及旋轉(zhuǎn)角度(例如基于美學(xué)考慮),通用物體檢測(cè)框架如Faster RCNN和SSD是無法回歸較大長(zhǎng)寬比的矩形和旋轉(zhuǎn)矩形。
圍繞上面描述的兩個(gè)問題,本文主要做了以下事情:
為了處理不同尺度的文本,借鑒特征金字塔網(wǎng)絡(luò)思路,將具有較強(qiáng)判別能力的深層特征與淺層特征相結(jié)合,實(shí)現(xiàn)在各個(gè)層面都具有豐富語義的特征金字塔。另外,當(dāng)較深層中的小對(duì)象丟失時(shí),特征金字塔網(wǎng)絡(luò)仍可能無法檢測(cè)到小對(duì)象,深層的上下文信息無法增強(qiáng)淺層特征。我們額外擴(kuò)大了深層的特征圖,以更準(zhǔn)確地識(shí)別小文本。
我們不直接回歸文本行,而是將文本行分解為較小的局部可檢測(cè)的文字片段,并通過深度卷積網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),最后將所有文字片段連接起來生成最終的文本行。
現(xiàn)有方法
最新的基于深度神經(jīng)網(wǎng)絡(luò)的文本定位算法大致可以分為兩大類:(1)基于分割的文本定位;(2)基于回歸的文本定位。
(1)?基于分割的文本定位
當(dāng)前基于分割的文本定位方法大都受到完全卷積網(wǎng)絡(luò)(FCN [2])的啟發(fā)。全卷積網(wǎng)絡(luò)(FCN, fully convolutional network), 是去除了全連接(fc)層的基礎(chǔ)網(wǎng)絡(luò),最初是用于實(shí)現(xiàn)語義分割任務(wù)。由于FCN網(wǎng)絡(luò)最后一層特征圖的像素分辨率較高,而圖文識(shí)別任務(wù)中需要依賴清晰的文字筆畫來區(qū)分不同字符(特別是漢字),所以FCN網(wǎng)絡(luò)很適合用來提取文本特征。當(dāng)FCN被用于圖文識(shí)別任務(wù)時(shí),最后一層特征圖中每個(gè)像素將被分成文字行(前景)和非文字行(背景)兩個(gè)類別。
?
(2)?基于回歸的文本定位
Textboxes [3] 是經(jīng)典的也是最常用的基于回歸的文本定位方法,它基于SSD框架,訓(xùn)練方式是端到端,運(yùn)行速度也較快。為了適應(yīng)文本行細(xì)長(zhǎng)型特點(diǎn),特征層也用長(zhǎng)條形卷積核代替了其他模型中常見的正方形卷積核。為了防止漏檢文本行,還在垂直方向增加了候選框數(shù)量。為了檢測(cè)大小不同的字符塊,在多個(gè)尺度的特征圖上并行預(yù)測(cè)文本框, 然后對(duì)預(yù)測(cè)結(jié)果做NMS過濾。
提出方法
我們的方法也是基于SSD,整體框架如圖4。為了應(yīng)對(duì)多尺度文字尤其是小文字,對(duì)高層特征圖進(jìn)行間隔采樣,以保持高層特征圖分辨率。同時(shí)借鑒特征金字塔網(wǎng)絡(luò)相關(guān)思路,將高層特征圖上采樣與底層特征疊加,構(gòu)建一個(gè)新的多層級(jí)金字塔特征圖(圖4藍(lán)色框部分)。此外,為了處理各種方向文字,在不同尺度的特征圖上預(yù)測(cè)文字片段以及片段之間的連接關(guān)系,然后對(duì)預(yù)測(cè)出的文字片段和連接關(guān)系進(jìn)行組合,得到最終文本框。下面將具體介紹方法。
(1)?擴(kuò)大高層特征圖
深度卷積神經(jīng)網(wǎng)絡(luò)通常是逐層下采樣,這對(duì)于物體分類來說是有效的,但是對(duì)于檢測(cè)任務(wù)來說是有損害的。基于時(shí)間和性能的權(quán)衡考量,我們對(duì)卷積網(wǎng)絡(luò)中最后幾層特征進(jìn)行間隔采樣,如圖5,從Conv6_2層開始下采樣,Conv7_2層保持原分辨率,Conv8_2層再下采樣。
(2)?構(gòu)建特征金字塔
雖然通過擴(kuò)大深度特征圖的設(shè)計(jì)可以更好地檢測(cè)小文本,但較小的文本仍然難以檢測(cè)。為了更好地檢測(cè)較小的文本,進(jìn)一步增強(qiáng)較淺層(例如圖5中conv4_3,Fc7)的特征。我們通過融合高層和低層的特征構(gòu)建了一個(gè)新的特征金字塔(圖4中藍(lán)色部分:conv4_3_f,?fc7_f,?conv6_2_f,?conv7_2_f,?conv8_2_f 和conv9_2_f),新的金字塔特征具有更強(qiáng)辨別力和語義豐富性。
高層和低層特征融合策略如圖6所示,高層特征圖先進(jìn)行上采樣使之與低層特征圖相同大小,然后與低層特征圖進(jìn)行疊加,疊加后的特征圖再連接一個(gè)3*3卷積,獲得固定維度的特征圖,我們?cè)O(shè)定固定維度d=256。
(3)預(yù)測(cè)文字片段及片段之間連接關(guān)系
如圖7,先將每個(gè)文字詞切割為更易檢測(cè)的有方向的小文字塊(segment),然后用鄰近連接(link?)將各個(gè)小文字塊連接成詞。這種方案方便于識(shí)別長(zhǎng)度變化范圍很大的、帶方向的詞和文本行,它不會(huì)象Faster-RCNN等方案因?yàn)楹蜻x框長(zhǎng)寬比例原因檢測(cè)不出長(zhǎng)文本行,而且處理速度很快。
基于第(2)小節(jié)構(gòu)建的特征金字塔特征圖,將每層特征圖上特征點(diǎn)用于檢測(cè)小文字塊和文字塊連接關(guān)系。如圖8,連接關(guān)系可以分為八種,上、下、左、右、左上、右上、左下、右下,同一層特征圖、或者相鄰層特征圖上的小文字塊都有可能被連接入同一個(gè)詞中,換句話說,位置鄰近、并且尺寸接近的文字塊都有可能被預(yù)測(cè)到同一詞中。
最后基于檢測(cè)出的小文字塊以及文字塊連接,組合出文本框(如圖9),具體組合過程如下:
(a)?將所有具有連接關(guān)系的小文字塊組合起來,得到若干小文字塊組; (b)?對(duì)于每組小文字塊,找到一條直線能最好的擬合組內(nèi)所有小文字塊中心點(diǎn); (c)?將組內(nèi)所有小文字塊的中心點(diǎn)投影到該直線上,找出距離最遠(yuǎn)的兩個(gè)中心點(diǎn)A和B; (d)?最終文字框中心點(diǎn)為(A+B)/2,方向?yàn)橹本€斜率,寬度為A,B兩點(diǎn)直線距離加上A,B兩點(diǎn)的平均寬度,高度為所有小文字塊的平均高度。
實(shí)驗(yàn)及應(yīng)用
我們?cè)趦蓚€(gè)公開數(shù)據(jù)集上(ICDAR2013,ICDAR2015)對(duì)方法進(jìn)行評(píng)測(cè)。其中ICDAR2013數(shù)據(jù)集,訓(xùn)練圖片229張,測(cè)試圖片233張;ICDAR2015數(shù)據(jù)集,訓(xùn)練圖片1000張,測(cè)試圖片500張,它們都來自于自然場(chǎng)景下相機(jī)拍攝的圖片。
(1)我們首先對(duì)比了擴(kuò)大高層特征圖與不擴(kuò)大高層特征圖的性能比較,并在基礎(chǔ)上對(duì)比加入特征金字塔后的性能比較,在ICDAR2015數(shù)據(jù)集上實(shí)驗(yàn),結(jié)果如表1:
“baseline”方法是ssd框架+預(yù)測(cè)文字片段及片段之間連接關(guān)系模塊,“擴(kuò)大高層特征圖”是在baseline方法基礎(chǔ)上對(duì)高層特征圖進(jìn)行擴(kuò)大,“金字塔+擴(kuò)大高層特征圖”是在baseline方法基礎(chǔ)上對(duì)高層特征圖進(jìn)行擴(kuò)大 并且加入特征金字塔。從表1中不難發(fā)現(xiàn),擴(kuò)大高層特征圖可以帶來精度和召回的提升,尤其是召回有近3個(gè)點(diǎn)的提升(73.4->76.3),這很好理解,因?yàn)楦蟮奶卣鲌D產(chǎn)生更多的特征點(diǎn)以及預(yù)測(cè)結(jié)果;在此基礎(chǔ)上再加入金字塔機(jī)制,精度獲得顯著提升,說明金字塔結(jié)構(gòu)極大增強(qiáng)低層特征判別能力。
(2)我們也和其他方法也做了比較,具體見表2和表3:
從上表中可以看出,我們的方法在時(shí)間和精度上取得很好的權(quán)衡。在ICDAR2015數(shù)據(jù)集上,雖然性能不及PixelLink,但是FPS要遠(yuǎn)高于它;而相比TextBoxes++,雖然FPS略低于它,但是精度更高。圖10給出一些文字定位結(jié)果示例。
(3)此外,本方法也落地應(yīng)用于實(shí)際業(yè)務(wù)場(chǎng)景菜單識(shí)別中。菜單上文字通常較小、較密,菜名文字可長(zhǎng)可短,以及由于拍攝角度導(dǎo)致文字方向傾斜等。如圖11所示,方法能很好的解決以上問題(小文字、密集文字行、長(zhǎng)文本、不同方向);并且在500張真實(shí)商家菜單圖片上進(jìn)行評(píng)測(cè),相比SegLink方法,性能明顯提升(近5個(gè)點(diǎn)提升)。
圖 11 菜單文字定位結(jié)果示意圖
結(jié)論
本文我們提出了一個(gè)高效的場(chǎng)景文本檢測(cè)框架。針對(duì)文字特點(diǎn),我們擴(kuò)大高層特征圖尺寸并構(gòu)建了一個(gè)特征金字塔,以更適用于不同比例文本,同時(shí)通過檢測(cè)文本片段和片段連接關(guān)系來處理長(zhǎng)文本和定向文本。實(shí)驗(yàn)結(jié)果表明該框架快速且準(zhǔn)確,在ICDAR2013和ICDAR2015數(shù)據(jù)集上獲得了不錯(cuò)結(jié)果,同時(shí)應(yīng)用到公司實(shí)際業(yè)務(wù)場(chǎng)景菜單識(shí)別上,獲得明顯性能提升。下一步,受實(shí)例分割的方法PixelLink [4]的啟發(fā),我們也考慮將文本片段進(jìn)一步細(xì)化到像素級(jí),同時(shí)融合檢測(cè)和分割方法各自優(yōu)缺點(diǎn),構(gòu)建聯(lián)合檢測(cè)和分割的文字定位框架。
參考文獻(xiàn)
- Tsung-Yi Lin, Piotr Dolla?r, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. “Feature Pyramid Networks for Object Detection.” arXiv preprint. arXiv: 1612.03144, 2017.
- J. Long, E. Shelhamer, and T. Darrell. “Fully convolutional networks for semantic segmentation.” In CVPR, 2015.
- M. Liao, B. Shi, and X. Bai. “Textboxes++: A single-shot oriented scene text detector.” IEEE Trans. on Image Processing, vol. 27, no. 8, 2018.
- D. Deng, H. Liu, X. Li, and D. Cai. “Pixellink: Detecting scene text via instance segmentation.” In AAAI, pages 6773– 6780, 2018.
作者簡(jiǎn)介
劉曦,美團(tuán)視覺圖像中心文字識(shí)別組算法專家。
招聘信息
美團(tuán)視覺圖像中心文字識(shí)別組:針對(duì)美團(tuán)各項(xiàng)業(yè)務(wù)如商家入駐資質(zhì)審核、網(wǎng)頁(yè)信息合規(guī)審核等需求,對(duì)證照、票據(jù)、菜單、網(wǎng)圖等圖片類型開展文字識(shí)別研發(fā)工作。利用高性能文字識(shí)別功能,幫助業(yè)務(wù)方和商家實(shí)現(xiàn)自動(dòng)審核 、自動(dòng)錄入,顯著提升人效、降低成本,改善體驗(yàn)。
歡迎計(jì)算機(jī)視覺相關(guān)及相關(guān)領(lǐng)域小伙伴加入我們,簡(jiǎn)歷可發(fā)郵件至 tech@meituan.com(郵件標(biāo)題注明:美團(tuán)視覺圖像中心文字識(shí)別組)。
總結(jié)
以上是生活随笔為你收集整理的ICDAR 2019论文:自然场景文字定位技术详解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习在文本领域的应用
- 下一篇: sysbench在美团点评中的应用