文字识别之检测部分
此處讀原文
摘要
隨著深度學習的興起和發展,計算機視覺發生了巨大的變革和重塑。作為計算機視覺的一個重要研究領域,場景文本檢測與識別不可避免地受到了這一革命浪潮的影響,從而進入了深度學習時代。這項調查旨在總結和分析深度學習時代場景文本檢測和識別的主要變化和重大進展。通過本文,我們致力于:(1)介紹新的見解和想法;(2)突出最近的技術和基準;(3)展望未來的趨勢。
1?引言
文本作為交流和協作的重要工具,在現代社會發揮著比以往任何時候都更重要的作用。可用于廣泛的真實應用中,如圖像搜索、機器人導航、工業自動化等任務中。
如圖1所示,場景文本識別主要分為檢測與識別兩部分。本文重點介紹深度學習方法中的文字檢測部分。
在野外檢測和識別文本時仍可能遇到一系列重大挑戰。困難主要來自三個方面:
1. 自然場景中文本的多樣性和變異性有別于文檔中的文字,自然場景中的文本表現出更高的多樣性和變異性。例如,場景文本的實例可以使用不同的語言、顏色、字體、大小、方向和形狀。此外,場景文本的縱橫比和布局可能會有很大差異。所有這些變化對針對自然場景中的文本設計的檢測和識別算法提出了挑戰。
2. 背景的復雜性和干擾自然場景的背景幾乎是不可預測的。可能存在與文本極其相似的圖案(例如,樹葉、交通標志、磚塊、窗戶和柵欄),或者由異物造成的遮擋,這可能會導致混淆和錯誤。
3. 不完美的成像條件在不受控制的情況下,文本、圖像和視頻的質量無法保證。也就是說,在較差的成像條件下,文本實例可能由于不適當的拍攝距離或角度而具有低分辨率和嚴重失真,或者由于失焦或抖動而變得模糊,或者由于低光強而產生噪聲,或者被高光或陰影破壞。
2?深度學習時代的方法論
近年來的方法主要有以下兩個特點:(1)大多數方法使用基于深度學習的模型;(2)大多數研究人員從不同的角度來處理這個問題,試圖解決不同的挑戰。
在本部分中,我們將現有方法分類為分層分類,并以自上而下的方式介紹它們。首先,我們將它們分為四種系統:(1)文本檢測系統,用于檢測和定位自然圖像中的文本;(2)識別系統,用于將檢測到的文本區域的內容轉錄并轉換為語言符號;(3)在一個統一的端到端系統流水線中執行文本檢測和識別;(4)旨在支持文本檢測和識別的主要任務的輔助方法,例如合成數據生成。在每一類下,我們從不同的角度回顧了最近的方法。
本文只介紹文本檢測系統。
2.1 文本檢測系統
場景文本檢測在分類上可以歸結為一般的目標檢測,它被分為一階段方法和兩階段方法。事實上,許多場景文本檢測算法主要是受通用對象檢測器的設計啟發并遵循這些設計。
場景文本檢測算法的發展經歷了三個主要階段:(1)在第一階段,基于學習的方法配備了多步流水線,但這些方法仍然緩慢且復雜。(2)將一般目標檢測的思想和方法成功地植入到本課題中。(3)在第三階段,研究人員設計了基于亞文本成分的特殊表征,以解決長文本和不規則文本的挑戰。
受目標檢測啟發的方法
在這個階段中,場景文本檢測算法是通過修改通用檢測器的區域建議和邊界盒回歸模塊來設計的,以直接定位文本實例。
如圖所示。它們主要由將輸入圖像編碼到特征地圖中的堆疊卷積層組成。特征地圖上的每個空間位置對應于輸入圖像的一個區域。然后,特征映射被饋送到分類器,以預測文本實例在每個這樣的空間位置的存在和定位。
這些方法極大地將流水線減少為端到端可訓練的神經網絡組件,使得訓練變得容易得多,推理速度快得多。在這里介紹最具代表性的作品。
受一階段對象檢測器的啟發,TextBox(Liao等人,2017)通過將默認框定義為具有不同長寬比規格的四邊形,使SSD(Liu等人,2016a)適應文本的不同方向和長寬比。
East(周等人,2017)通過采用U型設計(Ronneberger等人,2015)集成不同層次的特征,進一步簡化了基于錨的檢測。在SSD中,輸入圖像被編碼為一個多通道特征地圖,而不是多個不同空間大小的層。每個空間位置的特征被用來直接回歸底層文本實例的矩形或四邊形邊界框。具體地,預測文本(即文本/非文本)和幾何的存在,例如矩形的方向和大小,以及四邊形的頂點坐標。EAST以其高度簡化的流水線和實時速度執行推理的效率,在文本檢測領域發揮了重要作用。
這一階段的主要貢獻是簡化了檢測管道,并隨后提高了效率。然而,由于接受域的限制,一階段方法在面對彎曲、定向或長文本時的性能仍然有限,而兩階段方法的效率也是有限的。
2.2 基于子文本組件的方法
文本檢測與一般對象檢測的主要區別在于,文本作為一個整體是同質的,并且具有局部性,這與一般對象檢測不同。通過同質性和局部性,我們指的是文本實例的任何部分仍然是文本的性質。人類不必看到整個文本實例就知道它屬于某個文本。
這樣的屬性為只預測子文本組件的文本檢測方法的新分支奠定了基石,然后將它們組裝成一個文本實例。從本質上講,這些方法可以更好地適應前面提到的彎曲、長和定向文本的挑戰。如圖所示,這些方法使用神經網絡來預測局部屬性或片段,并使用后處理步驟來重建文本實例。與早期的多階段方法相比,它們更依賴于神經網絡,而且管道更短。
組件級別的方法通常以中等粒度進行預測。組件是指文本實例的局部區域,有時會重疊一個或多個字符。
代表性的組件級方法是Connectionist Text Proposal Network(CTPN)(Tian等人,2016)。CTPN模型繼承了錨定和用于序列標記的遞歸神經網絡。它們將RNN堆疊在CNN之上。最終特征地圖中的每個位置表示由相應錨點指定的區域中的特征。假設文本水平顯示,每行特征被送入RNN,并被標記為文本/非文本。還可以預測線束段大小等幾何圖形。CTPN是第一個用深度神經網絡預測和連接場景文本片段的網絡。
總體而言,基于亞文本成分的檢測對文本實例的形狀和縱橫比具有較好的靈活性和泛化能力。主要的缺點是,用于將片段分組為文本實例的模塊或后處理步驟可能容易受到噪聲的影響,并且該步驟的效率高度依賴于實際實現,因此可能在不同的平臺上有所不同。
?參考文獻?
Long S, He X, Yao C. Scene text detection and recognition: The deep learning era[J]. International Journal of Computer Vision, 2021, 129(1): 161-184.
?
總結
- 上一篇: 每日英语好文翻译(11)
- 下一篇: 王润涵:如何用链脉名片打造朋友圈自明星