日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

EAST 自然场景文本检测

發布時間:2023/11/27 生活经验 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 EAST 自然场景文本检测 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
自然場景文本檢測是圖像處理的核心模塊,也是一直想要接觸的一個方面。

? ? ? ?剛好看到國內的曠視今年在CVPR2017的一篇文章:EAST: An Efficient and Accurate Scene Text Detector。而且有開放的代碼,學習和測試了下。

? ? ??

? ? ? ?題目說的是比較高效,它的高效主要體現在對一些過程的消除,其架構就是下圖中對應的E部分,跟上面的比起來的確少了比較多的過程。這與去年經典的CTPN架構類似。不過CTPN只支持水平方向,而EAST在論文中指出是可以支持多方向文本的定位的。

? ? ? ?對于長文本效果不好。

?

?

優勢:

提供了方向信息,可以檢測各個方向的文本

缺點:

對較長的文本檢測效果不好,感受野不夠長

?

?

整體網絡結構分為3個部分

(1) 特征提取層:

使用的基礎網絡結構是PVANet,分別從stage1,stage2,stage3,stage4抽出特征,一種FPN(feature pyramid network)的思想。

(2) 特征融合層:

第一步抽出的特征層從后向前做上采樣,然后concat

(3) 輸出層:

輸出一個score map和4個回歸的框+1個角度信息,或者輸出,一個scoremap和8個坐標信息。

?

由于程序實現使用的基礎網絡不是pvanet網絡,而是resnet50-v1。

在caffe版本的resnet50實現中,只有第一個卷積后面的pooling和最后一層的gloabl pooling,詳細結構見reference,網絡通過卷積層的stride=2操作實現類似pooling的效果

而本程序使用的slim中帶的resnet50包含了5個pooling。

Resnet50結構,最后一個featuremap本質上將輸入圖像縮小16倍(4個pooling),最后一個gloabl pooling,類似于vgg中的全連接。gloabl pooling是googlenet和Resnet的專利。

本文網絡結構主要取了pool2,pool3,pool4,pool5,的featuremap引出,分別進行uppooling,concat,conv操作,得到最終的featuremap,然后進行卷積,分別輸出channel=1的F_score

,channel=4的geo_map,channel=1的angle_map。

標簽生成過程:

?

?

(a) 中黃色的為人工標注的框,綠色為對黃色框進行0.3倍邊長的縮放后的框,這樣做可以進一步去除人工標注的誤差,拿到更準確的label信息。

(b) 為根據(a)中綠色框生成的label信息

(c) 中先生成一個(b)中白色區域的最小外接矩,然后算每一個(b)中白色的點到粉色最小外接矩的上下左右邊的距離,即生成(d),然后生成粉色的矩形和水平方向的夾角,即生成角度信息(e),e中所有灰色部分的角度信息一樣,都是同樣的角度。

論文采用的架構如下:

?

?后來,有大佬改進EAST針對長文本檢測效果不好的缺陷,提出advancedEAST,結構如下:

?

開源源碼:https://github.com/huoyijie/AdvancedEAST

?

?

轉自: https://blog.csdn.net/sparkexpert/article/details/77987654 https://blog.csdn.net/qq_14845119/article/details/78986449

僅為學習記錄,侵刪,感謝作者。

轉載于:https://www.cnblogs.com/Allen-rg/p/9729469.html

總結

以上是生活随笔為你收集整理的EAST 自然场景文本检测的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。