日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

3.9MB超小超强文本识别模型,支持20000个字符的识别,平安产险提出Hamming OCR

發布時間:2023/12/31 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 3.9MB超小超强文本识别模型,支持20000个字符的识别,平安产险提出Hamming OCR 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hamming OCR是一個基于Transformer注意力的超輕量級文本識別模型,主要基于LSH局部敏感哈希編碼和Max-Margin Loss的學習算法。

Hamming OCR: A Locality Sensitive Hashing Neural Networkfor SceneText Recognition

本文為極市開發者投稿,作者平安產險視覺計算組,轉載請獲授權。

背景

場景文本識別中很多模型都使用了笨重的模型,這些模型很難在移動端設備上部署。這也是最近大火的Paddle OCR使用CRNN實現其超輕量級識別模型的原因。PaddleOCR采用的策略就是暴力削減特征通道來減小模型,但是這樣使得性能大幅度下降。最近在arXiv上公開的Hamming OCR提出了Hamming Embedding和LSH局部敏感哈希分類的算法,大幅度削減模型大小,同時保留模型能力。

簡介

我們首先看FC+softmax分類層:

其中分類矩陣W占了將近20MB,這是因為onehot編碼方式維度過大,字符字數多的原因。

對應的Hamming OCR中的LSH局部敏感哈希分類實現如下:

Hamming OCR使用LSH編碼替代了onehot編碼,把分類矩陣W的大小降低到0.5MB。初始階段,HammingOCR使用LSH和voting生成每個字符的LSH編碼。然后基于生成的LSH code采用Max-Margin算法優化。

在推理階段,Hamming OCR二值化logit,然后跟所有字符的LSH編碼計算漢明距離,距離最近字符的即為預測結果。

LSH編碼很好地保留了字符之間的相似度,如下圖:

很多識別模型使用Output Embedding來表達每個字符,Embedding層占了20MB。因為LSH編碼的良好特性,Hamming OCR直接使用LSH編碼作為字母的表達,也就是Hamming Embedding,減少20MB并且不損失精度。

Hamming OCR還加入了跨層共享Transformer權重、去除Feed-ForwardNetwork和FP16,最終模型只有3.9MB。模型結構如下圖:

Hamming OCR模型的能力很強,如下圖所示,最終模型不但比PaddleOCR小,精度還要更高。

模型各階段優化之后的參數量如下圖,

結論

  • Hamming OCR模型小
  • 模型能力很強
  • 支持的字符數量超大
  • 便于移動端部署
  • 論文鏈接:https://arxiv.org/pdf/2009.10874.pdf

    參考文獻

  • Lu, N.; Yu,W.; Qi, X.; Chen, Y.; Gong, P.; and Xiao, R. 2019. Master: Multi-aspectnon-local network for scene text recognition. arXiv preprint arXiv:1910.02562.
  • Li, H.;Wang, P.; Shen, C.; and Zhang, G. 2019. Show, attend and read: A simple andstrong baseline for irregular text recognition. In Proceedings of the AAAIConference on Artificial Intelligence, volume 33, 8610–8617.
  • Shi, B.;Bai, X.; and Yao, C. 2016. An end-to-end trainable neural network forimage-based sequence recognition and its application to scene text recognition.IEEE transactions on pattern analysis and machine intelligence 39(11):2298–2304.
  • Lan, Z.;Chen, M.; Goodman, S.; Gimpel, K.; Sharma, P.; and Soricut, R. 2019. Albert: Alite bert for selfsupervised learning of language representations. arXiv preprintarXiv:1909.11942 .
  • 作者團隊

    產險視覺計算組(VC組)專注解決金融保險領域的計算機視覺應用問題,在ICDAR 2019票據識別及關鍵信息3個任務中,團隊分別斬獲第二,第三,第一名。同時,在Kaggle舉辦的百度/北大無人駕駛比賽中,獲得亞軍。團隊積極創新,已有多項自研OCR 、關鍵性信息抽取技術。

    總結

    以上是生活随笔為你收集整理的3.9MB超小超强文本识别模型,支持20000个字符的识别,平安产险提出Hamming OCR的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。