日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

光学字符识别的 5 个最佳免费数据集

發(fā)布時(shí)間:2023/12/29 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 光学字符识别的 5 个最佳免费数据集 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

光學(xué)字符識(shí)別技術(shù),即OCR。OCR是指電子設(shè)備,例如掃描儀或相機(jī)檢查紙上打印的字符,通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別的方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。

OCR的作用是檢測(cè)圖像中的文字區(qū)域以及識(shí)別文字內(nèi)容,它在很多場(chǎng)合可替代鍵盤(pán)完成高速文字錄入任務(wù)。

OCR技術(shù)的應(yīng)用場(chǎng)景十分廣泛

OCR技術(shù)的應(yīng)用場(chǎng)景十分廣泛,以下是幾個(gè)應(yīng)用較為成熟的領(lǐng)域:

· 遠(yuǎn)程身份認(rèn)證:結(jié)合OCR和人臉識(shí)別技術(shù),實(shí)現(xiàn)用戶(hù)證件信息的自動(dòng)錄入,并完成用戶(hù)身份驗(yàn)證。應(yīng)用于金融保險(xiǎn)、社保、O2O等行業(yè),有效控制業(yè)務(wù)風(fēng)險(xiǎn)。

· 內(nèi)容審核與監(jiān)管:自動(dòng)識(shí)別圖片、視頻中的文字內(nèi)容,及時(shí)發(fā)現(xiàn)涉黃、涉暴、政治敏感、惡意廣告等不合規(guī)內(nèi)容,規(guī)避業(yè)務(wù)風(fēng)險(xiǎn),大幅節(jié)約人工審核成本。

·紙質(zhì)文檔票據(jù)電子化:通過(guò)OCR實(shí)現(xiàn)紙質(zhì)文檔資料、票據(jù)、表格的自動(dòng)識(shí)別和錄入,減少人工錄入成本,提高輸入效率。

圖片來(lái)自網(wǎng)絡(luò)

自然環(huán)境下的OCR要面臨、要解決的問(wèn)題還是相當(dāng)多的,例如背景復(fù)雜、加蓋印章干擾疊加、圖像對(duì)比度低、污跡和磨損、字體種類(lèi)繁多、印刷受墨多寡等情況。

基于深度學(xué)習(xí)的技術(shù)而言,訓(xùn)練數(shù)據(jù)的數(shù)量很大程度上影響了技術(shù)效果,提升訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量成為解決上述問(wèn)題的根本途徑。

為了提升OCR識(shí)別和轉(zhuǎn)寫(xiě)的準(zhǔn)確度,不是少平臺(tái)開(kāi)發(fā)了OCR標(biāo)注和轉(zhuǎn)寫(xiě)數(shù)據(jù)集,以下是五個(gè)常用的OCR數(shù)據(jù)庫(kù)網(wǎng)絡(luò)資源。

·NIST數(shù)據(jù)庫(kù)

美國(guó)國(guó)家科學(xué)研究院出版了3600位作者的筆跡,其中包括80萬(wàn)個(gè)字符圖像。

網(wǎng)址:

https://catalog.data.gov/dataset/nist-handprinted-forms-and-characters-nist-special-database-19

·MNIST數(shù)據(jù)庫(kù)

原始NIST數(shù)據(jù)的子集,具有60,000個(gè)手寫(xiě)數(shù)字示例的訓(xùn)練集。

網(wǎng)址:

https://yann.lecun.com/exdb/mnist/

·阿拉伯語(yǔ)印刷文本

包含113,284個(gè)單詞的詞典,并使用10種阿拉伯字體。

網(wǎng)址:

https://diuf.unifr.ch/main/diva/APTI/

·Stanford OCR

包含由Stanford發(fā)布的MIT Spoken Language Systems Group收集的手寫(xiě)單詞數(shù)據(jù)集。

網(wǎng)址:

https://ai.stanford.edu/~btaskar/ocr/

·Chars74K數(shù)據(jù)

包含英文和卡納達(dá)語(yǔ)數(shù)字的74K圖像。

網(wǎng)址:https://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

沉淀十余年數(shù)據(jù)處理經(jīng)驗(yàn),數(shù)據(jù)堂在句法標(biāo)注、事件標(biāo)注等方面也積累了自己OCR標(biāo)注和轉(zhuǎn)寫(xiě)方面獨(dú)特的數(shù)據(jù)優(yōu)勢(shì),以下是數(shù)據(jù)堂研制的OCR數(shù)據(jù):

歡迎聯(lián)系客服小堂獲取樣例數(shù)據(jù) ~

總結(jié)

以上是生活随笔為你收集整理的光学字符识别的 5 个最佳免费数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。