日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Tesseract-OCR 字符识别-样书训练

發(fā)布時(shí)間:2025/3/21 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Tesseract-OCR 字符识别-样书训练 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原文出處:http://www.myexception.cn/mobile/1119147.html

訓(xùn)練樣本


關(guān)于如何訓(xùn)練樣本,Tesseract-OCR官網(wǎng)有詳細(xì)的介紹http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3。這里通過一個(gè)簡單的例子來介紹一下如何進(jìn)行樣本訓(xùn)練。

1.下載工具jTessBoxEditor.?http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/,這個(gè)工具是用來訓(xùn)練樣本用的,由于該工具是用JAVA開發(fā)的,需要安裝JAVA虛擬機(jī)才能運(yùn)行。

2. 獲取樣本圖像。用畫圖工具繪制了5張0-9的文樣本圖像(當(dāng)然樣本越多越好),如下圖所示:

??

??


3.合并樣本圖像。運(yùn)行jTessBoxEditor工具,在點(diǎn)擊菜單欄中Tools--->Merge TIFF。在彈出的對(duì)話框中選擇樣本圖像(按Shift選擇多張),合并成num.font.exp0.tif文件。4.生成Box File文件。打開命令行,執(zhí)行命令:

tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox

? 生成的BOX文件為num.font.exp0.box,BOX文件為Tessercat識(shí)別出的文字和其坐標(biāo)。

注:Make Box File的命令格式為:

tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox

其中l(wèi)ang為語言名稱,fontname為字體名稱,num為序號(hào),可以隨便定義。

5.文字校正。運(yùn)行jTessBoxEditor工具,打開num.font.exp0.tif文件(必須將上一步生成的.box和.tif樣本文件放在同一目錄),如下圖所示??梢钥闯鲇行┳址R(shí)別的不正確,可以通過該工具手動(dòng)對(duì)每張圖片中識(shí)別錯(cuò)誤的字符進(jìn)行校正。校正完成后保存即可。




6.定義字體特征文件。Tesseract-OCR3.01以上的版本在訓(xùn)練之前需要?jiǎng)?chuàng)建一個(gè)名稱為font_properties的字體特征文件。

font_properties不含有BOM頭,文件內(nèi)容格式如下:

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

其中fontname為字體名稱,必須與[lang].[fontname].exp[num].box中的名稱保持一致。<italic> 、<bold> 、<fixed> 、<serif>、 <fraktur>的取值為1或0,表示字體是否具有這些屬性。

這里在樣本圖片所在目錄下創(chuàng)建一個(gè)名稱為font_properties的文件,用記事本打開,輸入以下下內(nèi)容:

font 0 0 0 0 0

這里全取值為0,表示字體不是粗體、斜體等等。

7.生成語言文件。在樣本圖片所在目錄下創(chuàng)建一個(gè)批處理文件,輸入如下內(nèi)容。

rem 執(zhí)行改批處理前先要目錄下創(chuàng)建font_properties文件echo Run Tesseract for Training.. tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.trainecho Compute the Character Set.. unicharset_extractor.exe num.font.exp0.box mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.trecho Clustering.. cntraining.exe num.font.exp0.trecho Rename Files.. rename normproto num.normproto rename inttemp num.inttemp rename pffmtable num.pffmtable rename shapetable num.shapetable echo Create Tessdata.. combine_tessdata.exe num.

將批處理通過命令行執(zhí)行。執(zhí)行后的結(jié)果如下:


需確認(rèn)打印結(jié)果中的Offset 1、3、4、5、13這些項(xiàng)不是-1。這樣,一個(gè)新的語言文件就生成了。

num.traineddata便是最終生成的語言文件,將生成的num.traineddata拷貝到Tesseract-OCR-->tessdata目錄下。可以用它來進(jìn)行字符識(shí)別了。


?

總結(jié)

以上是生活随笔為你收集整理的Tesseract-OCR 字符识别-样书训练的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲一级片免费 | 麻豆传谋在线观看免费mv | 国产成人精品123区免费视频 | 日本大奶视频 | www.欧美成人 | 午夜黄色小视频 | 色屁屁www | 国产精品久久久久久久久久久久久久久久久 | 黄色录像网址 | 黄色片一区 | 欧美久久久久久久久久久 | 久久精品99久久久 | 国产精品夜夜爽张柏芝 | 亚洲天堂久久久 | 久久97久久97精品免视看 | 四虎少妇做爰免费视频网站四 | 精品一二三四 | 这里只有精品9 | 五月天黄色小说 | 一本亚洲| 69视频免费观看 | youjizz视频 | 国产巨乳在线观看 | 欧美50p | 成人v | 婷婷爱五月 | japanese国产打屁股网站 | 国产在线精品福利 | 亚洲激情成人网 | 免费成人深夜夜 | 黑人精品一区二区三区不 | 国产真实自拍 | 熟女熟妇伦久久影院毛片一区二区 | 婷婷在线观看视频 | 久久免费福利视频 | 色老头一区 | 欧美日韩系列 | 啪啪五月天 | 亚洲天堂av线 | 国产精品影片 | 欧美丝袜一区二区 | 大尺度摸揉捏胸床戏视频 | 人人看av| 伊人av综合网 | 亚洲综人网 | 在线看成人av | av网站不卡 | 成人网在线视频 | 午夜亚洲国产 | 国产在线网址 | 视频在线观看电影完整版高清免费 | 激情婷婷丁香 | 高清一区二区在线 | 天天色天天操天天射 | 国产成人精品一区二区三 | 极品粉嫩国产18尤物 | 2021天天操| 丁香激情五月 | 日本黄色片| 国产亚洲精品码 | 超碰美女 | 亚洲高清视频一区二区 | 国产免费av一区二区三区 | 伊朗做爰xxxⅹ性视频 | 青春草在线视频免费观看 | 无码粉嫩虎白一线天在线观看 | 日韩人妻精品中文字幕 | 噜噜色综合 | 丰满双乳秘书被老板狂揉捏 | 亚洲看片 | 在线播放精品视频 | 双性受孕h堵精大肚生子 | av成人在线播放 | 国产又白又嫩又爽又黄 | 欧美日韩a | 久色视频在线观看 | 亚洲精品久久视频 | 99久久久无码国产精品免费蜜柚 | 黄色男人的天堂 | 97成人精品视频在线观看 | 成人福利在线免费观看 | 女人18岁毛片 | 色妞色| 亚洲日本天堂 | 久久av高潮av | 91插插影库| 亚洲成人99| 中国zzji女人高潮免费 | 少妇太紧太爽又黄又硬又爽 | 日韩欧美在线观看免费 | 干干干操操操 | 精品一区二区三区视频在线观看 | 色偷偷伊人| 极品粉嫩国产18尤物 | 免费视频精品 | 久久久久人妻一区二区三区 | 免费在线国产 | 日本一区二区三区在线视频 | 无码人妻丰满熟妇啪啪网站 |