光学字符识别 Tesseract-OCR 的下载、安装和基本用法
OCR:即Optical Character Recognition,光學字符識別,是指檢查紙或者圖片上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;
Tesseract-OCR:一款由HP實驗室(惠普布里斯托實驗室)開發(fā),由Google維護的開源OCR引擎,可以經過不斷的訓練,增強圖像轉換文本的能力,Tesseract-OCR 也經常被用于Python爬蟲的驗證碼識別
1、下載安裝Tesseract-OCR
官方GitHub地址:https://github.com/tesseract-ocr/
下載地址一:https://github.com/UB-Mannheim/tesseract/wiki (僅Windows操作系統(tǒng),最新版本)
下載地址二:https://digi.bib.uni-mannheim.de/tesseract/ (僅Windows操作系統(tǒng),歷史版本)
下載地址三:https://github.com/tesseract-ocr/tesseract/wiki (其他操作系統(tǒng))
以下以 V5.0.0 版本為例進行安裝,雙擊 tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe 安裝程序,基本上一直next就OK了,注意要勾選 Additional language data(download) 安裝OCR識別支持的語言包
在這里勾選 Additional language data(download) ,安裝OCR識別支持的語言包,在安裝語言包時會比較慢,所以建議不要全選,根據需要選擇即可,若后期需要增加語言包,可在官網下載后放到Tesseract-OCR\tessdata\tessconfigs目錄下即可,不同版本的對應的語言包也不同,下載地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-302
2、配置環(huán)境變量
依次右鍵【此電腦】-【屬性】-【高級系統(tǒng)設置】-【環(huán)境變量】,在【系統(tǒng)變量】里找到【Path】變量,選擇【編輯】-【新建】,將你的Tesseract-OCR安裝路徑填寫進去,比如我的是:E:\Tesseract-OCR,點擊確定保存即可
3、測試是否成功安裝
打開cmd,輸入 tesseract 會顯示一些 Tesseract-OCR 相關用法提示,輸入 tesseract -v 可以查看到 Tesseract-OCR 的版本信息,說明此時安裝成功
4、基本用法
完整命令:tesseract 圖片路徑和圖片名 結果路徑和結果名 -l 語言
舉例:tesseract F:\code\test.png F:\code\result -l eng
注意:
1、需要識別的圖片要加后綴
2、結果文件名不需要加后綴,會自動加后綴,生成的是txt文件
3、-l 是英文字母l,不是數字1,language 語言的意思,不加默認英文
4、eng 表示英文,chi_sim 表示簡體中文
5、將cmd切換到要識別圖片的文件夾后,就不用加圖片路徑
在 Python 中使用:(需要安裝 pytesseract 庫)
總結
以上是生活随笔為你收集整理的光学字符识别 Tesseract-OCR 的下载、安装和基本用法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不调好绝不发布!雷军超前带货小米12 U
- 下一篇: Callable接口-创建线程的第三种方