當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

光学字符识别 Tesseract-OCR 的下载、安装和基本用法

發(fā)布時間：2023/12/10 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了光学字符识别 Tesseract-OCR 的下载、安装和基本用法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

OCR：即Optical Character Recognition，光學字符識別，是指檢查紙或者圖片上打印的字符，通過檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機文字的過程；

Tesseract-OCR：一款由HP實驗室（惠普布里斯托實驗室）開發(fā)，由Google維護的開源OCR引擎，可以經過不斷的訓練，增強圖像轉換文本的能力，Tesseract-OCR 也經常被用于Python爬蟲的驗證碼識別

1、下載安裝Tesseract-OCR

官方GitHub地址：https://github.com/tesseract-ocr/

下載地址一：https://github.com/UB-Mannheim/tesseract/wiki （僅Windows操作系統(tǒng)，最新版本）
下載地址二：https://digi.bib.uni-mannheim.de/tesseract/ （僅Windows操作系統(tǒng)，歷史版本）
下載地址三：https://github.com/tesseract-ocr/tesseract/wiki （其他操作系統(tǒng)）

以下以 V5.0.0 版本為例進行安裝，雙擊 tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe 安裝程序，基本上一直next就OK了，注意要勾選 Additional language data(download) 安裝OCR識別支持的語言包

在這里勾選 Additional language data(download) ，安裝OCR識別支持的語言包，在安裝語言包時會比較慢，所以建議不要全選，根據需要選擇即可，若后期需要增加語言包，可在官網下載后放到Tesseract-OCR\tessdata\tessconfigs目錄下即可，不同版本的對應的語言包也不同，下載地址：https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-302

2、配置環(huán)境變量

依次右鍵【此電腦】-【屬性】-【高級系統(tǒng)設置】-【環(huán)境變量】，在【系統(tǒng)變量】里找到【Path】變量，選擇【編輯】-【新建】，將你的Tesseract-OCR安裝路徑填寫進去，比如我的是：E:\Tesseract-OCR，點擊確定保存即可

3、測試是否成功安裝

打開cmd，輸入 tesseract 會顯示一些 Tesseract-OCR 相關用法提示，輸入 tesseract -v 可以查看到 Tesseract-OCR 的版本信息，說明此時安裝成功

4、基本用法

完整命令：tesseract 圖片路徑和圖片名結果路徑和結果名 -l 語言
舉例：tesseract F:\code\test.png F:\code\result -l eng
注意：
1、需要識別的圖片要加后綴
2、結果文件名不需要加后綴，會自動加后綴，生成的是txt文件
3、-l 是英文字母l，不是數字1，language 語言的意思，不加默認英文
4、eng 表示英文，chi_sim 表示簡體中文
5、將cmd切換到要識別圖片的文件夾后，就不用加圖片路徑

在 Python 中使用：（需要安裝 pytesseract 庫）

import pytesseract from PIL import Image# 打開圖片 img = Image.open('圖片路徑和圖片名') # 識別圖片 print(pytesseract.image_to_string(img))

總結

以上是生活随笔為你收集整理的光学字符识别 Tesseract-OCR 的下载、安装和基本用法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：不调好绝不发布！雷军超前带货小米12 U
下一篇： Callable接口-创建线程的第三种方