當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

【案例分享】利用Python识别图片中的文字

發(fā)布時(shí)間：2023/12/10 python 21 豆豆

生活随笔收集整理的這篇文章主要介紹了【案例分享】利用Python识别图片中的文字小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言：現(xiàn)在網(wǎng)絡(luò)上有很多文章，安裝包、代碼都不全，胖哥對(duì)此重新梳理后，把用到的數(shù)據(jù)和代碼全部奉上，如果想直接要數(shù)據(jù)和代碼，請(qǐng)查看文章最后！！！

?說(shuō)明：最近由于個(gè)人的需求，需要從一些圖片上，把文字弄出來(lái)；如果一個(gè)一個(gè)手打太慢了，結(jié)果想到了Python，感覺(jué)學(xué)習(xí)Python用處還是非常多的。

1. Tesseract介紹及配置

文字識(shí)別是ORC的一部分內(nèi)容，ORC的意思是光學(xué)字符識(shí)別，通俗講就是文字識(shí)別。Tesseract是一個(gè)用于文字識(shí)別的工具，我們結(jié)合Python使用可以很快的實(shí)現(xiàn)文字識(shí)別。但是在此之前我們需要完成一個(gè)繁瑣的工作。

（1）Tesseract的安裝及配置

Tesseract的安裝包可以從網(wǎng)址?https://digi.bib.uni-mannheim.de/tesseract/上下載（官網(wǎng)下載很慢）或者從胖哥文章最后提供的百度網(wǎng)盤鏈接下載也可以的。

安裝過(guò)程就不多說(shuō)了，windows安裝很簡(jiǎn)單，一步一步執(zhí)行就行。

注意事項(xiàng)：

1.?將安裝目錄配置到系統(tǒng)path變量當(dāng)中，我們路徑是C:\Program Files (x86)\Tesseract-OCR；

2. 設(shè)置TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata(根據(jù)自己的安裝目錄)

（2）如果需要中文語(yǔ)言包，需要把網(wǎng)盤里面的chi_sim.traineddata文件，放到如下目錄

（3）測(cè)試是否安裝成功:有如下信息代表安裝成功

?2. 編寫文字識(shí)別的代碼：

常見(jiàn)問(wèn)題：

1.FileNotFoundError:[WinError 2]系統(tǒng)找不到指定文件。

解決辦法：

打開(kāi)文件pytesseract.py，找到如下代碼，將tesseract_cmd的值修改為全路徑，再次使用就不會(huì)報(bào)這個(gè)錯(cuò)了。

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

需要安裝包和完整Python代碼的朋友們，請(qǐng)關(guān)注如下微信公眾號(hào)，回復(fù)"識(shí)別圖片文字"，即可獲取完整內(nèi)容；

添加胖哥微信：zy10178083，回復(fù)"入群"，胖哥拉你進(jìn)去python學(xué)習(xí)交流群，胖哥會(huì)不定期分享干貨！

微信公眾號(hào)：胖哥真不錯(cuò)。

總結(jié)

以上是生活随笔為你收集整理的【案例分享】利用Python识别图片中的文字的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：机器人离线编程画圆误差解决方案_工业机器
下一篇： python显示目录中的文件_Pytho