【案例分享】利用Python识别图片中的文字
前言:現(xiàn)在網(wǎng)絡(luò)上有很多文章,安裝包、代碼都不全,胖哥對(duì)此重新梳理后,把用到的數(shù)據(jù)和代碼全部奉上,如果想直接要數(shù)據(jù)和代碼,請(qǐng)查看文章最后!!!
?說(shuō)明:最近由于個(gè)人的需求,需要從一些圖片上,把文字弄出來(lái);如果一個(gè)一個(gè)手打太慢了,結(jié)果想到了Python,感覺(jué)學(xué)習(xí)Python用處還是非常多的。
1. Tesseract介紹及配置
文字識(shí)別是ORC的一部分內(nèi)容,ORC的意思是光學(xué)字符識(shí)別,通俗講就是文字識(shí)別。Tesseract是一個(gè)用于文字識(shí)別的工具,我們結(jié)合Python使用可以很快的實(shí)現(xiàn)文字識(shí)別。但是在此之前我們需要完成一個(gè)繁瑣的工作。
(1)Tesseract的安裝及配置
Tesseract的安裝包可以從網(wǎng)址?https://digi.bib.uni-mannheim.de/tesseract/上下載(官網(wǎng)下載很慢)或者從胖哥文章最后提供的百度網(wǎng)盤鏈接下載也可以的。
安裝過(guò)程就不多說(shuō)了,windows安裝很簡(jiǎn)單,一步一步執(zhí)行就行。
注意事項(xiàng):
1.?將安裝目錄配置到系統(tǒng)path變量當(dāng)中,我們路徑是C:\Program Files (x86)\Tesseract-OCR;
2. 設(shè)置TESSDATA_PREFIX=C:\Program Files (x86)\Tesseract-OCR\tessdata(根據(jù)自己的安裝目錄)
(2)如果需要中文語(yǔ)言包,需要把網(wǎng)盤里面的chi_sim.traineddata文件,放到如下目錄
(3)測(cè)試是否安裝成功:有如下信息代表安裝成功
?
?2. 編寫文字識(shí)別的代碼:
常見(jiàn)問(wèn)題:
1.FileNotFoundError:[WinError 2]系統(tǒng)找不到指定文件。
解決辦法:
打開(kāi)文件pytesseract.py,找到如下代碼,將tesseract_cmd的值修改為全路徑,再次使用就不會(huì)報(bào)這個(gè)錯(cuò)了。
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
需要安裝包和完整Python代碼的朋友們,請(qǐng)關(guān)注如下微信公眾號(hào),回復(fù)"識(shí)別圖片文字",即可獲取完整內(nèi)容;
添加胖哥微信:zy10178083,回復(fù)"入群",胖哥拉你進(jìn)去python學(xué)習(xí)交流群,胖哥會(huì)不定期分享干貨!
微信公眾號(hào):胖哥真不錯(cuò)。
?
總結(jié)
以上是生活随笔為你收集整理的【案例分享】利用Python识别图片中的文字的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 机器人离线编程画圆误差解决方案_工业机器
- 下一篇: python显示目录中的文件_Pytho