日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python人工智能-图像识别

發(fā)布時(shí)間:2023/12/2 python 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python人工智能-图像识别 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、安裝庫(kù)

首先我們需要安裝PIL和pytesseract庫(kù)。
PIL:(Python Imaging Library)是Python平臺(tái)上的圖像處理標(biāo)準(zhǔn)庫(kù),功能非常強(qiáng)大。
pytesseract:圖像識(shí)別庫(kù)。

我這里使用的是python3.6,PIL不支持python3所以使用如下命令

pip install pytesseract pip install pillow

如果是python2,則在命令行執(zhí)行如下命令:

pip install pytesseract pip install PIL

這時(shí)候我們?nèi)ミ\(yùn)行上面的代碼會(huì)發(fā)現(xiàn)如下錯(cuò)誤:

錯(cuò)誤提示的很明顯:
No such file or directory :"tesseract"

這是因?yàn)槲覀儧](méi)有安裝tesseract-ocr引擎

二、tesseract-ocr引擎

光學(xué)字符識(shí)別(OCR,Optical Character Recognition)是指對(duì)文本資料進(jìn)行掃描,然后對(duì)圖像文件進(jìn)行分析處理,獲取文字及版面信息的過(guò)程。OCR技術(shù)非常專業(yè),一般多是印刷、打印行業(yè)的從業(yè)人員使用,可以快速的將紙質(zhì)資料轉(zhuǎn)換為電子資料。關(guān)于中文OCR,目前國(guó)內(nèi)水平較高的有清華文通、漢王、尚書(shū),其產(chǎn)品各有千秋,價(jià)格不菲。國(guó)外OCR發(fā)展較早,像一些大公司,如IBM、微軟、HP等,即使沒(méi)有推出單獨(dú)的OCR產(chǎn)品,但是他們的研發(fā)團(tuán)隊(duì)早已掌握核心技術(shù),將OCR功能植入了自身的軟件系統(tǒng)。對(duì)于我們程序員來(lái)說(shuō),一般用不到那么高級(jí)的,主要在開(kāi)發(fā)中能夠集成基本的OCR功能就可以了。這兩天我查找了很多免費(fèi)OCR軟件、類庫(kù),特地整理一下,今天首先來(lái)談?wù)凾esseract,下一次將討論下Onenote 2010中的OCR API實(shí)現(xiàn)。可以在這里查看OCR技術(shù)的發(fā)展簡(jiǎn)史。
Tesseract的OCR引擎最先由HP實(shí)驗(yàn)室于1985年開(kāi)始研發(fā),至1995年時(shí)已經(jīng)成為OCR業(yè)內(nèi)最準(zhǔn)確的三款識(shí)別引擎之一。然而,HP不久便決定放棄OCR業(yè)務(wù),Tesseract也從此塵封。
數(shù)年以后,HP意識(shí)到,與其將Tesseract束之高閣,不如貢獻(xiàn)給開(kāi)源軟件業(yè),讓其重?zé)ㄐ律?#xff0d;-2005年,Tesseract由美國(guó)內(nèi)華達(dá)州信息技術(shù)研究所獲得,并求諸于Google對(duì)Tesseract進(jìn)行改進(jìn)、消除Bug、優(yōu)化工作。

###安裝tesseract-ocr引擎

brew install tesseract

然后我們通過(guò)tesseract -v看一下是否安裝成成功

tesseract 3.05.01 leptonica-1.75.0 libjpeg 9b : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11

這時(shí)候我們運(yùn)行上面代碼會(huì)出現(xiàn)亂碼

這是因?yàn)閠esseract默認(rèn)只有語(yǔ)言包中沒(méi)有中文包,如下圖:

###安裝tesseract-ocr語(yǔ)言包
我們?nèi)itHub下載我們需要的語(yǔ)言包,這里我只下載了chi_tra.traineddata和chi_sim.traineddata
github:tesseract-ocr/tessdata
然后放到/usr/local/Cellar/tesseract/3.05.01/share/tessdata路徑下面。

可以通過(guò)tesseract --list-langs查看本地語(yǔ)言包:

可以通過(guò)tesseract --help-psm 查看psm

0:定向腳本監(jiān)測(cè)(OSD)
1: 使用OSD自動(dòng)分頁(yè)
2 :自動(dòng)分頁(yè),但是不使用OSD或OCR(Optical Character Recognition,光學(xué)字符識(shí)別)
3 :全自動(dòng)分頁(yè),但是沒(méi)有使用OSD(默認(rèn))
4 :假設(shè)可變大小的一個(gè)文本列。
5 :假設(shè)垂直對(duì)齊文本的單個(gè)統(tǒng)一塊。
6 :假設(shè)一個(gè)統(tǒng)一的文本塊。
7 :將圖像視為單個(gè)文本行。
8 :將圖像視為單個(gè)詞。
9 :將圖像視為圓中的單個(gè)詞。
10 :將圖像視為單個(gè)字符。

為什么這里要強(qiáng)調(diào)語(yǔ)言包和psm,因?yàn)槲覀冊(cè)谑褂弥袝?huì)用到,
比如多個(gè)語(yǔ)言包組合并且視為統(tǒng)一的文本塊將使用如下參數(shù):
pytesseract.image_to_string(image,lang="chi_sim+eng",config="-psm 6")
這里我們通過(guò)+來(lái)合并使用多個(gè)語(yǔ)言包。

接下來(lái)我們看一下配置好一切的正確結(jié)果。

import pytesseract from PIL import Imageimage = Image.open("../pic/c.png") code = pytesseract.image_to_string(image,lang="chi_sim",config="-psm 6") print(code)

此時(shí)大公告成。

~~號(hào)外~~福利~~號(hào)外~~
程序員的福音: “老曾筋骨祛痛貼”,百年祖?zhèn)髋浞?#xff0c;專治腰間盤(pán)、肩周、頸椎、坐骨神經(jīng)、腰腿疼痛等,博主親測(cè)效果非常棒,因長(zhǎng)期久坐寫(xiě)代碼,坐姿不規(guī)范導(dǎo)致脖子疼,腰椎疼,用過(guò)之后疼痛逐漸緩解,現(xiàn)在已無(wú)任何疼痛,用過(guò)后讓你寫(xiě)代碼一身輕松,so easy,媽媽再也不用擔(dān)心我們寫(xiě)代碼了。

掃碼下方二維碼,關(guān)注公眾號(hào)“偉大程序猿的誕生“,回復(fù)“膏藥”領(lǐng)取優(yōu)惠券,進(jìn)行購(gòu)買
掃碼關(guān)注公眾號(hào)“偉大程序猿的誕生“,更多干貨新鮮文章等著你~

公眾號(hào)回復(fù)“資料獲取”,獲取更多干貨哦~

有問(wèn)題添加本人微信號(hào)“fenghuokeji996” 或掃描博客導(dǎo)航欄本人二維碼

我的博客即將同步至騰訊云+社區(qū),邀請(qǐng)大家一同入駐:
https://cloud.tencent.com/developer/support-plan?invite_code=ncnq0hloo5yw

總結(jié)

以上是生活随笔為你收集整理的python人工智能-图像识别的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。