日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

Python第三方模块tesserocr安装

發(fā)布時(shí)間:2024/7/5 python 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python第三方模块tesserocr安装 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

介紹

在爬蟲(chóng)過(guò)程中,難免會(huì)遇到各種各樣的驗(yàn)證碼,而大多數(shù)驗(yàn)證碼還是圖形驗(yàn)證碼,這時(shí)候我們可以直接用 OCR 來(lái)識(shí)別。

tesserocr?是 Python 的一個(gè) OCR 識(shí)別庫(kù) ,但其實(shí)是對(duì) tesseract 做的一 層 Python API 封裝,所以它的核心是 tesseract。 因此,在安裝 tesserocr 之前,我們需要先安裝 tesseract 。

例如:對(duì)于下圖的驗(yàn)證碼,我們可以通過(guò) OCR 技術(shù)將其轉(zhuǎn)換成電子文本,然后爬蟲(chóng)將識(shí)別的結(jié)果提交給服務(wù)器,便可以達(dá)到自動(dòng)識(shí)別驗(yàn)證碼的過(guò)程。

??

相關(guān)鏈接

tesserocr GitHub:?https://github.com/sirfz/tesserocr

tesserocr PyPI:?https://pypi.python.org/pypi/tesserocr

tesseract 下載地址:?http://digi.bib.uni-mannheim.de/tesseract

tesseract GitHub:?https://github.com/tesseract-ocr/tesseract

tesseract 語(yǔ)言包:?http://github.com/tesseract-ocr/tessdata

tesseract 文檔:?https://github.com/tesseract-ocr/tesseract/wiki/Documentation

Windows下的安裝

在 Windows 下,首先需要下載 tesseract,它為 tesserocr 提供了支持。

進(jìn)入下載頁(yè)面,可以看到有各種 .exe 文件的下載列表,這里可以選擇下載 3.0 版本 。 如下圖所示為 3.05 版本 。

其中文件名中帶有 dev 的為開(kāi)發(fā)版本,不帶 dev 的為穩(wěn)定版本,可以選擇下載不帶 dev 的版本, 例如可以選擇下載 tesseract-ocr-setup-3 .05.01.exe。

下載完成后雙擊運(yùn)行,安裝程序。需要注意的是,需要句選 Additional language data(download)選項(xiàng)來(lái)安裝 OCR 識(shí)別支持的語(yǔ)言包,這樣 OCR 便可以識(shí)別多國(guó)語(yǔ)言 。

給tesseract配置環(huán)境變量:

(1)將tesseract安裝路徑添加到path環(huán)境變量中

(2)將tesseract的語(yǔ)言包添加到環(huán)境變量中,在環(huán)境變量中新建一個(gè)系統(tǒng)變量,變量名稱(chēng)為T(mén)ESSDATA_PREFIX,tessdata是放置語(yǔ)言包的文件夾,一般在你安裝tesseract的目錄下,即tesseract的安裝目錄就是tessdata的父目錄,把TESSDATA_PREFIX的值設(shè)置為它即可

?

?

?

接下來(lái) , 再安裝 tesserocr 即可:

#pip install tesserocr pillow
  • pip install Pillow==5.2.0?
  • pip install pytesseract==0.2.4
  • 驗(yàn)證安裝

    測(cè)試樣例:

    圖片下載:http://images.cnblogs.com/cnblogs_com/Jimc/1316973/o_image.png

    ?(1)用 tesseract 命令測(cè)試:

    tesseract image.png result -l eng

    ?運(yùn)行結(jié)果如下:

    Tesseract Open Source OCR Engine v3.05.01 with Leptonica

    (2)利用 Python 代碼測(cè)試:

    # coding=utf-8

    import pytesseract
    from PIL import Image

    # open image
    image = Image.open('./test.png')
    code = pytesseract.image_to_string(image, lang='chi_sim')
    print(code)

    運(yùn)行結(jié)果如下:

    PythonWebSpider

    另外,還可以直接調(diào)用?tesserocr 模塊的 file_to_text() 方法,可以達(dá)到同樣的效果:

    import pytesseract print(pytesseract.file_to_text('image.png'))

    運(yùn)行結(jié)果如下:

    PythonWebSpider

    如果成功輸出結(jié)果,則證明 tesseract 和 tesserocr 都已經(jīng)安裝成功。

    ?

    轉(zhuǎn)載于:https://www.cnblogs.com/winstonsias/p/11451866.html

    總結(jié)

    以上是生活随笔為你收集整理的Python第三方模块tesserocr安装的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。