日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

Python 爬虫进阶二之 PySpider 框架安装配置

發(fā)布時(shí)間:2023/12/9 python 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python 爬虫进阶二之 PySpider 框架安装配置 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

PySpider官方文檔

項(xiàng)目地址
官方文檔

安裝

phantomjs
PhantomJS 是一個(gè)基于 WebKit 的服務(wù)器端 JavaScript API。它全面支持 web 而不需瀏覽器支持,其快速、原生支持各種 Web 標(biāo)準(zhǔn):DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 可以用于頁(yè)面自動(dòng)化、網(wǎng)絡(luò)監(jiān)測(cè)、網(wǎng)頁(yè)截屏以及無(wú)界面測(cè)試等。 安裝 以上附有官方安裝方式,如果你是 Ubuntu 或 Mac OS X 用戶,可以直接用命令來(lái)安裝 Ubuntu:

sudo apt-get install phantomjs

Mac OS X:

brew install phantomjs

pyspider

pip install pyspider

安裝pyspider可能有以下錯(cuò)誤

Using cached pycurl-7.43.0.6.tar.gz (222 kB)ERROR: Command errored out with exit status 10:

因?yàn)榘惭bpycurl出錯(cuò),pycurl-7.43.0.6.tar.gz沒(méi)有安裝成功。進(jìn)入pythonlibs下載lib安裝。首先查看平臺(tái)支持的版本。

python -m pip debug --verbose ... Compatible tags: 24cp36-cp36m-win_amd64cp36-abi3-win_amd64cp36-none-win_amd64 ...

進(jìn)入pythonlibs,沒(méi)有pycurl-7.43.0.6.tar.gz,平臺(tái)支持的有pycurl?7.43.0.4?cp36?cp36m?win_amd64.whl,那就安裝這個(gè)。下載這個(gè)到本地。

安裝pycurl

pip3 install C:\Python36\Scripts\pycurl-7.43.0.4-cp36-cp36m-win_amd64.whl Processing c:\python36\scripts\pycurl-7.43.0.4-cp36-cp36m-win_amd64.whl Installing collected packages: pycurl Successfully installed pycurl-7.43.0.4

然后安裝pyspider

pip3 install pyspider

安裝成功后,命令行輸入

pyspider all

有錯(cuò)誤信息

File "c:\python36\lib\site-packages\wsgidav\wsgidav_app.py", line 118, in _check_configraise ValueError("Invalid configuration:\n - " + "\n - ".join(errors)) ValueError: Invalid configuration:- Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.

配置PhantomJS
windows:在官網(wǎng)下載對(duì)應(yīng)版本的程序,然后放到python安裝目錄的python.exe同級(jí)目錄下。
依然有錯(cuò)誤

File "c:\python36\lib\site-packages\pyspider\webui\app.py", line 64, in runfrom werkzeug.wsgi import DispatcherMiddleware ImportError: cannot import name 'DispatcherMiddleware'

發(fā)現(xiàn)還是版本的原因,werkzeug的版本為1.0.0,這個(gè)版本中沒(méi)有DispatcherMiddleware方法,所以還是降低版本。
注意降低版本不能低于0.15版本,因?yàn)槲覀兊膒yspider要求大于0.15版本以上

pip3 uninstall werkzeug pip3 install werkzeug==0.16.1

參考
啟動(dòng)pyspider

pyspider all

然后瀏覽器訪問(wèn) http://localhost:5000 觀察一下效果,如果可以正常出現(xiàn) PySpider 的頁(yè)面,那證明一切 OK 在此附圖一張,如果寫了爬蟲,之后的界面。

常見(jiàn)錯(cuò)誤

我曾遇到過(guò)的一個(gè)錯(cuò)誤: PySpider HTTP 599: SSL certificate problem 錯(cuò)誤的解決方法 ,后來(lái)在作者那發(fā)了 issue 得到了答案,其他的暫時(shí)沒(méi)什么問(wèn)題。 不過(guò)發(fā)現(xiàn)有的小伙伴提了各種各樣的問(wèn)題啊,不過(guò)我確實(shí)都沒(méi)遇到過(guò),我再 Win10,Linux Ubuntu,Linux CentOS,Mac OS X 都成功運(yùn)行。不過(guò)確實(shí)有些奇怪的問(wèn)題,跑著跑著崩了,一點(diǎn)就崩了我也就比較納悶了。 如果大家有問(wèn)題,可以看看作者項(xiàng)目里面有沒(méi)有類似的 issue,另外也推薦大家直接到作者的 GitHub 上發(fā) issue。 畢竟,這個(gè)框架不是我寫的。 在此附上 Issue 地址: PySpider Issue

總結(jié)

以上是生活随笔為你收集整理的Python 爬虫进阶二之 PySpider 框架安装配置的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。