Python爬虫常用模块
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫常用模块
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Python標準庫——urllib模塊
功能:打開URL和http協議之類 python 3.x中urllib庫和urilib2庫合并成了urllib庫。其中urllib2.urlopen()變成了urllib.request.urlopen()urllib2.Request()變成了urllib.request.Request()urllib請求返回網頁
urllib.request.urlopen
urllib.request.open(url[,data,[timeout,[cafile,[capth[,cadefault,[context]]]]]])urllib.requset.urlioen可以打開HTTP(主要)、HTTPS、FTP、協議的URL
- ca 身份驗證
- data 以post方式提交URL時使用
- url 提交網絡地址(全程 前端需協議名 后端需端口 http:/192.168.1.1:80)
- timeout 超時時間設置
函數返回對象有三個額外的方法
- geturl() 返回response的url信息 常用與url重定向
- info()返回response的基本信息
- getcode()返回response的狀態代碼
Python標準庫–logging模塊
logging模塊能夠代替print函數的功能,將標準輸出到日志文件保存起來,利用loggin模塊可以部分替代debug
re模塊
正則表達式
sys模塊
系統相關模塊
- sys.argv(返回一個列表,包含所有的命令行)
- sys.exit(退出程序)
Scrapy框架
urllib和re配合使用已經太落后,現在主流的是Scrapy框架
轉載于:https://www.cnblogs.com/oifengo/p/9385950.html
總結
以上是生活随笔為你收集整理的Python爬虫常用模块的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Windows命令行参数的知识(一)
- 下一篇: Python3绘图库Matplotlib