python~爬虫~1
爬蟲基本流程:
1、通過HTTP向目標發送請求,即發送request,請求可以包含header等信息,等待服務器相應
2、如果服務器相應,會返回一個response,response的內容便是要獲取的內容
3、對得到的內容進行解析
如:內容為html格式,則用正則表達式、網頁解析庫解析。若json格式,則直接轉為json對象解析
4、結構化保存數據
Request主要包含下面幾個部分:
1、請求方式:主要有get,post兩種類型
2、請求URL(統一資源定位符)
3、請求頭:包含請求時的頭部信息,如:User-Agent、Host、Cookies等信息
4、請求體:請求時另外需要的數據(post請求有)
Response主要包含下面幾個方面:
1、響應狀態:如:not found 404
2、響應頭:服務器信息等內容
3、響應體:包含請求資源的內容,如網頁HTML,圖片,二進制數據等
抓取數據類型:
1、網頁文本:HTML文檔,json格式文本
2、圖片:獲取到的是圖片的二進制文件,保存為圖片格式
3、視頻:也是二進制文件,保存為視頻格式
4、其它
解析方式:
1、直接處理:網頁構造比較簡單
2、json解析:字符串轉化json對象
3、正則表達式
4、BeautifulSoup
5、PyQuery
6、XPath
Urllib庫(Python內置http請求庫)
1、urllib.request 請求模塊
2、urllib.parse? ?url解析模塊
3、urllib.error? ?異常處理模塊
4、urllib.robotparser? ronots.txt解析模塊
用法:
1、urllib.request請求模塊
Request替換urlopen
2、urllib.parse url解析模塊
urllib.parse.urlpaese(urlstring,scheme='',allow_fragments=True)
3、urilib.error異常處理模塊:
1、urlerror
2、httperror
4、urllib.robotparser
總結
以上是生活随笔為你收集整理的python~爬虫~1的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python爬虫基础(一)~爬虫概念和架
- 下一篇: Python~爬虫~2(requests