當前位置：首頁 > 编程语言 > python >内容正文

python

python~爬虫~1

發布時間：2025/4/5 python 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 python~爬虫~1 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬蟲基本流程：

1、通過HTTP向目標發送請求，即發送request，請求可以包含header等信息，等待服務器相應

2、如果服務器相應，會返回一個response,response的內容便是要獲取的內容

3、對得到的內容進行解析

如：內容為html格式，則用正則表達式、網頁解析庫解析。若json格式，則直接轉為json對象解析

4、結構化保存數據

Request主要包含下面幾個部分：

1、請求方式：主要有get,post兩種類型

2、請求URL(統一資源定位符)

3、請求頭：包含請求時的頭部信息，如：User-Agent、Host、Cookies等信息

4、請求體：請求時另外需要的數據(post請求有)

Response主要包含下面幾個方面：

1、響應狀態：如：not found 404

2、響應頭：服務器信息等內容

3、響應體：包含請求資源的內容，如網頁HTML，圖片，二進制數據等

抓取數據類型：

1、網頁文本：HTML文檔，json格式文本

2、圖片：獲取到的是圖片的二進制文件，保存為圖片格式

3、視頻：也是二進制文件，保存為視頻格式

4、其它

解析方式：

1、直接處理：網頁構造比較簡單

2、json解析：字符串轉化json對象

3、正則表達式

4、BeautifulSoup

5、PyQuery

6、XPath

Urllib庫(Python內置http請求庫)

1、urllib.request 請求模塊

2、urllib.parse? ?url解析模塊

3、urllib.error? ?異常處理模塊

4、urllib.robotparser? ronots.txt解析模塊

用法：

1、urllib.request請求模塊

Request替換urlopen

2、urllib.parse url解析模塊

urllib.parse.urlpaese(urlstring,scheme='',allow_fragments=True)

3、urilib.error異常處理模塊：

1、urlerror

2、httperror

4、urllib.robotparser

總結

以上是生活随笔為你收集整理的python~爬虫~1的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python爬虫基础(一)～爬虫概念和架
下一篇： Python~爬虫~2(requests