日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python~爬虫~1

發布時間:2025/4/5 python 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python~爬虫~1 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬蟲基本流程:

1、通過HTTP向目標發送請求,即發送request,請求可以包含header等信息,等待服務器相應

2、如果服務器相應,會返回一個response,response的內容便是要獲取的內容

3、對得到的內容進行解析

如:內容為html格式,則用正則表達式、網頁解析庫解析。若json格式,則直接轉為json對象解析

4、結構化保存數據

Request主要包含下面幾個部分:

1、請求方式:主要有get,post兩種類型

2、請求URL(統一資源定位符)

3、請求頭:包含請求時的頭部信息,如:User-Agent、Host、Cookies等信息

4、請求體:請求時另外需要的數據(post請求有)

Response主要包含下面幾個方面:

1、響應狀態:如:not found 404

2、響應頭:服務器信息等內容

3、響應體:包含請求資源的內容,如網頁HTML,圖片,二進制數據等



抓取數據類型:

1、網頁文本:HTML文檔,json格式文本

2、圖片:獲取到的是圖片的二進制文件,保存為圖片格式

3、視頻:也是二進制文件,保存為視頻格式

4、其它

解析方式:

1、直接處理:網頁構造比較簡單

2、json解析:字符串轉化json對象

3、正則表達式

4、BeautifulSoup

5、PyQuery

6、XPath

Urllib庫(Python內置http請求庫)

1、urllib.request 請求模塊

2、urllib.parse? ?url解析模塊

3、urllib.error? ?異常處理模塊

4、urllib.robotparser? ronots.txt解析模塊

用法:

1、urllib.request請求模塊




Request替換urlopen




2、urllib.parse url解析模塊

urllib.parse.urlpaese(urlstring,scheme='',allow_fragments=True)





3、urilib.error異常處理模塊:

1、urlerror

2、httperror

4、urllib.robotparser

總結

以上是生活随笔為你收集整理的python~爬虫~1的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。