日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫笔记:爬虫的基本原理

發布時間:2024/9/30 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫笔记:爬虫的基本原理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.什么是爬蟲

請求?站并提取數據的?動化程序

2.爬蟲基本流程

  • 發起請求。通過HTTP庫向?標站點發起請求,即發送?個Request,請求可以包含額外的headers等信息,等待服務器響應。
  • 獲取響應內容。如果服務器能正常響應,會得到?個Response,Response的內容便是所要獲取的??內容,類型可能有HTML,Json字符串,?進制數據(如圖?視頻)等類型。
  • 解析內容,得到的內容可能是HTML,可以?正則表達式、??解析庫進?解析。可能是Json,可以直接轉為Json對象解析,可能是?進制數據,可以做保存或者進?步的處理。
  • 保存數據。保存形式多樣,可以存為?本,也可以保存?數據庫,或者保存特定格式的?件。

3.什么是Request和Response?

  • 瀏覽器就發送消息給該?址所在的服務器,這個過程叫做HTTP Request。
  • 服務器收到瀏覽器發送的消息后,能夠根據瀏覽器發送消息的內容,做相應處理,然后把消息回傳給瀏覽器。這個過程叫做HTTP Response。
  • 瀏覽器收到服務器的Response信息后,會對信息進?相應處理,然后展示。

Request

  • 請求?式.主要有GET、POST兩種類型,另外還有HEAD、PUT、DELETE、OPTIONS等。
  • 請求URL.URL全稱統?資源定位符,如?個???檔、?張圖?、?個視頻等都可以?URL唯?來確定。
  • 請求頭.包含請求時的頭部信息,如User-Agent、Host、Cookies等信息。
  • 請求體.請求時額外攜帶的數據如表單提交時的表單數據.

Response

  • 響應狀態.有多種響應狀態,如200代表成功、301跳轉、404找不到??、502服務器錯誤
  • 響應頭.如內容類型、內容?度、服務器信息、設置Cookie等等。
  • 響應體.最主要的部分,包含了請求資源的內容,如??HTML、圖??進制數據等。
'

4.能抓怎樣的數據?

  • ???本.如HTML?檔、Json格式?本等。
  • 圖?.獲取到的是?進制?件,保存為圖?格式。
    如定位圖中圖片網址復制下來
import requests response = requests.get('https://h.2345cdn.net/i/search20200812/pic-1.png')#響應 print(response.content)#打印二進制格式,圖片為二進制#寫入文件 with open('D:\\deeplearn\\xuexicaogao\\百度.jpg','wb') as f:f.write(response.content)f.close() print('結束')
  • 視頻。同為?進制?件,保存為視頻格式即可。

  • 其他。只要是能請求到的,都能獲取。

5.解析?式

我們需要對得到的網頁源代碼進行解析,解析方式有如下

  • 直接處理。構造簡單,內容簡單可以直接處理
  • Json解析。
  • 正則表達式
  • BeautifulSoup
  • XPath
  • PyQuery

6.如何保存數據

  • ?本。純?本、Json、Xml等。
  • 關系型數據庫。如MySQL、Oracle、SQL Server等具有結構化表結構形式存儲。
  • ?關系型數據庫。如MongoDB、Redis等Key-Value形式存儲。
  • ?進制?件。如圖?、視頻、?頻等等直接保存成特定格式即可。

創作不易,大佬請留步… 動起可愛的雙手,來個贊再走唄 (???←?)

總結

以上是生活随笔為你收集整理的爬虫笔记:爬虫的基本原理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。