當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫必须得会的Web知识

發布時間：2023/12/10 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫必须得会的Web知识小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬蟲定義、分類和流程

爬蟲定義

網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人）就是模擬瀏覽器發送網絡請求，接收請求響應，一種按照一定的規則，自動地抓取互聯網信息的程序。

爬蟲就是模擬瀏覽器的行為，越像越好，越像就越不容易被發現。

原則上,只要是瀏覽器(客戶端)能做的事情，爬蟲都能夠做。

爬蟲的分類

通用爬蟲：通常指搜索引擎的爬蟲

聚焦爬蟲：針對特定網站的爬蟲

爬蟲的用途

今日頭條
網易云音樂
12306搶票
網站自動投票
短信轟炸
等等

爬蟲的流程

向起始url發送請求，并獲取響應

對響應進行提取

如果提取url，則繼續發送請求獲取響應

如果提取數據，則將數據進行保存

robots 協議

Robots 協議：網站通過 Robots 協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，但它僅僅是道德層面上的約束例如：淘寶的 robots 協議

總結

爬蟲概念：模擬瀏覽器發送網絡請求，接收請求響應。只要是瀏覽器(客戶端)能做的事情，爬蟲都能夠做。
爬蟲的分類：聚焦爬蟲、通用爬蟲
爬蟲的流程：

向起始 url 發送請求，并獲取響應

對響應進行提取

如果提取 url，則繼續發送請求獲取響應

如果提取數據，則將數據進行保存

HTTP 與 HTTPS 的概念

HTTP

概念：HTTP（超文本傳輸協議）是應用層上的一種客戶端/服務端模型的通信協議,它由請求和響應構成，且是無狀態的。協議：協議規定了通信雙方必須遵守的數據傳輸格式，這樣通信雙方按照約定的格式才能準確的通信。無狀態：無狀態是指兩次諒解通信之間是沒有任何聯系的，每次都是一個新的連接，服務端不會記錄前后的請求信息。

HTTP 請求流程

瀏覽器通過域名解析服務器（DNS）獲取IP地址

瀏覽器先向 IP 發起請求，并獲取相應

在返回的響應內容（html）中，會帶有 css、js、圖片等 url 地址，以及 ajax 代碼，瀏覽器按照響應內容中的順序依次發送其他的請求，并獲取相應的響應

瀏覽器每獲取一個響應就對展示出的結果進行添加（加載），js，css 等內容會修改頁面的內容，js也可以重新發送請求，獲取響應

從獲取第一個響應并在瀏覽器中展示，直到最終獲取全部響應，并在展示的結果中添加內容或修改————這個過程叫做瀏覽器的渲染

五層網絡模型

HTTP協議結構圖

網絡模型對應關系

HTTP、RTSP、FTP -------> 應用層

TCP、UDP -------> 傳輸層

IP -------> 網絡層

數據鏈路 -------> 數據鏈路層

物理介質 -------> 物理層

url 地址格式

格式說明：scheme://host[:port]/path/…/[?query-string][#anchor]

scheme：協議（例如：http, https, ftp）

host：服務器的 IP 地址或者域名

port：服務器的端口（如果是走協議默認端口，缺省端口80）

path：訪問資源的路徑

query-string：參數，發送給 http 服務器的數據

anchor：錨（跳轉到網頁的指定錨點位置）

HTTP 請求

請求格式

案例

請求方式

根據 HTTP 標準，HTTP 請求可以使用多種請求方法。

HTTP1.0 定義了三種請求方法：GET, POST 和 HEAD 方法。

HTTP1.1 新增了五種請求方法：OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

請求方式

描述


GET	請求指定的頁面信息，并返回實體主體。
HEAD	類似于 get 請求，只不過返回的響應中沒有具體的內容，用于獲取報頭
POST	向指定資源提交數據進行處理請求（例如提交表單或者上傳文件）。數據被包含在請求體中。POST 請求可能會導致新的資源的建立和/或已有資源的修改。
PUT	從客戶端向服務器傳送的數據取代指定的文檔的內容
DELETE	請求服務器刪除指定的頁面。
CONNECT	HTTP/1.1 協議中預留給能夠將連接改為管道方式的代理服務器。
OPTIONS	允許客戶端查看服務器的性能。
TRACE	回顯服務器收到的請求，主要用于測試或診斷。

常見請求頭

請求頭

作用


Cookie	Cookie
User-Agent	瀏覽器名稱
Referer	頁面跳轉處
Host	主機和端口號
Connection	鏈接類型
Upgrade-Insecure-Requests	升級為 HTTPS 請求
Accept	傳輸文件類型
Accept-Encoding	文件編解碼格式
x-requested-with : XMLHttpRequest	ajax 請求

HTTP 響應

響應格式

HTTP響應也由四個部分組成，分別是：狀態行、消息報頭、空行（回車符 + 換行符）和響應正文。

響應頭

響應頭

作用


Location	這個頭配合 302 狀態碼使用，告訴用戶端找誰。
Set-Cookie	設置和頁面關聯的 Cookie
Content-Type	服務器通過這個頭，回送數據的類型
Server	服務器通過這個頭，告訴瀏覽器服務器的類型
Content-Length	服務器通過這個頭，告訴瀏覽器回送數據的長度
Connection	服務器通過這個頭，響應完是保持鏈接還是關閉鏈接

HTTP 狀態碼

當瀏覽者訪問一個網頁時，瀏覽者的瀏覽器會向網頁所在服務器發出請求。當瀏覽器接收并顯示網頁前，此網頁所在的服務器會返回一個包含 HTTP 狀態碼的信息頭（server header）用以響應瀏覽器的請求。

HTTP 狀態碼的英文為 HTTP Status Code。

HTTP 狀態碼由三個十進制數字組成，第一個十進制數字定義了狀態碼的類型，后兩個數字沒有分類的作用。HTTP 狀態碼共分為 5 種類型

分類

分類描述


1**	信息，服務器收到請求，需要請求者繼續執行操作
2**	成功，操作被成功接收并處理
3**	重定向，需要進一步的操作以完成請求
4**	客戶端錯誤，請求包含語法錯誤或無法完成請求
5**	服務器錯誤，服務器在處理請求的過程中發生了錯誤

常見的 HTTP 狀態碼：
200 - 請求成功
301 - 資源（網頁等）被永久轉移到其它 URL
404 - 請求的資源（網頁等）不存在
500 - 內部服務器錯誤

HTTPS

HTTPS 作用

在傳輸過程中對數據進行加密，防止中間路由器、交換機等中間的路由設備對數據進行篡改。

HTTP 與 HTTPS 優缺點

HTTP 因為不需要對數據進行加密所以性能更高，但是安全性差。

HTTPS 雖然安全性高，但是因為瀏覽器和服務器端需要對數據進行加解密，所以占用服務器資源。

當前形式

注意：目前 HTTPS 是未來主流，微信小程序，iOS 客戶端，android 客戶端的接口提供都需要 HTTPS 接口支持

總結

以上是生活随笔為你收集整理的爬虫必须得会的Web知识的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： hadoop put命令的格式_工作中需
下一篇：程序员幽默：伤不起，我就是这样的程序员