日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫基础:HTTP基本原理

發布時間:2024/1/8 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫基础:HTTP基本原理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

注意:該作者博客已遷移至https://buxianshan.xyz

HTTP/HTTPS

HTTP(Hyper Text Transfer Protocol):超文本傳輸協議。規定萬維網服務器與瀏覽器之間信息傳遞規范。
HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)是以安全為目標的HTTP協議,簡單地講就是HTTP的安全版,加入了SSL加密層。

URL

URL(Universal Resource Locator):統一資源定位符。互聯網上的每個文件都有一個唯一的URL。
格式:傳輸協議+域名+端口號+路徑+文件名

HTTP請求過程

在瀏覽器輸入URL按下回車便是通過瀏覽器向網站服務器發送了一個請求。網站服務器接收到這個請求后進行處理,然后返回對應的響應給瀏覽器。瀏覽器再對收到的響應解析,將網頁呈現出來。

在Chrom瀏覽器中,右鍵選擇【檢查】,即可打開瀏覽器的開發者工具,選擇“NetWork”條目。輸入百度的URL回車,觀察這個網絡請求的過程。

  • 第一列Name:請求的名稱,一般會將URL的最后一部分內容當作名稱。
  • 第二列Status:響應的狀態碼,200代表正常,403代表禁止訪問,404代表未找到……
  • 第三列Type:請求的文件類型。document代表html文檔,還有png、gif圖片,script腳本等。
  • 第四列Initiator:請求源。用來標記請求是由哪個對象或進程發起的。
  • 第五列Size:從服務器下載的文件資源大小。如**KB,disk cache代表從磁盤中獲取,memory cache代表從內存中獲取。參考
  • 第六列Time:從發起請求到獲得響應的總時間。

我們只輸入了一個URL卻看到一連串的請求。這是因為瀏覽器收到響應后,就開始解析其中的html代碼,遇到js/css/image等靜態資源時,就向服務器端去請求下載。比如點擊bd_log1.png這個請求,然后點擊Preview可以看預覽,就是百度的logo。參考

點擊一個條目,可以看到詳細信息。

General部分包含URL、請求方法、響應狀態碼、遠程服務器地址端口。

請求方法常用的有兩種:GET和POST。主要區別是GET請求中的參數包含在URL中(最多1024字節),可以在URL中看到。而POST請求以表單的形式傳輸參數,參數包含在請求體中,大小無限制。

Request Headers請求頭

Accept:說明客戶端可以接受哪些類型的信息。
User-Agent:使服務器識別客戶使用的操作系統、瀏覽器及版本等信息。例如:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36

直接用python請求時默認為:

User-Agent: Python-urllib/3.7

有的網站通過識別 User-Agent 拒絕爬蟲,所以可以自己設置User-Agent偽裝成瀏覽器。

Cookie:網站為了辨別用戶進行會話跟蹤而存儲在用戶本地的數據。比如登錄了一個網站,服務器給你設置了Cookie,以后只要在請求中加入Cookie,服務器就知道你已經登錄過了,不用重新登錄就可以繼續訪問了。

請求體:一般是POST請求中的表單數據,而GET請求體為空。

Response Headers響應頭

  • Date:響應的日期時間
  • Sever:包含服務器的信息,名稱、版本號等。如BWS/1.1應該是Baidu Web Sever百度研發的web服務器。常見的還有Apache、IIS等。
  • Set-Cookie:設置Cookie。告訴瀏覽器下次請求攜帶Cookie內容。

響應體:html代碼或者下載文件的二進制數據。點擊“Preview”,就可以看到響應體的內容,它也是解析的目標。

總結

以上是生活随笔為你收集整理的爬虫基础:HTTP基本原理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。