當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫学习笔记1:爬虫基本概念

發布時間：2023/12/16 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫学习笔记1:爬虫基本概念小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文目錄

- 1平時我們接觸到的爬蟲
- 2對爬蟲的概念
- 3通用爬蟲和聚焦爬蟲
- 4http和https協議
- 5瀏覽器中發送一個http請求的過程
- 6有關url
- 7一般的請求方法
- 8常見的狀態響應碼

1平時我們接觸到的爬蟲

搜索引擎（百度、谷歌、360搜索等）。
數據分析與研究。
搶票軟件等。

2對爬蟲的概念

通俗理解：爬蟲程序是一個模擬人類請求網站行為的程序。它可以自動請求網頁并捕獲數據，然后使用某些規則提取有價值的數據

定義：網絡爬蟲（又稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

3通用爬蟲和聚焦爬蟲

通用爬蟲：通用爬蟲是搜索引擎捕獲系統（百度、谷歌、搜狗等）的重要組成部分。它主要將互聯網上的網頁下載到本地，形成互聯網內容的鏡像備份。
聚焦爬蟲：這是一個針對特定需求的網絡爬蟲程序。它與普通爬蟲的區別在于，焦點爬蟲在實現網頁捕獲時會對內容進行過濾和處理，并嘗試確保只捕獲與需求相關的網頁信息。

4http和https協議

HTTP(HyperText Transfer Protocol)協議：全稱為超文本傳輸協議，中文為超文本傳輸協議。它是一種發布和接收HTML頁面的方法。服務器端口號為端口80。HTTPS協議：它是HTTP協議的加密版本。SSL層添加在http下。服務器端口號為端口443。

5瀏覽器中發送一個http請求的過程

1當用戶在瀏覽器的地址欄中輸入URL并按enter鍵時，瀏覽器將向HTTP服務器發送HTTP請求。HTTP請求主要分為“get”和“post”方法。
2當我們在瀏覽器中輸入URL時，瀏覽器發送請求以獲取URL的HTML文件，服務器將響應文件對象發送回瀏覽器。
3.瀏覽器分析響應中的HTML，發現許多其他文件被引用，如圖像、CSS和JS文件。瀏覽器將自動再次發送請求以獲取圖像、CSS文件或JS文件。
當所有文件下載成功后，網頁將完全按照HTML語法結構顯示。

6有關url

URL是Uniform Resource Locator的簡寫，統一資源定位符。一個URL由以下幾部分組成：

scheme://host:port/path/?query-string=xxx#anchor

scheme：是訪問的協議，一般為http或者https以及ftp等。
host：主機名，域名，比如www.CSDN.com。
port：端口號。當你訪問一個網站的時候，瀏覽器默認使用80端口。
path：查找路徑。比如：www.CSDN.com/A/B，后面的A/B就是path。
query-string：查詢字符串，比如：www.CSDN.com/s?wd=python，后面的wd=python就是查詢字符串。
anchor：錨點，后臺一般不用管，前端用來做頁面定位的。
在瀏覽器中請求一個url，瀏覽器會對這個url進行一個編碼。除英文字母，數字和部分符號外，其他的全部使用百分號+十六進制碼值進行編碼。

7一般的請求方法

在HTTP協議中，向服務器發送請求。數據分為三部分。第一個是將數據放在URL中，第二個是將數據放在body中（在post請求中），第三個是將數據放在頭部(head)。以下是web爬蟲中常用的一些請求頭參數：
用戶代理(User-Agent)：瀏覽器名稱。這通常用于網絡爬蟲。請求網頁時，服務器可以通過此參數知道哪個瀏覽器發送了請求。如果我們通過爬蟲發送請求，我們的用戶代理(User-Agent)是python，它可以很容易地確定您的請求是具有反爬蟲機制的網站的爬蟲。因此，我們應該經常將該值設置為某些瀏覽器的值，以偽裝我們的爬蟲。
Referer：指示當前請求來自的URL。這也可以用作反爬蟲技術。如果不是來自指定頁面，則不會做出相關響應。
Cookie:HTTP協議是無狀態的。也就是說，同一個人發送兩個請求，而服務器無法知道這兩個請求是否來自同一個人。因此，此時使用cookie作為標識。通常，如果你想成為一個只有在登錄后才能訪問的網站，你需要發送cookie信息。

8常見的狀態響應碼

200:請求正常，服務器返回數據正常。
301：永久重定向。例如，當您訪問www.A.com時，您將被重定向到www.B.com。
302：臨時重定向。例如，當您訪問一個需要登錄的頁面，而此時您沒有登錄時，您將被重定向到登錄頁面。
400:在服務器上找不到請求的URL。換句話說，請求URL是錯誤的。
403:服務器拒絕訪問，權限不足。
500:服務器內部錯誤。服務器上可能有錯誤。

總結

以上是生活随笔為你收集整理的爬虫学习笔记1:爬虫基本概念的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。