日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫学习笔记1:爬虫基本概念

發布時間:2023/12/16 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫学习笔记1:爬虫基本概念 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文目錄

    • 1平時我們接觸到的爬蟲
    • 2對爬蟲的概念
    • 3通用爬蟲和聚焦爬蟲
    • 4http和https協議
    • 5瀏覽器中發送一個http請求的過程
    • 6有關url
    • 7一般的請求方法
    • 8常見的狀態響應碼

1平時我們接觸到的爬蟲

搜索引擎(百度、谷歌、360搜索等)。
數據分析與研究。
搶票軟件等。

2對爬蟲的概念

通俗理解:爬蟲程序是一個模擬人類請求網站行為的程序。它可以自動請求網頁并捕獲數據,然后使用某些規則提取有價值的數據

定義:網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

3通用爬蟲和聚焦爬蟲

通用爬蟲:通用爬蟲是搜索引擎捕獲系統(百度、谷歌、搜狗等)的重要組成部分。它主要將互聯網上的網頁下載到本地,形成互聯網內容的鏡像備份。
聚焦爬蟲:這是一個針對特定需求的網絡爬蟲程序。它與普通爬蟲的區別在于,焦點爬蟲在實現網頁捕獲時會對內容進行過濾和處理,并嘗試確保只捕獲與需求相關的網頁信息。

4http和https協議

HTTP(HyperText Transfer Protocol)協議:全稱為超文本傳輸協議,中文為超文本傳輸協議。它是一種發布和接收HTML頁面的方法。服務器端口號為端口80。HTTPS協議:它是HTTP協議的加密版本。SSL層添加在http下。服務器端口號為端口443。

5瀏覽器中發送一個http請求的過程

1當用戶在瀏覽器的地址欄中輸入URL并按enter鍵時,瀏覽器將向HTTP服務器發送HTTP請求。HTTP請求主要分為“get”和“post”方法。
2當我們在瀏覽器中輸入URL時,瀏覽器發送請求以獲取URL的HTML文件,服務器將響應文件對象發送回瀏覽器。
3.瀏覽器分析響應中的HTML,發現許多其他文件被引用,如圖像、CSS和JS文件。瀏覽器將自動再次發送請求以獲取圖像、CSS文件或JS文件。
當所有文件下載成功后,網頁將完全按照HTML語法結構顯示。

6有關url

URL是Uniform Resource Locator的簡寫,統一資源定位符。 一個URL由以下幾部分組成:

scheme://host:port/path/?query-string=xxx#anchor
  • scheme:是訪問的協議,一般為http或者https以及ftp等。
  • host:主機名,域名,比如www.CSDN.com。
  • port:端口號。當你訪問一個網站的時候,瀏覽器默認使用80端口。
  • path:查找路徑。比如:www.CSDN.com/A/B,后面的A/B就是path。
  • query-string:查詢字符串,比如:www.CSDN.com/s?wd=python,后面的wd=python就是查詢字符串。
  • anchor:錨點,后臺一般不用管,前端用來做頁面定位的。
  • 在瀏覽器中請求一個url,瀏覽器會對這個url進行一個編碼。除英文字母,數字和部分符號外,其他的全部使用百分號+十六進制碼值進行編碼。

7一般的請求方法

在HTTP協議中,向服務器發送請求。數據分為三部分。第一個是將數據放在URL中,第二個是將數據放在body中(在post請求中),第三個是將數據放在頭部(head)。以下是web爬蟲中常用的一些請求頭參數:
用戶代理(User-Agent):瀏覽器名稱。這通常用于網絡爬蟲。請求網頁時,服務器可以通過此參數知道哪個瀏覽器發送了請求。如果我們通過爬蟲發送請求,我們的用戶代理(User-Agent)是python,它可以很容易地確定您的請求是具有反爬蟲機制的網站的爬蟲。因此,我們應該經常將該值設置為某些瀏覽器的值,以偽裝我們的爬蟲。
Referer:指示當前請求來自的URL。這也可以用作反爬蟲技術。如果不是來自指定頁面,則不會做出相關響應。
Cookie:HTTP協議是無狀態的。也就是說,同一個人發送兩個請求,而服務器無法知道這兩個請求是否來自同一個人。因此,此時使用cookie作為標識。通常,如果你想成為一個只有在登錄后才能訪問的網站,你需要發送cookie信息。

8常見的狀態響應碼

200:請求正常,服務器返回數據正常。
301:永久重定向。例如,當您訪問www.A.com時,您將被重定向到www.B.com。
302:臨時重定向。例如,當您訪問一個需要登錄的頁面,而此時您沒有登錄時,您將被重定向到登錄頁面。
400:在服務器上找不到請求的URL。換句話說,請求URL是錯誤的。
403:服務器拒絕訪問,權限不足。
500:服務器內部錯誤。服務器上可能有錯誤。

總結

以上是生活随笔為你收集整理的爬虫学习笔记1:爬虫基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。