日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫脚本ie=utf-8_Python反爬虫伪装浏览器进行爬虫

發布時間:2023/12/10 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫脚本ie=utf-8_Python反爬虫伪装浏览器进行爬虫 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

對于爬蟲中部分網站設置了請求次數過多后會封殺ip,現在模擬瀏覽器進行爬蟲,也就是說讓服務器認識到訪問他的是真正的瀏覽器而不是機器操作

簡單的直接添加請求頭,將瀏覽器的信息在請求數據時傳入:

打開瀏覽器--打開開發者模式--請求任意網站

如下圖:找到請求的的名字,打開后查看headers欄,找到User-Agent,復制。然后添加到請求頭中

代碼如下:

import requests

url = 'https://www.baidu.com'

headers ={

'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) '

'Chrome/65.0.3325.181 Safari/537.36'

}

rq = requests.get(url=url, headers=headers)

print(rq.text)

更深的偽裝瀏覽器,添加多個瀏覽器信息,每次請求的時候隨機發送瀏覽器信息,讓服務器了解不是一個瀏覽器一直在訪問,(可以百度查找user-agent)

代碼如下:

import requests

import random

url = 'https://www.baidu.com'

headers_lists =(

'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) '

'Chrome/65.0.3325.181 Safari/537.36',

'Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Maxthon2.0',

'Opera/9.80(Android2.3.4;Linux;Operamobi/adr-1107051709;U;zh-cn)Presto/2.8.149Version/11.10',

'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1',

'Mozilla/5.0(Android;Linuxarmv7l;rv:5.0)Gecko/Firefox/5.0fennec/5.0',)

rq = requests.get(url=url,headers={'User-Agent':random.choice(headers_lists)})

print(rq.text)

完整的請求體解釋:

以下是筆者訪問百度的請求體。

Accept:瀏覽器端可以接受的媒體類型

Accept-Encoding:瀏覽器申明自己接收的編碼方法

Accept-Language:瀏覽器申明自己接收的語言

Connection:keep-alive 客戶端和服務器之間還在連接中,如果關閉就是close

Host:請求報頭域主要用于指定被請求資源的Internet主機和端口號

User-Agent:使用的操作系統和瀏覽器的名稱和版本

Cookie:是用來存儲一些用戶信息以便讓服務器辨別用戶身份的

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

總結

以上是生活随笔為你收集整理的python爬虫脚本ie=utf-8_Python反爬虫伪装浏览器进行爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。