python登录网页_Python如何爬取需要登录的页面
用Cookies保存登錄狀態實現部分反反爬機制
使用cookies:直接將cookies信息放入到headers中
直接封裝cookies? ? ,然后requests.請求(cookies = {? })
使用session信息保持用戶登錄
2.
cookie是用來保存用戶狀態信息的,頁面和頁面直接不能共享
session用來在瀏覽器上保存cookie,并且session可以在同一域名下共享使用
session的意義:可以保持用戶的登錄會話
requests.請求方式()不帶任何訪問記錄請求
requests.session().請求方式() 可以將瀏覽器產生的cookies信息保存在爬蟲的session
#1.先創建一個session()機制
#2.需要登錄網站的鏈接
#3.把里面的data,和headers都拿進來
import requests
s = requests.session()
url = 'http://www.renren.com/ajaxLogin/login'
data = {
'email': '***', ?#用自己的登錄信息
'icode':'',
'origURL': 'http://www.renren.com/home',
'domain': 'renren.com',
'key_id': '1',
'captcha_type': 'web_login',
'password': '****',
'rkey': '0323aa4e9d1115b71c099a62a9c266da',
'f':''
}
headers = {
'Host': 'www.renren.com',
'Origin': 'http://www.renren.com',
'Referer': 'http://www.renren.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/555.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/555.36',
'X-Requested-With': 'XMLHttpRequest'
}
response = s.post(url=url,data=data,headers=headers) # 參數cookies自動保存在session
print(response.text)
url1 = "http://www.renren.com/972994466/profile" # 進入后的網頁地址
headers = {
'Host': 'www.renren.com',
'Origin': 'http://www.renren.com',
'Referer': 'http://www.renren.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/555.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/555.36'
}
response1 = s.get(url=url1,headers=headers)
print(response1.text)
總結
以上是生活随笔為你收集整理的python登录网页_Python如何爬取需要登录的页面的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IA32中栈帧结构图
- 下一篇: python 可执行文件_python调