python的Requests库的使用
Requests模塊:
Requests 是用Python語言編寫,基于 urllib,采用 Apache2 Licensed 開源協議的 HTTP 庫。它比 urllib 更加方便,可以節約我們大量的工作,完全滿足 HTTP 測試需求。Requests 的哲學是以 PEP 20 的習語為中心開發的,所以它比 urllib 更加Pythoner。更重要的是它支持 Python3!
1.安裝:
pip install requests
2.Requests 簡便的API意味著所有HTTP請求類型都支持:
r = requests.put("http://httpbin.org/put")
r = requests.delete("http://httpbin.org/delete")
r = requests.head("http://httpbin.org/get")
r = requests.options("http://httpbin.org/get")
3.傳遞URL參數:
①:
>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.get("http://httpbin.org/get", params=payload)
>>> print(r.url)
輸出:http://httpbin.org/get?key2=value2&key1=value1 #通過打印輸出該 URL,你能看到URL已被正確編碼 ②:
>>> payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
>>> r = requests.get('http://httpbin.org/get', params=payload)
>>> print(r.url)
輸出:http://httpbin.org/get?key1=value1&key2=value2&key2=value3
4.編碼:
你可以找出 Requests 使用了什么編碼,并且能夠使用 r.encoding 屬性來改變它
resopnse = requests.get("http://www.baidu.com")
>>> r.encoding
'ISO-8859-1'
>>> r.encoding = 'utf-8'
5.解析JSON:
Requests 中也有一個內置的 JSON 解碼器,助你處理 JSON 數據:
>>> r = requests.get('https://github.com/timeline.json')
>>> r.json()
{'message': 'Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this。。。
注意:如果 JSON 解碼失敗, r.json() 就會拋出一個異常。例如,響應內容是 401 (Unauthorized),嘗試訪問 r.json() 將會拋出 ValueError: No JSON object could be decoded 異常。需要注意的是,成功調用 r.json() 并**不**意味著響應的成功。有的服務器會在失敗的響應中包含一個 JSON 對象(比如 HTTP 500 的錯誤細節)。這種 JSON 會被解碼返回。要檢查請求是否成功,請使用 r.raise_for_status() 或者檢查 r.status_code 是否和你的期望相同。
6.獲取http響應碼/響應狀態:
>>> r = requests.get('https://github.com/timeline.json')
>>> r.status_code
410 #響應碼
7.請求頭定制:
如果你想為請求添加 HTTP 頭部,只要簡單地傳遞一個 dict 給 headers 參數就可以了。
url = 'https://api.github.com/some/endpoint'
headers = {'user-agent': 'my-app/0.0.1'}
r = requests.get(url, headers=headers)
8.更加復雜的 POST 請求:
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)
print(r.text)
輸出:
{
...
"form": {
"key2": "value2",
"key1": "value1"
},
...
}
你還可以為 data 參數傳入一個元組列表。在表單中多個元素使用同一 key 的時候,這種方式尤其有效:
>>> payload = (('key1', 'value1'), ('key1', 'value2'))
>>> r = requests.post('http://httpbin.org/post', data=payload)
>>> print(r.text)
{
...
"form": {
"key1": [
"value1",
"value2"
]
},
...
}
很多時候你想要發送的數據并非編碼為表單形式的。如果你傳遞一個 string 而不是一個 dict,那么數據會被直接發布出去。
>>> import json
>>> url = 'https://api.github.com/some/endpoint'
>>> payload = {'some': 'data'}
>>> r = requests.post(url, data=json.dumps(payload))
9.獲取響應頭:
r = requests.get("http://www.xxx.com")
>>> r.headers
{
'content-encoding': 'gzip',
'transfer-encoding': 'chunked',
'connection': 'close',
'server': 'nginx/1.0.4',
'x-runtime': '148ms',
'etag': '"e1ca502697e5c9317743dc078f67693f"',
'content-type': 'application/json'
>>>r.headers['content-encoding']
>>>r.headers.get('content-encoding') #這種方法不會報錯
10.Cookies:
如果某個響應中包含一些 cookie,你可以快速訪問它們:
url = 'http://example.com/some/cookie/setting/url'
r = requests.get(url)
r.cookies['example_cookie_name']
輸出:'example_cookie_value'
要想發送你的cookies到服務器,可以使用 cookies 參數:
url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
r = requests.get(url, cookies=cookies)
r.text
輸出:'{"cookies": {"cookies_are": "working"}}'
11.超時:
你可以告訴 requests 在經過以 timeout 參數設定的秒數時間之后停止等待響應。基本上所有的生產代碼都應該使用這一參數。
如果不使用,你的程序可能會永遠失去響應:
>>> requests.get('http://github.com', timeout=0.001)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)
注意:timeout 僅對連接過程有效,與響應體的下載無關。 timeout 并不是整個下載響應的時間限制,而是如果服務器在timeout 秒內沒有應答,將會引發一個異常(更精確地說,是在 timeout 秒內沒有從基礎套接字上接收到任何字節的數據時)If no timeout is specified explicitly, requests do not time out.
12.錯誤與異常:
①遇到網絡問題(如:DNS 查詢失敗、拒絕連接等)時,Requests 會拋出一個 ConnectionError 異常。
②如果 HTTP 請求返回了不成功的狀態碼, Response.raise_for_status() 會拋出一個 HTTPError 異常。
③若請求超時,則拋出一個 Timeout 異常。
④若請求超過了設定的最大重定向次數,則會拋出一個 TooManyRedirects 異常。
⑤所有Requests顯式拋出的異常都繼承自 requests.exceptions.RequestException 。
Requests的Cookies文檔
這里有一篇關于cookie和session詳解的文章挺不錯的!
13.Session會話對象:
在以上的請求中,每次請求其實都相當于發起了一個新的請求。也就是相當于我們每個請求都用了不同的瀏覽器單獨打開的效果。也就是它并不是指的一個會話,即使請求的是同一個網址。比如:
import requests
requests.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = requests.get("http://httpbin.org/cookies")
print(r.text)
結果是:
{
"cookies": {}
}
很明顯,這不在一個會話中,無法獲取 cookies,那么在一些站點中,我們需要保持一個持久的會話怎么辦呢?就像用一個瀏覽器逛淘寶一樣,在不同的選項卡之間跳轉,這樣其實就是建立了一個長久會話。
解決方案如下:
import requests
s = requests.Session()
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')
r = s.get("http://httpbin.org/cookies")
print(r.text)
在這里我們請求了兩次,一次是設置 cookies,一次是獲得 cookies
運行結果:
{
"cookies": {
"sessioncookie": "123456789"
}
}
發現可以成功獲取到 cookies 了,這就是建立一個會話到作用。體會一下。
那么既然會話是一個全局的變量,那么我們肯定可以用來全局的配置了。
import requests
s = requests.Session()
s.headers.update({'x-test': 'true'})
r = s.get('http://httpbin.org/headers', headers={'x-test2': 'true'})
print r.text
通過 s.headers.update 方法設置了 headers 的變量。然后我們又在請求中設置了一個 headers,那么會出現什么結果?
很簡單,兩個變量都傳送過去了。
運行結果:
{
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.9.1",
"X-Test": "true",
"X-Test2": "true"
}
}
如果get方法傳的headers 同樣也是 x-test 呢?
r = s.get('http://httpbin.org/headers', headers={'x-test': 'true'})
1
r = s.get('http://httpbin.org/headers', headers={'x-test': 'true'})
它會覆蓋掉全局的配置
{
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.9.1",
"X-Test": "true"
}
}
那如果不想要全局配置中的一個變量了呢?很簡單,設置為 None 即可
r = s.get('http://httpbin.org/headers', headers={'x-test': None})
運行結果:
{
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.9.1"
}
}
Requests的Session文檔
14.代理:
如果需要使用代理,你可以通過為任意請求方法提供 proxies 參數來配置單個請求
import requests
proxies = {
"https": "http://41.118.132.69:4433"
}
r = requests.post("http://httpbin.org/post", proxies=proxies)
print r.text
也可以通過環境變量 HTTP_PROXY 和 HTTPS_PROXY 來配置代理
export HTTP_PROXY="http://10.10.1.10:3128"
export HTTPS_PROXY="http://10.10.1.10:1080"
簡單實例:
import requests
html = requests.get("https://www.baidu.comindex.php?tn=monline_3_dg")
print(html.text) #返回的是Unicode型的數據。
print(html.content) #返回的是bytes型也就是二進制的數據。
print(html.status_code) #返回http狀態碼
print(html.cookies) #返回cookie
print(html.headers) #返回http頭信息
print(html.url) #返回請求的url地址
附:
①Requests的text和content的區別:
resp.text返回的是Unicode型的數據。
resp.content返回的是bytes型也就是二進制的數據。
也就是說,如果你想取文本,可以通過r.text。
如果想取圖片,文件,則可以通過r.content。
②編碼問題:
不論使用urllib還是使用requests庫經常會遇到中文編碼錯誤的問題,我就經常遇到,因為python安裝在windows平臺上,cmd的默認編碼為GBK,所以在cmd中顯示中文時會經常提示gbk編碼錯誤,后來找到了貼在,完美的解決了該問題,下面我分享給大家:
UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte sequence
在cmd中我們輸出data.read()時,中文亂碼,大部分時候是因為print函數,其實print()函數的局限就是Python默認編碼的局限,因為系統是win7的,python的默認編碼不是'utf-8',改一下python的默認編碼成'utf-8'就行了,sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改變標準輸出的默認編碼
可以看到該語句修改了python的默認編碼為utf8,并賦予了我們的stdout輸出,使得python的輸出默認編碼為utf8,但是當我們在cmd中輸出還是中文亂碼,這是cmd的鍋,cmd不能很好地兼容utf8,而IDLE就可以,甚至在IDLE下運行,連“改變標準輸出的默認編碼”都不用,因為它默認就是utf8。如果一定要在cmd下運行,那就改一下編碼,比如我換成“gb18030”,就能正常顯示了:
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改變標準輸出的默認編碼
data.decode('utf8')完美解決。
Requets文檔
總結
以上是生活随笔為你收集整理的python的Requests库的使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ACM公选第六节下DP基础(当复习了)2
- 下一篇: websocket python爬虫_p