网络爬虫学习1 - 使用 requests.get(url) 抓取网页
網絡爬蟲MOOC學習打卡 - 第一天
文章目錄
- 網絡爬蟲MOOC學習打卡 - 第一天
- 一、使用 requests.get(url) 抓取網頁
- 1.從cmd中打開idle
- 2.調用requests類 —— import requests
- 總結
一、使用 requests.get(url) 抓取網頁
1.從cmd中打開idle
2.調用requests類 —— import requests
requests.get(url) 是用來抓取網頁信息的
知識點一:
1.調用requests
2.使用 get()方法抓取百度的主頁信息
3.使用 r.text用來輸出抓取的信息
代碼如下:
# 調用requests import requests# 使用 get()方法抓取百度的主頁信息 r = requests.get(https://www.baidu.com) # 使用 r.text用來輸出抓取的信息 r.text這里有需要注意的地方:在輸入url的時候,如果不輸入http://則會報錯。
知識點二:
1.輸出內容的編碼格式
2.默認編碼 r.encoding
3.更精準的編碼 r.apparent_encoding
可以發現網頁的內容有沒有編寫成中文的地方,所以我們可以自己分析一下真正的編碼是什么
1.估計查詢:r.encoding
2.更精準查詢(但是也不是完全正確的):r.apparent_encoding
代碼如下:
# 默認編碼(是從頭文件中分析得來的): r.encoding# 更精準查詢(但是也不是完全正確的,是從內容分析中得來的): r.apparent_encoding所以我們可以更改編碼方式:
我們用分析更準確的編碼方式賦予r.encoding,這樣得到的信息就是我們想要的了 —— 從亂碼到中文
代碼如下:
# 把r.apparent_encoding的編碼格式賦予r.encoding r.encoding = r.apparent_encoding# 這次再輸出抓取的內容吧 r.text結果如下:
不難看到,中文出現了!因為我們把編碼格式從 ISO-8859-1 改成了 utf-8
知識點三:
1.狀態碼
“今天你連接成功了么?”
# 返回結果是 200 ,success # 返回結果為 404 或其他 ,fault r.status_code總結
沒什么總結的。。放松一下讀讀詩吧
贈衛八處士 杜甫
人生不相見,動如參與商。今夕復何夕,共此燈燭光。
少壯能幾時,鬢發各已蒼。訪舊半為鬼,驚呼熱中腸。
焉知二十載,重上君子堂。昔別君未婚,兒女忽成行。
怡然敬父執,問我來何方。問答乃未已,驅兒羅酒漿。
夜雨剪春韭,新炊間黃粱。主稱會面難,一舉累十觴。
十觴亦不醉,感子故意長。明日隔山岳,世事兩茫茫。
總結
以上是生活随笔為你收集整理的网络爬虫学习1 - 使用 requests.get(url) 抓取网页的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何给LattePanda重装系统
- 下一篇: 纯css画三角形/梯形(兼容ie6)