當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网络爬虫学习1 - 使用 requests.get(url) 抓取网页

發布時間：2023/12/20 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了网络爬虫学习1 - 使用 requests.get(url) 抓取网页小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

網絡爬蟲MOOC學習打卡 - 第一天

文章目錄

網絡爬蟲MOOC學習打卡 - 第一天
一、使用 requests.get(url) 抓取網頁
- 1.從cmd中打開idle
- 2.調用requests類 —— import requests
總結

一、使用 requests.get(url) 抓取網頁

1.從cmd中打開idle

2.調用requests類 —— import requests

requests.get(url) 是用來抓取網頁信息的

知識點一：
1.調用requests
2.使用 get()方法抓取百度的主頁信息
3.使用 r.text用來輸出抓取的信息

代碼如下：

# 調用requests import requests# 使用 get()方法抓取百度的主頁信息 r = requests.get(https://www.baidu.com) # 使用 r.text用來輸出抓取的信息 r.text

這里有需要注意的地方：在輸入url的時候，如果不輸入http://則會報錯。

知識點二：
1.輸出內容的編碼格式
2.默認編碼 r.encoding
3.更精準的編碼 r.apparent_encoding

可以發現網頁的內容有沒有編寫成中文的地方，所以我們可以自己分析一下真正的編碼是什么
1.估計查詢：r.encoding
2.更精準查詢（但是也不是完全正確的）：r.apparent_encoding

代碼如下：

# 默認編碼（是從頭文件中分析得來的）： r.encoding# 更精準查詢（但是也不是完全正確的，是從內容分析中得來的）： r.apparent_encoding

所以我們可以更改編碼方式：
我們用分析更準確的編碼方式賦予r.encoding，這樣得到的信息就是我們想要的了 —— 從亂碼到中文

代碼如下：

# 把r.apparent_encoding的編碼格式賦予r.encoding r.encoding = r.apparent_encoding# 這次再輸出抓取的內容吧 r.text

結果如下：

不難看到，中文出現了！因為我們把編碼格式從 ISO-8859-1 改成了 utf-8

知識點三：
1.狀態碼

“今天你連接成功了么？”

# 返回結果是 200 ，success # 返回結果為 404 或其他，fault r.status_code

總結

沒什么總結的。。放松一下讀讀詩吧

贈衛八處士杜甫
人生不相見，動如參與商。今夕復何夕，共此燈燭光。
少壯能幾時，鬢發各已蒼。訪舊半為鬼，驚呼熱中腸。
焉知二十載，重上君子堂。昔別君未婚，兒女忽成行。
怡然敬父執，問我來何方。問答乃未已，驅兒羅酒漿。
夜雨剪春韭，新炊間黃粱。主稱會面難，一舉累十觴。
十觴亦不醉，感子故意長。明日隔山岳，世事兩茫茫。

總結

以上是生活随笔為你收集整理的网络爬虫学习1 - 使用 requests.get(url) 抓取网页的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：如何给LattePanda重装系统
下一篇：纯css画三角形/梯形（兼容ie6）