日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网络爬虫学习1 - 使用 requests.get(url) 抓取网页

發布時間:2023/12/20 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 网络爬虫学习1 - 使用 requests.get(url) 抓取网页 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

網絡爬蟲MOOC學習打卡 - 第一天

文章目錄

  • 網絡爬蟲MOOC學習打卡 - 第一天
  • 一、使用 requests.get(url) 抓取網頁
    • 1.從cmd中打開idle
    • 2.調用requests類 —— import requests
  • 總結


一、使用 requests.get(url) 抓取網頁

1.從cmd中打開idle

2.調用requests類 —— import requests

requests.get(url) 是用來抓取網頁信息的

知識點一:
1.調用requests
2.使用 get()方法抓取百度的主頁信息
3.使用 r.text用來輸出抓取的信息

代碼如下:

# 調用requests import requests# 使用 get()方法抓取百度的主頁信息 r = requests.get(https://www.baidu.com) # 使用 r.text用來輸出抓取的信息 r.text

這里有需要注意的地方:在輸入url的時候,如果不輸入http://則會報錯。

知識點二:
1.輸出內容的編碼格式
2.默認編碼 r.encoding
3.更精準的編碼 r.apparent_encoding

可以發現網頁的內容有沒有編寫成中文的地方,所以我們可以自己分析一下真正的編碼是什么
1.估計查詢:r.encoding
2.更精準查詢(但是也不是完全正確的):r.apparent_encoding

代碼如下:

# 默認編碼(是從頭文件中分析得來的): r.encoding# 更精準查詢(但是也不是完全正確的,是從內容分析中得來的): r.apparent_encoding

所以我們可以更改編碼方式:
我們用分析更準確的編碼方式賦予r.encoding,這樣得到的信息就是我們想要的了 —— 從亂碼到中文

代碼如下:

# 把r.apparent_encoding的編碼格式賦予r.encoding r.encoding = r.apparent_encoding# 這次再輸出抓取的內容吧 r.text

結果如下:

不難看到,中文出現了!因為我們把編碼格式從 ISO-8859-1 改成了 utf-8

知識點三:
1.狀態碼

“今天你連接成功了么?”

# 返回結果是 200 ,success # 返回結果為 404 或其他 ,fault r.status_code

總結

沒什么總結的。。放松一下讀讀詩吧

贈衛八處士 杜甫
人生不相見,動如參與商。今夕復何夕,共此燈燭光。
少壯能幾時,鬢發各已蒼。訪舊半為鬼,驚呼熱中腸。
焉知二十載,重上君子堂。昔別君未婚,兒女忽成行。
怡然敬父執,問我來何方。問答乃未已,驅兒羅酒漿。
夜雨剪春韭,新炊間黃粱。主稱會面難,一舉累十觴。
十觴亦不醉,感子故意長。明日隔山岳,世事兩茫茫。

總結

以上是生活随笔為你收集整理的网络爬虫学习1 - 使用 requests.get(url) 抓取网页的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。