當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

四、爬虫中的urllib库使用

發布時間：2024/10/8 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了四、爬虫中的urllib库使用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這篇介紹如何使用爬蟲中的urllib庫

小試牛刀

怎樣扒網頁呢？

其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS，如果把網頁比作一個人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我們就寫個例子來扒一個網頁下來

from urllib.request import urlopenresponse = urlopen("http://www.baidu.com") print(response.read().decode())

真正的程序就兩行，執行如下命令查看運行結果，感受一下

看，這個網頁的源碼已經被我們扒下來了，是不是很酸爽？

常見到的方法

requset.urlopen(url,data,timeout)
- 第一個參數url即為URL，第二個參數data是訪問URL時要傳送的數據，第三個timeout是設置超時時間。
- 第二三個參數是可以不傳送的，data默認為空None，timeout默認為 socket._GLOBAL_DEFAULT_TIMEOUT
- 第一個參數URL是必須要傳送的，在這個例子里面我們傳送了百度的URL，執行urlopen方法之后，返回一個response對象，返回信息便保存在這里面。
respo

總結

以上是生活随笔為你收集整理的四、爬虫中的urllib库使用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。