四、爬虫中的urllib库使用
生活随笔
收集整理的這篇文章主要介紹了
四、爬虫中的urllib库使用
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
這篇介紹如何使用爬蟲中的urllib庫
小試牛刀
怎樣扒網頁呢?
其實就是根據URL來獲取它的網頁信息,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段HTML代碼,加 JS、CSS,如果把網頁比作一個人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我們就寫個例子來扒一個網頁下來
from urllib.request import urlopenresponse = urlopen("http://www.baidu.com") print(response.read().decode())真正的程序就兩行,執行如下命令查看運行結果,感受一下
看,這個網頁的源碼已經被我們扒下來了,是不是很酸爽?
常見到的方法
-
requset.urlopen(url,data,timeout)
-
第一個參數url即為URL,第二個參數data是訪問URL時要傳送的數據,第三個timeout是設置超時時間。
-
第二三個參數是可以不傳送的,data默認為空None,timeout默認為 socket._GLOBAL_DEFAULT_TIMEOUT
-
第一個參數URL是必須要傳送的,在這個例子里面我們傳送了百度的URL,執行urlopen方法之后,返回一個response對象,返回信息便保存在這里面。
-
-
respo
總結
以上是生活随笔為你收集整理的四、爬虫中的urllib库使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 广电运通属于什么板块
- 下一篇: 五、Requests库详细的用法