日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python 简单网页_Python爬虫 (一):爬取一个简单的静态网页

發布時間:2024/9/19 python 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 简单网页_Python爬虫 (一):爬取一个简单的静态网页 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

版本:python3.7

平臺:windows10

工具 :pycharm

斷斷續續學習了py3爬蟲2周左右的時間,發現自己學習的過于零散化,所以想通過這個專欄系統的整理下自己所學過的知識。如有錯誤,歡迎指出。

在學習爬蟲的時候,靜態網頁是最適合入門練手的項目。這是一個練習的網頁:http://www.pythonscraping.com/pages/page3.html

學習python最好的方式就是查看官方文檔https://docs.python.org/3/library

urllib.request是一個庫, 隸屬urllib。

我們再點擊urllib.request就會發現這條語句

urlopen 用來打開并讀取一個從網絡獲取的遠程對象。返回一個 http.client.HTTPResponse 對象, 這個對象又有各種方法, 比如我們用到的read()方法返回的網頁內容實際上是沒有被解碼或的。在read()得到內容后通過指定decode()函數參數,可以使用對應的解碼方式。

代碼如下

from urllib.request import urlopen

if __name__ == "__main__":

url = ("http://www.pythonscraping.com/pages/page3.html")

html = urlopen(url).read().decode()

print(html)

執行完畢后我們就可以通過審查元素(F12)發現html代碼已經被我們打印出來了。但是我們想要的是其中我們感興趣的數據該怎么辦?比如之想要其中的列表部分的內容。

Beautiful Soup?是一個可以從HTML或XML文件中提取數據的Python庫,主要的功能是從網頁抓取數據,相對于正則表達式來說,更簡便。它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式

Beautiful Soup的中文文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

findAll ()返回的是所有符合結果的列表,find()返回的是符合的第一個值。

代碼如下:

if __name__ == "__main__":

url = ("http://www.pythonscraping.com/pages/page3.html")

html = urlopen(url)

soup = BeautifulSoup(html,'lxml')

gifts = soup.findAll('tr',{'class':'gift'})

for gift in gifts:

print(gift.get_text())

.get_text()函數是將標簽去掉,只返回內容。

soup = BeautifulSoup(html,'lxml')默認的解析器是html.parse,這里使用的是另外一個解析器lxml解析器

經測試需要gifts = soup.findAll('tr',{'class':'gift'})這樣以字典的形式給attrs參數賦值才可以。

這篇文章就到此結束了,雖然看著很簡單,但是這才剛剛入門。有句話送給所有喜歡學習的人:仰之彌高,鉆之彌堅,努力,共勉。

ps:題外話,第一次寫專欄,B站專欄的連接只可以用站內連接嗎.......???

總結

以上是生活随笔為你收集整理的python 简单网页_Python爬虫 (一):爬取一个简单的静态网页的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。