當前位置：首頁 > 编程语言 > python >内容正文

python

python 简单网页_Python爬虫（一）：爬取一个简单的静态网页

發布時間：2024/9/19 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 python 简单网页_Python爬虫（一）：爬取一个简单的静态网页小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

版本：python3.7

平臺：windows10

工具：pycharm

斷斷續續學習了py3爬蟲2周左右的時間，發現自己學習的過于零散化，所以想通過這個專欄系統的整理下自己所學過的知識。如有錯誤，歡迎指出。

在學習爬蟲的時候，靜態網頁是最適合入門練手的項目。這是一個練習的網頁:http://www.pythonscraping.com/pages/page3.html

學習python最好的方式就是查看官方文檔https://docs.python.org/3/library

urllib.request是一個庫, 隸屬urllib。

我們再點擊urllib.request就會發現這條語句

urlopen 用來打開并讀取一個從網絡獲取的遠程對象。返回一個 http.client.HTTPResponse 對象, 這個對象又有各種方法, 比如我們用到的read()方法返回的網頁內容實際上是沒有被解碼或的。在read()得到內容后通過指定decode()函數參數，可以使用對應的解碼方式。

代碼如下

from urllib.request import urlopen

if __name__ == "__main__":

url = ("http://www.pythonscraping.com/pages/page3.html")

html = urlopen(url).read().decode()

print(html)

執行完畢后我們就可以通過審查元素（F12）發現html代碼已經被我們打印出來了。但是我們想要的是其中我們感興趣的數據該怎么辦？比如之想要其中的列表部分的內容。

Beautiful Soup?是一個可以從HTML或XML文件中提取數據的Python庫，主要的功能是從網頁抓取數據，相對于正則表達式來說，更簡便。它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式

Beautiful Soup的中文文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

findAll ()返回的是所有符合結果的列表，find()返回的是符合的第一個值。

代碼如下：

if __name__ == "__main__":

url = ("http://www.pythonscraping.com/pages/page3.html")

html = urlopen(url)

soup = BeautifulSoup(html,'lxml')

gifts = soup.findAll('tr',{'class':'gift'})

for gift in gifts:

print(gift.get_text())

.get_text()函數是將標簽去掉，只返回內容。

soup = BeautifulSoup(html,'lxml')默認的解析器是html.parse,這里使用的是另外一個解析器lxml解析器

經測試需要gifts = soup.findAll('tr',{'class':'gift'})這樣以字典的形式給attrs參數賦值才可以。

這篇文章就到此結束了，雖然看著很簡單，但是這才剛剛入門。有句話送給所有喜歡學習的人：仰之彌高，鉆之彌堅，努力，共勉。

ps:題外話,第一次寫專欄，B站專欄的連接只可以用站內連接嗎.......？？？

以上是生活随笔為你收集整理的python 简单网页_Python爬虫（一）：爬取一个简单的静态网页的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。