當(dāng)前位置：首頁 > 前端技术 > HTML >内容正文

HTML

抓取网页并解析HTML

發(fā)布時間：2025/4/14 HTML 25 豆豆

生活随笔收集整理的這篇文章主要介紹了抓取网页并解析HTML 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

http://www.lovelucy.info/python-crawl-pages.html

我覺得java太啰嗦，不夠簡潔。Python這個腳本語言開發(fā)起來速度很快，一個活生生的例子是因有關(guān)政策verycd開始自我閹割，有網(wǎng)友為了搶救資源，把整個verycd站爬了下來，鏡像為SimpleCD.org。看了一下爬蟲源代碼，其實(shí)挺簡單。使用方法：

import urllib2
content = urllib2.urlopen('http://XXXX').read()

這樣可以得到整個html文檔，關(guān)鍵的問題是我們可能需要從這個文檔中獲取我們需要的有用信息，而不是整個文檔。這就需要解析充滿了各種標(biāo)簽的html。

2. 解析html

SGMLParser

Python默認(rèn)自帶HTMLParser以及SGMLParser等等解析器，前者實(shí)在是太難用了，我就用SGMLParser寫了一個示例程序：

import urllib2
from sgmllib import SGMLParser
?
class ListName(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
?
content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')

很簡單，這里定義了一個叫做ListName的類，繼承SGMLParser里面的方法。使用一個變量is_h4做標(biāo)記判定html文件中的h4標(biāo)簽，如果遇到h4標(biāo)簽，則將標(biāo)簽內(nèi)的內(nèi)容加入到List變量name中。解釋一下start_h4()和end_h4()函數(shù)，他們原型是SGMLParser中的

start_tagname(self, attrs)
end_tagname(self)

tagname就是標(biāo)簽名稱，比如當(dāng)遇到<pre>，就會調(diào)用start_pre，遇到</pre>，就會調(diào)用 end_pre。attrs為標(biāo)簽的參數(shù)，以[(attribute, value), (attribute, value), ...]的形式傳回。

pyQuery

pyQuery是jQuery在python中的實(shí)現(xiàn)，能夠以jQuery的語法來操作解析HTML文檔，十分方便。使用前需要安裝，easy_install pyquery即可，或者

sudoapt-get install python-pyquery

以下例子：

from pyquery import PyQuery as pyq
doc=pyq(url=r'http://list.taobao.com/browse/cat-0.htm')
cts=doc('.market-cat')
?
for i in cts:
print '====',pyq(i).find('h4').text() ,'===='
for j in pyq(i).find('.sub'):
print pyq(j).text() ,
print '\n'

BeautifulSoup

有個頭痛的問題是，大部分的網(wǎng)頁都沒有完全遵照標(biāo)準(zhǔn)來寫，各種莫名其妙的錯誤令人想要找出那個寫網(wǎng)頁的人痛打一頓。為了解決這個問題，我們可以選擇著名的BeautifulSoup來解析html文檔，它具有很好的容錯能力。

BeautifulSoup功能強(qiáng)大，我還在研究中，有進(jìn)展會更新本文。

總結(jié)

以上是生活随笔為你收集整理的抓取网页并解析HTML的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

html
网页

上一篇： java追加写文件
下一篇： {HTML5}JQueryMobile页