抓取网页并解析HTML
http://www.lovelucy.info/python-crawl-pages.html
我覺得java太啰嗦,不夠簡潔。Python這個腳本語言開發(fā)起來速度很快,一個活生生的例子是因有關(guān)政策verycd開始自我閹割,有網(wǎng)友為了搶救資源,把整個verycd站爬了下來,鏡像為SimpleCD.org。看了一下爬蟲源代碼,其實(shí)挺簡單。使用方法:
import urllib2
content = urllib2.urlopen('http://XXXX').read()
這樣可以得到整個html文檔,關(guān)鍵的問題是我們可能需要從這個文檔中獲取我們需要的有用信息,而不是整個文檔。這就需要解析充滿了各種標(biāo)簽的html。
2. 解析html
SGMLParser
Python默認(rèn)自帶HTMLParser以及SGMLParser等等解析器,前者實(shí)在是太難用了,我就用SGMLParser寫了一個示例程序:
import urllib2
from sgmllib import SGMLParser
?
class ListName(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
?
content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')
很簡單,這里定義了一個叫做ListName的類,繼承SGMLParser里面的方法。使用一個變量is_h4做標(biāo)記判定html文件中的h4標(biāo)簽,如果遇到h4標(biāo)簽,則將標(biāo)簽內(nèi)的內(nèi)容加入到List變量name中。解釋一下start_h4()和end_h4()函數(shù),他們原型是SGMLParser中的
start_tagname(self, attrs)
end_tagname(self)
tagname就是標(biāo)簽名稱,比如當(dāng)遇到<pre>,就會調(diào)用start_pre,遇到</pre>,就會調(diào)用 end_pre。attrs為標(biāo)簽的參數(shù),以[(attribute, value), (attribute, value), ...]的形式傳回。
pyQuery
pyQuery是jQuery在python中的實(shí)現(xiàn),能夠以jQuery的語法來操作解析HTML文檔,十分方便。使用前需要安裝,easy_install pyquery即可,或者
sudoapt-get install python-pyquery
以下例子:
from pyquery import PyQuery as pyqdoc=pyq(url=r'http://list.taobao.com/browse/cat-0.htm')
cts=doc('.market-cat')
?
for i in cts:
print '====',pyq(i).find('h4').text() ,'===='
for j in pyq(i).find('.sub'):
print pyq(j).text() ,
print '\n'
BeautifulSoup
有個頭痛的問題是,大部分的網(wǎng)頁都沒有完全遵照標(biāo)準(zhǔn)來寫,各種莫名其妙的錯誤令人想要找出那個寫網(wǎng)頁的人痛打一頓。為了解決這個問題,我們可以選擇著名的BeautifulSoup來解析html文檔,它具有很好的容錯能力。
BeautifulSoup功能強(qiáng)大,我還在研究中,有進(jìn)展會更新本文。
總結(jié)
以上是生活随笔為你收集整理的抓取网页并解析HTML的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java追加写文件
- 下一篇: {HTML5}JQueryMobile页