日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 前端技术 > HTML >内容正文

HTML

抓取网页并解析HTML

發(fā)布時間:2025/4/14 HTML 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 抓取网页并解析HTML 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

http://www.lovelucy.info/python-crawl-pages.html

我覺得java太啰嗦,不夠簡潔。Python這個腳本語言開發(fā)起來速度很快,一個活生生的例子是因有關(guān)政策verycd開始自我閹割,有網(wǎng)友為了搶救資源,把整個verycd站爬了下來,鏡像為SimpleCD.org。看了一下爬蟲源代碼,其實(shí)挺簡單。使用方法:

import urllib2
content = urllib2.urlopen('http://XXXX').read()

這樣可以得到整個html文檔,關(guān)鍵的問題是我們可能需要從這個文檔中獲取我們需要的有用信息,而不是整個文檔。這就需要解析充滿了各種標(biāo)簽的html。

2. 解析html

SGMLParser

Python默認(rèn)自帶HTMLParser以及SGMLParser等等解析器,前者實(shí)在是太難用了,我就用SGMLParser寫了一個示例程序:

import urllib2
from sgmllib import SGMLParser
?
class ListName(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
?
content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')

很簡單,這里定義了一個叫做ListName的類,繼承SGMLParser里面的方法。使用一個變量is_h4做標(biāo)記判定html文件中的h4標(biāo)簽,如果遇到h4標(biāo)簽,則將標(biāo)簽內(nèi)的內(nèi)容加入到List變量name中。解釋一下start_h4()和end_h4()函數(shù),他們原型是SGMLParser中的

start_tagname(self, attrs)
end_tagname(self)

tagname就是標(biāo)簽名稱,比如當(dāng)遇到<pre>,就會調(diào)用start_pre,遇到</pre>,就會調(diào)用 end_pre。attrs為標(biāo)簽的參數(shù),以[(attribute, value), (attribute, value), ...]的形式傳回。

pyQuery

pyQuery是jQuery在python中的實(shí)現(xiàn),能夠以jQuery的語法來操作解析HTML文檔,十分方便。使用前需要安裝,easy_install pyquery即可,或者

sudoapt-get install python-pyquery

以下例子:

from pyquery import PyQuery as pyq
doc=pyq(url=r'http://list.taobao.com/browse/cat-0.htm')
cts=doc('.market-cat')
?
for i in cts:
print '====',pyq(i).find('h4').text() ,'===='
for j in pyq(i).find('.sub'):
print pyq(j).text() ,
print '\n'

BeautifulSoup

有個頭痛的問題是,大部分的網(wǎng)頁都沒有完全遵照標(biāo)準(zhǔn)來寫,各種莫名其妙的錯誤令人想要找出那個寫網(wǎng)頁的人痛打一頓。為了解決這個問題,我們可以選擇著名的BeautifulSoup來解析html文檔,它具有很好的容錯能力。

BeautifulSoup功能強(qiáng)大,我還在研究中,有進(jìn)展會更新本文。


總結(jié)

以上是生活随笔為你收集整理的抓取网页并解析HTML的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。