當前位置：首頁 > 编程语言 > python >内容正文

python

python正则匹配html标签_Python正则获取、过滤或者替换HTML标签的方法

發布時間：2023/12/10 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 python正则匹配html标签_Python正则获取、过滤或者替换HTML标签的方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文實例介紹了Python通過正則表達式獲取,去除(過濾)或者替換HTML標簽的幾種方法，具體內容如下

python正則表達式關鍵內容:

python正則表達式轉義符:

. 匹配除換行符以外的任意字符

\w 匹配字母或數字或下劃線或漢字

\s 匹配任意的空白符

\d 匹配數字

\b 匹配單詞的開始或結束

^ 匹配字符串的開始

$ 匹配字符串的結束

\W 匹配任意不是字母，數字，下劃線，漢字的字符

\S 匹配任意不是空白符的字符

\D 匹配任意非數字的字符

\B 匹配不是單詞開頭或結束的位置

[^x] 匹配除了x以外的任意字符

[^aeiou] 匹配除了aeiou這幾個字母以外的任意字符

常用的python正則表達式限定符代碼/語法說明:

*重復零次或更多次

+重復一次或更多次

?重復零次或一次

{n}重復n次

{n,}重復n次或更多次

{n,m}重復n到m次

關于python正則表達式命名組:

命名組:(?P

.....)

這篇文章里面還提到了界定( 問號開頭,前向則有個'

前向界定 (?<=…)

后向界定 (?=…)

前向非界定 (?')

print p.sub("", html)

Python通過正則表達式取html中溫度信息代碼示例:

#!/usr/bin/env python

#-*- coding: utf8 -*-

import re

html = """

14℃

"""

if __name__ == '__main__':

p = re.compile(']+>')

print p.sub("", html)

2、Python通過正則表達式去除(過濾)HTML標簽示例代碼:

# -*- coding: utf-8-*-

import re

##過濾HTML中的標簽

#將HTML中標簽等信息去掉

#@param htmlstr HTML字符串.

def filter_tags(htmlstr):

#先過濾CDATA

re_cdata=re.compile('//]*//\]\]>',re.I) #匹配CDATA

re_script=re.compile(']*>[^',re.I)#Script

re_style=re.compile(']*>[^',re.I)#style

re_br=re.compile('

')#處理換行

re_h=re.compile(']*>')#HTML標簽

re_comment=re.compile('

')#HTML注釋

s=re_cdata.sub('',htmlstr)#去掉CDATA

s=re_script.sub('',s) #去掉SCRIPT

s=re_style.sub('',s)#去掉style

s=re_br.sub('\n',s)#將br轉換為換行

s=re_h.sub('',s) #去掉HTML 標簽

s=re_comment.sub('',s)#去掉HTML注釋

#去掉多余的空行

blank_line=re.compile('\n+')

s=blank_line.sub('\n',s)

s=replaceCharEntity(s)#替換實體

return s

##替換常用HTML字符實體.

#使用正常的字符替換HTML中特殊的字符實體.

#你可以添加新的實體字符到CHAR_ENTITIES中,處理更多HTML字符實體.

#@param htmlstr HTML字符串.

def replaceCharEntity(htmlstr):

CHAR_ENTITIES={'nbsp':' ','160':' ',

'lt':'

'gt':'>','62':'>',

'amp':'&','38':'&',

'quot':'"','34':'"',}

re_charEntity=re.compile(r'?(?P

\w+);')

sz=re_charEntity.search(htmlstr)

while sz:

entity=sz.group()#entity全稱，如>

key=sz.group('name')#去除&;后entity,如>為gt

try:

htmlstr=re_charEntity.sub(CHAR_ENTITIES[key],htmlstr,1)

sz=re_charEntity.search(htmlstr)

except KeyError:

#以空串代替

htmlstr=re_charEntity.sub('',htmlstr,1)

sz=re_charEntity.search(htmlstr)

return htmlstr

def repalce(s,re_exp,repl_string):

return re_exp.sub(repl_string,s)

if __name__=='__main__':

s=file('169it.com_index.htm').read()

news=filter_tags(s)

print news

以上就是本文的全部內容，希望對大家的學習有所幫助。

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的python正则匹配html标签_Python正则获取、过滤或者替换HTML标签的方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python爬虫ip限制_简单爬虫，突破
下一篇： OPPO首款智能声波牙刷发布：首发199