日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

爬虫4-正则表达式及Python的re模块

發布時間:2025/3/15 python 14 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫4-正则表达式及Python的re模块 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

正則表達式語法:

# -*- coding: utf-8 -*-
元字符:具有固定含義的特殊符號
常用元字符:(一般一次匹配一個字符)
. 匹配除換行符以外的任意字符
\w 匹配字母數字或下劃線
\s 匹配任意的空白符
\n 匹配一個換行符
\t 匹配一個制表符

^ 匹配字符串的開始
$ 匹配字符串的結尾

\W 匹配非字符或數字或下劃線
\D 匹配非數字
\S 匹配非空白符
a|b 匹配字符a或字符b
() 匹配括號內的表達式,也表示一個組
[...] 匹配字符組中的字符
[^...] 匹配除了字符組中字符的所有字符

量詞:控制前面的元字符出現的次數

\d* 重復零次或更多次
+ 重復一次或更多次
? 重復零次或一次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次

貪婪匹配和惰性匹配
.* ?貪婪匹配
.*? 惰性匹配 ?匹配最少

# -*- coding: utf-8 -*- """ Created on Tue Apr 20 23:10:49 2021@author: WLH """ import re# findall 匹配字符串中所有的符合正則的內容 返回的是列表 ''' lst = re.findall("\d+", "我的電話號是10086") print(lst) #['10086'] lst = re.findall("\d+", "我的電話號是10086,我朋友電話號是10010") print(lst) #['10086', '10010'] '''# finditer 匹配字符串中所有的內容 返回的是迭代器 ''' it = re.finditer("\d+", "我的電話號是10086,我朋友電話號是10010") # for i in it: # print(i) for i in it:print(i.group()) #輸出結果 # 10086 # 10010 '''# search 找到一個就返回 返回的結果是match對象,拿數據需要.group() ''' s = re.search("\d+", "我的電話號是10086,我朋友電話號是10010") print(s.group()) #10086 '''# match 是從頭開始匹配 ''' s = re.match("\d+", "我的電話號是10086,我朋友電話號是10010") print(s) # 空 s = re.match("\d+", "10086,我朋友電話號是10010") print(s) # 10086 '''# 預加載正則表達式 '''obj = re.compile("\d+") ret = obj.finditer("我的電話號是10086,我朋友電話號是10010") for i in ret:print(i.group()) ''' '''輸出結果: 10086 10010''' ''' ret = obj.findall("呵呵噠,我就不信你不還我100000000") print(ret) ''' '''輸出結果: ['100000000']'''s=""" <div class='jay'><span id='1'>郭麒麟</span></div> <div class='jj'><span id='2'>宋軼</span></div> <div class='jolin'><span id='3'>大聰明</span></div> <div class='sylar'><span id='4'>范思哲</span></div> <div class='tory'><span id='5'>胡說八道</span></div> """''' obj = re.compile("<div class='.*?'><span id='\d'>.*?</span></div>",re.S) #re.S能匹配換行符 result = obj.finditer(s) for i in result:print(i.group()) ''' ''' obj = re.compile("<div class='.*?'><span id='\d'>(?P<wahaha>.*?)</span></div>",re.S) #re.S能匹配換行符 result = obj.finditer(s) for i in result:print(i.group("wahaha")) ''' obj = re.compile("<div class='.*?'><span id='(?P<id>\d')>(?P<wahaha>.*?)</span></div>",re.S) result = obj.finditer(s) for i in result:print(i.group("wahaha"))print(i.group("id"))

正則補充:

import re pat = re.compile("AA") # AA為正則表達式 用來去驗證其他的字符串 # m = pat.search("CBA") # search 后的字符串 是被校驗的內容 # print(m) # m = pat.search("AACBAA") # search 后的字符串 是被校驗的內容 只查找第一個 # print(m)# m = re.search("AA","AASS") # 前面的字符串為規則 后面的為被校驗的對象 # print(m)# print(re.findall("a","ASDaDFGAa")) # 前面的字符串為規則 后面的為被校驗的對象 # print(re.findall("[A-Z]","ASDaDFGAa")) # 前面的字符串為規則 后面的為被校驗的對象# sub 替換 # print(re.sub("a","A","abcdcasd")) # 找到a用A代替 在第三個字符串中尋找a# 建議在正則表達式中,被比較的字符串中加上r,不要擔心轉義字符的問題 a = r"\aaa-\'" print(a) # \aaa-\'

總結

以上是生活随笔為你收集整理的爬虫4-正则表达式及Python的re模块的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。