當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

正则表达式和re模块

發布時間：2024/3/13 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了正则表达式和re模块小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

re模塊是什么模塊呢？

正則表達式又是什么呢？

正則表達式：是一個很牛逼的模塊它是對字符串進行模糊匹配的一個模塊，它對所有的語言都通用

re模塊是python獨有的匹配字符串的模塊

其實是先有正則表達式的才有re模塊正則表達式它只是一個簡單的對字符串進行判斷的

?一說規則我已經知道你很暈了，現在就讓我們先來看一些實際的應用。在線測試工具?http://tool.chinaz.com/regex/

正則表達式：

下面我來看看正則表達式的優點：

我們來查看一個手機號碼是不是正確的：

以前思路：

while True:phone_number = input('please input your phone number ： ')if len(phone_number) == 11 \and phone_number.isdigit()\and (phone_number.startswith('13') \or phone_number.startswith('14') \or phone_number.startswith('15') \or phone_number.startswith('18')):print('是合法的手機號碼')else:print('不是合法的手機號碼') View Code

下面我們用正則表達式來做：

import re telphone_num = input('請輸入您的手機號').strip() # 因為正則表達式只能對字符串進行操作所以不用進行int的操作 ret = re.findall('^[13|14|15|16|17|18|19][0-9]\d{9}$', telphone_num)'''^這個符號表示的是判斷是不是以13|14|15|17|18開頭的，[0-9]: []表示一個字符組，可以表示0-9的任意字符{9}:表示后面的數字重復九次$:表示結束符'''if ret:print(ret) else:print('您輸入的手機號不合法') View Code

綜合上面的對比就是感覺正則表達式來做的事真的簡便很多你要是學會了就可以省去很多你不必要的操作

那么什么是正則呢？

首先你要知道的是，談到正則，就只和字符串相關了。在線測試工具?http://tool.chinaz.com/regex/

不管以后你是不是去做python開發，只要你是一個程序員就應該了解正則表達式的基本使用。如果未來你要在爬蟲領域發展，你就更應該好好學習這方面的知識。但是你要知道，re模塊本質上和正則表達式沒有一毛錢的關系。re模塊和正則表達式的關系類似于 time模塊和時間的關系你沒有學習python之前，也不知道有一個time模塊，但是你已經認識時間了 12:30就表示中午十二點半（這個時間可好，一般這會兒就該下課了）。時間有自己的格式，年月日時分秒，12個月，365天......已經成為了一種規則。你也早就牢記于心了。time模塊只不過是python提供給我們的可以方便我們操作時間的一個工具而已

首先你要知道的是，談到正則，就只和字符串相關了。在我給你提供的工具中，你輸入的每一個字都是一個字符串。
其次，如果在一個位置的一個值，不會出現什么變化，那么是不需要規則的。
　　比如你要用"1"去匹配"1"，或者用"2"去匹配"2"，直接就可以匹配上。這連python的字符串操作都可以輕松做到。
那么在之后我們更多要考慮的是在同一個位置上可以出現的字符的范圍。

正則就是提供一些功能任何語言使用這些功能都可以去匹配使用字符串字符組： [字符組] 在同一個位置可能出現的各種字符組成了一個字符組，在正則表達式中用[]表示字符分為很多類，比如數字、字母、標點等等。假如你現在要求一個位置"只能出現一個數字",那么這個位置上的字符只能是0、1、2...9這10個數之一。
正則的提供的功能有開始^ 字符組[] 重復次數{} 是不是數字\d之類的功能組合在一起讓我們方便對字符串進行判斷

正則	待匹配字符	匹配結果	說明
[0123456789]	8	True	在一個字符組里枚舉合法的所有字符，字符組里的任意一個字符和"待匹配字符"相同都視為可以匹配
[0123456789]	a	False	由于字符組中沒有"a"字符，所以不能匹配
? [0-9]	? 7	True	也可以用-表示范圍,[0-9]就和[0123456789]是一個意思
? [a-z]	? s	? True	? 同樣的如果要匹配所有的小寫字母，直接用[a-z]就可以表示
? [A-Z]	? B	? True	? [A-Z]就表示所有的大寫字母
? [0-9a-fA-F]	? e	? True	? 可以匹配數字，大小寫形式的a～f，用來驗證十六進制字符

字符：

元字符	? 匹配內容
.?	匹配除換行符以外的任意字符
\w	匹配字母或數字或下劃線
\s	匹配任意的空白符
\d	匹配數字
\n	匹配一個換行符
\t	匹配一個制表符
\b	匹配一個單詞的結尾
^	匹配字符串的開始
$	匹配字符串的結尾
\W	匹配非字母或數字或下劃線
\D	匹配非數字
\S	匹配非空白符
a\|b	匹配字符a或字符b
()	匹配括號內的表達式，也表示一個組
[...]	匹配字符組中的字符
[^...]	匹配除了字符組中字符的所有字符

量詞：

量詞	用法說明
*	重復零次或更多次
+	重復一次或更多次
?	重復零次或一次
{n}	重復n次
{n,}	重復n次或更多次
{n,m}	重復n到m次

?給匹配的正則匹配名字：

?P<加上你要設置的名字>

?注意這個P必須是大寫的

?P<> 是給你匹配的條件起一個，名字

. ^ $

正則	待匹配字符	匹配結果	說明
海.	海燕海嬌海東	海燕海嬌海東	? 匹配所有"海."的字符
^海.	海燕海嬌海東	海燕	只從開頭匹配"海."
? 海.$	? 海燕海嬌海東	海東	只匹配結尾的"海.$"

?. 點代表的是全部所有的都可以用.點來替代但是如果你所有的都用了.那就沒有意義了

* + ? { }

正則	待匹配字符	匹配結果	說明
李.?	李杰和李蓮英和李二棍子	李杰李蓮李二	? ?表示重復零次或一次，即只匹配"李"后面一個任意字符 ?
李.*	李杰和李蓮英和李二棍子	李杰和李蓮英和李二棍子	*表示重復零次或多次，即匹配"李"后面0或多個任意字符
李.+	李杰和李蓮英和李二棍子	李杰和李蓮英和李二棍子	+表示重復一次或多次，即只匹配"李"后面1個或多個任意字符
李.{1,2}	李杰和李蓮英和李二棍子	李杰和李蓮英李二棍	{1,2}匹配1到2次任意字符

注意：前面的*，+，？等都是貪婪匹配，也就是盡可能多的匹配，后面加？就變成了非貪婪匹配，也就是惰性匹配。

貪婪匹配和惰性匹配：

因為正則表達式是默認的是貪婪匹配就是按照最多的來匹配的? 所以你要想改變你匹配的方式你就要在正則的后面加上?來改變你的正則的方式

貪婪匹配：

ret = re.findall('\d+', 'nihao123woshi456') # 這是按照貪婪匹配來計算的 print(ret) # ['123', '456']

惰性匹配：

ret = re.findall('\d+?', 'nihao123woshi456') # 這是惰性匹配一次匹配一個 print(ret) # ['1', '2', '3', '4', '5', '6']

*和+和?的區別

正則待匹配字符匹配
結果說明<.*>

默認為貪婪匹配模式，會匹配盡量長的字符串

<.*?>r'\d'?

加上？為將貪婪匹配模式轉為非貪婪匹配模式，會匹配盡量短的字符串

ret = re.findall('\d+?', 'nihao123woshi456') # 這是惰性匹配一次匹配一個 print(ret) # ['1', '2', '3', '4', '5', '6'] ret = re.findall('\d?', 'njfjafsnfpos') # 因為是0-1次又是貪婪匹配所以就是匹配1次1次的匹配 print(ret) # ['', '', '', '', '', '', '', '', '', '', '', '', ''] ret = re.findall('\d+', 'njfjafsnfpos') # 因為是1到無窮次但是必須要有一次的所以匹配不到 print(ret) #[] ret = re.findall('\d*', 'njfjafsnfpos') # 因為是0到無窮次沒有的話就是0次就是為空的匹配 print(ret) # ['', '', '', '', '', '', '', '', '', '', '', '', ''] View Code

字符集［］［^］

正則	待匹配字符	匹配結果	說明
李[杰蓮英二棍子]*	李杰和李蓮英和李二棍子	李杰李蓮英李二棍子	? 表示匹配"李"字后面[杰蓮英二棍子]的字符任意次 ?
李[^和]*	李杰和李蓮英和李二棍子	李杰李蓮英李二棍子	表示匹配一個不是"和"的字符任意次
[\d]	456bdha3	4 5 6 3	表示匹配任意一個數字，匹配到4個結果
[\d]+	456bdha3	456 3	表示匹配任意個數字，匹配到2個結果

字符集一般是你的區間的? 字符集內有兩個字符是有特殊意義的 ^在字符集內代表的是非的意思 -代表的是幾到幾

ret = re.findall('[^\d]', 'popo1234jin') #因為是非的意思就是排除都是字符集內的元素就是排除數字 print(ret) # ['p', 'o', 'p', 'o', 'j', 'i', 'n'] ret = re.findall('[1-3]', 'josafj1318931') # -是區間的意思就是去除1-3的數字 print(ret) # ['1', '3', '1', '3', '1']

分組 ()與或｜［^］:

?身份證號碼是一個長度為15或18個字符的字符串，如果是15位則全部??數字組成，首位不能為0；如果是18位，則前17位全部是數字，末位可能是數字或x，下面我們嘗試用正則來表示：

正則	待匹配字符	匹配結果	說明
^[1-9]\d{13,16}[0-9x]$	110101198001017032	110101198001017032	? ?表示可以匹配一個正確的身份證號
^[1-9]\d{13,16}[0-9x]$	1101011980010170	1101011980010170	表示也可以匹配這串數字，但這并不是一個正確的身份證號碼，它是一個16位的數字
^[1-9]\d{14}(\d{2}[0-9x])?$	1101011980010170	False	現在不會匹配錯誤的身份證號了 ()表示分組，將\d{2}[0-9x]分成一組，就可以整體約束他們出現的次數為0-1次
^([1-9]\d{16}[0-9x]\|[1-9]\d{14})$	110105199812067023	110105199812067023	表示先匹配[1-9]\d{16}[0-9x]如果沒有匹配上就匹配[1-9]\d{14}

下面是匹配身份證號碼，可以15位或者18位都不能以0開頭 18位的可以以x結尾：
[1-9]\d{14}|[1-9]\d{16}[0-9x] 所以這個是錯誤的匹配把匹配短的選項放在后面了
[1-9]\d{16}[0-9x]|[1-9]\d{14}' 這個是正確的把匹配的選項放在了前面

如果你的匹配的條件有重合的部分那么必須把判斷條件最長的部分放前面不然你匹配到短的之后就不會再找后面的了
如果兩個正則表達式之間用"或" |連接，且有一部分正則規則相同，
那么一定要把規則長的放在前面

[1-9]\d{14}(\d{2}[\dx])? 分組
如果對一組正則表達式整體有一個量詞約束，就將這一組表達式分成一個組
在組外進行量詞約束

分組的意義很大因為你的約定只會對你前面的一個元素起作用那么這個時候就需要你的分組來讓你的約定的范圍擴大
分組在python中的re模塊中還有很多不用法不同的作用：
比如你可以用?P<name>來起名字分割的時候如果將匹配的正則放到組內，就會將分隔符放到結果列表里

轉義符 \

在正則表達式中，有很多有特殊意義的是元字符，比如\d和\s等，如果要在正則中匹配正常的"\d"而不是"數字"就需要對"\"進行轉義，變成'\\'。

在python中，無論是正則表達式，還是待匹配的內容，都是以字符串的形式出現的，在字符串中\也有特殊的含義，本身還需要轉義。所以如果匹配一次"\d",字符串中要寫成'\\d'，那么正則里就要寫成"\\\\d",這樣就太麻煩了。這個時候我們就用到了r'\d'這個概念，此時的正則是r'\\d'就可以了

正則	待匹配字符	匹配結果	說明
\d	\d	?False	因為在正則表達式中\是有特殊意義的字符，所以要匹配\d本身，用表達式\d無法匹配
\\d	\d	?True	轉義\之后變成\\，即可匹配
"\\\\d"	'\\d'	?True	如果在python中，字符串中的'\'也需要轉義，所以每一個字符串'\'又需要轉義一次
r'\\d'	r'\d'	?True	在字符串之前加r，讓整個字符串不轉義

? ?

以上是正則表達式下面就學習我們python中的re模塊：

re模塊下的常用方法：

findall（）方法：

import reret = re.findall('a', 'eva egon yuan') # 返回所有滿足匹配條件的結果,放在列表里 print(ret) #結果 : ['a', 'a'] findall接收兩個參數：正則表達式要匹配的字符串
一個列表數據

findall返回的是列表

search()方法： ret = re.search('a', 'eva egon yuan').group() print(ret) #結果 : 'a' # 函數會在字符串內查找模式匹配,只到找到第一個匹配然后返回一個包含匹配信息的對象,該對象可以 # 通過調用group()方法得到匹配的字符串,如果字符串沒有匹配，則返回None。 ret = re.search('b', 'eva egbon yuan') print(ret) # 得到的是對象<_sre.SRE_Match object; span=(6, 7), match='b'> print(ret.group()) # 需要通過group()來取值

# 如果匹配到了，返回一個結果對象
# 如果沒匹配到，返回一個None

?search和findall的區別：
　　1.search找到一個就返回，findall是找所有
　　2.findall是直接返回一個結果的列表，search返回一個對象

search得到的是一個對象必須通過group（）來進行取值并且是找到一個就返回不在繼續下面的尋找

match方法：

ret = re.match('a', 'abc').group() # 同search,不過僅在字符串開始處進行匹配 print(ret) #結果 : 'a' ret = re.match('a', 'eva egon yuan') if ret:print(ret.group())ret = re.match('b', 'bhiasb bhsis') print(ret.group()) # b 也是只匹配到一個元素

ret = re.match('a', 'hajkn')
print(ret.group()) # 找不到會報錯因為開頭沒有a

ret = re.match('a', 'abahoa') # 這個開頭是a所以可以找到但是也只是找到開頭的第一個就返回
print(ret.group())

# match
# ·1 意味著在正則表達式中添加了一個^
# ·2 和search一樣匹配返回結果對象沒匹配到返回None
# ·3 和search一樣從結果中獲取值仍然用group
match只能從開頭來匹配的一樣是得到一個對象只能用group（）來獲取得到的值

split()方法是分割的

ret = re.split('ab', 'abcd') #直接按照ab來分割 print(ret) # ['', 'cd'] ret = re.split('[ab]', 'abcd') #先按照z分割再按照b分割 print(ret) # ['', '', 'cd']

ret = re.split('\d+', 'eva3egon4yuan') # 按照數字來分割
print(ret) # ['eva', 'egon', 'yuan']
ret = re.split('(\d+)', 'eva3egon4yuan') # 如過按照組來分割就會保留組內的分隔符來分割的就是會把按照數字來分割的數組給保留下來
print(ret) ?

split分割一個字符串，默認被匹配到的分隔符不會出現在結果列表中，
如果將匹配的正則放到組內，就會將分隔符放到結果列表里

分組既可以對分割起作用又可以進行分組優先

findall如果你前面的匹配條件進行分組它會優先把你分組的內容給拿出來的 ret = re.findall('www\.(baidu|163)\.com', 'www.baidu.com') print(ret) #結果 ['baidu']# 我們可以使用?: 問好加冒號去除優先級的 ret = re.findall('www\.(?:baidu|163)\.com', 'hafairfsawww.163.com') print(ret) # ['163'] 去除優先級

re模塊下的常用方法

import reret = re.findall('a', 'eva egon yuan') # 返回所有滿足匹配條件的結果,放在列表里 print(ret) #結果 : ['a', 'a'] ret = re.search('a', 'eva egon yuan').group() print(ret) #結果 : 'a' # 函數會在字符串內查找模式匹配,只到找到第一個匹配然后返回一個包含匹配信息的對象,該對象可以 # 通過調用group()方法得到匹配的字符串,如果字符串沒有匹配，則返回None。 ret = re.match('a', 'abc').group() # 同search,不過僅在字符串開始處進行匹配 print(ret) #結果 : 'a' ret = re.split('[ab]', 'abcd') # 先按'a'分割得到''和'bcd',在對''和'bcd'分別按'b'分割 print(ret) # ['', '', 'cd'] ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#將數字替換成'H'，參數1表示只替換1個 print(ret) #evaHegon4yuan4 ret = re.subn('\d', 'H', 'eva3egon4yuan4')#將數字替換成'H'，返回元組(替換的結果,替換了多少次) print(ret)obj = re.compile('\d{3}') #將正則表達式編譯成為一個正則表達式對象，規則要匹配的是3個數字 ret = obj.search('abc123eeee') #正則表達式對象調用search，參數為待匹配的字符串 print(ret.group()) #結果： 123import re ret = re.finditer('\d', 'ds3sy4784a') #finditer返回一個存放匹配結果的迭代器 print(ret) # <callable_iterator object at 0x10195f940> print(next(ret).group()) #查看第一個結果 print(next(ret).group()) #查看第二個結果 print([i.group() for i in ret]) #查看剩余的左右結果

1 findall的優先級查詢：

import reret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com') print(ret) # ['oldboy'] 這是因為findall會優先把匹配結果組里內容返回,如果想要匹配結果,取消權限即可 ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com') print(ret) # ['www.oldboy.com']

2 split的優先級查詢

ret=re.split("\d+","eva3egon4yuan") print(ret) #結果： ['eva', 'egon', 'yuan'] ret=re.split("(\d+)","eva3egon4yuan") print(ret) #結果： ['eva', '3', 'egon', '4', 'yuan']#在匹配部分加上（）之后所切出的結果是不同的， #沒有（）的沒有保留所匹配的項，但是有（）的卻能夠保留了匹配的項， #這個在某些需要保留匹配部分的使用過程是非常重要的。

?用在線測試工具可以進行測試

經典匹配：

\d\.?\d*[*/]-?\d+? 　　　　?匹配的是一個整數或者小數乘或者除以一個整數

\d\.?\d*[*/]-?\d+\.?\d+　　匹配的是一個整數或者小數乘或者除以一個整數或者小數

這是一個計算你數字內的整數的：

轉載于:https://www.cnblogs.com/zhaoyunlong/p/8978593.html

總結

以上是生活随笔為你收集整理的正则表达式和re模块的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。