日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

《Python Cookbook 3rd》笔记(2.10):在正则式中使用 Unicode

發布時間:2023/12/13 python 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《Python Cookbook 3rd》笔记(2.10):在正则式中使用 Unicode 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在正則式中使用 Unicode

問題

你正在使用正則表達式處理文本,但是關注的是 Unicode 字符處理。

解法

默認情況下 re 模塊已經對一些 Unicode 字符類有了基本的支持。比如, \d 已經匹配任意的 unicode 數字字符了:

>>> import re >>> num = re.compile('\d+') >>> # ASCII digits >>> num.match('123') <_sre.SRE_Match object at 0x1007d9ed0> >>> # Arabic digits >>> num.match('\u0661\u0662\u0663') <_sre.SRE_Match object at 0x101234030> >>>

如果你想在模式中包含指定的 Unicode 字符,你可以使用 Unicode 字符對應的轉義序列 (比如 nuFFF 或者 nUFFFFFFF )。比如,下面是一個匹配幾個不同阿拉伯編碼頁面中所有字符的正則表達式:

>>> arabic = re.compile('[\u0600-\u06ff\u0750-\u077f\u08a0-\u08ff]+') >>>

當執行匹配和搜索操作的時候,最好是先標準化并且清理所有文本為標準化格式。但是同樣也應該注意一些特殊情況,比如在忽略大小寫匹配和大小寫轉換時的行為。

>>> pat = re.compile('stra\u00dfe', re.IGNORECASE) >>> s = 'stra?e' >>> pat.match(s) # Matches <_sre.SRE_Match object at 0x10069d370> >>> pat.match(s.upper()) # Doesn't match >>> s.upper() # Case folds 'STRASSE' >>>

討論

混合使用 Unicode 和正則表達式通常會讓你抓狂。如果你真的打算這樣做的話,最好考慮下安裝第三方正則式庫,它們會為 Unicode 的大小寫轉換和其他大量有趣特性提供全面的支持,包括模糊匹配。

總結

以上是生活随笔為你收集整理的《Python Cookbook 3rd》笔记(2.10):在正则式中使用 Unicode的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。