當前位置：首頁 > 编程语言 > python >内容正文

python

《Python Cookbook 3rd》笔记（2.10）：在正则式中使用 Unicode

發布時間：2023/12/13 python 43 豆豆

生活随笔收集整理的這篇文章主要介紹了《Python Cookbook 3rd》笔记（2.10）：在正则式中使用 Unicode 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在正則式中使用 Unicode

問題

你正在使用正則表達式處理文本，但是關注的是 Unicode 字符處理。

解法

默認情況下 re 模塊已經對一些 Unicode 字符類有了基本的支持。比如， \d 已經匹配任意的 unicode 數字字符了：

>>> import re >>> num = re.compile('\d+') >>> # ASCII digits >>> num.match('123') <_sre.SRE_Match object at 0x1007d9ed0> >>> # Arabic digits >>> num.match('\u0661\u0662\u0663') <_sre.SRE_Match object at 0x101234030> >>>

如果你想在模式中包含指定的 Unicode 字符，你可以使用 Unicode 字符對應的轉義序列 (比如 nuFFF 或者 nUFFFFFFF )。比如，下面是一個匹配幾個不同阿拉伯編碼頁面中所有字符的正則表達式：

>>> arabic = re.compile('[\u0600-\u06ff\u0750-\u077f\u08a0-\u08ff]+') >>>

當執行匹配和搜索操作的時候，最好是先標準化并且清理所有文本為標準化格式。但是同樣也應該注意一些特殊情況，比如在忽略大小寫匹配和大小寫轉換時的行為。

>>> pat = re.compile('stra\u00dfe', re.IGNORECASE) >>> s = 'stra?e' >>> pat.match(s) # Matches <_sre.SRE_Match object at 0x10069d370> >>> pat.match(s.upper()) # Doesn't match >>> s.upper() # Case folds 'STRASSE' >>>

討論

混合使用 Unicode 和正則表達式通常會讓你抓狂。如果你真的打算這樣做的話，最好考慮下安裝第三方正則式庫，它們會為 Unicode 的大小寫轉換和其他大量有趣特性提供全面的支持，包括模糊匹配。

總結

以上是生活随笔為你收集整理的《Python Cookbook 3rd》笔记（2.10）：在正则式中使用 Unicode的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《C++ Primer 5th》笔记（8
下一篇：《Python Cookbook 3rd