日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

《Python Cookbook 3rd》笔记(2.9):将Unicode文本标准化

發布時間:2023/12/13 python 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《Python Cookbook 3rd》笔记(2.9):将Unicode文本标准化 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

將 Unicode 文本標準化

問題

你正在處理 Unicode 字符串,需要確保所有字符串在底層有相同的表示。

解法

在 Unicode 中,某些字符能夠用多個合法的編碼表示。為了說明,考慮下面的這個例子:

>>> s1 = 'Spicy Jalape\u00f1o' >>> s2 = 'Spicy Jalapen\u0303o' >>> s1 'Spicy Jalape?o' >>> s2 'Spicy Jalape?o' >>> s1 == s2 False >>> len(s1) 14 >>> len(s2) 15 >>>

這里的文本”Spicy Jalape?o” 使用了兩種形式來表示。第一種使用整體字符”?”(U+00F1),第二種使用拉丁字母”n” 后面跟一個”?” 的組合字符 (U+0303)。

在需要比較字符串的程序中使用字符的多種表示會產生問題。為了修正這個問題,你可以使用 unicodedata 模塊先將文本標準化:

>>> import unicodedata >>> t1 = unicodedata.normalize('NFC', s1) >>> t2 = unicodedata.normalize('NFC', s2) >>> t1 == t2 True >>> print(ascii(t1)) 'Spicy Jalape\xf1o' >>> t3 = unicodedata.normalize('NFD', s1) >>> t4 = unicodedata.normalize('NFD', s2) >>> t3 == t4 True >>> print(ascii(t3)) 'Spicy Jalapen\u0303o' >>>

normalize() 第一個參數指定字符串標準化的方式。 NFC 表示字符應該是整體組
成 (比如可能的話就使用單一編碼),而 NFD 表示字符應該分解為多個組合字符表示。

Python 同樣支持擴展的標準化形式 NFKC 和 NFKD,它們在處理某些字符的時候
增加了額外的兼容特性。比如:

>>> s = '\ufb01' # A single character >>> s ' fi' >>> unicodedata.normalize('NFD', s) ' fi' # Notice how the combined letters are broken apart here >>> unicodedata.normalize('NFKD', s) 'fi' >>> unicodedata.normalize('NFKC', s) 'fi' >>>

討論

標準化對于任何需要以一致的方式處理 Unicode 文本的程序都是非常重要的。當處理來自用戶輸入的字符串而你很難去控制編碼的時候尤其如此。

在清理和過濾文本的時候字符的標準化也是很重要的。比如,假設你想清除掉一些文本上面的變音符的時候 (可能是為了搜索和匹配):

>>> t1 = unicodedata.normalize('NFD', s1) >>> ''.join(c for c in t1 if not unicodedata.combining(c)) 'Spicy Jalapeno' >>>

最后一個例子展示了 unicodedata 模塊的另一個重要方面,也就是測試字符類的工具函數。 combining() 函數可以測試一個字符是否為和音字符。在這個模塊中還有其他函數用于查找字符類別,測試是否為數字字符等等。

總結

以上是生活随笔為你收集整理的《Python Cookbook 3rd》笔记(2.9):将Unicode文本标准化的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。