日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

Python字符串的encode与decode 解决乱码问题

發(fā)布時(shí)間:2025/3/15 python 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python字符串的encode与decode 解决乱码问题 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
為什么Python使用過(guò)程中會(huì)出現(xiàn)各式各樣的亂碼問(wèn)題,明明是中文字符卻顯示成“/xe4/xb8/xad/xe6/x96/x87”的形式?為什么會(huì)報(bào)錯(cuò)“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就來(lái)研究一下這個(gè)問(wèn)題。
字符串在Python內(nèi)部的表示是unicode編碼,因此,在做編碼轉(zhuǎn)換時(shí),通常需要以u(píng)nicode作為中間編碼,即先將其他編碼的字符串解碼(decode)成unicode,再?gòu)膗nicode編碼(encode)成另一種編碼。?

decode的作用是將其他編碼的字符串轉(zhuǎn)換成unicode編碼,如str1.decode('gb2312'),表示將gb2312編碼的字符串str1轉(zhuǎn)換成unicode編碼。?

encode的作用是將unicode編碼轉(zhuǎn)換成其他編碼的字符串,如str2.encode('gb2312'),表示將unicode編碼的字符串str2轉(zhuǎn)換成gb2312編碼。?

因此,轉(zhuǎn)碼的時(shí)候一定要先搞明白,字符串str是什么編碼,然后decode成unicode,然后再encode成其他編碼


代碼中字符串的默認(rèn)編碼與代碼文件本身的編碼一致。?

如:s='中文'

如果是在utf8的文件中,該字符串就是utf8編碼,如果是在gb2312的文件中,則其編碼為gb2312。這種情況下,要進(jìn)行編碼轉(zhuǎn)換,都需要先用decode方法將其轉(zhuǎn)換成unicode編碼,再使用encode方法將其轉(zhuǎn)換成其他編碼。通常,在沒(méi)有指定特定的編碼方式時(shí),都是使用的系統(tǒng)默認(rèn)編碼創(chuàng)建的代碼文件。?

如果字符串是這樣定義:s=u'中文'

則該字符串的編碼就被指定為unicode了,即python的內(nèi)部編碼,而與代碼文件本身的編碼無(wú)關(guān)。因此,對(duì)于這種情況做編碼轉(zhuǎn)換,只需要直接使用encode方法將其轉(zhuǎn)換成指定編碼即可。


如果一個(gè)字符串已經(jīng)是unicode了,再進(jìn)行解碼則將出錯(cuò),因此通常要對(duì)其編碼方式是否為unicode進(jìn)行判斷:

isinstance(s, unicode)? #用來(lái)判斷是否為unicode?

用非unicode編碼形式的str來(lái)encode會(huì)報(bào)錯(cuò)?


?如何獲得系統(tǒng)的默認(rèn)編碼??

#!/usr/bin/env python
#coding=utf-8
import sys
print sys.getdefaultencoding()??

該段程序在英文WindowsXP上輸出為:ascii?


在某些IDE中,字符串的輸出總是出現(xiàn)亂碼,甚至錯(cuò)誤,其實(shí)是由于IDE的結(jié)果輸出控制臺(tái)自身不能顯示字符串的編碼,而不是程序本身的問(wèn)題。?

如在UliPad中運(yùn)行如下代碼:

s=u"中文"
print s?

會(huì)提示:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。這是因?yàn)閁liPad在英文WindowsXP上的控制臺(tái)信息輸出窗口是按照ascii編碼輸出的(英文系統(tǒng)的默認(rèn)編碼是ascii),而上面代碼中的字符串是Unicode編碼的,所以輸出時(shí)產(chǎn)生了錯(cuò)誤。

將最后一句改為:print s.encode('gb2312')

則能正確輸出“中文”兩個(gè)字。

若最后一句改為:print s.encode('utf8')

則輸出:/xe4/xb8/xad/xe6/x96/x87,這是控制臺(tái)信息輸出窗口按照ascii編碼輸出utf8編碼的字符串的結(jié)果。


unicode(str,'gb2312')與str.decode('gb2312')是一樣的,都是將gb2312編碼的str轉(zhuǎn)為unicode編碼?

使用str.__class__可以查看str的編碼形式


原理說(shuō)了半天,最后來(lái)個(gè)包治百病的吧:)

[python]?view plain?copy
  • #!/usr/bin/env?python??
  • #coding=utf-8??
  • s="中文"??
  • ??
  • if?isinstance(s,?unicode):??
  • #s=u"中文"??
  • ????print?s.encode('gb2312')??
  • else:??
  • #s="中文"??
  • ????print?s.decode('utf-8').encode('gb2312')??
  • ?

    總結(jié)

    以上是生活随笔為你收集整理的Python字符串的encode与decode 解决乱码问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。