python2默认编码_解决Python2.x编码之殇
Python編碼問題一直困擾了我許久,之前有過一些總結(jié),但并不系統(tǒng),比較凌亂。當(dāng)然python2.x編碼問題本身,便是剪不斷理還亂。本篇將系統(tǒng)介紹python2.x編程中會遇到的一些編碼問題,并給出解決方案。基于對編碼問題的摸索了解,我也嘗試寫了一個編碼轉(zhuǎn)換模塊Transcode,應(yīng)該能解決絕大部分新手的疑難雜癥。當(dāng)然,python大神可以繞道而行,至于使用3.x的朋友,以后將會成文介紹。
python編程中會經(jīng)常遇到操作系統(tǒng)編碼、文件編碼、控制臺輸入輸出編碼、網(wǎng)頁編碼、源代碼編碼、python編碼,本文將會逐一介紹。首先我們來看看一些常見的編碼情況:
print sys.getdefaultencoding() #系統(tǒng)默認(rèn)編碼
print sys.getfilesystemencoding() #文件系統(tǒng)編碼
print locale.getdefaultlocale() #系統(tǒng)當(dāng)前編碼
print sys.stdin.encoding #終端輸入編碼
print sys.stdout.encoding #終端輸出編碼
將以上這段代碼在windows與linux系統(tǒng)下分別運行,查看輸出結(jié)果。
windows終端結(jié)果:
ascii
mbcs
('zh_CN', 'cp936')
cp936
cp936
Linux終端結(jié)果:
ascii
UTF-8
('zh_CN', 'UTF-8')
UTF-8
UTF-8
操作系統(tǒng)編碼
操作系統(tǒng)默認(rèn)編碼可以通過sys.getdefaultencoding()函數(shù)獲取,可以看到windows與linux下默認(rèn)都為ascii編碼,而我們知道ascii編碼不支持中文。那么操作系統(tǒng)編碼將在python程序的何處會被用到呢?何時又會引發(fā)血案?
觸發(fā)異常點
經(jīng)過測試,我發(fā)現(xiàn)當(dāng)需要將unicode格式的字符串存入到文件時,python內(nèi)部會默認(rèn)將其先轉(zhuǎn)換為Str格式的系統(tǒng)編碼,然后再執(zhí)行存入步驟。而在這過程中,容易引發(fā)ascii異常。
實例證明:
#! -*- coding:utf-8 -*-
a=u"中文"
f=open("test.txt","w")
f.write(a)
報錯異常信息:UnicodeEncodeError: ‘a(chǎn)scii’ codec can’t encode characters in position 0-1……
說明:因為ascii不支持中文,而變量a為unicode格式的中文字符串,因此無法進(jìn)行編碼而引發(fā)異常。
解決方案
設(shè)置系統(tǒng)編碼為utf-8或者gbk。
import sys
reload(sys)
sys.setdefaultencoding('gbk')
說明:在windows下將其設(shè)置為gbk,在linux在設(shè)置為utf-8.
終端編碼
windows下終端指的是控制臺,在控制臺上輸入輸出有著其本身的編碼格式,如windows控制臺輸入輸出編碼都為cp936。原諒我是第一次看到此編碼,于是上網(wǎng)查了會,發(fā)現(xiàn)其實它就是常見的GBK編碼;而linux終端的輸入輸出編碼都為utf-8。如果我們編寫的程序,不會再終端輸入輸出任何內(nèi)容,則可以忽略此編碼,如若不然終端編碼將會非常重要。
亂碼點
我們在終端執(zhí)行python腳本時,經(jīng)常會遇到輸出中文亂碼,而這往往是因為輸出的字符串本身編碼與控制臺編碼不一致。
實例證明:
#! -*- coding:utf-8 -*-
a="中文" #定義一個變量,默認(rèn)為Str,utf-8編碼
print a
print type(a)
windows控制臺輸出結(jié)果:
浣犲ソ
linux終端輸出結(jié)果:
中文
造成這種差異的原因在于windows控制臺為gbk編碼,而變量a本身為utf-8編碼。
解決方案
#! -*- coding:utf-8 -*-
a='你好'
b=a.decode("utf-8").encode("gbk")
print b
將變量a從utf-8編碼轉(zhuǎn)換為gbk編碼。
python編碼
python2.x從外部獲取的內(nèi)容都是string編碼,其內(nèi)部分為String編碼與Unicode編碼,而String編碼又分為UTF-8,GBK,GB2312等等。因此為了避免不同編碼造成的報錯,python內(nèi)部最好都轉(zhuǎn)化為unicode編碼,在輸出時再轉(zhuǎn)化為str編碼 。可以用encode()/decode()函數(shù),將string與unicode編碼互換。
觸發(fā)異常點
基本在于python內(nèi)部變量編碼與控制臺編碼,或者其他編碼相結(jié)合時觸發(fā)。
實例證明:
#! -*- coding:utf-8 -*-
a="中文" #定義一個變量,默認(rèn)為str,utf-8編碼
print a
print type(a)
運行結(jié)果:
浣犲ソ
說明:windows下控制臺輸入輸出都是gbk編碼格式,而代碼中定義的變量a為str,utf-8格式,所以會出現(xiàn)亂碼。如果想創(chuàng)建一個unicode編碼字符串的變量,則可以a=u”123”,在雙引號前面加上一個u,表示a為unicode編碼。
解決方案
#! -*- coding:utf-8 -*-
a='你好'
print a.decode("utf-8").encode("gbk")
說明:首先我們定義的變量a是str格式,編碼為utf-8的字符串,我們要將之轉(zhuǎn)化為str格式,GBK編碼的字符串。在python內(nèi)部無法直接轉(zhuǎn)化,需要借助decod()與encode()函數(shù)。decode()函數(shù)先將str格式的字符串a(chǎn)轉(zhuǎn)化為unicode,再將unicode編碼為str格式GBK。而在Unix系統(tǒng)下,不存在這個問題,因為都是utf-8編碼,不會存在亂碼。print語句默認(rèn)會將unicode編碼的字符串,encode為相應(yīng)系統(tǒng)的str編碼并輸出(windows下為gbk,unix下為utf-8),因此不用擔(dān)心print unicode編碼字符串會報錯。
源代碼編碼
源代碼編碼指的是python程序本身的編碼,默認(rèn)為ascii。
觸發(fā)異常點
python程序本身要被解釋器解析執(zhí)行,需要先被轉(zhuǎn)化為二進(jìn)制代碼。而在這過程中容易引發(fā)異常,原因同樣是ascii不支持中文,因此當(dāng)python程序中出現(xiàn)中文時,哪怕是注釋,也會引發(fā)ascii異常。
實例證明:
print "中文" #中文注釋
報錯:SyntaxError: Non-ASCII character ‘\xe7’……
解決方案
#! -*- coding:utf-8 -*-
python程序開頭加上這句代碼,指定python源代碼編碼格式為utf-8。
文件編碼
文件編碼指的是,python程序從文件中獲取的內(nèi)容的編碼格式。可以用sys.getfilesystemencoding()函數(shù)獲取,windows下為mbcs,linux下為utf-8。至于mbcs,是一種多字節(jié)編碼(沒搞很明白)。
觸發(fā)異常點(讀取文件內(nèi)容)
當(dāng)python程序從文件中獲取內(nèi)容,并輸出時,容易觸發(fā)異常。
實例證明:
#! -*- coding:utf-8 -*-
f=open("test.txt","r")
content=f.read()
print type(content)
print content
運行結(jié)果:
你好
可以看到windows下,從文件中讀取的編碼格式為Str,GBK格式(因為控制臺輸出沒有中文亂碼);而在Unix下為Str,Utf-8格式。從輸出內(nèi)容來說,并沒有觸發(fā)異常,然而當(dāng)這些內(nèi)容與python程序自身內(nèi)容相結(jié)合時,容易觸發(fā)異常。
解決方案
在windows下,最好將文件內(nèi)容轉(zhuǎn)為unicode,可以使用codecs:
f=codecs.open("test.txt", encoding='gbk').read()
將格式為gbk的文件內(nèi)容轉(zhuǎn)化為unicode格式,當(dāng)然也可以直接使用open(“”,”r”).read().decode(“gbk”)
觸發(fā)異常點(寫入文件內(nèi)容)
參考操作系統(tǒng)編碼觸發(fā)異常點,即將中文unicode字符寫入文件時,容易觸發(fā)異常。
解決方案
參考操作系統(tǒng)編碼解決方案,或者手動將unicode編碼轉(zhuǎn)換為str編碼。
實例證明:
#! -*- coding:utf-8 -*-
a=u"中文" #a為unicode格式編碼
f=open("test.txt","w")
f.write(a.encode("gbk"))
當(dāng)然如果變量a本身就是Str則不會報錯,只是utf-8編碼的內(nèi)容寫入windows文件中,顯示會亂碼。
網(wǎng)頁編碼
網(wǎng)頁編碼,通常在寫爬蟲的時候經(jīng)常遇到,再結(jié)合系統(tǒng)編碼,python編碼,文件編碼,往往會搞得一團(tuán)亂。在程序中我們應(yīng)該分別處理這些編碼,在python內(nèi)部全部轉(zhuǎn)化為unicode。那么網(wǎng)頁編碼又有哪些格式呢?
常見格式:utf-8,gbk,gb2312
觸發(fā)異常點
還是在于從網(wǎng)頁中獲取的源碼編碼與終端編碼,甚至python內(nèi)部編碼不一致的情況。
實例證明:
#!coding=utf-8
import urllib2
body=urllib2.urlopen('http://thief.one').read()
print type(body)
print body
運行結(jié)果:
body中文顯示亂碼
說明:這個網(wǎng)站的編碼是utf-8,而且python從網(wǎng)頁上爬取的內(nèi)容都為Str格式,在windows控制臺下輸出會亂碼。
解決方案
依照之前做法,先將其轉(zhuǎn)化為unicode。而相應(yīng)的正則也可以為unicode編碼,如:res=r’’+u”新成員”。可以通過chardet模塊判斷網(wǎng)頁編碼類型,返回的是一個帶概率的字典。
編碼判斷
判斷字符串編碼
isinstance(obj, (str, unicode))
返回True或者False
判斷網(wǎng)頁編碼
import chardet
import urllib2
body=urllib2.urlopen("http://thief.one").read()
chardet.detect(body)
判斷編碼格式,會有百分比,一般用來判斷網(wǎng)頁編碼比較好。
判斷系統(tǒng)編碼
print sys.getdefaultencoding() #系統(tǒng)默認(rèn)編碼
print sys.getfilesystemencoding() #文件系統(tǒng)編碼
print locale.getdefaultlocale() #系統(tǒng)當(dāng)前編碼
print sys.stdin.encoding #終端輸入編碼
print sys.stdout.encoding #終端輸出編碼
python2.x編碼建議請盡量在Linux系統(tǒng)上編程,綜上我們可以知道linux下較windows,編碼問題良好很多。
python代碼內(nèi)部請全部使用unicode編碼,在獲取外部內(nèi)容時,先decode為unicode,向外輸出時再encode為Str
在定義變量或者正則時,也定義unicode字符,如a=u”中文”;res=r””+u”正則”。
其他疑難雜癥
實例一:
a="\\u8fdd\\u6cd5\\u8fdd\\u89c4"
print a
變量a的內(nèi)容本身為unicode編碼,怎么正常顯示輸入?
解決方案:
a="\\u8fdd\\u6cd5\\u8fdd\\u89c4" # unicode轉(zhuǎn)化為中文
b=a.decode('unicode-escape')
print b
如果閱讀完本章,增加了您對python編碼問題的認(rèn)識,那我會感到欣慰,如有python編碼上的問題可以在下方留言。
如果閱讀完本章,您仍然不知如何解決python亂碼問題,沒關(guān)系,請繼續(xù)移步閱讀Transcode解決python編碼問題
為了能夠讓您重視,我不得不再次重申:解決python2.x編碼問題的關(guān)鍵,在于要明白無論從哪里來的內(nèi)容,在python內(nèi)部流通時,都應(yīng)該先轉(zhuǎn)換為unicode。(python3.x在這方面做了改進(jìn),并取得了很好的效果)技術(shù)的探索,就好像編織故事一般,其樂趣在于偶爾能夠講述給別人聽,并獲得一些贊同!
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的python2默认编码_解决Python2.x编码之殇的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: diskgeniusv4.4.0_Vis
- 下一篇: python partition函数_在