Python之令人心烦意乱的字符编码与转码
生活随笔
收集整理的這篇文章主要介紹了
Python之令人心烦意乱的字符编码与转码
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
ASC-II碼:英文1個字節(8 byte),不支持中文;
高大上的中國,擴展出自己的gbk、gb2312、gb2318等字符編碼。?
由于各個國家都有自己的編碼,于是就需要統一的編碼形式用于國際流傳,防止亂碼,就有了萬國碼;
萬國碼:unicode(默認無論中文還是英文都是至少占用2個字節),為了解決占用字節變多,占用空間增倍的情況,又衍生了擴展集utf-8;
UTF-8:原有的ASC-II碼中內容仍用1個字節,歐洲國家的字符用2個字節,漢字等其他的字符用3個字節
?
?
decode: 解碼到unicode,encode: 將unicode編碼到其他格式(如,utf-8,gbk等)
日常中如果我們想要讀取其他國家的代碼時,先解碼(decode)為萬國碼,再編碼(encode)為我們適用的編碼形式讀取;
比如:GBK到uff-8,先將GBK(decode)到 unicode,再(encode)到utf-8;
?
轉載于:https://www.cnblogs.com/feigebaqi/p/9138218.html
總結
以上是生活随笔為你收集整理的Python之令人心烦意乱的字符编码与转码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转:org.apache.maven.a
- 下一篇: python 之configparser