當前位置：首頁 > 编程语言 > python >内容正文

python

Python-编码格式

發布時間：2023/12/14 python 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python-编码格式小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python編碼介紹

python3在內存中是用unicode編碼方式存儲的，所以不能直接儲存和傳輸，要轉化為其他編碼進行儲存和傳輸。

字符串通過編碼轉換成字節碼，字節碼通過解碼成為字符串

轉碼(都變為字節)
encode：str --> bytes

解碼(可以將字節解碼成指定的編碼格式)
decode：bytes --> str

關于ascii編碼

因為計算機只能處理數字，如果要處理文本，就必須先把文本轉換為數字才能處理。最早的計算機在設計時采用8個比特（bit）作為一個字節（byte），所以，一個字節能表示的最大的整數就是255（二進制11111111=十進制255），如果要表示更大的整數，就必須用更多的字節。比如兩個字節可以表示的最大整數是65535，4個字節可以表示的最大整數是4294967295。

由于計算機是美國人發明的，因此，最早只有127個字符被編碼到計算機里，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母z的編碼是122。

但是要處理中文顯然一個字節是不夠的，至少需要兩個字節，而且還不能和ASCII編碼沖突，所以，中國制定了GB2312編碼，用來把中文編進去。

因此，Unicode應運而生。Unicode把所有語言都統一到一套編碼里，這樣就不會再有亂碼問題了。

關于Unicode編碼

Unicode把所有語言都統一到一套編碼里，這樣就不會再有亂碼問題了。

ASCII編碼是1個字節，而Unicode編碼通常是2個字節。

字母A用ASCII編碼是十進制的65，二進制的01000001；

字符0用ASCII編碼是十進制的48，二進制的00110000，注意字符’0’和整數0是不同的；

漢字中已經超出了ASCII編碼的范圍，用Unicode編碼是十進制的20013，二進制的01001110 00101101。

你可以猜測，如果把ASCII編碼的A用Unicode編碼，只需要在前面補0就可以，因此，A的Unicode編碼是00000000 01000001。

如果統一成Unicode編碼，亂碼問題從此消失了。但是，如果你寫的文本基本上全部是英文的話，用Unicode編碼比ASCII編碼需要多一倍的存儲空間，在存儲和傳輸上就十分不劃算。

所以，本著節約的精神，又出現了把Unicode編碼轉化為“可變長編碼”的UTF-8編碼。UTF-8編碼把一個Unicode字符根據不同的數字大小編碼成1-6個字節，常用的英文字母被編碼成1個字節，漢字通常是3個字節，只有很生僻的字符才會被編碼成4-6個字節。如果你要傳輸的文本包含大量英文字符，用UTF-8編碼就能節省空間：

在計算機內存中，統一使用Unicode編碼，當需要保存到硬盤或者需要傳輸的時候，就轉換為UTF-8編碼。

用記事本編輯的時候，從文件讀取的UTF-8字符被轉換為Unicode字符到內存里，編輯完成后，保存的時候再把Unicode轉換為UTF-8保存到文件

瀏覽網頁的時候，服務器會把動態生成的Unicode內容轉換為UTF-8再傳輸到瀏覽器

python3的編碼細節

python2中默認使用ascii，python3中默認使用utf-8

Python2中，str就是編碼后的結果bytes，str=bytes,所以s只能decode。

python3中的字符串與python2中的u’字符串’，都是unicode，只能encode，所以無論如何打印都不會亂碼，因為可以理解為從內存打印到內存，即內存->內存，unicode->unicode

python3中，str是unicode，當程序執行時，無需加u，str也會被以unicode形式保存新的內存空間中,str可以直接encode成任意編碼格式，
比如: s.encode(‘utf-8’)，s.encode(‘gbk’)

unicode(str)-----encode---->utf-8(bytes)
utf-8(bytes)-----decode---->unicode

在windows終端編碼為gbk，linux是UTF-8.

查詢編碼格式

需要導入包
import chardet 沒有的話自行安裝

查詢文件編碼格式

def get_encode_info(file):with open(file, 'rb') as f:return chardet.detect(f.read())['encoding']

查詢字符串…內容編碼格式

def get_encode_info_s(file):return chardet.detect(file.encode())['encoding']

編碼轉換

文件編碼轉換

字符串…內容編碼轉換

name = r"\u6697\u88d4\u5251\u9b54" print("解碼之前的編碼格式:"+get_encode_info_s(name)) # 轉碼為utf-8(默認的), 然后解碼為python能識別的unicode碼 str2 = name.encode().decode("unicode-escape") print("-----------"+str2) print("解碼之后的編碼格式:"+get_encode_info_s(str2))

結果:

解碼之前的編碼格式:ascii
-----------暗裔劍魔
解碼之后的編碼格式:utf-8

文件編碼轉換

from chardet.universaldetector import UniversalDetector# 獲取文件編碼 def get_encode_info(file):with open(file, 'rb') as f:detector = UniversalDetector()for line in f.readlines():detector.feed(line)if detector.done:breakdetector.close()return detector.result['encoding']def read_file(file):with open(file, 'rb') as f:return f.read()def write_file(content, file):with open(file, 'wb') as f:f.write(content)def convert_encode2utf8(file, original_encode, des_encode):file_content = read_file(file)file_decode = file_content.decode(original_encode,'ignore')file_encode = file_decode.encode(des_encode)write_file(file_encode, file)# fileName文件全路徑 # code 需要轉換為什么編碼,默認utf-8 def fileDecode(fileName,code="utf-8"):file_content = read_file(fileName)encode_info = get_encode_info(fileName)if encode_info != code:convert_encode2utf8(fileName, encode_info, code)return get_encode_info(fileName)if __name__ == "__main__":filename1 = r'C:\Users\huanmin\Desktop\源碼\CHANGES.txt'print(fileDecode(filename1))

我們可以通過Notepad++ 打開文件右下角可以看到當前文件的編碼格式

轉碼后效果

點贊 -收藏-關注-便于以后復習和收到最新內容有其他問題在評論區討論-或者私信我-收到會在第一時間回復如有侵權，請私信聯系我感謝,配合,希望我的努力對你有幫助^_^

總結

以上是生活随笔為你收集整理的Python-编码格式的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：耳机插在电脑上没声音linux,解决li
下一篇： python超市管理系统实训报告_jav