日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python-编码格式

發布時間:2023/12/14 python 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python-编码格式 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python編碼介紹

python3在內存中是用unicode編碼方式存儲的,所以不能直接儲存和傳輸,要轉化為其他編碼進行儲存和傳輸。

字符串通過編碼轉換成字節碼,字節碼通過解碼成為字符串

轉碼(都變為字節)
encode:str --> bytes

解碼(可以將字節解碼成指定的編碼格式)
decode:bytes --> str

關于ascii編碼

因為計算機只能處理數字,如果要處理文本,就必須先把文本轉換為數字才能處理。最早的計算機在設計時采用8個比特(bit)作為一個字節(byte),所以,一個字節能表示的最大的整數就是255(二進制11111111=十進制255),如果要表示更大的整數,就必須用更多的字節。比如兩個字節可以表示的最大整數是65535,4個字節可以表示的最大整數是4294967295。

由于計算機是美國人發明的,因此,最早只有127個字符被編碼到計算機里,也就是大小寫英文字母、數字和一些符號,這個編碼表被稱為ASCII編碼,比如大寫字母A的編碼是65,小寫字母z的編碼是122。

但是要處理中文顯然一個字節是不夠的,至少需要兩個字節,而且還不能和ASCII編碼沖突,所以,中國制定了GB2312編碼,用來把中文編進去。

因此,Unicode應運而生。Unicode把所有語言都統一到一套編碼里,這樣就不會再有亂碼問題了。

關于Unicode編碼

Unicode把所有語言都統一到一套編碼里,這樣就不會再有亂碼問題了。

ASCII編碼是1個字節,而Unicode編碼通常是2個字節。

字母A用ASCII編碼是十進制的65,二進制的01000001;

字符0用ASCII編碼是十進制的48,二進制的00110000,注意字符’0’和整數0是不同的;

漢字中已經超出了ASCII編碼的范圍,用Unicode編碼是十進制的20013,二進制的01001110 00101101。

你可以猜測,如果把ASCII編碼的A用Unicode編碼,只需要在前面補0就可以,因此,A的Unicode編碼是00000000 01000001。

如果統一成Unicode編碼,亂碼問題從此消失了。但是,如果你寫的文本基本上全部是英文的話,用Unicode編碼比ASCII編碼需要多一倍的存儲空間,在存儲和傳輸上就十分不劃算。

所以,本著節約的精神,又出現了把Unicode編碼轉化為“可變長編碼”的UTF-8編碼。UTF-8編碼把一個Unicode字符根據不同的數字大小編碼成1-6個字節,常用的英文字母被編碼成1個字節,漢字通常是3個字節,只有很生僻的字符才會被編碼成4-6個字節。如果你要傳輸的文本包含大量英文字符,用UTF-8編碼就能節省空間:

在計算機內存中,統一使用Unicode編碼,當需要保存到硬盤或者需要傳輸的時候,就轉換為UTF-8編碼。

用記事本編輯的時候,從文件讀取的UTF-8字符被轉換為Unicode字符到內存里,編輯完成后,保存的時候再把Unicode轉換為UTF-8保存到文件

瀏覽網頁的時候,服務器會把動態生成的Unicode內容轉換為UTF-8再傳輸到瀏覽器

python3的編碼細節

  • python2中默認使用ascii,python3中默認使用utf-8

  • Python2中,str就是編碼后的結果bytes,str=bytes,所以s只能decode。

  • python3中的字符串與python2中的u’字符串’,都是unicode,只能encode,所以無論如何打印都不會亂碼,因為可以理解為從內存打印到內存,即內存->內存,unicode->unicode

  • python3中,str是unicode,當程序執行時,無需加u,str也會被以unicode形式保存新的內存空間中,str可以直接encode成任意編碼格式,
    比如: s.encode(‘utf-8’),s.encode(‘gbk’)

    unicode(str)-----encode---->utf-8(bytes)
    utf-8(bytes)-----decode---->unicode

  • 在windows終端編碼為gbk,linux是UTF-8.

  • 查詢編碼格式

    需要導入包
    import chardet 沒有的話自行安裝

    查詢文件編碼格式

    def get_encode_info(file):with open(file, 'rb') as f:return chardet.detect(f.read())['encoding']

    查詢字符串…內容編碼格式

    def get_encode_info_s(file):return chardet.detect(file.encode())['encoding']

    編碼轉換

    文件編碼轉換

    字符串…內容編碼轉換

    name = r"\u6697\u88d4\u5251\u9b54" print("解碼之前的編碼格式:"+get_encode_info_s(name)) # 轉碼為utf-8(默認的), 然后解碼為python能識別的unicode碼 str2 = name.encode().decode("unicode-escape") print("-----------"+str2) print("解碼之后的編碼格式:"+get_encode_info_s(str2))

    結果:

    解碼之前的編碼格式:ascii
    -----------暗裔劍魔
    解碼之后的編碼格式:utf-8

    文件編碼轉換

    from chardet.universaldetector import UniversalDetector# 獲取文件編碼 def get_encode_info(file):with open(file, 'rb') as f:detector = UniversalDetector()for line in f.readlines():detector.feed(line)if detector.done:breakdetector.close()return detector.result['encoding']def read_file(file):with open(file, 'rb') as f:return f.read()def write_file(content, file):with open(file, 'wb') as f:f.write(content)def convert_encode2utf8(file, original_encode, des_encode):file_content = read_file(file)file_decode = file_content.decode(original_encode,'ignore')file_encode = file_decode.encode(des_encode)write_file(file_encode, file)# fileName文件全路徑 # code 需要轉換為什么編碼,默認utf-8 def fileDecode(fileName,code="utf-8"):file_content = read_file(fileName)encode_info = get_encode_info(fileName)if encode_info != code:convert_encode2utf8(fileName, encode_info, code)return get_encode_info(fileName)if __name__ == "__main__":filename1 = r'C:\Users\huanmin\Desktop\源碼\CHANGES.txt'print(fileDecode(filename1))

    我們可以通過Notepad++ 打開文件右下角可以看到當前文件的編碼格式

    轉碼后效果

    點贊 -收藏-關注-便于以后復習和收到最新內容 有其他問題在評論區討論-或者私信我-收到會在第一時間回復 如有侵權,請私信聯系我 感謝,配合,希望我的努力對你有幫助^_^

    總結

    以上是生活随笔為你收集整理的Python-编码格式的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。