常见编码格式
中文編碼主要有以下四種:
GB2312:簡(jiǎn)體中文編碼,一個(gè)漢字占用2字節(jié),在大陸是主要編碼方式。當(dāng)文章/網(wǎng)頁(yè)中包含繁體中文、日文、韓文等等時(shí),這些內(nèi)容可能無(wú)法被正確編碼。
BIG5:繁體中文編碼。主要在臺(tái)灣地區(qū)采用。
GBK:支持簡(jiǎn)體及繁體中文,但對(duì)他國(guó)非拉丁字母語(yǔ)言還是有問(wèn)題。
UTF-8:Unicode編碼的一種。Unicode用一些基本的保留字符制定了三套編碼方式,它們分別UTF-8,UTF-16和UTF-32。在UTF-8中,字符是以8位序列來(lái)編碼的,用一個(gè)或幾個(gè)字節(jié)來(lái)表示一個(gè)字符。這種方式的最大好處,是UTF-8保留了ASCII字符的編碼做為它的一部分。UTF-8俗稱“萬(wàn)國(guó)碼”,可以同屏顯示多語(yǔ)種,一個(gè)漢字占用3字節(jié)。為了做到國(guó)際化,網(wǎng)頁(yè)應(yīng)盡可能采用UTF-8編碼。
當(dāng)然,處理中文時(shí)http頭也要改成UTF-8編碼的-----加上<meta http-equiv="Content-Type" content="text/html; charset=utf-8">。
字符集
常用字符集分類
ASCII及其擴(kuò)展字符集
作用:表語(yǔ)英語(yǔ)及西歐語(yǔ)言。
位數(shù):ASCII是用7位表示的,能表示128個(gè)字符;其擴(kuò)展使用8位表示,表示256個(gè)字符。
范圍:ASCII從00到7F,擴(kuò)展從00到FF。
ISO-8859-1字符集
作用:擴(kuò)展ASCII,表示西歐、希臘語(yǔ)等。
位數(shù):8位,
范圍:從00到FF,兼容ASCII字符集。
GB2312字符集
作用:國(guó)家簡(jiǎn)體中文字符集,兼容ASCII。
位數(shù):使用2個(gè)字節(jié)表示,能表示7445個(gè)符號(hào),包括6763個(gè)漢字,幾乎覆蓋所有高頻率漢字。
范圍:高字節(jié)從A1到F7, 低字節(jié)從A1到FE。將高字節(jié)和低字節(jié)分別加上0XA0即可得到編碼。
BIG5字符集
作用:統(tǒng)一繁體字編碼。
位數(shù):使用2個(gè)字節(jié)表示,表示13053個(gè)漢字。
范圍:高字節(jié)從A1到F9,低字節(jié)從40到7E,A1到FE。
GBK字符集
作用:它是GB2312的擴(kuò)展,加入對(duì)繁體字的支持,兼容GB2312。
位數(shù):使用2個(gè)字節(jié)表示,可表示21886個(gè)字符。
范圍:高字節(jié)從81到FE,低字節(jié)從40到FE。
GB18030字符集
作用:它解決了中文、日文、朝鮮語(yǔ)等的編碼,兼容GBK。
位數(shù):它采用變字節(jié)表示(1 ASCII,2,4字節(jié))。可表示27484個(gè)文字。
范圍:1字節(jié)從00到7F; 2字節(jié)高字節(jié)從81到FE,低字節(jié)從40到7E和80到FE;4字節(jié)第一三字節(jié)從81到FE,第二四字節(jié)從30到39。
UCS字符集
作用:國(guó)際標(biāo)準(zhǔn) ISO 10646 定義了通用字符集 (Universal Character Set)。它是與UNICODE同類的組織,UCS-2和UNICODE兼容。
位數(shù):它有UCS-2和UCS-4兩種格式,分別是2字節(jié)和4字節(jié)。
范圍:目前,UCS-4只是在UCS-2前面加了0x0000。
UNICODE字符集
作用:為世界650種語(yǔ)言進(jìn)行統(tǒng)一編碼,兼容ISO-8859-1。
位數(shù):UNICODE字符集有多個(gè)編碼方式,分別是UTF-8,UTF-16和UTF-32。
?
按所表示的文字分類
語(yǔ)言???????????????????????????? 字符集??????????????????????????????? 正式名稱
英語(yǔ)、西歐語(yǔ)??????????????? ASCII,ISO-8859-1??????? MBCS 多字節(jié)
簡(jiǎn)體中文????????????????????? GB2312????????????????????????? MBCS 多字節(jié)
繁體中文????????????????????? BIG5????????????????????????????? ?MBCS 多字節(jié)
簡(jiǎn)繁中文???????????????????? ?GBK?????????????????????????????? ?MBCS 多字節(jié)
中文、日文及朝鮮語(yǔ)?????? GB18030??????????????????????? MBCS 多字節(jié)
各國(guó)語(yǔ)言????????????????????? UNICODE,UCS????????????? DBCS 寬字節(jié)
轉(zhuǎn)載于:https://www.cnblogs.com/zhuhui-site/p/10088590.html
總結(jié)
- 上一篇: 朴素贝叶斯应用:垃圾邮件分类
- 下一篇: UESTC 趣味赛命题报告E