日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

我所理解的字符编码

發(fā)布時(shí)間:2023/11/27 生活经验 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 我所理解的字符编码 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1,Ascii和ebcic.

為了方便交流,美國人發(fā)明了ASCII編碼,后來被確認(rèn)為國際標(biāo)準(zhǔn)。后來以發(fā)明了EBCDIC編碼。

一般地說,開放的操作系統(tǒng)(LINUX 、WINDOWS等)采用ASCII 編碼,而大型主機(jī)系統(tǒng)(MVS 、OS/390等)采用EBCDIC 編碼。在發(fā)送數(shù)據(jù)給對(duì)方前,需要事先告知對(duì)方自己所使用的編碼,或者通過轉(zhuǎn)碼,使不同編碼方案的兩個(gè)系統(tǒng)可溝通自如。無論是ASCII碼還是EBCDIC碼,都無法對(duì)擁有幾萬個(gè)的漢字進(jìn)行編碼。

2、MBCS

為了擴(kuò)充ascii,不同的國家和地區(qū)制定了不同的標(biāo)準(zhǔn)。以中國和日本為例,發(fā)布了gb2312,gbk,gis等,他們的大致編碼方式是不管理中文、英文等都使用兩個(gè)字符來表示一個(gè)字符。統(tǒng)稱為ansi編碼,又稱為多字節(jié)字符集MBCS.這時(shí),不同國家和地區(qū)的編碼不能相互轉(zhuǎn)換,后來,國際就發(fā)布了unicode編碼,作為聯(lián)接各國的編程。盡管現(xiàn)在的unicode并不能真正聯(lián)接萬國,但其目的是這樣的。所以,有人叫unicode為萬國編碼。

Unicode變成所有編碼轉(zhuǎn)換的中間介質(zhì)。所有的編碼都有一個(gè)轉(zhuǎn)換器可以轉(zhuǎn)換到Unicode,而Unicode也可以轉(zhuǎn)換到其他所有的編碼。

3、GB-2312

GB-2312屬于ansi編碼的一種,GB 2312是一個(gè)簡體中文字符集,由6763個(gè)常用漢字和682個(gè)全角的非漢字字符組成。由于字符數(shù)量比較大,GB2312采用了二維矩陣編碼法對(duì)所有字符進(jìn)行編碼。首先構(gòu)造一個(gè)94行94列的方陣,對(duì)每一行稱為一個(gè)“區(qū)”,每一列稱為一個(gè)“位”,然后將所有字符依照下表的規(guī)律填寫到方陣中。這樣所有的字符在方陣中都有一個(gè)唯一的位置,這個(gè)位置可以用區(qū)號(hào)、位號(hào)合成表示,稱為字符的區(qū)位碼。如第一個(gè)漢字“啊”出現(xiàn)在第16區(qū)的第1位上,其區(qū)位碼為1601。因?yàn)閰^(qū)位碼同字符的位置是完全對(duì)應(yīng)的,因此區(qū)位碼同字符之間也是一一對(duì)應(yīng)的。這樣所有的字符都可通過其區(qū)位碼轉(zhuǎn)換為數(shù)字編碼信息。

4、GBK

GBK即漢字內(nèi)碼擴(kuò)展規(guī)范,K為擴(kuò)展的漢語拼音中“擴(kuò)”字的聲母。GBK編碼標(biāo)準(zhǔn)兼容GB2312,共收錄漢字21003個(gè)、符號(hào)883個(gè),并提供1894個(gè)造字碼位,簡、繁體字融于一庫。

5、unicode

如果有一種編碼,將世界上所有的符號(hào)都納入其中,無論是英文、日文、還是中文等,大家都使用這個(gè)編碼表,就不會(huì)出現(xiàn)編碼不匹配現(xiàn)象。每個(gè)符號(hào)對(duì)應(yīng)一個(gè)唯一的編碼,亂碼問題就不存在了。這就是Unicode編碼。
Unicode當(dāng)然是一個(gè)很大的集合,現(xiàn)在的規(guī)模可以容納100多萬個(gè)符號(hào)。每個(gè)符號(hào)的編碼都不一樣,比如,U+0639表示阿拉伯字母Ain,U+0041表示英語的大寫字母A,“漢”這個(gè)字的Unicode編碼是U+6C49。
Unicode固然統(tǒng)一了編碼方式,但是它的效率不高,比如UCS-4(Unicode的標(biāo)準(zhǔn)之一)規(guī)定用4個(gè)字節(jié)存儲(chǔ)一個(gè)符號(hào),那么每個(gè)英文字母前都必然有三個(gè)字節(jié)是0,這對(duì)存儲(chǔ)和傳輸來說都很耗資源。

6、utf-8

為了提高Unicode的編碼效率,于是就出現(xiàn)了UTF-8編碼。UTF-8可以根據(jù)不同的符號(hào)自動(dòng)選擇編碼的長短。比如英文字母可以只用1個(gè)字節(jié)就夠了。

?

轉(zhuǎn)載于:https://www.cnblogs.com/lyzfp/p/11421328.html

總結(jié)

以上是生活随笔為你收集整理的我所理解的字符编码的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。