GB 18030介绍及其与相关标准的比较-GB13000(附:Unicode规范)
?
GB 18030介紹及其與相關(guān)標(biāo)準(zhǔn)的比較
一、標(biāo)準(zhǔn)內(nèi)容簡介
1、GB 2312
2、GB13000(附:Unicode規(guī)范)
3、GBK與GB18030-2000
二、GB 18030的優(yōu)點(diǎn)
2、GB13000(附:Unicode規(guī)范)
2.1、GB13000
為了便于多個(gè)文種的同時(shí)處理,國際標(biāo)準(zhǔn)化組織下屬編碼字符集工作組研制了新的編碼字符集標(biāo)準(zhǔn),ISO/IEC 10646。該標(biāo)準(zhǔn)第一次頒布是在1993年,當(dāng)時(shí)只頒布了其第一部分,即ISO/IEC 10646.1: 1993,我國相應(yīng)的國家標(biāo)準(zhǔn)是GB 13000.1-93《信息技術(shù) 通用多八位編碼字符集(UCS) 第一部分:體系結(jié)構(gòu)與基本多文種平面》。制定這個(gè)標(biāo)準(zhǔn)的目的是對世界上的所有文字統(tǒng)一編碼,以實(shí)現(xiàn)世界上所有文字在計(jì)算機(jī)上的統(tǒng)一處理。
提到GB 13000(ISO/IEC 10646),順便提到Unicode規(guī)范。Unicode規(guī)范可以被看作是GB 13000在產(chǎn)業(yè)界的翻版,是GB 13000以另一種形式在產(chǎn)業(yè)界的實(shí)現(xiàn)。施樂(Xerox)公司的專家Joseph D. Becker對Unicode的解釋可以幫助我們理解GB 13000的意義,他說:Unicode這個(gè)名字意味著建立一個(gè)酪壞模╱nique)、統(tǒng)一的(unified)、通用的(universal)編碼(體系)。
GB13000建立了一個(gè)全新的編碼體系。ISO/IEC 10646被稱作"多八位"編碼字符集,是因?yàn)樗捎盟膫€(gè)"八位"(即8 bit或稱作字節(jié))編碼。這四個(gè)字節(jié)被用來分別表示組、平面、行和字位。見下圖:
GB2312規(guī)定的漢字為常用漢字,包括簡化漢字三千余個(gè)。由于我國漢字?jǐn)?shù)量巨大(約10萬字),我國又陸續(xù)增加了六個(gè)輔助集。其中,基本集與第二、第四輔助集是簡化漢字集,第一(即GB 12345)、第三、第五輔助集是繁體集,且基本集與第一、第二與第三、第四與第五輔助集分別有簡、繁體字一一對應(yīng)關(guān)系,(個(gè)別簡、繁關(guān)系為一對多的漢字除外)。第七輔助集漢字的來源是GB13000.1的CJK統(tǒng)一漢字部分,為日本、韓國和臺灣地區(qū)使用的漢字。七個(gè)字符集包含漢字共計(jì)約49,000字(簡化字和繁體字分別編碼)。
可以看出,GB13000的總編碼位置高達(dá)2,147,483,648個(gè)(128組×256平面×256行×256字位)。目前實(shí)現(xiàn)的是00組的00平面,稱為"基本多文種平面"(Basic Multilingual Plane, BMP),編碼位置65536個(gè)。(由于基本多文種平面所有字符代碼的前兩個(gè)字節(jié)都是0(00組00平面XX行XX字位),因此,目前在默認(rèn)情況下,基本多文種平面按照兩字節(jié)處理。)
GB13000的優(yōu)點(diǎn)和特點(diǎn)非常明顯:
編碼空間非常巨大,可以容納多種文字同時(shí)編碼,也就保證了多文種同時(shí)處理;
作為統(tǒng)一的編碼,拉丁語系的文字與其它文字一樣,都是采用相同數(shù)目的"八位"編碼,即:都是四字節(jié),在基本多文種平面,都是雙字節(jié);
注:對于GB1988(ISO646/ASCII)字符,直接增加高八位為0x00即可。
字符和字形的區(qū)分十分清楚:字符是負(fù)載文本內(nèi)容的抽象實(shí)體,而字形則是可視的具體圖形形式;
通過采用漢字認(rèn)同規(guī)則,各國家/地區(qū)的漢字統(tǒng)一編碼,既滿足了各國家/地區(qū)對編碼漢字?jǐn)?shù)目的實(shí)際需求,又不至于由于漢字在基本多文種平面占據(jù)的碼位過多而影響到其他文字的編碼:
由于世界上的文字?jǐn)?shù)量巨大,不可能將所有文字編碼,為此,劃定了專用區(qū),供標(biāo)準(zhǔn)使用者實(shí)現(xiàn)其對未編碼字符的特別需要。
其碼位分配簡圖(GB13000.1-200X版)如下:
其中,CJK統(tǒng)一漢字和CJK統(tǒng)一漢字?jǐn)U充A收錄了GB2312和第一、三、五、七輔助集的全部漢字27,484個(gè)。康熙部首和中日韓補(bǔ)充部首共收錄漢字部首369個(gè)。
此外,還收錄了維哈克文(屬于阿拉伯文體系)、朝鮮文、彝文、藏文和蒙古文。預(yù)計(jì)不久將增加傣文。
2.2、Unicode標(biāo)準(zhǔn)
Unicode 標(biāo)準(zhǔn)目前在基本平面上與GB 13000保持一致。采納UTF-16方案作為未來實(shí)現(xiàn)01到0F共15個(gè)輔助平面的方式。其它方面與GB 13000基本一致。
Source: 工作文件
轉(zhuǎn)載于:https://www.cnblogs.com/joeyliang/archive/2007/02/28/659787.html
與50位技術(shù)專家面對面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的GB 18030介绍及其与相关标准的比较-GB13000(附:Unicode规范)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: delphi之找色和色块
- 下一篇: 外观模式小结