日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介绍

發布時間:2024/1/23 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

轉載地址:https://charlee.li/unicode-intro.html

基本知識

? ?(1) 字節和字符的區別

? ? ? ?咦,字節和字符能有什么區別啊?不都是一樣的嗎?完全正確,但只是在古老的DOS時代。 當Unicode出現后,字節和字符就不一樣了。

? ? ? ?字節(octet)是一個八位的存儲單元,取值范圍一定是0~255。而字符(character,或者word) 為語言意義上的符號,范圍就不一定了。例如在UCS-2中定義的字符范圍為0~65535, 它的一個字符占用兩個字節。

? ? (2) BigEndian和Little Endian??

? ? ? ?上面提到了一個字符可能占用多個字節,那么這多個字節在計算機中如何存儲呢? 比如字符0xabcd,它的存儲格式到底是? ? ? ? ? ?AB CD,還是 CD AB 呢?

? ? ? ?實際上兩者都有可能,并分別有不同的名字。如果存儲為 AB CD,則稱為Big Endian; 如果存儲為 CD AB,則稱為Little? ? ? ? ? ?Endian

? ? ? ?具體來說,以下這種存儲格式為Big Endian,因為值(0xabcd)的高位(0xab)存儲在前面:

地址
0x00000000AB
0x00000001CD

? ? ? ?相反,以下這種存儲格式為Little Endian:

地址
0x00000000CD
0x00000001AB

?(2) UCS-2和UCS-4

? ? ?Unicode是為整合全世界的所有語言文件所誕生的。任何文字在Unicode中都對應一個值,這個值稱為代碼點(code point)。代碼點的值通常寫成U+ABCD的格式。?而文字和代碼點之間的對應關系就是UCS-2(Universal Character Set coded in 2 octets)。 顧名思義,UCS-2是用兩個字節來表示代碼點,其取值范圍為 U+0000~U+FFFF。

? ? ?為了能表示更多的文字,人們又提到了UCS-4,即用四個字節表示代碼點。它的范圍為U+00000000~U+7FFFFFFF,其中U+00000000~U+0000FFFF和UCS-2是一樣的。

? ? ?要注意,UCS-2和UCS-4只規定了代碼點和文字之間的對應關系,并沒有規定代碼點在計算機中如何存儲。規定存儲方式的稱為UTF(Unicode Transformation Format),其中應用較多的就是UTF-16和UTF-8了。

? (3) UTF-16和UTF-32

? ? a.UTF-16

? ? ? UTF-16由RFC2781規定,它使用兩個字節來表示一個代碼點。

? ? ? 不難猜到,UTF-16是完全對應于UCS-2的,即把UCS-2規定的代碼點通過Big Endian或Little Endian方式直接保存下來。UTF-16包括三種:UTF-16,UTF-16BE(Big Endian),UTF-16LE(Little Endian)。

? ? ? ?UTF-16BE和UTF-16LE不難理解,而UTF-16就需要通過在文件開頭以名為BOM(Byte Order Mark)的字符來表明文件時Big Endian還是Little Endian。BOM為U+FEFF這個字符。

? ? ? ?其實BOM是個小聰明的想法。由于UCS-2沒有定義U+FFFE,因此只要出現FF FE或者FE FF這樣的字節序列,就可以認為它是U+FEFF,并且可以判斷出是Big Endian還是Little Endian。

? ? ? ?舉個例子,“ABC”這三個字符用各種方式編碼后的結果如下:

? ? ? ? UTF-16BE? ? ? ? ? ? ? ? ? ? ?00 41 00 42 00 43

? ? ? ? UTF-16LE? ? ? ? ? ? ? ? ? ? ? 41 00 42 00 43 00

? ? ? ? UTF-16(Big Endian)? ? ? ?FE FF 00 41 00 43 00 43

? ? ? ? UTF-16(Little Endian)? ? ?FF FE 41 00 42 00 43 00

? ? ? ? UTF-16(不帶BOM)? ? ? ? ?00 41 00 42 00 43

? ? ? ? Windows平臺下默認的Unicode編碼為Little Endian的UTF-16(即上述的FF FE 41 00 42 00 43 00)。你可以打開記事本,寫上ABC,然后保存,再用二進制編輯器看看它的編碼結果。

? ? ? ??

? ? ? ? 另外,UTF-16還能表示一部分的UCS-4代碼點-----U+10000~U+10FFFF。表示算法比較復雜,簡單說明如下: 1.從代碼點U中減去0x10000,得到'U'。這樣U+10000~U+10FFFF就變成了0x00000~0xFFFFF。2.用20位二進制數表示U’。

? ? ? ??U’=yyyyyyyyyyxxxxxxxxxx 3. 將前10位和后10位用W1和W2表示,W1=110110yyyyyyyyyy,W2=110111xxxxxxxxxx,則 W1 = D800~DBFF,W2 = DC00~DFFF。

? ? ? ? 例如,U+12345表示為 D8 08 DF 45(UTF-16BE),或者08 D8 45 DF(UTF-16LE)。

? ? ? ? 但是由于這種算法的存在,造成UCS-2中的 U+D800~U+DFFF 變成了無定義的字符。

? ? ?b.UTF-32

? ? ? ? ?UTF-32用四個字節表示代碼點,這樣就可以完全表示UCS-4的所有代碼點,而無需像UTF-16那樣使用復雜的算法。 與UTF-16類似,UTF-32也包括UTF-32、UTF-32BE、UTF-32LE三種編碼,UTF-32也同樣需要BOM字符。 僅用’ABC’舉例:

UTF-32BE? ? ? ? ? ? ? ? ? ?00 00 00 41 00 00 00 42 00 00 00 43

UTF-32LE? ? ? ? ? ? ? ? ? ?41 00 00 00 42 00 00 00 43 00 00 00

UTF-32(Big Endian)? ? 00 00 FE FF 00 00 00 41 00 00 00 42 00 00 00 43

UTF-32(Little Endian)? FF FE 00 00 41 00 00 00 42 00 00 00 43 00 00 00

UTF-32(不帶BOM)? ? ? ?00 00 00 41 00 00 00 42 00 00 00 43

? ? ? ?c.UTF-8

? ? ? ? ??UTF-16和UTF-32的一個缺點就是它們固定使用兩個或四個字節, 這樣在表示純ASCII文件時會有很多00字節,造成浪費。 而RFC3629定義的UTF-8則解決了這個問題。

? ? ? ? ??UTF-8用1~4個字節來表示代碼點。表示方式如下:

UCS-2(UCS-4)位序列第一字節第二字節第三字節第四字節
U+0000 .. U+007F00000000-0xxxxxxx0xxxxxxx???
U+0080 .. U+07FF00000xxx-xxyyyyyy110xxxxx10yyyyyyy??
U+0800 .. U+FFFFxxxxyyyy-yyzzzzzz1110xxxx10yyyyyy10zzzzzz?
U+10000 .. U+10FFFF00000000-000wwwxx-xxxxyyyy-yyzzzzzz11110www10xxxxxx10yyyyyy10zzzzzz

? ? ? ? ? ?可見,ASCII字符(U+0000~U+007F)部分完全使用一個字節,避免了存儲空間的浪費。 而且UTF-8不再需要BOM字節。

? ? ? ? ? ?另外,從上表中可以看出,單字節編碼的第一字節為[00-7F],雙字節編碼的第一字節為[C2-DF], 三字節編碼的第一字節為[E0-EF]。這樣只要看到第一個字節的范圍就可以知道編碼的字節數。 這樣也可以大大簡化算法。

?

?

?

?

?

?

總結

以上是生活随笔為你收集整理的UCS-2、UCS-4、UTF-8、UTF-16、UTF-32介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。