日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > java >内容正文

java

Java笔记-字符串编码与解码以及编码表原理

發布時間:2023/12/15 java 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Java笔记-字符串编码与解码以及编码表原理 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

編碼表

編碼表:是一張由字符及其對應編碼的表

計算機只能識別二進制數據,早期由電信號演化而來。

為了方便使用計算機,讓它可以識別各個國家的文字,就將各個國家的文字用數字來表示,并一一對應,形成一張編碼表。

常見編碼表

ASCII表

ASCII表:英國標準信息交換碼。用一個字節的7位來表示字符,還有一個符號位。

ISO8859-1表

ISO8859-1表:拉丁碼表。歐洲碼表。用一個字節的8位表示。不支持中文。

GB2312表

GB2312表:中國的中文編碼表。

GB 2312標準共收錄6763個漢字,其中一級漢字3755個,二級漢字3008個;同時,GB 2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄語西里爾字母在內的682個全角字符。

但是!對于人名、古漢語等方面出現的罕用字,GB 2312不能處理,這導致了后來GBK及GB 18030漢字字符集的出現。

GBK表

GBK表:中國的中文編碼表 GB2312 的升級,融合了更多的中文文字符號。

GBK 總計 23940 個碼位,共收入 21886 個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號 883 個。

GB18030表

GB18030表:GBK的取代版本,也是中文目前的通用版本。

GB18030表:分為兩個版本 GB18030-2000表 和 GB18030-2005表。

GB18030-2000收錄了27533個漢字,GB18030-2005收錄了70244個漢字。

BIG-5表

BIG-5碼:通行于臺灣、香港地區的一個繁體編碼方案,俗稱—–”大五碼”。

Unicode表

Unicode表:國際標準碼,融合了多種文字。

所有文字都用兩個字節來表示

Java語言使用的就是Unicode碼表

UTF-8表

UTF-8表:最多用三個字節來表示一個字符。

UTF-8是 Unicode 的升級版。它定義了一種”區間規則”,這種規則可以和 ASCII 編碼保持最大程度的兼容:

它將Unicode編碼為 00000000-0000007F的字符,用1字節來表示。
它將Unicode編碼為 00000080-000007FF的字符,用2字節來表示。
它將Unicode編碼為 00000800-0000FFFF的字符,用3字節來表示。

字符串的編碼與解碼

字符串編碼解碼介紹

字符串編碼:將看得懂的字符變成計算機能看懂的符號(人類看不懂)。

Java字符串編碼:

方法名稱使用
byte[] getBytes()使用當前平臺的默認字符集將此 String 編碼為 byte 序列,并將結果存儲到一個新的 byte 數組中。

Java字符串解碼:

方法名稱使用
String String(byte[] bytes)通過使用當前平臺默認字符集,解碼指定的 byte 數組,構造一個新的 String。

其中當前平臺,指的是當前操作系統。

我的是WIN10系統,默認的是GBK編碼表。

字符串編碼解碼演示

public static void main(String[] args) {// 使用GBK編碼,上面介紹過了,我的默認GBKString str = "鋤禾日當午,汗滴禾下土";byte[] bs = str.getBytes();for (int i = 0; i < bs.length; i++) {System.out.print(bs[i] + " ");}System.out.println();// 使用GBK解碼String newStr = new String(bs);System.out.println(newStr); } //運行結果為: //-77 -6 -70 -52 -56 -43 -75 -79 -50 -25 44 -70 -71 -75 -50 -70 -52 -49 -62 -51 -63 //鋤禾日當午,汗滴禾下土//其中每兩個負數組成一個漢字,由于我的逗號為英文逗號,是44,可以刨除 //(-77 -6)鋤 (-70 -52)禾 ...

在 GBK 中,所有漢字被拆分成兩個字節,第一個字節肯定是負數,第二個字節不一定。所以用 new String(byte[] bytes) 解碼時,看到第一個是負數的字節,就自動將后面一個字節跟前面的字節,放到一起處理。

字符串亂碼問題

方法名稱 作用
byte[] getBytes(String charsetName) 使用指定編碼表去編碼
字符串亂碼演示:

public static void main(String[] args) {try {String str = "鋤禾日當午,汗滴禾下土";byte[] bs = str.getBytes("Iso8859-1");System.out.println(Arrays.toString(bs));} catch (UnsupportedEncodingException e) {e.printStackTrace();} } //結果: //[63, 63, 63, 63, 63, 44, 63, 63, 63, 63, 63]//63在ASCII中對應'?'所以編碼失敗,因為iso8859-1不支持中文!//擴展1:iso不區分大小寫 //擴展2:異常名稱UnsupportedEncodingException: // 不被支持的編碼名稱 // 也就是怕你把編碼名稱給寫錯了public static void main(String[] args) {try {String str = "鋤禾日當午,汗滴禾下土";//編碼 UTF-8byte[] bs = str.getBytes("UTF-8");System.out.println(Arrays.toString(bs));//解碼 當前系統默認 GBKString errorStr = new String(bs);System.out.println(errorStr);//解碼 我們來指定 UTF-8String correctStr = new String(bs, "UTF-8");System.out.println(correctStr);} catch (UnsupportedEncodingException e) {e.printStackTrace();} }//結果: //[-23, -108, -124, -25, -90, -66, -26, -105, -91, -27, -67, -109, -27, -115, -120, 44, -26, -79, -105, -26, -69, -76, -25, -90, -66, -28, -72, -117, -27, -100, -97] //閿勭鏃ュ綋鍗?,姹楁淮紱句笅鍦? //鋤禾日當午,汗滴禾下土

亂碼原因:
字符串編碼與解碼所依據的編碼表不一致!導致了碼表轉換!統一解碼編碼表即可解決。

總結

以上是生活随笔為你收集整理的Java笔记-字符串编码与解码以及编码表原理的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。