字符集编码
Unicode編碼?
最初的unicode編碼是固定長度的,16位,也就是2兩個(gè)字節(jié)代表一個(gè)字符,這樣一共可以表示65536個(gè)字符。顯然,這樣要表示各種語言中所有的字符是遠(yuǎn)遠(yuǎn)不夠的。Unicode4.0規(guī)范考慮到了這種情況,定義了一組附加字符編碼,附加字符編碼采用2個(gè)16位來表示,這樣最多可以定義1048576個(gè)附加字符。所以4個(gè)字節(jié)表示一個(gè)字符。
Unicode只是一個(gè)編碼規(guī)范,目前實(shí)際實(shí)現(xiàn)的unicode編碼有:UTF-8,UTF-16等。utf-8是考慮了字符是怎么存儲(chǔ)在計(jì)算機(jī)上。
UTF-8
utf-8是一種可變長的編碼方式,使用1~6個(gè)字節(jié)表示一個(gè)符號(hào),根據(jù)不同的符號(hào)調(diào)整字節(jié)數(shù)量。
//ascii字符 1個(gè)字節(jié) // byte[] bytes = "a".getBytes("utf-8"); // System.out.println(bytes.length); //1//希臘文2個(gè)字節(jié) // byte[] bytes = "α".getBytes("utf-8"); // System.out.println(bytes.length); //2//中文3個(gè)字節(jié) // byte[] bytes = "中".getBytes("utf-8"); // System.out.println(bytes.length); //3//中文4個(gè)字節(jié)(ckj中韓日擴(kuò)展表意字符) // byte[] bytes = "?".getBytes("utf-8"); // System.out.println(bytes.length); //4
?
utf-8的可變長字節(jié)編碼
這是種比較巧妙的設(shè)計(jì),如果一個(gè)字節(jié)的第一位是0,則這個(gè)字節(jié)單獨(dú)就是一個(gè)字符;如果第一位是1,則連續(xù)有多少個(gè)1,就表示當(dāng)前字符占用多少個(gè)字節(jié)。
以"嚴(yán)"的編碼字節(jié)數(shù)組為例,二進(jìn)制表示為11100100 10111000 10100101
第一個(gè)字節(jié)開頭有三個(gè)連續(xù)的1,表示該字符占用三個(gè)字節(jié)
byte[] bytes = "嚴(yán)".getBytes("utf-8"); //得到utf-8編碼StringBuffer sb = new StringBuffer();for(int i =0 ;i<bytes.length ;i ++) {sb.append(Integer.toBinaryString((bytes[i] & 0xFF) + 0x100).substring(1));if(i != bytes.length - 1) {sb.append(" ");}}System.out.println(sb.toString()); //11100100 10111000 10100101
字符a的二進(jìn)制編碼是?01100001 , 開頭是0,表示該字節(jié)單獨(dú)表示一個(gè)字符
byte[] bytes = "a".getBytes("utf-8");StringBuffer sb = new StringBuffer();for(int i =0 ;i<bytes.length ;i ++) {sb.append(Integer.toBinaryString((bytes[i] & 0xFF) + 0x100).substring(1));if(i != bytes.length - 1) {sb.append(" ");}}System.out.println(sb.toString()); //01100001
?
轉(zhuǎn)載于:https://www.cnblogs.com/moris5013/p/10608245.html
總結(jié)
- 上一篇: 求一个好听的霸道总裁名字
- 下一篇: 前端去掉空格的方法