java 汉字处理_Java汉字处理
1、字符串長度
String s1 = "我是中國人";
String s2 = "imchinese";
String s3 = "im中國人";
System.out.println(s1+":"+new String(s1).length());
System.out.println(s2+":"+new String(s2).length());
System.out.println(s3+":"+new String(s3).length());
輸出結果:
我是中國人:5
imchinese:9
im中國人:5
結論:字符串里如果有雙字節的字符java就把每個字符都按雙字節編碼,如果都是單字節的字符就按單字節編碼。
2、提取字符串中的漢字
String str = "af我是kz中h國m人ig";
char ch[] = str.toCharArray();
for (int i = 0; i < ch.length; i++) {
if (ch[i] > 255) {
System.out.print(ch[i]);
}
}
輸出結果:
我是中國人
3、打印漢字編碼
(1)打印漢字的unicode編碼
char ch = "中";
System.out.println(Integer.toHexString(ch));
輸出結果:
4e2d
(2)打印漢字的GBK編碼
String str = "中";
byte[] bt = str.getBytes("GBK");
System.out.println(Integer.toHexString(bt[0]).substring(6)
+Integer.toHexString(bt[1]).substring(6));
輸出結果:
d6d0
說明:java內部使用的是unicode編碼,漢字的Unicode編碼范圍為/u4E00-/u9FA5 或/uF900-/uFA2D,如果不在這個范圍內就不是漢字。我們用char定義一個變量,如char ch="中"; 這時,ch是Unicode編碼的。GBK編碼與unicode編碼是不同的兩種編碼方式,因此它們打印出的值是不一樣的。GBK的整體編碼范圍是為0x8140-0xFEFE,不包括低字節是0x7F的組合。高字節范圍是0x81-0xFE,低字節范圍是0x40-7E和0x80-0xFE。
4、用兩個byte組成一個漢字
byte bb[] = new byte[2];
bb[0] = -42;
bb[1] = -48;
String str = new String(bb);
System.out.println(str);
輸出結果:
中
總結
以上是生活随笔為你收集整理的java 汉字处理_Java汉字处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android视频实时编辑器,视频编辑器
- 下一篇: java有关物流管理的简历_Java开发