日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

判断一段文件是UTF-8编码还是GB2312的编码方式

發(fā)布時間:2023/11/30 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 判断一段文件是UTF-8编码还是GB2312的编码方式 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

分類:?算法?cpp?7120人閱讀?評論(2)?收藏?舉報 null生活c

對于只包含中文和英文的文本中判斷編碼方式是非常簡單的,中文的編碼方式最常用的是GBK,字符集更大的如GBK向下兼容GB2312,其中包含的的很多一部分字符是我們在日常生活中用不到的,因此在實際中我們一般只需要區(qū)分GB2312和UTF8編碼。這里我只是提供一種可行的方法,如果判斷GBK也可以采用類似的方式首先分析一下漢字在GB2312中的編碼方式,gb2312規(guī)則漢字采用雙字節(jié)編碼其中第一字節(jié)161~247,第二字節(jié)161~254,其中含有邊界條件。而utf8的編碼方式可以看如下表示:

  • <span?style="font-family:Arial,?Verdana,?sans-serif;"><span?style="white-space:?normal;">??
  • </span></span>??
  • 代碼范圍
    十六進制 標量值(scalar value)
    二進制 UTF-8
    二進制/十六進制 注釋
    000000 - 00007F
    128個代碼
    00000000 00000000 0zzzzzzz0zzzzzzz(00-7F)ASCII字符范圍,字節(jié)由零開始
    七個z七個z
    000080 - 0007FF
    1920個代碼
    00000000 00000yyy yyzzzzzz110yyyyy(C0-DF) 10zzzzzz(80-BF) 第一個字節(jié)由110開始,接著的字節(jié)由10開始
    三個y;二個y;六個z五個y;六個z
    000800 - 00D7FF
    00E000 - 00FFFF
    61440個代碼?[Note 1]
    00000000 xxxxyyyy yyzzzzzz1110xxxx(E0-EF) 10yyyyyy 10zzzzzz 第一個字節(jié)由1110開始,接著的字節(jié)由10開始
    四個x;四個y;二個y;六個z四個x;六個y;六個z
    010000 - 10FFFF
    1048576個代碼
    000wwwxx xxxxyyyy yyzzzzzz11110www(F0-F7) 10xxxxxx 10yyyyyy 10zzzzzz將由11110開始,接著的字節(jié)由10開始
    這樣我們就可以由編碼方式上的差異來進行GB2312和UTF8編碼識別,下面給出代碼

  • unsigned?int?countGBK(const?char?*?str)??
  • {??
  • ????assert(str?!=?NULL);??
  • ????unsigned?int?len?=?(unsigned?int)strlen?(str);??
  • ????unsigned?int?counter?=?0;??
  • ????unsigned?char?head?=?0x80;??
  • ????unsigned?char?firstChar,?secondChar;??
  • ??
  • ????for?(unsigned?int?i?=?0;?i?<?len?-?1;?++i)??
  • ????{??
  • ????????firstChar?=?(unsigned?char)str[i];??
  • ????????if?(!(firstChar?&?head))continue;??
  • ????????secondChar?=?(unsigned?char)str[i];??
  • ????????if?(firstChar?>=?161?&&?firstChar?<=?247?&&?secondChar>=161?&&?secondChar?<=?254)??
  • ????????{??
  • ????????????counter+=?2;??
  • ????????????++i;??
  • ????????}??
  • ????}??
  • ????return?counter;??
  • }??
  • ??
  • unsigned?int?countUTF8(const?char?*?str)??
  • {??
  • ????assert(str?!=?NULL);??
  • ????unsigned?int?len?=?(unsigned?int)strlen?(str);??
  • ????unsigned?int?counter?=?0;??
  • ????unsigned?char?head?=?0x80;??
  • ????unsigned?char?firstChar;??
  • ????for?(unsigned?int?i?=?0;?i?<?len;?++i)??
  • ????{??
  • ????????firstChar?=?(unsigned?char)str[i];??
  • ????????if?(!(firstChar?&?head))continue;??
  • ????????unsigned?char?tmpHead?=?head;??
  • ????????unsigned?int?wordLen?=?0?,?tPos?=?0;??
  • ????????while?(firstChar?&?tmpHead)??
  • ????????{??
  • ????????????++?wordLen;??
  • ????????????tmpHead?>>=?1;??
  • ????????}??
  • ????????if?(wordLen?<=?1)continue;?//utf8最小長度為2??
  • ????????wordLen?--;??
  • ????????if?(wordLen?+?i?>=?len)break;??
  • ????????for?(tPos?=?1;?tPos?<=?wordLen;?++tPos)??
  • ????????{??
  • ????????????unsigned?char?secondChar?=?(unsigned?char)str[i?+?tPos];??
  • ????????????if?(!(secondChar?&?head))break;??
  • ????????}??
  • ????????if?(tPos?>?wordLen)??
  • ????????{??
  • ????????????counter?+=?wordLen?+?1;??
  • ????????????i?+=?wordLen;??
  • ????????}??
  • ????}??
  • ????return?counter;??
  • }??
  • ??
  • bool?beUtf8(const?char?*str)??
  • {??
  • ????<span?style="white-space:pre">??</span>unsigned?int?iGBK?=?countGBK(str);??
  • ????unsigned?int?iUTF8=?countUTF8(str);??
  • ????if?(iUTF8?>?iGBK)return?true;??
  • ????return?false;??
  • }?
  • 總結(jié)

    以上是生活随笔為你收集整理的判断一段文件是UTF-8编码还是GB2312的编码方式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。