日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式

發布時間:2025/3/19 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

統計“3_人民日報語料”文本中的字符數和詞數,把文件分別保存為 ansi, UTF8,UTF16,unicode 格式;

首先,統計文件的字符數,有兩種方法。第一種是將文件復制到word中,word自動統計;第二種是在python中,將文本內容讀取到字符串中,去除換行符和空格,字符串的長度就是字符的數目。然后統計文件中的單詞數目,因為所給文件已經做好了分詞處理,因此將文本讀取到字符串中,用python中的split()函數將字符串轉換成list,這樣list的長度就是單詞的數目。最后要做的是將文件轉換成不同的編碼,可以采用記事本、notepad++、sublime text等軟件進行處理。

1.統計“3_人民日報語料”文本中的字符數

方法一:將文字復制到word文檔中,word自動統計文本字符數:


方法二 python處理

#coding=utf-8 try:file_read = open("3.txt","r") #打開人民日報語料s = file_read.read().decode("UTF-8-SIG") #將文件讀取到變量s中,并將其轉換為unicode編碼s = s.replace('\n', '') #除去其中的換行符s = s.replace('\r', '') #除去其中的換行符s = s.replace(" ", '') #除去其中的空格file_read.close() #關閉文件print "The total number of characters is "+str(len(s)) #輸出結果 字符串s的長度就是總共的字符數 except Exception, e:print e.message

2.統計“3_人民日報語料”文本中的詞數

python處理

#coding=utf-8 try:file_read = open('3.txt') #打開文件s = file_read.read().decode("UTF-8-SIG") #讀取文件s = s.split()#因為語料已經做好了分詞,所以只需split()即可print "Total number of words is "+str(len(s)) #list s 的長度就是字數 except Exception, e:print e.message


3.把文件分別保存為 ansi, UTF8,UTF16,unicode 格式;

(1)UTF16或UTF8

sublime


(2)ansi或utf8

notepad++


(3)unicode或ansi或utf8

記事本

(4)UTF16

python

#coding=utf-8 import codecs import chardet file_name = '3.txt' file_utf_16_name = '3_utf_16.txt' try:file_read = open(file_name) #打開文件file_utf_16 = codecs.open(file_utf_16_name, mode='w', encoding='utf-16') #創建要寫入UTF-16編碼的文件,此處要調用codecs包text = file_read.read() #讀取文件內容file_utf_16.write(text.decode("UTF-8-SIG")) #將轉換成unicode的內容寫入文件file_read.close() #關閉文件file_utf_16.close() #關閉文件fs = open(file_utf_16_name, 'r')check = chardet.detect(fs.read()) #以上兩行是對utf-16編碼的文件的驗證print 'the encoding of '+file_utf_16_name+' is ' + check.get('encoding') #輸出結果 except Exception, e:print e.message
與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 在线观看成年人视频 | 夜色综合网 | 日韩在线免费视频观看 | 得得的爱在线视频 | 国产 欧美 在线 | 中文字幕人妻一区二区三区视频 | 成人av动漫 | 久久久久久69 | 国产男女猛烈无遮挡 | 夜夜嗨国产| 国产老头户外野战xxxxx | 巨大黑人极品videos精品 | 爽爽影院免费观看 | 天堂中文在线免费观看 | 四虎一区二区三区 | 久久人妻少妇嫩草av蜜桃 | 日韩一级伦理片 | 天天天天躁天天爱天天碰2018 | 亚洲熟女乱综合一区二区三区 | 国产精品久久久久久婷婷天堂 | 成人av久久 | 在线视频一区二区 | 小珊的性放荡羞辱日记 | 五月中文字幕 | 男人的天堂手机在线 | 亚洲风情第一页 | 国产精品男女 | 娇小6一8小毛片 | 国产精品一线二线三线 | 99一区二区 | 国产亚洲精品电影 | 91一区二区三区在线 | 国产性猛交普通话对白 | 校园sm主奴调教1v1罚视频 | 日本精品中文字幕 | 色播日韩 | 男人天堂久久久 | 久久亚洲av无码精品色午夜麻豆 | 欧美女同在线 | 91看片免费 | 国产夜夜操 | 国产精品成人Av | 亚洲精品综合久久 | 久久在线视频精品 | www.美色吧.com | 免费大黄网站 | 校园春色亚洲激情 | 日本三级韩国三级美三级91 | 国内视频一区二区 | 98色| 四虎影视免费看 | 黄色图片小说 | av在线天堂 | 欧美一区二区三区久久综合 | 亚洲视频在线看 | av在线天堂网 | 亚洲性生活网站 | 精品国产乱码久久久久久牛牛 | 一级性爱视频 | 亚洲一二三av | 欧美精品成人一区二区三区四区 | 久久国产加勒比精品无码 | 精品国产一区二区在线 | 91麻豆精品久久久久蜜臀 | 国产精品中文字幕在线观看 | 欧美va视频| 国产午夜啪啪 | 丰满少妇在线观看网站 | 日韩插插 | 欧美人妻少妇一区二区三区 | 亚洲精品一区二三区 | 噜噜噜亚洲色成人网站 | 一级特黄bbbbb免费观看 | 日本一区不卡 | 黄色av网址在线观看 | 日韩人妻精品在线 | 欧美亚洲综合在线 | 欧美大片免费 | 亚洲精品综合在线观看 | 青青青操 | 人妻丰满熟妇aⅴ无码 | 亚洲av无码一区二区三区人妖 | 激情综合五月网 | 久久久久亚洲av成人片 | 成人激情开心网 | 久久老熟女一区二区三区 | 福利久久久| 日日夜夜狠| 欧美综合区 | 久久久久久久性 | 久热精品在线视频 | 97青青草 | 一级片黑人 | 国产123区在线观看 91国产一区二区 | 四虎国产成人精品免费一女五男 | 国产aaaaaaa| 久久婷婷精品 | 中文在线观看视频 | 波多野结衣三级视频 |