好用的文本分割器
有些分割器亂碼是不支持utf-8,有些是因為按字節數而不是字符數分割,導致某個漢字被分到前后兩個文件中產生亂碼。
推薦用軟件Replace Pioneer,可以按整字數,行數或特殊符號分割,支持任意常用編碼方式。我試了utf8分割得很好。
詳細步驟:
1. 打開Replace Pioneer,選擇Settings->Encoding->utf-8選項
2. ctrl-o打開待處理的txt文件
3. 選擇File->SaveAs->Split by bytes/lines菜單
* 把Split Naming中的內容改為需要的格式,比如###.txt就會分割為001.txt, 002.txt
* 在Split File by輸入按多少字數bytes/行數lines分割
*點擊Next,并輸入一個結果文件名即可。
注:如果結果文件名為abc.txt, Split Naming為${BASE}_###.txt,那么分割的文件是abc_001.txt, abc_002.txt, ...
Replace Pioneer是按照字數分割的,utf8編碼一個漢字基本上占用3個字節,所以差不多是1/3,需要計算一下。
同理你如果分割ansi漢字文件,一個漢字占2個字節,所以分4k要輸入2000
如果分割純英文ansi文本, 一個字符占一個字節,所以分4k要輸入4000
推薦用軟件Replace Pioneer,可以按整字數,行數或特殊符號分割,支持任意常用編碼方式。我試了utf8分割得很好。
詳細步驟:
1. 打開Replace Pioneer,選擇Settings->Encoding->utf-8選項
2. ctrl-o打開待處理的txt文件
3. 選擇File->SaveAs->Split by bytes/lines菜單
* 把Split Naming中的內容改為需要的格式,比如###.txt就會分割為001.txt, 002.txt
* 在Split File by輸入按多少字數bytes/行數lines分割
*點擊Next,并輸入一個結果文件名即可。
注:如果結果文件名為abc.txt, Split Naming為${BASE}_###.txt,那么分割的文件是abc_001.txt, abc_002.txt, ...
Replace Pioneer是按照字數分割的,utf8編碼一個漢字基本上占用3個字節,所以差不多是1/3,需要計算一下。
同理你如果分割ansi漢字文件,一個漢字占2個字節,所以分4k要輸入2000
如果分割純英文ansi文本, 一個字符占一個字節,所以分4k要輸入4000
總結
- 上一篇: php添加项目,thinkphp添加一个
- 下一篇: java学习(112):simpleda