一个从源代码里提取中文字符串的java类
生活随笔
收集整理的這篇文章主要介紹了
一个从源代码里提取中文字符串的java类
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
2019獨角獸企業重金招聘Python工程師標準>>>
工作中需要優化代碼里的中文警示語和異常信息,實在比較多,所以就寫了個程序專門從代碼里提取中文字符串。
java做的,比較簡單,放上來備忘
package com.extractstr.app;import java.io.*; import java.util.*; import java.util.regex.Matcher; import java.util.regex.Pattern;/*** 搜索字符串并輸出到控制臺*/ public class ExtractStr {public static String getHelpString(String[] args){String result = String.format("%s [path]", new Object[]{"a"});return result;}private void getFiles(String rootPath, final String fileExt, List<File> fileList){File f =new File(rootPath);File[] list=f.listFiles(new FileFilter() {@Overridepublic boolean accept(File f) {boolean ret = f.isDirectory() || (f.isFile() && f.getName().endsWith(fileExt));return ret;}});for(File fn : list){if (fn.isDirectory()){this.getFiles(fn.getAbsolutePath(), fileExt, fileList);}else{fileList.add(fn);}}}public List<File> run(String rootPath, String fileExt){List<File> result = new LinkedList<File>();this.getFiles(rootPath, fileExt, result);return result;}public List<String> parserSourceFile(List<String> patternList, File file, int miniCharCount) throws Exception {List<String> result = new LinkedList<String>();BufferedReader r = new BufferedReader(new FileReader(file));char[] buffer = new char[(int)file.length()];r.read(buffer, 0, (int)file.length());String text=new String(buffer, 0, buffer.length);for(String patternStr : patternList){//Pattern pattern = Pattern.compile("\"(.*?)\"");Pattern pattern = Pattern.compile(patternStr);Matcher matchers= pattern.matcher(text);while(matchers.find()){String t=matchers.group();if (t.length()>=miniCharCount)result.add(t);}}return result;}public static void main(String []args){if (args.length==0){StringBuilder sb = new StringBuilder().append("未傳入需要搜索的有效的源代碼路徑").append("\n").append(ExtractStr.getHelpString(args));System.out.println(sb.toString());System.exit(1);}List<String> searchFolders=new ArrayList<String>(100);for(int i=0; i<=args.length-1;i++){File f=new File(args[i]);if (!f.isDirectory() || !f.exists())continue;searchFolders.add(f.getAbsolutePath());}List<String> patternList = new LinkedList<String>();patternList.add("'([\\u4E00-\\u9FA5]+)'");patternList.add("\"([\\u4E00-\\u9FA5]+)\"");ExtractStr es = new ExtractStr();List<File> fileList = new ArrayList<File>(1000);for(String sarchFolder : searchFolders){List<File> t=es.run(sarchFolder, ".php");fileList.addAll(t);}Set<String> outList=new HashSet<String>();for(File f : fileList){try{List<String> items=es.parserSourceFile(patternList, f, 12);outList.addAll(items);}catch(Exception e){e.printStackTrace();}}for(String str : outList){System.out.println(str);}} }對于拼接字符串的中文輸出支持的不算好,而且也對中文的長度有限制(最少12個字符)
轉載于:https://my.oschina.net/jim19770812/blog/467598
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的一个从源代码里提取中文字符串的java类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Atom飞行手册翻译: 2.7 ~ 2.
- 下一篇: 基于Maven的SSH框架搭建