维基百科镜像处理
維基百科語料資源豐富,而維基百科又提供數(shù)據(jù)庫下載,是語料資源來源的良好途徑。
1. 中文維基數(shù)據(jù)下載
下載dump:https://dumps.wikimedia.org/zhwiki/latest/,維基數(shù)據(jù)主要包含以下幾部分
| zhwiki-latest-pages-articles.xml.bz2 | 詞條正文 |
| zhwiki-latest-redirect.sql | 詞條重定向(同義詞) |
| zhwiki-latest-pagelinks.sql | 詞條頁面內(nèi)容外鏈 |
| zhwiki-latest-page.sql | 詞條標(biāo)題及摘要 |
| zhwiki-latest-categorylinks.sql | 詞條開放分類鏈接 |
本文處理的數(shù)據(jù)是:zhwiki-latest-pages-articles.xml.bz2
2. 中文維基數(shù)據(jù)解析
下載后需要對該xml文件的壓縮包作處理,所幸gensim的WikiCorpus已經(jīng)預(yù)置了部分處理。幾行關(guān)鍵的python代碼如下:
input_file = "zhwiki-latest-pages-articles.xml.bz2"wiki = WikiCorpus(input_file, lemmatize=False, dictionary={}) for text in wiki.get_texts(): str_line = bytes.join(b' ', text).decode() #以下可以存入文件或數(shù)據(jù)庫
總結(jié)
- 上一篇: java命令--jmap命令使用(查找内
- 下一篇: 【赛码网】求数列的和