国内免费汉语语料库-NLP
自轉(zhuǎn)載https://www.sohu.com/a/196504864_236505
(一)國(guó)家語(yǔ)委
1國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)http://www.cncorpus.org/
現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)現(xiàn)在重新開(kāi)放網(wǎng)絡(luò)查詢了。重開(kāi)后的在線檢索速度更快,功能更強(qiáng),同時(shí)提供檢索結(jié)果下載。現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)在線提供免費(fèi)檢索的語(yǔ)料約2000萬(wàn)字,為分詞和詞性標(biāo)注語(yǔ)料。
2古代漢語(yǔ)語(yǔ)料庫(kù)http://www.cncorpus.org/login.aspx
網(wǎng)站現(xiàn)在還增加了一億字的古代漢語(yǔ)生語(yǔ)料,研究古代漢語(yǔ)的也可以去查詢和下載。同時(shí),還提供了分詞,詞性標(biāo)注軟件,詞頻統(tǒng)計(jì),字頻統(tǒng)計(jì)軟件,基于國(guó)家語(yǔ)委語(yǔ)料庫(kù)的字頻詞頻統(tǒng)計(jì)結(jié)果和發(fā)布的詞表等,以供學(xué)習(xí)研究語(yǔ)言文字的老師同學(xué)使用。
(二)北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所
1“人民日?qǐng)?bào)”標(biāo)注語(yǔ)料庫(kù)http://www.icl.pku.edu.cn/icl_res/
“人民日?qǐng)?bào)”標(biāo)注語(yǔ)料庫(kù)中一半的語(yǔ)料(1998年上半年)共1300萬(wàn)字已經(jīng)通過(guò)“人民日?qǐng)?bào)”新聞信息中心公開(kāi)提供許可使用權(quán)。其中一個(gè)月的語(yǔ)料(1998年1月)近200萬(wàn)字在互聯(lián)網(wǎng)上公布,供自由下載。
(三)北京語(yǔ)言大學(xué)
漢語(yǔ)國(guó)際教育技術(shù)研發(fā)中心:HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)http://202.112.195.192:8060/hsk/login.asp
語(yǔ)言研究所:北京口語(yǔ)語(yǔ)料查詢系統(tǒng)(BJKY)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
(四)臺(tái)灣中央研究院
中研院語(yǔ)料庫(kù)WWW版所有功能均開(kāi)放使用,但為防主機(jī)資源耗用過(guò)劇及顧及數(shù)據(jù)傳輸之實(shí)際限制,暫以檢索結(jié)果為限制的條件:院內(nèi)檢索限兩萬(wàn)行數(shù)據(jù),院外檢索限兩千行數(shù)據(jù)。
1現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)http://www.sinica.edu.tw/SinicaCorpus/
專(zhuān)門(mén)針對(duì)語(yǔ)言分析而設(shè)計(jì)的,每個(gè)文句都依詞斷開(kāi),并標(biāo)示詞類(lèi)。語(yǔ)料的搜集也盡量做到現(xiàn)代漢語(yǔ)分配在不同的主題和語(yǔ)式上,是現(xiàn)代漢語(yǔ)無(wú)窮多的語(yǔ)句中一個(gè)代表性的樣本?,F(xiàn)有語(yǔ)料庫(kù)主要針對(duì)語(yǔ)言分析而設(shè)計(jì),由中央研究院信息所,語(yǔ)言所詞庫(kù)小組完成,內(nèi)含有簡(jiǎn)介,使用說(shuō)明,現(xiàn)行的語(yǔ)料庫(kù)是4.0的版本。
2古漢語(yǔ)語(yǔ)料庫(kù)http://www.sinica.edu.tw/ftms-bin/ftmsw
古漢語(yǔ)語(yǔ)料庫(kù)包含以下五個(gè)語(yǔ)料庫(kù):上古漢語(yǔ),中古漢語(yǔ)(含大藏經(jīng)),近代漢語(yǔ),其他,出土文獻(xiàn)。部分?jǐn)?shù)據(jù)取自史語(yǔ)所漢籍全文數(shù)據(jù)庫(kù),故兩者間略有重迭。語(yǔ)料庫(kù)之出土文獻(xiàn)語(yǔ)料庫(kù),全部取自史語(yǔ)所漢簡(jiǎn)小組所制作的數(shù)據(jù)庫(kù)。
3近代漢語(yǔ)標(biāo)記語(yǔ)料庫(kù)http://www.sinica.edu.tw/Early_Mandarin/
為應(yīng)用漢語(yǔ)史研究需求而建構(gòu)的語(yǔ)料庫(kù)。目前素語(yǔ)料庫(kù)所搜集的語(yǔ)料已含蓋上古漢語(yǔ)(先秦至西漢),中古漢語(yǔ)(東漢魏晉南北朝),近代漢語(yǔ)(唐五代以后)大部分的重要語(yǔ)料,并己陸續(xù)開(kāi)放使用;在標(biāo)記語(yǔ)料庫(kù)方面,上古漢語(yǔ)及近代漢語(yǔ)都已有部分語(yǔ)料完成標(biāo)注的工作,并視結(jié)果逐步提供上線檢索。
4樹(shù)圖數(shù)據(jù)庫(kù)http://treebank.sinica.edu.tw/
「中文句結(jié)構(gòu)樹(shù)資料庫(kù)」(Sinica Treebank Version 3.0)包含了6個(gè)檔案,61,087個(gè)中文樹(shù)圖,361,834個(gè)詞,是中央研究院詞庫(kù)小組從中央研究院平衡語(yǔ)料庫(kù)(Sinica Corpus)中抽取句子,經(jīng)由電腦剖析成結(jié)構(gòu)樹(shù),并加以人工修正,檢驗(yàn)后所得的成果。在中文句結(jié)構(gòu)樹(shù)中,我們標(biāo)示了中文句語(yǔ)意和語(yǔ)法的訊息。此一「中文句結(jié)構(gòu)樹(shù)資料庫(kù)」目前開(kāi)放網(wǎng)上檢索及資料移轉(zhuǎn),以供學(xué)者專(zhuān)家在中文句法,語(yǔ)意關(guān)系研究參考之用。另有1000個(gè)句結(jié)構(gòu)樹(shù)開(kāi)放下載。
5中英雙語(yǔ)知識(shí)本體詞網(wǎng)http://bow.sinica.edu.tw/
結(jié)合詞網(wǎng),知識(shí)本體,與領(lǐng)域標(biāo)記的詞匯知識(shí)庫(kù)。
6搜文解字http://words.sinica.edu.tw/
包含「搜詞尋字」、「文學(xué)之美」、「游戲解惑」、「古文字的世界」四個(gè)單元,可由部件、部首、字、音、詞互查,并可查詢?cè)谒臅?shū)、老、莊、唐詩(shī)中的出處,及直接連結(jié)到出處,閱讀原文。
7文國(guó)尋寶記http://www.sinica.edu.tw/wen/
在搜文解字的基礎(chǔ)之上,以華語(yǔ)文學(xué)習(xí)者為對(duì)象,進(jìn)一步將字、詞、音的檢索功能與國(guó)編、華康、南一等三種版本的國(guó)小國(guó)語(yǔ)課本結(jié)合,與唐詩(shī)三百首、宋詞三百首、紅樓夢(mèng)、水滸傳等文學(xué)典籍結(jié)合,提供網(wǎng)絡(luò)上國(guó)語(yǔ)文學(xué)習(xí)的素材。
8唐詩(shī)三百首http://cls.admin.yzu.edu.tw/300/
以 國(guó)中、小學(xué)學(xué)生為主要使用對(duì)象,提供吟唱、繪畫(huà)、書(shū)法等多媒體數(shù)據(jù),文字?jǐn)?shù)據(jù)報(bào)含作者生平、讀音標(biāo)注、翻譯、批注、評(píng)注、典故出處等資料;檢索點(diǎn)包含作 者、詩(shī)題、詩(shī)句、綜合資料、體裁分類(lèi)等;檢索結(jié)果可以列出全文,并選擇標(biāo)示相關(guān)之文字及多媒體數(shù)據(jù)。并提供了一套可以自動(dòng)檢查格律、韻腳、批改的「依韻入 詩(shī)格律自動(dòng)檢測(cè)索引教學(xué)系統(tǒng)」,協(xié)助孩子們依韻作詩(shī),協(xié)助教師批改習(xí)作。
9漢籍電子文獻(xiàn)http://www.sinica.edu.tw/~tdbproj/handy1/
包含整部25史 整部阮刻13經(jīng)、超過(guò)2000萬(wàn)字的臺(tái)灣史料、1000萬(wàn)字的大正藏以及其他典籍。
10紅樓夢(mèng)網(wǎng)絡(luò)教學(xué)研究數(shù)據(jù)中心http://cls.hs.yzu.edu.tw/HLM/home.htm
元智大學(xué)中國(guó)文學(xué)網(wǎng)絡(luò)系統(tǒng)研究室所開(kāi)發(fā)的「網(wǎng)絡(luò)展書(shū)讀—中國(guó)文學(xué)網(wǎng)絡(luò)系統(tǒng)」,為研究中心負(fù)責(zé)人羅鳳珠老師主持,紅樓夢(mèng)是其中一個(gè)子系統(tǒng),其他還包括善本書(shū)、詩(shī)經(jīng)、唐宋詩(shī)詞、作詩(shī)填詞等子系統(tǒng)。此網(wǎng)站為國(guó)內(nèi)Internet最大中國(guó)文學(xué)研究數(shù)據(jù)庫(kù),提供用戶最完整的中國(guó)文學(xué)研究數(shù)據(jù)。
(五)中國(guó)傳媒大學(xué)
1中國(guó)傳媒大學(xué)文本語(yǔ)料庫(kù)檢索系統(tǒng)
http://ling.cuc.edu.cn/RawPub/
2在線分詞標(biāo)注系統(tǒng)
http://ling.cuc.edu.cn/cucseg/
3新詞語(yǔ)研究資源庫(kù)
http://ling.cuc.edu.cn/newword/web/index.asp
4音視頻語(yǔ)料檢索系統(tǒng)
http://ling.cuc.edu.cn/mmcpub(目前系統(tǒng)正在升級(jí)改造中)
(六)哈爾濱工業(yè)大學(xué)
1哈工大信息檢索研究室對(duì)外共享語(yǔ)料庫(kù)資源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
該語(yǔ)料庫(kù)為漢英雙語(yǔ)語(yǔ)料庫(kù),10萬(wàn)對(duì)齊雙語(yǔ)句對(duì),文本文件格式,同義詞詞林?jǐn)U展版,77,343條詞語(yǔ),秉承《同義詞詞林》的編撰風(fēng)格,同時(shí)采用五級(jí)編碼體系,多文檔自動(dòng)文摘語(yǔ)料庫(kù),40個(gè)主題,文本文件格式,同一主題下是同一事件的不同報(bào)道,漢語(yǔ)依存樹(shù)庫(kù),不帶關(guān)系5萬(wàn)句,帶關(guān)系1萬(wàn)句,LTML化,分詞、詞性、句法部分人工標(biāo)注,可以圖形化查看,問(wèn)答系統(tǒng)問(wèn)題集,6264句,已標(biāo)注問(wèn)題類(lèi)型,LTML化,分詞、詞性、句法、詞義、淺層語(yǔ)義等程序處理得到,單文檔自動(dòng)文摘語(yǔ)料庫(kù),211篇,分不同體裁,LTML化,文摘句標(biāo)注,分詞、詞性、句法、詞義、淺層語(yǔ)義、文本分類(lèi)、指代消解等程序處理得到。
(七)清華大學(xué)
漢語(yǔ)均衡語(yǔ)料庫(kù)TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)
(八)香港教育學(xué)院
語(yǔ)言資訊科學(xué)中心及其語(yǔ)料庫(kù)實(shí)驗(yàn)室http://www.livac.org/index.php?lang=sc
自1995年開(kāi)始,以「共時(shí)」方式處理了超常的大量漢語(yǔ)語(yǔ)料,通過(guò)精密的技術(shù),累積眾多精確的統(tǒng)計(jì)數(shù)據(jù),建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共時(shí)語(yǔ)料庫(kù)。 本語(yǔ)料庫(kù)最大特點(diǎn)是采用「共時(shí)性」視窗模式,嚴(yán)謹(jǐn)?shù)囟〞r(shí)分別收集來(lái)自多地的定量同類(lèi)語(yǔ)料,可供各種客觀的比較研究,方便有關(guān)的信息科技發(fā)展與應(yīng)用。此外,語(yǔ)料庫(kù)又兼顧了「歷時(shí)性」,方便各方人士客觀地觀察與研究視窗內(nèi)的有代表性的語(yǔ)言發(fā)展全面動(dòng)態(tài)。
(九)中國(guó)科學(xué)院計(jì)算技術(shù)研究所
跨語(yǔ)言語(yǔ)料庫(kù)http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升級(jí))
目前的雙語(yǔ)句對(duì)數(shù)據(jù)庫(kù)中有約180,000對(duì)已對(duì)齊的中英文句子。 本數(shù)據(jù)庫(kù)支持簡(jiǎn)單的中英文查詢服務(wù)。 查詢結(jié)果包括句對(duì)編號(hào)、中文句子、英文句子、句對(duì)來(lái)源。
(十)中文語(yǔ)言資源聯(lián)盟
中文語(yǔ)言資源聯(lián)盟http://www.chineseldc.org/
(Chinese Linguistic Data Consortium,簡(jiǎn)稱(chēng)ChineseLDC)的建立。ChineseLDC是吸收國(guó)內(nèi)高等院校,科研機(jī)構(gòu)和公司參加的開(kāi)放式語(yǔ)言資源聯(lián)盟。其目的是建成能代表當(dāng)今中文信息處理水平的,通用的中文語(yǔ)言信息知識(shí)庫(kù)。ChineseLDC 將建設(shè)和收集中文信息處理所需要的各種語(yǔ)言資源,包括詞典,語(yǔ)料庫(kù),數(shù)據(jù),工具等。在建立和收集語(yǔ)言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,推薦給用戶,并且針對(duì)中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評(píng)測(cè)機(jī)制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開(kāi)發(fā)提供支持。(之所以排名這么后,是因?yàn)槭菄?guó)家出錢(qián)的項(xiàng)目,卻沒(méi)有什么免費(fèi)資源)
?
【網(wǎng)站】
語(yǔ)料庫(kù)在線 http://www.cncorpus.org/
現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù) http://ccl.pku.edu.cn/corpus.asp?item=1
古代漢語(yǔ)語(yǔ)料庫(kù) http://ccl.pku.edu.cn/corpus.asp?item=2
漢英雙語(yǔ)語(yǔ)料庫(kù) http://ccl.pku.edu.cn/corpus.asp?item=3
HSK動(dòng)態(tài)作文語(yǔ)料庫(kù) http://202.112.195.192:8060/hsk/login.asp
北京口語(yǔ)語(yǔ)料查詢系統(tǒng) http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù) http://rocling.iis.sinica.edu.tw/new/20corpus.htm
LIVAC共時(shí)語(yǔ)料庫(kù) http://www.livac.org/index.php
蘭開(kāi)斯特漢語(yǔ)語(yǔ)料庫(kù) http://ling.cass.cn/dangdai/LCMC/LCMC.htm
洛杉磯加州大學(xué)漢語(yǔ)語(yǔ)料庫(kù) http://www.lancs.ac.uk/fass/projects/corpus/UCLA/
中文新聞分類(lèi)語(yǔ)料庫(kù) http://www.nlpir.org/?action-viewnews-itemid-145
NLPIR 500萬(wàn)條twitter內(nèi)容語(yǔ)料庫(kù) http://www.nlpir.org/?action-viewnews-itemid-263
NLPIR微博博主語(yǔ)料庫(kù)100萬(wàn)條 http://www.nlpir.org/?action-viewnews-itemid-232
現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)詞頻統(tǒng)計(jì) http://elearning.ling.sinica.edu.tw/CWordfreq.html
歡迎關(guān)注新浪微博【對(duì)外漢語(yǔ)北京】
中文句結(jié)構(gòu)樹(shù)資料庫(kù) http://turing.iis.sinica.edu.tw/treesearch/
搜狗文本分類(lèi)語(yǔ)料庫(kù) http://www.sogou.com/labs/dl/c.html
哈工大信息檢索研究室對(duì)外共享語(yǔ)料庫(kù) http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
傳媒大學(xué)文本語(yǔ)料庫(kù) http://ling.cuc.edu.cn/RawPub/
詞語(yǔ)研究資源庫(kù) 對(duì)外漢語(yǔ)北京 http://ling.cuc.edu.cn/newword/web/index.asp
BFSU CQPweb多語(yǔ)言在線語(yǔ)料庫(kù)檢索平臺(tái) http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358
英漢雙語(yǔ)平行語(yǔ)料庫(kù) http://www.luweixmu.com/ec-corpus/
babel漢英平行語(yǔ)料庫(kù)http://icl.pku.edu.cn/icl_groups/parallel/default.htm
中國(guó)法律法規(guī)漢英平行語(yǔ)料庫(kù)(大陸)http://corpus.zscas.edu.cn/lawcorpus1/index.asp
國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心http://www.clr.org.cn/
英國(guó)國(guó)家語(yǔ)料庫(kù)http://www.natcorp.ox.ac.uk/
以下資源來(lái)自中國(guó)自然語(yǔ)言開(kāi)源組織:http://www.nlpcn.org/ Google“紐約時(shí)報(bào)”標(biāo)注數(shù)據(jù)集
Google公布了一個(gè)“紐約時(shí)報(bào)”標(biāo)注數(shù)據(jù)集:http://t.cn/RPsjAyl訓(xùn)練集包括100,834文件,19,261,118標(biāo)注實(shí)體。測(cè)試集合包括9,706文件,187,080標(biāo)注實(shí)體.Google Code項(xiàng)目鏈接:http:// t.cn/RPsjAyl
360萬(wàn)中文詞庫(kù)包含,詞性,詞頻
來(lái)源:互聯(lián)網(wǎng)。共有詞條3669276個(gè)。統(tǒng)計(jì)了每個(gè)詞條的詞頻以及詞性信息。盡請(qǐng)下來(lái)..下載地址:http://pan.baidu.com/s/1gdBtsTP提取碼:7s4j
10億字語(yǔ)言建?;鶞?zhǔn)1.67G
10億字 - 語(yǔ)言 - 建模 - 基準(zhǔn) - r13output.tar語(yǔ)言模型詞語(yǔ)搭配語(yǔ)料鏈接:http://pan.baidu.com/s/1o6jZOtc密碼:x4sb
某購(gòu)物網(wǎng)站6瓦特多的商品數(shù)據(jù)
某購(gòu)物網(wǎng)站6w多的商品數(shù)據(jù)。鏈接:http://pan.baidu.com/s/1o6DgcNS密碼:vi4l包括商品名稱(chēng)價(jià)錢(qián)。以及圖片鏈接地址分類(lèi)ID
來(lái)源:HTTP://www.cnblogs.com/mo-wang/p/4444858.html
總結(jié)
以上是生活随笔為你收集整理的国内免费汉语语料库-NLP的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java 正则表达式 替换字符串img标
- 下一篇: touchWX 自定义组件以及传值