日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP Chinese Corpus:大规模中文自然语言处理语料

發布時間:2024/10/8 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP Chinese Corpus:大规模中文自然语言处理语料 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時甚至非常困難。在 2019 年初這個時點上,普通的從業者、研究人員或學生,并沒有一個比較好的渠道獲得極大量的中文語料。


筆者想要訓練一個中文的詞向量,在百度和 Github 上搜索了好久,收獲卻很少:要么語料的量級太小,要么數據過于成舊,或需要的處理太復雜。不知道你是否也遇到了這樣的問題?


我們這個項目,就是為了解決這一問題貢獻微薄之力。



項目地址:


https://github.com/brightmart/nlp_chinese_corpus


維基百科json版 (wiki2019zh)


104 萬個詞條(1,043,224 條;原始文件大小 1.6G,壓縮文件 519M;數據更新時間:2019.2.7)


下載鏈接:


https://storage.googleapis.com/nlp_chinese_corpus/wiki_zh_2019.zip


可能的用途:可以做為通用中文語料,做預訓練的語料或構建詞向量,也可以用于構建知識問答。?


結構


{"id":<id>,"url":<url>,"title":<title>,"text":<text>}?其中,title是詞條的標題,text是正文;通過"\n\n"換行。


例子?


{"id":?"53",?"url":?"https://zh.wikipedia.org/wiki?curid=53",?"title":?"經濟學",?"text":?"經濟學\n\n經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。西方語言中的“經濟學”一詞源于古希臘的。\n\n經濟學注重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。微觀經濟學檢視一個社會里基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。..."}


效果


經濟學
經濟學是一門對產品和服務的生產、分配以及消費進行研究的社會科學。西方語言中的“經濟學”一詞源于古希臘的。
經濟學注重的是研究經濟行為者在一個經濟體系下的行為,以及他們彼此之間的互動。在現代,經濟學的教材通常將這門領域的研究分為總體經濟學和個體經濟學。微觀經濟學檢視一個社會里基本層次的行為,包括個體的行為者(例如個人、公司、買家或賣家)以及與市場的互動。而宏觀經濟學則分析整個經濟體和其議題,包括失業、通貨膨脹、經濟成長、財政和貨幣政策等。
其他的對照還包括了實證經濟學(研究「是什么」)以及規范經濟學(研究「應該是什么」)、經濟理論與實用經濟學、行為經濟學與理性選擇經濟學、主流經濟學(研究理性-個體-均衡等)與非主流經濟學(研究體制-歷史-社會結構等)。
經濟學的分析也被用在其他各種領域上,主要領域包括了商業、金融、和政府等,但同時也包括了如健康、犯罪、教育、法律、政治、社會架構、宗教、戰爭、和科學等等。到了21世紀初,經濟學在社會科學領域各方面不斷擴張影響力,使得有些學者諷刺地稱其為「經濟學帝國主義」。
在現代對于經濟學的定義有數種說法,其中有許多說法因為發展自不同的領域或理論而有截然不同的定義,蘇格蘭哲學家和經濟學家亞當·斯密在1776年將政治經濟學定義為「國民財富的性質和原因的研究」,他說:
讓-巴蒂斯特·賽伊在1803年將經濟學從公共政策里獨立出來,并定義其為對于財富之生產、分配、和消費的學問。另一方面,托馬斯·卡萊爾則諷刺的稱經濟學為「憂郁的科學」(Dismal?science),不過這一詞最早是由馬爾薩斯在1798年提出。約翰·斯圖爾特·密爾在1844年提出了一個以社會科學定義經濟學的角度:
.....



新聞語料json版 (news2016zh)


250 萬篇新聞(原始數據 9G,壓縮文件 3.6G;新聞內容跨度:2014-2016 年)


下載鏈接(密碼: film)


https://pan.baidu.com/s/1LJeq1dkA0wmYd9ZGZw72Xg


數據描述


包含了 250 萬篇新聞。新聞來源涵蓋了 6.3 萬個媒體,含標題、關鍵詞、描述、正文。


數據集劃分:數據去重并分成三個部分。訓練集:243 萬;驗證集:7.7 萬;測試集,數萬,不提供下載。


可能的用途:可以做為【通用中文語料】,訓練【詞向量】或做為【預訓練】的語料;也可以用于訓練【標題生成】模型,或訓練【關鍵詞生成】模型(選關鍵詞內容不同于標題的數據);亦可以通過新聞渠道區分出新聞的類型。


結構


{'news_id':?<news_id>,'title':<title>,'content':<content>,'source':?<source>,'time':<time>,'keywords':?<keywords>,'desc':?<desc>,?'desc':?<desc>}

其中,title是新聞標題,content是正文,keywords是關鍵詞,desc是描述,source是新聞的來源,time是發布時間


例子


{"news_id":?"610130831",?"keywords":?"導游,門票","title":?"故宮淡季門票40元?“黑導游”賣外地客140元",?"desc":?"近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導游”,專門向外地游客出售高價門票。昨日,記者實地探訪故宮,發現“黑導游”確實存在。窗口出售",?"source":?"新華網",?"time":?"03-22?12:00",?"content":?"近日有網友微博爆料稱,故宮午門廣場售票處出現“黑導游”,專門向外地游客出售高價門票。昨日,記者實地探訪故宮,發現“黑導游”確實存在。窗口出售40元的門票,被“黑導游”加價出售,最高加到140元。故宮方面表示,請游客務必通過正規渠道購買門票,避免上當受騙遭受損失。目前單筆門票購買流程不過幾秒鐘,耐心排隊購票也不會等待太長時間。....再反彈”的態勢,打擊黑導游需要游客配合,通過正規渠道購買門票。"}



百科類問答json版 (baike2018qa)


150 萬個問答(原始數據 1G 多,壓縮文件 663M;數據更新時間:2018 年)


下載鏈接(密碼: fu45)


https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA


數據描述


含有 150 萬個問題和答案,每個問題屬于一個類別。總共有 492 個類別,其中頻率達到或超過 10 次的類別有 434 個。


數據集劃分:數據去重并分成三個部分。訓練集:142.5 萬;驗證集:4.5 萬;測試集,數萬,不提供下載。


可能的用途:可以做為通用中文語料,訓練詞向量或做為預訓練的語料;也可以用于構建百科類問答;其中類別信息比較有用,可以用于做監督訓練,從而構建更好句子表示的模型、句子相似性任務等。


結構


{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中,category是問題的類型,title是問題的標題,desc是問題的描述,可以為空或與標題內容一致。


例子


{"qid":?"qid_2540946131115409959",?"category":?"生活知識",?"title":?"冬天進補好一些呢,還是夏天進步好啊??",?"desc":?"",?"answer":?"你好!\r\r當然是冬天進補好的了,夏天人體的胃處于收縮狀態,不適宜大量的進補,所以我們有時候說:“夏天就要吃些清淡的,就是這個道理的。”\r\r不過,秋季進補要注意“四忌”?一忌多多益善。任何補藥服用過量都有害。認為“多吃補藥,有病治病,無病強身”是不的。過量進補會加重脾胃、肝臟負擔。在夏季里,人們由于喝冷飲,常食凍品,多有脾胃功能減弱的現象,這時候如果突然大量進補,會驟然加重脾胃及肝臟的負擔,使長期處于疲弱的消化器官難于承受,導致消化器官功能紊亂。?\r\r二忌以藥代食。重藥物輕食物的做法是不科學的,許多食物也是好的滋補品。如多吃薺菜可治療高血壓;多吃蘿卜可健胃消食,順氣寬胸;多吃山藥能補脾胃。日常食用的胡桃、芝麻、花生、紅棗、扁豆等也是進補的佳品。\r\r三忌越貴越好。每個人的身體狀況不同,因此與之相適應的補品也是不同的。價格昂貴的補品如燕窩、人參之類并非對每個人都適合。每種進補品都有一定的對象和適應癥,應以實用有效為滋補原則,缺啥補啥。?\r\r四忌只補肉類。秋季適當食用牛羊肉進補效果好。但經過夏季后,由于脾胃尚未完全恢復到正常功能,因此過于油膩的食品不易消化吸收。另外,體內過多的脂類、糖類等物質堆積可能誘發心腦血管病。"}



公開評測


歡迎報告模型在驗證集上的準確率。任務 1: 類別預測。?


報告包括:#1)驗證集上準確率;#2)采用的模型、方法描述、運行方式,1頁PDF;#3)可運行的源代碼(可選)


基于#2和#3,我們會在測試集上做測試,并報告測試集上的準確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標記為未驗證。


翻譯語料 (translation2019zh)


520 萬個問答( 原始數據 1.1G,壓縮文件 596M)


下載鏈接


https://storage.googleapis.com/nlp_chinese_corpus/translation2019zh.zip


數據描述


中英文平行語料 520 萬對。每一個對,包含一個英文和對應的中文。中文或英文,多數情況是一句帶標點符號的完整的話。


對于一個平行的中英文對,中文平均有 36 個字,英文平均有 19 個單詞(單詞如“she”)


數據集劃分:數據去重并分成三個部分。訓練集:516 萬;驗證集:3.9 萬;測試集,數萬,不提供下載。


可能的用途:可以用于訓練中英文翻譯系統,從中文翻譯到英文,或從英文翻譯到中文;由于有上百萬的中文句子,可以只抽取中文的句子,做為通用中文語料,訓練詞向量或做為預訓練的語料。英文任務也可以類似操作。


結構?


{"english":?<english>,?"chinese":?<chinese>}

其中,english是英文句子,chinese是中文句子,中英文一一對應。


例子


{"english":?"In?Italy,?there?is?no?real?public?pressure?for?a?new,?fairer?tax?system.",?"chinese":?"在意大利,公眾不會真的向政府施壓,要求實行新的、更公平的稅收制度。"}



公開評測


歡迎報告模型在驗證集上的準確率。任務 1: 類別預測。?


報告包括:#1)驗證集上準確率;#2)采用的模型、方法描述、運行方式,1頁PDF;#3)可運行的源代碼(可選)


基于#2和#3,我們會在測試集上做測試,并報告測試集上的準確率;只提供了#1和#2的隊伍,驗證集上的成績依然可以被顯示出來,但會被標記為未驗證。


貢獻語料/Contribution


貢獻中文語料,請發送郵件至:


nlp_chinese_corpus@163.com


為了共同建立一個大規模開放共享的中文語料庫,以促進中文自然語言處理領域的發展,凡提供語料并被采納到該項目中,除了會列出貢獻者名單(可選)外,我們會根據語料的質量和量級,選出前 20 個同學,結合您的意愿,寄出鍵盤、鼠標、顯示屏、無線耳機、智能音箱或其他等值的物品,以表示對貢獻者的感謝。




點擊以下標題查看更多往期內容:?


  • Airbnb實時搜索排序中的Embedding技巧

  • 圖神經網絡綜述:模型與應用

  • 近期值得讀的10篇GAN進展論文

  • F-Principle:初探理解深度學習不能做什么

  • 自然語言處理中的語言模型預訓練方法

  • 兩行代碼玩轉Google BERT句向量詞向量

  • AI Challenger 2018 機器翻譯參賽總結

  • Google BERT應用之紅樓夢對話人物提取

  • 深度長文:NLP的巨人肩膀(上)

  • NLP的巨人肩膀(下):從CoVe到BERT




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通




?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 獲取最新論文推薦

總結

以上是生活随笔為你收集整理的NLP Chinese Corpus:大规模中文自然语言处理语料的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。