日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【NLP】Pytorch中文语言模型bert预训练代码

發(fā)布時(shí)間:2025/3/8 编程问答 11 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【NLP】Pytorch中文语言模型bert预训练代码 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

ACL2020 Best Paper有一篇論文提名獎(jiǎng),《Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks》。這篇論文做了很多語(yǔ)言模型預(yù)訓(xùn)練的實(shí)驗(yàn),系統(tǒng)的分析了語(yǔ)言模型預(yù)訓(xùn)練對(duì)子任務(wù)的效果提升情況。有幾個(gè)主要結(jié)論:

  • 在目標(biāo)領(lǐng)域的數(shù)據(jù)集上繼續(xù)預(yù)訓(xùn)練(DAPT)可以提升效果;目標(biāo)領(lǐng)域的語(yǔ)料與RoBERTa的原始預(yù)訓(xùn)練語(yǔ)料越不相關(guān),DAPT效果則提升更明顯。

  • 在具體任務(wù)的數(shù)據(jù)集上繼續(xù)預(yù)訓(xùn)練(TAPT)可以十分“廉價(jià)”地提升效果。

  • 結(jié)合二者(先進(jìn)行DAPT,再進(jìn)行TAPT)可以進(jìn)一步提升效果。

  • 如果能獲取更多的、任務(wù)相關(guān)的無標(biāo)注數(shù)據(jù)繼續(xù)預(yù)訓(xùn)練(Curated-TAPT),效果則最佳。

  • 如果無法獲取更多的、任務(wù)相關(guān)的無標(biāo)注數(shù)據(jù),采取一種十分輕量化的簡(jiǎn)單數(shù)據(jù)選擇策略,效果也會(huì)提升。

知乎專欄《高能NLP》

https://zhuanlan.zhihu.com/p/149210123

雖然在bert上語(yǔ)言模型預(yù)訓(xùn)練在算法比賽中已經(jīng)是一個(gè)穩(wěn)定的上分操作。但是上面這篇文章難能可貴的是對(duì)這個(gè)操作進(jìn)行了系統(tǒng)分析。大部分中文語(yǔ)言模型都是在tensorflow上訓(xùn)練的,一個(gè)常見例子是中文roberta項(xiàng)目??梢詤⒖?/p>

https://github.com/brightmart/roberta_zh

使用pytorch進(jìn)行中文bert語(yǔ)言模型預(yù)訓(xùn)練的例子比較少。在huggingface的Transformers中,有一部分代碼支持語(yǔ)言模型預(yù)訓(xùn)練(不是很豐富,很多功能都不支持比如wwm)。為了用最少的代碼成本完成bert語(yǔ)言模型預(yù)訓(xùn)練,本文借鑒了里面的一些現(xiàn)成代碼。也嘗試分享一下使用pytorch進(jìn)行語(yǔ)言模型預(yù)訓(xùn)練的一些經(jīng)驗(yàn)。主要有三個(gè)常見的中文bert語(yǔ)言模型

  • bert-base-chinese

  • roberta-wwm-ext

  • ernie

  • 1?bert-base-chinese

    (https://huggingface.co/bert-base-chinese)

    這是最常見的中文bert語(yǔ)言模型,基于中文維基百科相關(guān)語(yǔ)料進(jìn)行預(yù)訓(xùn)練。把它作為baseline,在領(lǐng)域內(nèi)無監(jiān)督數(shù)據(jù)進(jìn)行語(yǔ)言模型預(yù)訓(xùn)練很簡(jiǎn)單。只需要使用官方給的例子就好。

    https://github.com/huggingface/transformers/tree/master/examples/language-modeling

    (本文使用的transformers更新到3.0.2)

    方法就是

    python run_language_modeling.py \--output_dir=output \--model_type=bert \--model_name_or_path=bert-base-chinese?\--do_train \--train_data_file=$TRAIN_FILE \--do_eval \--eval_data_file=$TEST_FILE \--mlm

    其中$TRAIN_FILE 代表領(lǐng)域相關(guān)中文語(yǔ)料地址。

    2?roberta-wwm-ext

    (https://github.com/ymcui/Chinese-BERT-wwm)

    哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的預(yù)訓(xùn)練語(yǔ)言模型。預(yù)訓(xùn)練的方式是采用roberta類似的方法,比如動(dòng)態(tài)mask,更多的訓(xùn)練數(shù)據(jù)等等。在很多任務(wù)中,該模型效果要優(yōu)于bert-base-chinese。

    對(duì)于中文roberta類的pytorch模型,使用方法如下

    import torch from transformers import BertTokenizer, BertModel tokenizer = BertTokenizer.from_pretrained("hfl/chinese-roberta-wwm-ext") roberta = BertModel.from_pretrained("hfl/chinese-roberta-wwm-ext")

    切記不可使用官方推薦的

    tokenizer?=?AutoTokenizer.from_pretrained("hfl/chinese-roberta-wwm-ext") model = AutoModel.from_pretrained("hfl/chinese-roberta-wwm-ext")

    因?yàn)橹形膔oberta類的配置文件比如vocab.txt,都是采用bert的方法設(shè)計(jì)的。英文roberta模型讀取配置文件的格式默認(rèn)是vocab.json。對(duì)于一些英文roberta模型,倒是可以通過AutoModel自動(dòng)讀取。這就解釋了huggingface的模型庫(kù)的中文roberta示例代碼為什么跑不通。https://huggingface.co/models?

    如果要基于上面的代碼run_language_modeling.py繼續(xù)預(yù)訓(xùn)練roberta。還需要做兩個(gè)改動(dòng)。

    • 下載roberta-wwm-ext到本地目錄hflroberta,在config.json中修改“model_type”:"roberta"為"model_type":"bert"。

    • 對(duì)上面的run_language_modeling.py中的AutoModel和AutoTokenizer都進(jìn)行替換為BertModel和BertTokenizer。

    再運(yùn)行命令

    python?run_language_modeling_roberta.py?\--output_dir=output \--model_type=bert \--model_name_or_path=hflroberta?\--do_train \--train_data_file=$TRAIN_FILE \--do_eval \--eval_data_file=$TEST_FILE \--mlm

    3 ernie

    (https://github.com/nghuyong/ERNIE-Pytorch)

    ernie是百度發(fā)布的基于百度知道貼吧等中文語(yǔ)料結(jié)合實(shí)體預(yù)測(cè)等任務(wù)生成的預(yù)訓(xùn)練模型。這個(gè)模型的準(zhǔn)確率在某些任務(wù)上要優(yōu)于bert-base-chinese和roberta。如果基于ernie1.0模型做領(lǐng)域數(shù)據(jù)預(yù)訓(xùn)練的話只需要一步修改。

    • 下載ernie1.0到本地目錄ernie,在config.json中增加字段"model_type":"bert"。

    python run_language_modeling.py \--output_dir=output \--model_type=bert \--model_name_or_path=ernie \--do_train \--train_data_file=$TRAIN_FILE \--do_eval \--eval_data_file=$TEST_FILE \--mlm

    最后,huggingface項(xiàng)目中語(yǔ)言模型預(yù)訓(xùn)練用mask方式如下。仍是按照15%的數(shù)據(jù)隨機(jī)mask然后預(yù)測(cè)自身。如果要做一些高級(jí)操作比如whole word masking或者實(shí)體預(yù)測(cè),可以自行修改transformers.DataCollatorForLanguageModeling。

    本文實(shí)驗(yàn)代碼庫(kù)。拿來即用!

    https://github.com/zhusleep/pytorch_chinese_lm_pretrain

    往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯獲取一折本站知識(shí)星球優(yōu)惠券,復(fù)制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請(qǐng)掃碼進(jìn)群: 與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖

    總結(jié)

    以上是生活随笔為你收集整理的【NLP】Pytorch中文语言模型bert预训练代码的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 四虎精品永久在线 | 91嫩草欧美久久久九九九 | 欧美熟妇交换久久久久久分类 | 日日夜夜91 | 国产精彩视频在线 | 色多多视频在线 | 秋霞午夜 | av高清在线免费观看 | 国产三级精品三级 | 亚洲综合图 | 怡红院成人在线 | 女生鸡鸡软件 | 亚洲s码欧洲m码国产av | 久久久久久久久久网站 | 国产精品视频久久久 | 中文字幕在线观看视频网站 | 欧洲国产视频 | 亚洲乱码视频在线观看 | 精品久久一区二区 | 亚洲一区高清 | 成人短视频在线播放 | 视频二区| 久草免费在线视频 | 久久久久久国产视频 | 久久99国产精品久久99 | 黄色免费在线观看视频 | 国产精品免费一区二区三区 | 国产香蕉在线观看 | 中文字幕二区在线观看 | 亚洲激情专区 | 国产一区二区三区视频 | 成年人免费网站在线观看 | 巨胸爆乳美女露双奶头挤奶 | 国产亚洲精品成人av在线 | 精品伦理一区二区 | 天天色综| 久久久久无码国产精品一区李宗瑞 | 中文字幕日韩电影 | 国产综合精品久久久久成人影 | 美女福利视频在线观看 | 在线观看av一区 | 亚洲成年人 | 欧美 日韩 国产 一区 | 日批视频在线播放 | 天堂免费av | 欧美手机在线 | 欧美另类69 | 精品黄色av | 五月天啪啪| 曰韩一级片 | 成人在线午夜 | h片在线播放 | 久久99热这里只频精品6学生 | 97久久久| 国产91在线亚洲 | www.香蕉视频 | 男人操女人下面视频 | 亚洲伊人网站 | 亚洲第一在线视频 | 亚洲码无人客一区二区三区 | 久热免费在线视频 | 一级毛毛片| 久久综合福利 | 99成人精品视频 | 国产欧美日韩综合精品一区二区三区 | 欧美zozo | 青青青手机在线视频 | 色8久久 | av影片在线观看 | 亚洲午夜久久 | 国产一区二区三区视频 | 五月天色小说 | 亚洲骚片| 日韩欧美中文一区 | 免费福利影院 | 日韩有码中文字幕在线观看 | 精品人妻av一区二区 | 亚洲国产精品成人无码区 | 国产精品亚洲视频 | 中文字幕在线观看视频网站 | 午夜福利三级理论电影 | 丁香花五月| 国产91丝袜在线观看 | 国产欧美日韩专区发布 | 黄色在线网站 | 天堂男人网 | 久久久三级视频 | 日韩人妻精品一区二区三区视频 | 香蕉av一区二区三区 | 欧美丝袜脚交 | 亚洲在线视频观看 | 国产aa视频 | 黄黄的网站 | 高潮白浆女日韩av免费看 | 在线观看av黄色 | 97看片网| 无码精品一区二区三区在线 | 天堂av免费观看 | 特色黄色片|