日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

冲击SuperGLUE:基于多任务与对抗训练的Finetune方案解析

發(fā)布時(shí)間:2024/10/8 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 冲击SuperGLUE:基于多任务与对抗训练的Finetune方案解析 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者|Frank Luo

單位|追一科技AI Lab研究員

研究方向|自然語(yǔ)言處理

前言

英文通用語(yǔ)言理解評(píng)測(cè)基準(zhǔn) GLUE [1] 自提出以來(lái),吸引了一大批預(yù)訓(xùn)練語(yǔ)言模型 (BERT [2],XLNET [3],RoBERTa [4],ALBERT [5],ERNIE [6],T5 [7]) 以及基于預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)的工作 (MT-DNN [8],FreeLB [9],SMART [10])。

目前,通過(guò)對(duì)預(yù)訓(xùn)練模型進(jìn)行下游任務(wù) Finetune 是普遍的做法,而要在下游任務(wù)上得到好的效果,除了使用更好的預(yù)訓(xùn)練模型以外,如何針對(duì)不同的任務(wù)來(lái)設(shè)計(jì) Finetune 的流程也是關(guān)鍵所在。

針對(duì)這個(gè)問(wèn)題,我們以 RoBERTa 為 baseline 模型,在 SuperGLUE [11] 榜單上進(jìn)行了一系列的嘗試,通過(guò)多任務(wù)學(xué)習(xí) (multitask learning),對(duì)抗訓(xùn)練 (adversarial training) 等方法,取得了第二的成績(jī)。

數(shù)據(jù)介紹

數(shù)據(jù)集選取 選取 SuperGLUE 作為標(biāo)的數(shù)據(jù)集主要是考慮到它的多樣性以及整體難度兩個(gè)方面。原 GLUE 數(shù)據(jù)集由 8 個(gè)句子/句子對(duì)分類任務(wù)組成,目前模型僅在 RTE,WNLI 兩個(gè)任務(wù)上還未超過(guò)人類表現(xiàn)。

鑒于模型在 GLUE 上已經(jīng)基本超過(guò)人類的表現(xiàn),GLUE 的原作者保留了 RTE 和 WNLI 這兩個(gè)任務(wù) (其中 WNLI 僅改變了任務(wù)形式,更名為 WSC),并引入形式多樣且更具挑戰(zhàn)的 6 個(gè)任務(wù),組成了新的語(yǔ)義理解基準(zhǔn) SuperGLUE,它共包含 8 個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集針都是對(duì)語(yǔ)言的不同側(cè)面設(shè)計(jì)了不同的任務(wù),以求盡量從多個(gè)角度來(lái)考察模型的能力。

下面將簡(jiǎn)單介紹每個(gè)數(shù)據(jù)集的任務(wù)形式及特點(diǎn),對(duì)數(shù)據(jù)集的分析能讓我們對(duì)模型需要完成的事情有所了解,因此也會(huì)對(duì)模型與訓(xùn)練流程的設(shè)計(jì)提供思路。

RTE 與 CB 從任務(wù)形式來(lái)說(shuō),同為句子對(duì)分類任務(wù),因此我們放到一起來(lái)介紹,但實(shí)際上兩者背后考察的內(nèi)容非常不同。

RTE 考察的是模型對(duì)文本蘊(yùn)含的判斷能力。RTE 數(shù)據(jù)集是繼承自 GLUE 的一個(gè)數(shù)據(jù)集,目前還沒(méi)有模型能夠超過(guò)人類的分?jǐn)?shù)。文本蘊(yùn)含(自然語(yǔ)言推斷)是語(yǔ)言理解的一項(xiàng)基本能力,而文本蘊(yùn)含類型的任務(wù)其實(shí)涵蓋了多個(gè)維度,從邏輯推理到常識(shí)知識(shí)都會(huì)覆蓋。

而 CB 則是另一項(xiàng)非常有難度的任務(wù),其任務(wù)設(shè)計(jì)是針對(duì)一個(gè)語(yǔ)言學(xué)現(xiàn)象(補(bǔ)語(yǔ)的語(yǔ)義投射),用此來(lái)考察模型是否像人一樣具有語(yǔ)義投射的能力。

COPA 為多項(xiàng)選擇,給定 premise,選擇合適的選項(xiàng)作為它的 effect or cause。它的目標(biāo)是考察模型對(duì)于常識(shí)的因果推斷能力。

BoolQ 是一個(gè)判斷是否的閱讀理解任務(wù)。作者從搜索引擎的日志中篩選問(wèn)句,再將問(wèn)句與 Wiki page 中相應(yīng)的段落對(duì)應(yīng),經(jīng)過(guò)規(guī)則和人工篩選之后構(gòu)建最終的數(shù)據(jù)集 [12]。盡管只需要回答是或否,但問(wèn)題形式和種類多樣。?

MultiRC 是一個(gè)多項(xiàng)選擇閱讀理解任務(wù)。它的每個(gè)問(wèn)題對(duì)應(yīng)的答案是不唯一的,即存在一個(gè)或多個(gè)選項(xiàng)為正確答案。對(duì)于單個(gè)問(wèn)題,答案可能分布在文章的不同句子中,模型需要從不同的地方驗(yàn)證每個(gè)答案是否正確。?

ReCoRD 是一個(gè)完形填空式的多項(xiàng)選擇閱讀理解任務(wù)。作者從 CNN/DailyMail 中選取新聞的摘要部分作為任務(wù)的文章部分(context)。其任務(wù)的方式是在選取摘要中某一實(shí)體,然后從新聞的后續(xù)細(xì)節(jié)描述中選取包含該實(shí)體的句子,并人為從該句子中去掉該實(shí)體,用來(lái)作為任務(wù)的問(wèn)題(query)[13]。

最終的 120k 個(gè)樣本經(jīng)過(guò)模型和人工篩從 770k 個(gè)樣本中篩選出。這個(gè)任務(wù)的一大難點(diǎn)在于用做問(wèn)題(query)的細(xì)節(jié)描述并不一定在摘要(context)中出現(xiàn),因此為了完成任務(wù),模型需要具備一定的常識(shí)或進(jìn)行一定的推理。?

WiC (word in context) 是一個(gè)詞義消歧(Word Sense Disambiguity)任務(wù)。模型需要鑒別同一個(gè)詞在兩個(gè)不同句子中的含義是否相同。任務(wù)的難點(diǎn)在于,在兩個(gè)完全不同含義的句子中,相同的詞也可能有一樣的含義。因此在特征處理上,除了兩個(gè)句子的 interaction,還要考慮詞在句子中的表征。?

WSC 是一個(gè)指代消解的任務(wù),與 GLUE 中的 WNLI 是同一個(gè)任務(wù),只是更換了任務(wù)形式。它主要考察語(yǔ)意連續(xù)的一段文本中某對(duì)實(shí)體與代詞是的指代是否一致。

模型改進(jìn)

1. 基線模型?

我們選用 RoBERTa 作為基線模型,并在 RoBERTa 的基礎(chǔ)上根據(jù)下游任務(wù)形式進(jìn)行不同的 adaptation。如下圖所示,我們將任務(wù)歸為分類、抽取,以及 WiC 和 WSC 兩個(gè)比較獨(dú)立的任務(wù)。

分類任務(wù):我們采取拼接的方式將句子對(duì)或文章問(wèn)題(答案)組拼接成一個(gè)序列,用特殊字符分隔,取序列的第一個(gè) token 的編碼向量進(jìn)行分類。對(duì)于多項(xiàng)選擇的 COPA 數(shù)據(jù)集,我們將兩個(gè)選項(xiàng)進(jìn)行拼接,然后取得到的兩個(gè)序列的第一個(gè) token 的編碼向量進(jìn)行分類。?

WiC:因?yàn)榭紤]到句意不同,但詞意相同的情況,我們需要拿到 word in context 的信息。這里我們?nèi)〕鰞蓚€(gè)句子中相同詞的第一個(gè) token 的編碼向量 s1 和 s2,計(jì)算?,最終與序列的第一個(gè) token 拿到的向量做拼接,得到向量??再做分類。

WSC:基于 [14] 的做法,我們?nèi)∮?xùn)練樣本中的正例,得到一段文本中正確的代詞和實(shí)體對(duì),隨后用工具包 spacy 提取出文本中所有其他的實(shí)體與該代詞構(gòu)造負(fù)例。

如下圖中 Fred watched TV while George went out to buy groceries. After an hour he got back.,我們可能會(huì)抽取到 Fred,George,TV,groceries,只有 George 和 he 是正確的代詞和實(shí)體對(duì)。

訓(xùn)練時(shí),我們?nèi)∫粚?duì)正確和錯(cuò)誤的,將實(shí)體填入代詞的位置之后輸入模型,優(yōu)化他們的 ranking loss。此外還使用正確的實(shí)體替換對(duì)應(yīng)的代詞后,mask 掉替換的實(shí)體,然后以 Masked LM 的方式來(lái)訓(xùn)練模型預(yù)測(cè)該實(shí)體。最終預(yù)測(cè)時(shí),抽取出句子中所有的實(shí)體,通過(guò) ranking 和 Masked LM 進(jìn)行打分,選擇分?jǐn)?shù)最高的實(shí)體為代詞正確的指代。

ReCoRD 是一個(gè) cloze-style 的閱讀理解任務(wù),候選是篇章中出現(xiàn)的所有實(shí)體。在初期實(shí)驗(yàn)階段,一個(gè)簡(jiǎn)單的想法是將每一個(gè)候選實(shí)體填入問(wèn)題中,然后與篇章拼接,作為一個(gè)多項(xiàng)選擇任務(wù)。但這樣將會(huì)使得計(jì)算量變大,且可能減弱候選答案之間的相互關(guān)聯(lián)。?

因此這里我們嘗試按抽取式閱讀理解的方法處理,可以分為兩種形式。一種是從篇章中抽取,我們將問(wèn)題:

With bright lights illuminating his efforts from below, Mr **X** appears to be on the set of a sci-fi movie?

改寫(xiě)為 What is X? question: With bright lights illuminating his efforts from below, Mr **X** appears to be on the set of a sci-fi movie,然后與篇章拼接。

我們?cè)?RoBERTa 的基礎(chǔ)上訓(xùn)練兩個(gè) head 表征用來(lái)預(yù)測(cè)實(shí)體的起始和終止,每個(gè) head 表征對(duì)篇章序列的每個(gè)位置做一個(gè)三分類:1)正確候選實(shí)體起始/終止 ;2)錯(cuò)誤候選實(shí)體起始/終止;3)其他。?

另一個(gè)方案相對(duì)簡(jiǎn)單一些,是將所有的候選實(shí)體拼接成一個(gè)序列,置于問(wèn)題后面,從拼接得到的候選中預(yù)測(cè)答案所在的位置。在我們的試驗(yàn)中,這兩種方式都能比簡(jiǎn)單的多項(xiàng)選擇得到更好的結(jié)果,并且減少訓(xùn)練和預(yù)測(cè)時(shí)間。

▲?注:為了便于展示,圖中的 cls 實(shí)際為 RoBERTa 中的 s,句子對(duì)拼接時(shí)的 /s 這里已經(jīng)省略。

2. 多任務(wù)和遷移學(xué)習(xí)?

多任務(wù)學(xué)習(xí) (multitask learning) 能夠借助多個(gè)相關(guān)任務(wù)互相提供監(jiān)督信號(hào),并且因?yàn)楣蚕韰?shù),因此可能可以為模型提供更好的泛化能力 [8] [15]。我們基于 SuperGLUE 各個(gè)數(shù)據(jù)集任務(wù)形式之間的關(guān)聯(lián)性以及數(shù)據(jù)源的相關(guān)性,采取如圖的多任務(wù)訓(xùn)練方式。

例如 CB 數(shù)據(jù)集,我們采用在 MNLI 上精調(diào)的 RoBERTa 模型為起始,聯(lián)合 BoolQ,MultiRC 等進(jìn)行多任務(wù)訓(xùn)練,取多任務(wù)訓(xùn)練中得到的一個(gè) checkpoint,再在 CB 任務(wù)上進(jìn)行精調(diào)。下表為部分?jǐn)?shù)據(jù)集的對(duì)比結(jié)果(5 個(gè)不同的隨機(jī)種子下的平均值)。第二行的結(jié)果 CB 和 BoolQ 是基于 RoBERTa-mnli 的模型,而 ReCoRD 則基于 RoBERTa-squad。?

從結(jié)果中可以觀察到,遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)都能帶來(lái)提升,尤其是當(dāng)遷移或多任務(wù)中一起訓(xùn)練的任務(wù)與目標(biāo)任務(wù)有強(qiáng)相關(guān)的時(shí)候。這種強(qiáng)相關(guān)可以是任務(wù)形式相同,如 CB 和 MNLI 都屬于判斷 premise 和 hypothesis 之間的蘊(yùn)含關(guān)系;或者是數(shù)據(jù)同源,如 ReCoRD、Squad 以及 CNN/Daily Mail 都當(dāng)作抽取式任務(wù)處理。

同時(shí)也觀察到引入 CNN/Daily Mail 帶來(lái)的提升高于引入 Squad 帶來(lái)的提升(Squad 和 ReCoRD 做多任務(wù)時(shí)效果更差),我們猜測(cè)原因是 ReCoRD 和 CNN/Daily Mail 數(shù)據(jù)集都是從 CNN 和 Daily 新聞網(wǎng)站的新聞構(gòu)建的。

3. 對(duì)抗訓(xùn)練(adversarial training)

NLP 任務(wù)中,對(duì)抗訓(xùn)練能夠有效的提升模型的泛化能力,以提高最終表現(xiàn) [16] [17]。簡(jiǎn)單的一次對(duì)抗訓(xùn)練(Adversarial training)做法是計(jì)算在詞向量處的梯度,得到一個(gè)最優(yōu)的擾動(dòng),經(jīng)過(guò)裁剪后加在詞向量上得到對(duì)抗樣本,再用該樣本進(jìn)行訓(xùn)練。

如果進(jìn)一步,可以用虛擬對(duì)抗訓(xùn)練(virtual adversarial training),給詞向量加一個(gè)小的隨機(jī)擾動(dòng)后,再計(jì)算詞向量處的梯度,經(jīng)過(guò)裁剪之后加在擾動(dòng)前的詞向量上,得到新的對(duì)抗樣本,我們?nèi)?yōu)化對(duì)抗樣本和正常樣本在標(biāo)簽分布的 KL-divergence。對(duì)抗訓(xùn)練和虛擬對(duì)抗訓(xùn)練可以使 loss surface 更加光滑,從而增加模型的魯棒性,AT 需要標(biāo)簽,而 VAT 不需要標(biāo)簽。

另一個(gè)符合直覺(jué)的理解是,對(duì)抗訓(xùn)練能夠提升閱讀理解任務(wù)的原因在于使長(zhǎng)尾詞得到了充分的訓(xùn)練 [18]。我們嘗試在多任務(wù)訓(xùn)練精調(diào)的時(shí)候使用對(duì)抗訓(xùn)練(Adversarial Training)。

由于虛擬對(duì)抗訓(xùn)練(Virtual adversarial training)帶來(lái)的提升有限,但會(huì)使得訓(xùn)練量翻倍因此最終沒(méi)有采用,結(jié)果如下表(5 個(gè)不同的隨機(jī)種子下的平均值)。比較原設(shè)置和去掉對(duì)抗訓(xùn)練之后的設(shè)置,可以看到對(duì)抗訓(xùn)練在多任務(wù)和精調(diào)時(shí)都能提升模型的表現(xiàn)。

4. EMA + Knowledge Distilling (Mean-Teacher)?

大型的預(yù)訓(xùn)練語(yǔ)言模型會(huì)遇到的一個(gè)問(wèn)題是參數(shù)過(guò)多,導(dǎo)致精調(diào)下游任務(wù)時(shí)候訓(xùn)練不穩(wěn)定,訓(xùn)練波動(dòng)大。滑動(dòng)平均(Exponential Moving Average)能夠有效的緩解這一點(diǎn)。

Mean-teacher [19] 通過(guò) EMA 在訓(xùn)練時(shí)維持一個(gè) teacher 模型,然后用 teacher 模型去指導(dǎo)當(dāng)前模型的訓(xùn)練,再由當(dāng)前模型以 EMA 的方式更新 teacher 模型。這樣能在 EMA 的基礎(chǔ)上更進(jìn)一步提高模型的魯棒性。

通常認(rèn)為 mean-teacher 訓(xùn)練時(shí),通過(guò) EMA 維持的 teacher 模型和 student 模型存在正反饋機(jī)制,即更好的 teacher 模型能夠指導(dǎo)得到更好的 student 模型,反過(guò)來(lái)通過(guò) EMA 更新得到更好的 teacher 模型。

式 (1) (2) 為原 mean-teacher 論文的 consistency cost J,其中 θ' 為 teacher 模型的權(quán)重,η 和 η' 為加在模型輸入的隨機(jī)噪聲。我們嘗試使用 KL-divergence 替換??中的??loss (式(3)),去掉了輸入噪聲 η 和 η'。最終的目標(biāo)函數(shù)為式 (4),其中??為原有監(jiān)督任務(wù)。

由于模型在訓(xùn)練初期權(quán)重有較大變化,且 EMA 得到的模型效果較差,我們?cè)谟?xùn)練初期使用較大的 EMA decay (α=0.99) ,隨后調(diào)整使用較小的 decay (α=0.999) ,同時(shí)我們線性地增大權(quán)重 w,最終結(jié)果如下表(5個(gè)不同的隨機(jī)種子下的平均值)。可以看到 EMA 能提升模型的表現(xiàn),引入 mean-teacher 后模型有進(jìn)一步提升。

經(jīng)驗(yàn)總結(jié)

我們基于 Facebook 開(kāi)源的 RoBERTa 預(yù)訓(xùn)練模型在 SuperGLUE 上探索了不同的 finetune 方式。通過(guò)調(diào)整任務(wù)、多任務(wù)學(xué)習(xí)、對(duì)抗訓(xùn)練等在 SuperGLUE 的 6 個(gè)數(shù)據(jù)上都得到了提升,最終對(duì)比原始 RoBERTa 提升了 1 個(gè)百分點(diǎn),目前處于榜單第二的位置。但相比于 T5,還有很大的差距。

從評(píng)測(cè)基準(zhǔn)的榜單來(lái)看,預(yù)訓(xùn)練語(yǔ)言模型本身的提升對(duì)下游任務(wù)來(lái)說(shuō)目前還是最為顯著的,尤其是在任務(wù)形式多樣的評(píng)測(cè)基準(zhǔn)上。而在給定預(yù)訓(xùn)練模型的情況下進(jìn)行下游任務(wù)時(shí),在調(diào)整模型結(jié)構(gòu)適應(yīng)任務(wù)的同時(shí),增強(qiáng)模型泛化能力和魯棒性的手段可以得到較為一致的效果提升。我們?cè)谶@次嘗試中用了多任務(wù)訓(xùn)練,對(duì)抗訓(xùn)練,mean-teacher 以及一些正則來(lái)達(dá)到這一目的。

我們接下來(lái)希望能顯式地將常識(shí)知識(shí)融入模型中,而這部分也是 SuperGLUE 任務(wù)比較關(guān)心的一點(diǎn)。可以看到 WSC 和 COPA 上人類都是滿分,而 RTE 上人類仍然領(lǐng)先,目前的預(yù)訓(xùn)練,多任務(wù)學(xué)習(xí)離真正的常識(shí)推理還有很大的進(jìn)步空間。

Reference

[1] GLUE https://gluebenchmark.com?

[2] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/pdf/1810.04805.pdf?

[3] XLNet: Generalized Autoregressive Pretraining for Language Understanding https://arxiv.org/pdf/1906.08237?

[4] RoBERTa: A Robustly Optimized BERT Pretraining Approach https://arxiv.org/pdf/1907.11692?

[5] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations https://arxiv.org/pdf/1909.11942?

[6] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding https://arxiv.org/pdf/1907.12412v1?

[7] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer https://arxiv.org/pdf/1910.10683.pdf?

[8] Multi-Task Deep Neural Networks for Natural Language Understanding https://arxiv.org/abs/1901.11504?

[9] FreeLB: Enhanced Adversarial Training for Language Understanding https://arxiv.org/abs/1909.11764?

[10] SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization https://arxiv.org/pdf/1911.03437?

[11] SuperGLUE https://super.gluebenchmark.com?

[12] BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions https://arxiv.org/pdf/1905.10044.pdf?

[13] ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension https://arxiv.org/pdf/1810.12885.pdf?

[14] A Surprisingly Robust Trick for Winograd Schema Challenge https://arxiv.org/pdf/1905.06290.pdf?

[15] Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval https://www.aclweb.org/anthology/N15-1092.pdf?

[16] Revisiting LSTM Networks for Semi-Supervised Text Classification via Mixed Objective Function https://www.aaai.org/ojs/index.php/AAAI/article/view/4672?

[17] Adversarial Training Methods for Semi-Supervised Text Classification https://arxiv.org/pdf/1605.07725?

[18] Improving Machine Reading Comprehension via Adversarial Training https://arxiv.org/pdf/1911.03614.pdf?

[19] Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results https://arxiv.org/pdf/1703.01780.pdf

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?

  • 刷新SQuAD2.0 | 上海交通大學(xué)回顧式閱讀器解析

  • 淺談 Knowledge-Injected BERTs

  • 細(xì)粒度情感分析任務(wù)(ABSA)的最新進(jìn)展

  • 自然語(yǔ)言處理中的語(yǔ)言模型預(yù)訓(xùn)練方法

  • BERT+知識(shí)圖譜:知識(shí)賦能的K-BERT模型

  • 從三大頂會(huì)論文看百變Self-Attention

#投 稿 通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn):

? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志

???? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦

總結(jié)

以上是生活随笔為你收集整理的冲击SuperGLUE:基于多任务与对抗训练的Finetune方案解析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。