论文审稿人可以下岗了?CMU都做出论文审稿机器人了!
文 | Sheryc_王蘇
機器學習真是越來越火了,這從各大會議逐年增加的投稿量上就可見一斑:AAAI'21收到了9034篇投稿,NeurIPS'20收到了9467篇投稿,一篇投稿至少要經過3位審稿人同行評議,耗費的人力可想而知。那么問題來了:
上哪找這么多有經驗的審稿人來寫評審意見呢?
這時,機器學習投稿大頭兼業界翹楚CMU的研究者發表了自己的看法:同行評議本質上不就是從輸入一篇論文,輸出評審意見的Seq2Seq嗎?讓N寶多看點論文,它還寫不出個審稿人意見?我們自己動手寫個自動的論文評審系統來審稿不就好了?
由三位來自CMU的研究者抱著這樣的想法真的開發出了一個這樣的論文自動評審系統ReviewAdvisor(以下我們簡稱為小R),甚至還用小R自動生成了小R論文本身的評審意見、小R論文的摘要和小R的arXiv頁面筆記。這套讓論文作者預知缺陷,讓論文讀者秒懂內涵,讓論文評審者黯然失色的神奇系統,不想來試試看么?
論文題目:
Can We Automate Scientific Reviewing?
論文鏈接:
https://arxiv.org/pdf/2102.00176.pdf
Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【0223】下載論文PDF~
什么是好的評審意見?
對一個系統的評價指標需要反應其任務的特點。對于論文評審系統,其評價指標自然要評估自動生成的評審意見有多“好”。
什么是一個好的評審意見呢?文章的作者在仔細分析閱讀了ICML、NeurIPS、ICLR、ACL和EMNLP等機器學習或NLP頂級會議的審稿人指南后,總結出了一篇好的審稿人意見需具有的5大要素:
決定性(Decisiveness):對論文的接受與否有較為明確的立場。
綜合性(Comprehensiveness):多維度地對文章進行評價。從行文而言,評審意見中需要包含論文概述、主要貢獻和優缺點等多個組成部分;從對文章的評價而言,同樣需要包含不同角度的考量。
公正性(Justification):為評審意見中所提出的批評提供理由和證據,便于作者有針對性地對文章質量進行提升。
準確性(Accuracy):保證評審意見的正確性,不能包含事實錯誤的信息。
友好性(Kindness):在語言使用上需要保持友善和禮貌。
下文中,對于系統評價指標的設計也是遵循這5大要素的。
它是怎么做到的?
訓練小R的過程可以分為兩個部分:數據集生成和模型訓練。
對于數據來源選取,小R是專注于機器學習領域的論文評審機器人,選擇的評審數據來源應該滿足:1)論文質量高;2)評審意見公開。作者于是爬取了2017-2020年共5192篇ICLR論文和2016-2019年共3685篇NeurIPS論文,以及它們的所有評審意見作為評審數據集。這些論文平均每篇都附有3篇以上評審意見,每篇評審意見平均超過400詞。需要注意的是,ICLR所依托的OpenReview同樣公開了所有被拒論文和其評審意見,而NeurIPS在網站中只能爬取到接受的論文,所以數據集中的所有標記為Reject的論文全部來自ICLR。
對于模型選取,本文開篇提到“同行評議本質上就是從輸入一篇論文,輸出評審意見的Seq2Seq”,小R的模型結構確實也反應了這一特性。小R的基礎模型是BART[1],一個性能較為領先的進行Seq2Seq任務的預訓練模型。
誒,不會就是爬了個數據再用了個預訓練模型這么簡單吧(゚Д゚≡゚д゚)?當然不會啦!既然目前已經獲得了評審數據集和基礎模型,接下來的就是向模型和訓練過程中加入額外的結構和歸納偏置,使模型的訓練變得可行,使低效的訓練變得高效。
現有模型不可訓練的原因在于,BART的預訓練文本長度為1024,而一篇論文平均有將近7000個詞,經過Tokenizer變為BPE編碼后更是遠超這個數字,所以解決輸入序列長度是需首先考慮的問題。
怎么才能更好地縮短論文長度,保留對撰寫評審意見最有用的那些論文句段呢?作者提出了3種將論文進行有用句段提取的方法。括號中的部分表示該提取方法在論文主結果表格中的標記:
Section Based(INTRO):只保留論文的Introduction部分。
Cross Entropy Based(CE):首先根據設定的一系列關鍵詞提取文中包含重要信息的句子集合,再根據unigram信息熵最大化的原則將提取出的句子集合壓縮至長度閾值以內。
Hybrid(ABSCE):將論文的摘要部分與Cross Entropy Based方法提取的結果拼接。
解決了輸入長度的問題,接下來該解決模型訓練低效的問題了。在上一節中,我們提到了好的評審意見需要滿足的五要素,但現有的模型和訓練方式好像和這五個要素并不沾邊。在數據有限的情況下,一個行之有效的方法就是向模型中加入歸納偏置。在小R的論文中,我們見到的是對于“綜合性”這一要素的增強。
讓我們再次回顧一下綜合性這一指標的要求:行文五臟俱全,評價角度多樣。當這兩點合二為一后,我們可以發現,一個合適的歸納偏置是給模型生成的不同文本范圍所代表的行文部分、評價角度和評價的正負傾向增加額外的正則項,使自動生成的評審意見在行文思路、選取的評價角度和正負傾向上更貼近真人。這里,所謂的行文部分和評價角度在文中統稱為“Aspect”,這也正是文章中提到的“Aspect-Based”的來源。為此,需要對數據標注和模型設計進行一些修改。
對于數據標注,需要標記出數據集里真人評審意見中不同文本范圍代表的Aspect。作者借鑒了ACL對審稿人的指導,設計了8類14種區分正負傾向的Aspect標簽對審稿意見的text span進行標注:概要(Summary),動機/影響(Motivation/Impact),原創性(POS/NEG Originality),可靠性/正確性(POS/NEG Soundness/Correctness),充實性(POS/NEG Substance),可復現性(POS/NEG Replicability),有意義的比較(POS/NEG Meaningful Comparison)和行文清晰性(POS/NEG Clarity)。這一標注過程首先進行人工標注1000條評審意見,利用其fine-tune一個BERT對其余數據進行標注,最終通過一些預定義的人工規則對BERT的標注結果進行修正,獲得最終的標注數據。這一被標注了Aspect范圍的數據集被稱為“ASpect-enhAnced Peer Review Dataset(ASAP-Review)”。
對于模型設計,需要與數據集的標注進行對應。本文在BART的解碼器輸出部分平行地設置了兩個MLP,其中一個進行BART原始的Token預測,另外一個同步地預測當前生成Token所屬的Aspect標簽。訓練過程的損失函數即為Token預測與Aspect標簽預測損失的加權求和,預測過程取Token預測結果序列作為輸出。
它能完全代替人工嗎?
先放結論:不能,但小R依然有可取之處。
我們首先來看看模型的性能。對于論文和對應的評審意見,設表示論文中稿與否的結果(中了=1,拒了=-1),表示評審意見的立場(推薦中=1,推薦拒=-1)。作者基于上述提出的好評審意見的5大要素提出了一系列評價指標:
決定性:推薦準確度(Recommendation Accuracy, RAcc)表示評審意見的立場與論文最終中稿結果是否一致:.
綜合性:Aspect覆蓋率(Aspect Coverage, ACov)表示中的Aspect標簽數占總14種標簽的比例;Aspect召回率(Aspect Recall, ARec)表示中的Aspect標簽數與所對應的meta-review中的Aspect標簽數的比例。
公正性:信息性(Informativeness, Info)表示在中負傾向標簽對應文本范圍中包含對應證據或理由的比例。
準確性:總結準確性(Summary Accuracy, SAcc)表示中的論文概括是否準確總結了論文;Aspect級建設性(Aspect-Level Constructiveness, ACon)表示中負傾向標簽對應的包含證據的文本范圍中證據是否真實準確。
友好性:作者未構建評價評審意見友好性的指標。這一部分在文中被作為Future Work。
其他:作者利用ROUGE和BERTScore兩個衡量語義相似度的指標評價生成評審意見與真人評審意見的相似性。
以上評價指標除ACov、ARec、ROUGE和BERTScore外,均需要人工評價。對于一篇論文的多個真人評審意見,對各指標分別采用得分最高的一個。小R的性能如下:
相比于第一行真人評審意見的結果,小R的優勢在于Aspect覆蓋率(ACov)和信息性(INFO)兩個指標,表示其能夠生成比真人更加綜合且公正的評審意見。與此同時,該系統在ABSCE組能夠取得與人類接近的總結準確性(SAcc),表明其能夠在評審意見中包含較為準確全面的論文總結。
不過,小R的缺點也十分明顯。推薦準確度(RAcc)的集體負分表示小R無法對論文進行高層的整體性評價,而Aspect級建設性(ACon)的低下也說明文章對于負面傾向的細分評價給出的理由往往站不住腳。除此之外,小R還經常給出一些模仿性或重復性的評價,例如“The paper is well-written and easy to follow”這一句在多于90%的生成評審意見中都會出現,這是因為這一句竟原封不動的出現在了超過10%的訓練數據中(Reviewer們夸文章寫作好的時候真是敷衍呢)。最后,小R生成的評審意見很少對文章內容進行提問,盡管對文章內容的提問往往是評審意見中的關鍵部分。以上這些問題多多少少都可以在系統設計和數據集構建上看出潛在的原因。
小R還暴露出了對英語母語/非母語撰寫者及匿名/非匿名投稿的偏向性。英語母語撰寫者更容易在“原創性(Originality)”上獲得更高評價,非英語母語撰寫者更容易在“行文清晰性(Clarity)”上獲得更高評價。對于匿名/非匿名投稿也存在一些評分上的不同,非匿名投稿傾向于得到更高的分數,這可能是數據集來源導致的結果,不過差距相比英語母語/非母語更小一些。先別急著批判小R,即使是真人評審也會對這兩種情況產生或多或少的偏見,在下面對于真人/小R關于多個維度的評價分數的雷達圖中,究竟哪一方才是更“Biased”的呢?(Reference reviews:真人評審;Generated reviews:小R評審)
對NLP的經典的論文評審意見如何?
NLP作為一個大研究領域,不同人必然有自己專精的小方向,所以“經典的NLP論文”實在是數不勝數。然而,大家心目中其實應該都有些能稱之為“它改變了NLP”的超經典論文。可以預見,越多人知道小R,小R的服務器就越有壓力。為了幫小R的作者分擔些重復工作,我把自己很喜歡的一部分有足夠影響力的論文選出來,看看小R能不能慧眼識珠。
近期,DeepMind提出了數據的“時間泛化”問題[2],指出訓練和測試數據的時間來源不同可能導致預測性能下降。恰好,論文發表時間正是論文的一大重要特質,因此下面我們按照時間區間選取論文。由于篇幅有限,我們選取一篇早于訓練數據年份的(Bahdanau et al.,注意力Seq2Seq),一篇理應包含在訓練數據中的(Vaswani et al.,自注意力+Transformer),一篇在訓練數據年份中但未包含在訓練數據中的(Devlin et al.,BERT)和一篇領先于訓練數據年份的(Radford et al.,CLIP)。
注意力機制Seq2Seq
出處:《Neural Machine Translation by Jointly Learning to Align and Translate》(ICLR '15)
前面標紅色的文章總結應該是摘自摘要。后面的評價雖然列了很多點,不過很多都有些讓人迷惑,這可能是因為文中的定量實驗中表格的安排方式與一般文章不同。第3點中提到的Cho et al.和Sutskever et al.兩篇提出的是基于RNN模型的Seq2Seq,Cho et al.這篇同時還提出了GRU結構,這樣說的話這篇提出Attention的論文確實是在這兩篇基礎上的擴展工作。或許把表格的安排稍微改變一下,小R能為這篇論文生成一篇不錯的評審意見出來。
自注意力機制+Transformer
出處:《Attention is All You Need》(NIPS '17)
這波是我比我自己,畢竟在訓練過程中已經見過了Transformer,以為這篇文章是平行世界來的另一篇Transformer,說和Transformer像也無可厚非(和繞口令一樣)。不過這個和CNN/RNN結合的點子倒是有點意思?
BERT
出處:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(NAACL '19)
雖然小R沒見過BERT原文,但各種各樣的BERT想來應該是見了不少。這篇評審意見說的也不能算錯,BERT用的確實是來自Transformer的結構(雖然還是出現了自己比自己的問題),但這個說結果不夠好的就有點過分了…刷GLUE這種綜合性榜單和做單任務的完全不是一個量級的難度,或許小R并不能認識到任務和任務之間的橫向比較吧。
CLIP
出處:《Learning Transferable Visual Models From Natural Language Supervision》(OpenAI,Jan 2021)
CLIP這篇文章是2021開年的重磅炸彈,直接引爆了圖像-文本跨模態領域,甚至有成為下一個BERT級模型的潛力。小R對它的吐槽有些句子明顯是從文中摘的(比如ImageNet Zero-shot那句),而且小R也認識不到zero-shot和傳統方法橫向相比較時所需要考慮的額外差距。不過和ConVIRT的比較或許算是合理,畢竟CLIP確實用的是簡化版的ConVIRT,而且文中說到,CLIP的區別主要在于數據集大。
不感覺這和BERT/Transformer的對比很像么?或許看多了ICLR和NeurIPS之后就會對模型相近但從數據等其他方向進行探索的開創性論文有些買櫝還珠吧。但這確實也意味著一篇文章對將來的影響力與其發表的會議影響因子并不一定成正比,真正閃光的論文即使掛在ArXiv上也可能成為一座里程碑。
我有個朋友最近要投稿,能不能讓它審一審?
當然(=?ω?=)
立即進入 http://review.nlpedia.ai/ [3],點一下,玩一年,調戲小R不用一分錢(不)
首先瀏覽本地論文pdf文件,確認用戶須知,點擊Upload
等待上傳完成后,點擊Parse Paper
等待pdf解析完成后,點擊Review Paper
需要注意的是,瀏覽器多開后多線程操作小R可能會有bug,還是給服務器減輕些負擔比較好~
總結
對話系統一直以來都被認為是NLP領域皇冠上的明珠,因為一個理想的對話系統實際需要覆蓋目前NLP領域各個細分任務的需求。但是,一個合格的論文評審系統同樣也是如此:在閱讀理解的基礎上,還需要指正文中的內容錯誤,對值得批判的部分進行挑選,同時還需要與同時期、同領域的文章進行橫向和縱向對比。由此所需要的不應該僅僅是單一文獻的理解,而應該基于多篇文獻對比得出論文貢獻度和對比合理性,這需要對于文獻實時維護一個類似知識圖譜的結構;與此同時,對于除綜合性以外的評審意見要素也同樣應該在未來進行數據、模型和評價指標的革新。
雖然系統設計較為簡單,但從小R生成的評審意見來看算是開了個好頭,盡管包含錯誤,但我們能夠從其詳細分析中窺探到不足之處以便后續改進。此外,它提供的較為準確的論文總結和多維度的評價也能為真人評審提供重要參考。同行評議本身是需要相當智力水平才能完成的工作,但我們期待著能夠真正可靠地發掘文章中閃光點和價值的NLP系統的出現,或許有一天,超級加強版小R的作者就會發出這樣的感慨:“Reviewer 3給了我個超低分的評審意見,笑死,那評審意見還不如論文里提出的評審系統寫得好”[4]。
萌屋作者:Sheryc_王蘇
北航高等理工學院CS專業的市優秀畢業生,蒙特利爾大學/MILA博士生,資深ACG宅,目前作為實習生在騰訊天衍實驗室進行NLP研究。雖主攻NLP,卻對一切向更完善的智能邁進的系統和方向充滿好奇。如果有一天N寶能真正理解我的文字,這個世界應該會被賣萌占領吧。(還沒發過東西的)知乎ID:Sheryc
作品推薦:
NLP未來,路在何方?12位巨佬聯名指路!
這幾個模型不講“模德”,我勸它們耗子尾汁
軟硬兼施極限輕量BERT!能比ALBERT再輕13倍?!
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1]Lewis et al. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. In ACL'20. https://arxiv.org/pdf/1910.13461.pdf
[2]Lazaridou et al. Pitfalls of Static Language Modelling. In ArXiv. https://arxiv.org/pdf/2102.01951.pdf
[3]再放一下小R的鏈接:http://review.nlpedia.ai/
[4]如何寫一篇好的評審意見:Resource about Writing a Good Review. http://review.nlpedia.ai/static/html/resource.html
總結
以上是生活随笔為你收集整理的论文审稿人可以下岗了?CMU都做出论文审稿机器人了!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CS 期刊哪家强?CCF 发布最新期刊分
- 下一篇: 在斯坦福,做 Manning 的 phd