卖萌屋新闻联播栏目,倾情上线~
編 | 小軼
感謝提供本期內(nèi)容的 iven、ZenMoore、 jxyxiangyu、付瑤
今天這篇推文是賣萌屋全新的原創(chuàng)系列———暫且取名為“賣萌屋新聞聯(lián)播”節(jié)目。賣萌屋的作者、小編日常都會在團隊群里分享各種最新發(fā)現(xiàn)的實用資源、有意思的學(xué)術(shù)工作。小伙伴們在互相分享的過程中都受益匪淺。我們也非常希望能將其中一些有價值的內(nèi)容分享給各位小屋的讀者們。
區(qū)別于過往以介紹單篇工作為主的推送形式,“新聞聯(lián)播”欄目會將最新鮮的實用信息匯集在一起,以言簡意賅的短新聞形式呈現(xiàn)給大家。本文也是小屋的第一次嘗試,還請各位多多留言反饋。
有用的資源
EMNLP、NIPS 論文放出
EMNLP 2021 的 paper 都官方放出啦。之前只出了 accepted paper 的標題列表,沒給原文 pdf。大家之前相中的 paper 們,現(xiàn)在都可以去盡情翻牌啦~
鏈接:
https://aclanthology.org/events/emnlp-2021/
NIPS 2021 的 accepted paper 列表也公布了。
鏈接:
https://neurips.cc/Conferences/2021/AcceptedPapersInitial
吳恩達首屆 Data-centric AI 比賽獲勝方案
小屋在今年 6 月的時候有向大家推薦過吳恩達老師發(fā)起的 Data-Centric AI 競賽。區(qū)別于傳統(tǒng)的 Model-Centric 比賽,這項比賽不是給定數(shù)據(jù)集,讓參賽者造更好的模型;而是給定模型,要求參賽者通過不斷改進數(shù)據(jù)以獲得更好的模型效果。這種比賽設(shè)計其實更加符合真實工程實踐中的需求 —— SOTA 模型往往大同小異,真正重要的反倒是數(shù)據(jù)。
現(xiàn)在該比賽已經(jīng)結(jié)束,獲勝隊伍們都紛紛將自己的比賽方案整理成文,發(fā)布在了 DeepLearning AI 網(wǎng)站上。
選手博文鏈接:
https://www.deeplearning.ai/blog/
比賽主頁鏈接:
https://github.com/hazyresearch/data-centric-ai/blob/main/README.md
好玩的demo
Hugging Face 上線新工具:上傳圖片一鍵生成二次元圖片
Hugging Face 家前些天上線了一個新玩具,可以將上傳的照片/圖片一鍵變?yōu)槎卧L畫像。emmm雖然其實某圖秀秀的美顏軟件已經(jīng)推出類似功能很久了,但效果跟 Hugging Face 家完全不能比... 大家可以上去玩玩,不過現(xiàn)在要排隊了,排隊時長 30 分鐘起步:)
demo 鏈接:
https://huggingface.co/spaces/akhaliq/AnimeGANv2
學(xué)術(shù)前沿
CMU & Stanford 聯(lián)合推出多模態(tài)基準測試平臺 MultiBench
CMU、Stanford 等大學(xué)近日聯(lián)合發(fā)布了一個最新的多模態(tài) Benchmark,MultiBench。是目前為止最為全面的測試多模態(tài)方法的基準測試平臺。共覆蓋 15 個數(shù)據(jù)集、20個預(yù)測任務(wù),并提供了超過20種核心多模態(tài)方法的標準實現(xiàn)。測試代碼完全模塊化,非常便于快速實驗。做多模態(tài)的同學(xué)可以關(guān)注一下。
項目主頁:
https://cmu-multicomp-lab.github.io/multibench/
論文鏈接:
https://arxiv.org/pdf/2107.07502.pdf
谷歌發(fā)布大規(guī)模情感分類數(shù)據(jù)集 GoEmotions
Google 最新發(fā)布了一個情感分類數(shù)據(jù)集。此前情感分類的粒度其實非常粗糙,時常只有正/負向兩類情感,最多的也不過分到五六種。而且還有一個問題就是,一段文本往往只認為有一種情感——這個假設(shè)顯然也是不對的。谷歌爸爸這次一鼓作氣,設(shè)置了 58 種細粒度情感,標注了 58k 的 Reddit 評論。推出了最新數(shù)據(jù)集 GoEmotions。
UW、Facebook、Allen AI 聯(lián)合推出語言模型元學(xué)習框架 MetaUCL,142 個數(shù)據(jù)集上驗證有效
一個 Few-shot 場景下的的元訓(xùn)練框架,在包括分類、QA、NLI 等等 142 個 NLP 數(shù)據(jù)集上進行實驗,皆優(yōu)于基準模型。幾個基準模型都是非常 competitive 的方法,包括前段時期大火的 instruction prompting。
論文鏈接:
https://arxiv.org/pdf/2110.15943.pdf
項目地址:
https://github.com/facebookresearch/metaicl
建語料庫什么的...讓 GPT-3 來辦就好啦!
最后推薦一篇非常有意思的論文。以往,我們在某個任務(wù)上訓(xùn)練模型的過程是:人類知識 → 手動標注語料庫 → 訓(xùn)練模型。這篇文章則探索了另一個思路:無標注語料 → 差不多快要成精了的 GPT-3 → GPT-3 自動生成某任務(wù)上的語料 → 訓(xùn)練該任務(wù)的模型。這篇文章用 GPT-3 生成了一個嘗試知識圖譜,用于訓(xùn)練一個具有常識推理能力的小模型。結(jié)果這個小模型在常識推理任務(wù)上的表現(xiàn)比它的爸爸 GPT-3 還要厲害!
論文標題:
Symbolic Knowledge Distillation: from General Language Models to Commonsense Models
論文鏈接:
https://arxiv.org/pdf/2110.07178.pdf
近期原創(chuàng)推薦
最后,夾帶私貨地推薦幾篇賣萌屋近期的精彩原創(chuàng):)
《一文跟進Prompt進展!綜述+15篇最新論文逐一梳理》:從 7 月的 prompt 綜述為起點,對 prompt 相關(guān)基本概念做了初步掃盲。并梳理了在其之后的 15 篇 prompt 最新重要工作。推薦收藏~
《僅僅因為方法 Too Simple 就被拒稿,合理嗎?》:佐治亞理工教授在 twitter 上吐槽了自己因“方法 too simple”而慘遭拒稿,引起一眾同情。本文從該事件出發(fā)展開了一系列探討——我們究竟在期待怎樣的工作?引用文中的一段話:“現(xiàn)在 AI 界似乎缺少一套系統(tǒng)的理念與方法整合不同領(lǐng)域不同任務(wù)不同數(shù)據(jù)集上的不同成果,同時也缺少或是刻意遮蔽了一個統(tǒng)一的期望解決的最高問題,而將目光下放到在特定數(shù)據(jù)集上不同方法論間的競爭”。
《你的 GNN,可能 99% 的參數(shù)都是冗余的》:大家都用 GNN 在圖上做 reasoning,但是 GNN 真的有用嗎?楊笛一老師的這篇工作表明,GNN 在很多復(fù)雜任務(wù)上都是可有可無的。GNN能做的 reasoning 僅限簡單的任務(wù)(比如計數(shù))于是作者們設(shè)計了一個圖上計數(shù)的模塊取代 GNN,用不到 GNN 1% 的參數(shù),戰(zhàn)勝 sota。
《如何提升大規(guī)模Transformer的訓(xùn)練效果?Primer給出答案》: 這篇介紹了谷歌爸爸的最新工作 Primer——通過模型架構(gòu)自動搜索技術(shù),找到一個高效更為 Transformer 變種。實驗表明,Primer 可以用原本三分之一的算力得到相近的實驗結(jié)果。然而看完我只想說——AI 圈有了 foundation,還有了 primer,是不是聯(lián)名美妝界指日可待!!!?
好了今天的推薦就到這里了。如果各位覺得有用,或者有任何建議的話,還請多多點贊留言呀~ 也歡迎各位把自己看到的有用資訊后臺發(fā)送給我們。我們會統(tǒng)一整理,在日后的推送中分享給大家!
萌屋作者:小軼
是小軼,不是小秩!更不要叫小鐵!高冷的形象是需要大家一起維護的!作為成熟的大人,正在勤儉節(jié)約、兢兢業(yè)業(yè),為成為一名合格的(但是仍然發(fā)量充足的)PhD而努力著。日常沉迷對話系統(tǒng),說不定,正在和你對話的,并不是不是真正的小軼哦(!?)
“高冷?那是站在冰箱頂端的意思啦。” ?——白鹡鸰
作品推薦:
1.寫了一篇關(guān)于 NLP 綜述的綜述!
2.全球44家機構(gòu),55位大佬,歷時兩年,打造最強NLG評測基準!
3.谷歌重磅:可以優(yōu)化自己的優(yōu)化器!手動調(diào)參或?qū)⒊蔀闅v史!?
4.ACL20 Best Paper揭曉!NLP模型評價體系或?qū)⒂瓉碇卮筠D(zhuǎn)折
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結(jié)
以上是生活随笔為你收集整理的卖萌屋新闻联播栏目,倾情上线~的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GBDT是如何成为推荐系统顶级工具人的?
- 下一篇: 拍不完的脑袋:推荐系统打压保送重排策略