《预训练周刊》第24期:Infinite-former:无限记忆变换器、2500万悟道科研基金开始申请...
No.24
智源社區
預訓練組
預
訓
練
研究
觀點
資源
活動
關于周刊
超大規模預訓練模型是當前人工智能領域研究的熱點,為了幫助研究與工程人員了解這一領域的進展和資訊,智源社區整理了第24期《預訓練周刊》,從論文推薦、研究動態等維度推薦近期發生在預訓練模型領域值得關注的信息。
本期周刊,我們選擇了14篇預訓練相關的論文,涉及答案選擇、變換器改進、多模態、Prompt調優、大語言模型、情緒檢測、閱讀理解、代碼度量、代碼語言模型、超參數調優、蛋白質配體結合、蛋白質設計、非編碼基因組和細胞基因表征的探索。此外,在研究動態方面,我們選擇了1篇預訓練資訊,將介紹文本摘要方面的一些最新資訊。在資源推薦方面,我們選擇了1篇預訓練資源,將介紹大模型基金申請方面的一些最新內容。
周刊采用社區協作的模式產生,歡迎感興趣的朋友們參與我們的工作,一起來推動預訓練學習社群的分享、學習和交流活動。可以掃描文末的二維碼加入預訓練群。
(本期貢獻者:申德周 翟珂 吳新剛)
論文推薦
標題:華盛頓大學、艾倫研究院|Surface Form Competition: Why the Highest Probability Answer Isn’t Always Right(形式競爭:為什么最高概率的答案并不總是正確的)了解詳情
作者:Ari Holtzman, Luke Zettlemoyer等
簡介:本文討論了在多項選擇任務中最高的概率回答是否最優的問題。但是,按字符串概率排序可以由于表面形式競爭而存在問題——其中不同的表面形式競爭概率質量,即使它們代表相同的基本概念,例如:“計算機”和“PC”。由于概率質量是有限的,由于來自其他字符串的競爭(如這是有效的答案,但不是多項選擇選項之一),這降低了正確答案的概率。作者提出領域條件點互信息,一種替代評分函數,通過簡單地根據與特定零樣本任務上下文中的先驗可能性成正比的項重新權衡每個選項,直接補償表面形式的競爭。它在多種選擇數據集,在所有 GPT-2 和GPT-3模型上的零樣本性能方面取得了一致的收益。
代碼地址:https://github.com/peterwestuw/surface-form-competition
論文地址:https://arxiv.org/pdf/2104.08315v3.pdf
標題:里斯本大學?、Deep Mind|∞-former: Infinite Memory Transformer(Infinite-former:無限記憶變換器)了解詳情
作者:Pedro Henrique Martins、André F. T. Martins
簡介:本文介紹了變換器的長序列文本優化。變換器在長時間在上下文中掙扎,因為隨著上下文長度計算量在增長,他們不能有效地模擬長期記憶。在本文中,作者提出無窮變換器,它擴展了具有無限長期記憶的普通變換器。通過利用長期參與在記憶中連續空間注意力機制,Infinite-former的注意力復雜度變得獨立于上下文長度。因此,它能夠對任意長的上下文進行建模并保持“粘性記憶”,同時保持固定的計算量。合成排序任務的實驗證明Infinite-former保留來自長序列的信息的能力。作者還通過訓練對語言建模進行實驗從頭開始構建模型并通過微調預訓練的語言模型,這顯示出無限的長期記憶優勢。
論文地址:https://arxiv.org/pdf/2109.00301v1.pdf
標題:南洋理工大學|LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS(基于學習提示的視覺語言模型)了解詳情
作者:Kaiyang Zhou, Ziwei Liu
簡介:本文利用提示來提升視覺語言預訓練的泛化性能。它從使用圖像和離散標簽來學習一組固定的權重的傳統轉變為對齊圖像和兩個獨立編碼器的原始文本。為了克服這一挑戰,作者提出了一種名為上下文優化 (CoOp)。主要思想是使用連續表示對提示中的上下文進行建模,并從數據中執行端到端學習,同時保持預先訓練的參數固定。這樣,任務相關的設計提示可以完全自動化。在 11個數據集上的實驗表明,CoOp 有效地將預訓練的視覺語言模型轉變為數據高效的視覺學習器,只需一兩次樣本就可以得到可觀的性能,并且在使用更多樣本時能夠獲得顯著改進(例如,在 16個樣本時,平均增益約為 17%,最高可達50%)。
代碼地址:https://github.com/KaiyangZhou/CoOp
論文地址:https://arxiv.org/pdf/2109.01134v1.pdf
標題:谷歌|The Power of Scale for Parameter-Efficient Prompt Tuning(具有規模能力的參數高效提示優化)了解詳情
作者:Brian Lester、Noah Constant
簡介:本文探索了一種“提示調優”方法來適應特定下游任務。與GPT-3使用的離散文本提示不同,軟提示是通過反向傳播學習的,可以調整以合并來自任意數量標記示例的信號。作者的端到端學習方法優于GPT-3的小樣本學習。更值得注意的是,通過對模型進行消融使用T5的大小,作者表明提示調整在規模上變得更具競爭力:當模型超過數十億個參數時,作者的方法“縮小差距”并匹配模型調優的強大性能。這個發現特別相關,因為大型模型成本高昂共享和服務以及重用一個的能力,多個下游任務的凍結模型可以減輕這個負擔。可見作者的方法作為最近提議的簡化和作者的“前綴調整”提供與此和其他類似的比較方法。最后,作者表明使用凍結模型的軟提示調節可以賦予域遷移的健壯性和實現高效的“即時集成”。
論文地址:https://arxiv.org/pdf/2104.08691v2.pdf
標題:谷歌|FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS(微調語言模型是零樣本學習者)了解詳情
作者:Jason Wei、Quoc V. Le
簡介:本文探討了一種提高語言零樣本學習能力的簡單方法。作者展示了指令調優--在一系列任務上微調語言模型通過指令描述--大大提高了未知任務的零樣本性能。作者采用1370億參數的預訓練語言模型,并在60多個NLP上對其進行指令調整通過自然語言指令模板表達的任務。作者在看不見的任務類型上評估這個稱之為FLAN的指令調整模型。FLAN顯著改善了其未經修改的對應物的性能,并在作者評估的25次任務中的19次超過1750億GPT-3零樣本。FLAN在 ANLI上的表現甚至大大超過了少樣本GPT-3,RTE、BoolQ、AI2-ARC、OpenbookQA和 StoryCloze。消融研究表明該任務數量和模型規模是指令調優成功的關鍵組成部分。
代碼地址:https://github.com/google-research/flan
論文地址:https://arxiv.org/pdf/2109.01652v1.pdf
標題:斯坦福大學 | 在移動設備上訓練和分析小兒情緒識別分類器了解詳情
作者:Agnik Banerjee, Dennis P. Wall
簡介:本文設計了在移動設備上實施自動化情緒識別的圖像檢測模型。本研究中,作者優化和分析了各種為邊緣設備推理而設計的機器學習模型,并且能夠匹配先前用于兒童情緒識別的最先進結果。本文最好的模型,一個在 ImageNet 上預訓練的 MobileNet-V2 網絡,在 CAFE 上實現了 65.11% 的平衡準確度和 64.19% 的 F1 分數,同時在摩托羅拉 Moto G6 手機上實現了 45 毫秒的推理延遲。這種平衡精度僅比 CAFE 的當前最先進技術低 1.79%,CAFE 使用的模型包含 26.62 倍的參數,即使完全優化也無法在 Moto G6 上運行。這項工作驗證了通過專門的設計和優化技術,機器學習模型可以變得足夠輕量級,可以部署在移動設備上,并且仍然可以在困難的圖像分類任務上實現高精度。
論文地址:https://arxiv.org/ftp/arxiv/papers/2108/2108.11754.pdf
標題:華東師范大學、阿里巴巴、上海智能自主系統研究所 | SMedBERT:理解機器閱讀理解中的注意力了解詳情
作者:Taolin Zhang,Chengyu Wang,等
簡介:本文介紹了一種通過注入知識事實來增強預訓練語言模型的語言理解能力的方法。對于醫學領域,背景知識源特別有用,因為大量的醫學術語及其復雜的關系在文本中難以理解。作者介紹了SMedBERT:一種在大規模醫學語料庫上訓練的醫學PLM,它結合了來自SMedBERT鄰居的深層結構語義知識,提出了:涉及鄰居混合注意來學習異構實體信息,將實體類型的語義表示注入到同構的相鄰實體結構中。除了作為外部特征的知識集成外,作者還建議將知識圖中鏈接實體的鄰居用作文本提及的附加全局上下文,允許它們通過共享鄰居進行通信,從而豐富它們的語義表示。實驗表明,SMedBERT 在各種知識密集型的中國醫療任務中明顯優于強大的基線,而且還提高了其他任務的性能:如問答、問題匹配和自然語言推理。
論文地址:https://arxiv.org/pdf/2108.08983
標題:印度艾什瓦良學院、索尼印度軟件中心 | CGEM:使用 GPT-3 自動生成代碼的度量模型了解詳情
作者:Aishwarya Narasimhan, Veena MB
簡介:本文基于蒙特卡羅模擬方法驗證無約束算法的評估度量模型。AI 可以生成任何東西;因此輸出空間是不受約束的。自動駕駛汽車行駛 1 億英里以驗證其安全性,但無法編寫測試來監控和覆蓋不受限制的空間。驗證 AI 生成內容的解決方案之一是約束問題并將其從抽象轉換為現實,這可以通過使用理論證明或使用蒙特卡羅模擬方法驗證無約束算法來實現。在這種情況下,作者使用后一種方法來測試/驗證具有統計意義的樣本數量。驗證人工智能生成代碼的假設是這項工作的主要動機,為了了解人工智能生成的代碼是否可靠,提出了一個度量模型 CGEMs。評估指標適用于使用 OpenAI 的 GPT-3 生成的 80 個代碼,該模型實現了 76.92% 的分類準確率和 55.56% 的 F1 分數。
論文地址:https://arxiv.org/ftp/arxiv/papers/2108/2108.10168.pdf
標題:意大利博爾扎諾博贊自由大學 | 預訓練的代碼模型對代碼了解多少?了解詳情
作者:Anjan Karmakar,Romain Robbes
簡介:本文討論了代碼預訓練模型是否真正理解代碼。基于 Transformer 架構的預訓練代碼模型在軟件工程任務中表現良好,例如預測代碼生成、代碼摘要等。然而,來自這些預訓練模型的向量表示是否能夠很好地全面編碼源代碼的特征以適用于廣泛的下游任務仍然是一個懸而未決的問題。對此進行調查的一種方法是使用稱為探針的診斷任務。在本文中,作者為預訓練的代碼模型構建了四個探測任務(探測表面級、句法、結構和語義信息)。作者展示了如何使用探針來識別模型是否在“理解”某些代碼屬性方面存在缺陷,表征不同的模型層,并深入了解模型樣本效率。作者探討了四種在代碼屬性方面的預期知識不同的模型:BERT(英語的預訓練)、CodeBERT 和 CodeBERTa(源代碼和自然語言文檔的預訓練)和 GraphCodeBERT(源代碼的預訓練) 。
論文地址:https://arxiv.org/pdf/2108.11308.pdf
標題:華為、清華 | AutoTinyBERT:高效預訓練語言模型的自動超參數優化了解詳情
作者:Yichun Yin, Cheng Chen, Lifeng Shang等
簡介:本文介紹了一次性神經架構搜索來自動搜索架構超參數。具體來說,作者精心設計了一次性學習和搜索空間的技術,為各種延遲約束提供了一種自適應且高效的微型 PLM 開發方式。作者將本研究中的方法命名為 AutoTinyBERT,并評估其在 GLUE 和 SQuAD 基準測試中的有效性。大量實驗表明,作者的方法優于基于 SOTA 搜索的基線(NAS-BERT)和基于 SOTA 蒸餾的方法(例如 DistilBERT、TinyBERT、MiniLM 和MobileBERT)。此外基于獲得的架構,本文還提出一種更高效的開發方法、甚至比單個 PLM 的開發速度還快。
論文地址:https://arxiv.org/pdf/2107.13686.pdf
標題:慕尼黑工業大學 | Protein embeddings and deep learning predict binding residues for various ligand classes(蛋白質嵌入和深度學習預測配體結合殘基)了解詳情
作者:Maria Littmann, Michael Heinzinger等
簡介:研究蛋白質功能的一個重要方面是蛋白質與配體的結合,包括小分子、金屬離子和大分子,如DNA或RNA。本文提出了bindEmbed21,一種預測蛋白質殘基是否與金屬離子、核酸或小分子結合的方法。這種基于人工智能的方法使用Transformer的蛋白質語言模型ProtT5的嵌入作為輸入,只使用單一序列而不使用多重序列比對(MSA)信息,其性能優于現有的基于MSA的方法并且與基于同源性的推理相結合后其總體性能可以達到F1值45%。模型預測的結合殘基也可以補充實驗證據,預測前25%的結合殘基,至少有73%是正確預測的。最后,該模型在所有人類蛋白質中發現了超過42%的沒有出現過的潛在結合殘基。
論文地址:https://doi.org/10.1101/2021.09.03.458869
標題:華盛頓大學、微軟 | Toward More General Embeddings for Protein Design: Harnessing Joint Representations of Sequence and Structure(用于蛋白設計的通用嵌入:利用序列和結構的聯合表征)了解詳情
作者:Sanaa Mansoor, Minkyung Baek 等
簡介:從序列比對中學習到的蛋白質嵌入已被用于蛋白質理解和工程的任務中。序列嵌入是通過對數以百萬計的序列進行半監督訓練,并使用數億個參數的深度神經網絡模型來生成的,并且它們在目標任務上的性能隨著網絡復雜性的增加而不斷提高。本文報告了一種數據利用度更高效的方法,通過使用ESM-1b的預訓練嵌入和圖神經網絡對蛋白質序列和結構進行聯合訓練,以半監督的方式編碼蛋白質信息。作者表明,該方法能夠對序列結構兩類信息進行編碼,形成一個豐富的嵌入空間,可用于下游的預測任務并預測單位點突變的影響。
論文地址:https://doi.org/10.1101/2021.09.01.458592
標題:華大、復旦 | Integrating convolution and self-attention improves language model of human genome for interpreting non-coding regions at base-resolution(用于解釋非編碼區的通過整合卷積和注意力改善人類基因組的語言模型)了解詳情
作者:Meng Yang, Haiping Huang等
簡介:非編碼基因組的解釋是人類遺傳學的一個未解決的挑戰,對此本文提出了LOGO(Language of Genome),一個只包含2層注意力層,有100萬個參數的預訓練語言模型。它是一個非常輕的架構,應用自監督技術來學習未標記的人類參考基因組的雙向表征。LOGO針對序列下游標注任務進行了微調,并添加了替代等位基因的特殊輸入編碼方案和增加卷積模塊等改進,最終模型在啟動子識別,增強子-啟動子相互作用預測和染色質特征預測上均表現優秀。此外,作者應用LOGO來解釋2型糖尿病的GWAS信號,并推斷潛在的調節機制。本文在自然語言和人類基因組之間做了一個概念上的類比,并證明LOGO是一個準確、快速、可擴展和穩健的框架。
論文地址:https://doi.org/10.1101/2021.09.06.459087
標題:Mila、麥吉爾大學等 | Learning interpretable cellular and gene signature embeddings from single-cell transcriptomic data(從單細胞轉錄組數據中學習可解釋的細胞和基因特征嵌入)了解詳情
作者:Jian Tang, Yue Li?等
簡介:單細胞RNA測序(scRNA-seq)技術的出現徹底改變了轉錄組研究。然而,scRNA-seq數據的大規模綜合分析仍然是一個挑戰,主要原因在于批次差異和現有計算方法的可遷移性、可解釋性和可擴展性有限。本文提出了單細胞嵌入式主題模型scETM,利用了可遷移的神經網絡編碼器,通過矩陣處理得到一個可解釋的線性解碼器,可以用于提取細胞混合物的一組高度可解釋的基因嵌入、主題嵌入等。利用基因組富集分析,作者發現scETM學習到的主題富集在有生物學意義的和與疾病相關的通路中。最后,scETM能夠將已知的基因集納入基因嵌入,從而通過嵌入直接學習通路和主題之間的關聯。
論文地址:https://www.nature.com/articles/s41467-021-25534-2
研究動態
標題:耶魯、賓夕法尼亞州立大學、微軟|SummerTime: Text Summarization Toolkit for Non-expert(SummerTime:非專家文本摘要工具包)了解詳情
作者:Ansong Ni, Dragomir Radev
簡介:本文介紹了摘要的最新進展,提供了可以生成更高級別摘要質量的模型。雖然這樣模型和任務在研究領域快速增長,供非專家跟蹤它也變得具有挑戰性。為匯總方法使得更易于訪問,對于更廣泛的受眾,作者開發了SummerTime,通過重新思考總結NLP任務非專家的觀點。它是一個完整的文本摘要工具包,包括各種模型、數據集和評估指標,適用于與摘要相關的全量任務。與專為NLP研究人員設計的庫集成,并為用戶提供易于使用的 API。用戶可以找到解決方案流水線并搜索最好的模型與他們自己的數據,并將差異可視化,所有這些都僅用幾行代碼。
代碼地址:https://github.com/Yale-LILY/SummerTime
論文地址:https://arxiv.org/pdf/2108.12738v1.pdf
標題:智源|2500萬悟道科研基金開始申請了解詳情
簡介:2021年9月1日-9月30日,為深入挖掘預訓練模型的應用價值推動預訓練前沿技術的創新進步,總基金池2500萬元「悟道科研基金」開始申請!基金面向高校學者等科研團體圍繞預訓練理論、算法、工具、模型、應用等相關研究,每個項目提供總計50萬元/年資助!(20萬元科研經費+價值30萬算力資助)
如果你正在從事或關注預訓練學習研究、實現與應用,歡迎加入“智源社區-預訓練-交流群”。在這里,你可以:
學習前沿知識、求解疑難困惑
分享經驗心得、展示風貌才華
參與專屬活動、結識研究伙伴
掃描下方二維碼,或點擊閱讀原文申請加入(選擇“興趣交流群→預訓練”)
總結
以上是生活随笔為你收集整理的《预训练周刊》第24期:Infinite-former:无限记忆变换器、2500万悟道科研基金开始申请...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 目前上海最便宜的企业宽带-199元的旺铺
- 下一篇: DOS运行GHOST加参数