當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

谷歌新模型突破BERT局限：NLP版「芝麻街」新成员Big Bird长这样

發布時間：2023/11/23 综合教程 57 生活家

生活随笔收集整理的這篇文章主要介紹了谷歌新模型突破BERT局限：NLP版「芝麻街」新成员Big Bird长这样小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　蕭簫發自凹非寺

　　量子位報道公眾號 QbitAI

　　最新消息，谷歌推出了 NLP 系列「芝麻街」的新成員 Big Bird。

　　這個在外界眼中看起來有點可愛的動漫小鳥，搖身一變，解決了 BERT 模型中的全注意力機制帶來的序列長度二次依賴限制，可以兼顧更長的上下文。

　　△「芝麻街」中的 Big Bird

　　眾所周知，谷歌開發的 BERT，曾經被稱為「地表最強」NLP 模型。

　　而 BERT，則與美國知名動畫片「芝麻街」（Sesame Street）里的虛擬人物同名。

　　此前，谷歌的「芝麻街」系列已經有 5 個成員（論文鏈接見傳送門），現在 Big Bird 的到來，意味著谷歌在 NLP 的研究上更進一步。

　　△少了一位 ELMo

　　來看看 Big Bird 實現了什么。

　　突破全注意力機制的局限

　　在 NLP 模塊表現最好的幾種深度學習模型，例如 BERT，都是基于Transformer作為特征抽取器的模型，但這種模型有它的局限性，核心之一就是全注意力機制。

　　這種機制會帶來序列長度二次依賴限制，主要表現在存儲方面。

　　為了解決這個問題，團隊提出了一種名為 Big Bird 的稀疏注意力機制。

　　作為更長序列上的 Transformers，Big Bird 采用稀疏注意力機制，將二次依賴降至線性。

　　下面這張圖片，展示了 Big Bird 所用的注意力機制模塊構建。

　　其中，白色的部分代表著注意力的空缺。

　　圖（a）表示r=2 的隨機注意力機制，圖（b）表示w=3 的局部注意力機制，圖（c）表示g=2 的全局注意力機制，圖（d）則是前三者融合起來的 Big Bird 模型。

　　之所以提出這樣的模型，是因為團隊希望能在將二次依賴降至線性的同時，Big Bird 的模型還能最大程度上接近并保持 BERT 模型的各項指標。

　　從下圖來看，無論是單一采用隨機注意力機制、局部注意力機制，還是二者結合的方式，都沒有將三者進行結合的效果好。

　　也就是說，隨機+局部+全局的注意力機制融合，最大程度上接近了 BERT-base 的各項指標。

　　不僅如此，這種稀疏注意力機制的一部分，還包括了采用O(1) 的全局詞例（global token），例如 CLS。

　　這部分使得長程注意力開銷從O(N√N)降至O(N)。

　　NLP 問答和摘要任務中超越了 SOTA

　　模型采用 Books、CC-News、Stories 和 Wikipedia 幾種數據集對四類模型進行了訓練，根據留出法評估，BigBird-ETC 的損失達到了最低。

　　從結果來看，Big Bird 在問答任務中展示出的精度非常不錯。

　　下圖是 Big Bird 與 RoBERTa 和 Longformer 對比所展現出來的精度效果，可以看見，在各項數據及上，BigBird 的兩個模型都展現出了更高的精度。

　　而在對模型進行微調后，可以看見，BigBird-ETC 在 HotpotQA 的 Sup、NaturalQ 的 LA、TriviaQA 的 Verified 和 WikiHop 上均超越了 SOTA。

　　與此同時，Big Bird 在 NLP 的摘要任務中表現也比較亮眼。

　　摘要，顧名思義是從一段長文字中提煉出這段話的核心思想和意義。下面是從三個長文章數據集 Arxiv、PubMed 和 BigPatent 中測試的效果。

　　從圖中來看，與其他非常先進的 NLP 模型相比，BigBird 極大地提高了摘要任務的各項精度，性能表現非常優異。

　　不僅如此，Big Bird 被證明是圖靈完備的，這也就意味著，一切可以計算的問題，Big Bird 都能計算，理論上，它能夠用來解決任何算法。

　　此外，Big Bird 在基因組數據處理方面也極具潛力。

　　但雖然如此，也有網友認為，這樣的模型與 Longformer 在概念上并無本質區別，不能算是一個大突破。

　　你怎么看？

　　作者介紹

　　論文的兩位共同一作是 Manzil Zaheer 和 Guru Guruganesh，均來自谷歌。

　　△Manzil Zaheer

　　Manzil Zaheer，CMU 機器學習博士，3 篇論文曾經發表于 NIPs 上，除此之外，在 ACL 和 EMNLP 等頂會上也發表過相應文章。

　　△Guru Guruganesh

　　Guru Guruganesh，CMU 機器學習博士，主要在近似算法、拉姆齊定理、半正定規劃等方向有所研究。

　　傳送門

　　「芝麻街」系列論文列表：

ELMo:https://arxiv.org/abs/1802.05365
BERT:https://arxiv.org/abs/1810.04805
ERNIE:https://arxiv.org/abs/1904.09223
Grover:https://arxiv.org/abs/1905.12616
KERMIT:https://arxiv.org/abs/1906.01604
Big Bird:https://arxiv.org/abs/2007.14062

　　—完—

總結

以上是生活随笔為你收集整理的谷歌新模型突破BERT局限：NLP版「芝麻街」新成员Big Bird长这样的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：主力资金监控：比亚迪净买入超6亿元
下一篇：中国驻加拿大大使：孟晚舟承受很大压力但