日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样

發布時間:2023/11/23 综合教程 57 生活家
生活随笔 收集整理的這篇文章主要介紹了 谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

  蕭簫 發自 凹非寺

  量子位 報道 公眾號 QbitAI

  最新消息,谷歌推出了 NLP 系列「芝麻街」的新成員 Big Bird。

  這個在外界眼中看起來有點可愛的動漫小鳥,搖身一變,解決了 BERT 模型中的全注意力機制帶來的序列長度二次依賴限制,可以兼顧更長的上下文。

  △「芝麻街」中的 Big Bird

  眾所周知,谷歌開發的 BERT,曾經被稱為「地表最強」NLP 模型。

  而 BERT,則與美國知名動畫片「芝麻街」(Sesame Street)里的虛擬人物同名。

  此前,谷歌的「芝麻街」系列已經有 5 個成員(論文鏈接見傳送門),現在 Big Bird 的到來,意味著谷歌在 NLP 的研究上更進一步。

  △少了一位 ELMo

  來看看 Big Bird 實現了什么。

  突破全注意力機制的局限

  在 NLP 模塊表現最好的幾種深度學習模型,例如 BERT,都是基于Transformer作為特征抽取器的模型,但這種模型有它的局限性,核心之一就是全注意力機制

  這種機制會帶來序列長度二次依賴限制,主要表現在存儲方面。

  為了解決這個問題,團隊提出了一種名為 Big Bird 的稀疏注意力機制。

  作為更長序列上的 Transformers,Big Bird 采用稀疏注意力機制,將二次依賴降至線性。

  下面這張圖片,展示了 Big Bird 所用的注意力機制模塊構建。

  其中,白色的部分代表著注意力的空缺。

  圖(a)表示r=2 的隨機注意力機制,圖(b)表示w=3 的局部注意力機制,圖(c)表示g=2 的全局注意力機制,圖(d)則是前三者融合起來的 Big Bird 模型。

  之所以提出這樣的模型,是因為團隊希望能在將二次依賴降至線性的同時,Big Bird 的模型還能最大程度上接近并保持 BERT 模型的各項指標。

  從下圖來看,無論是單一采用隨機注意力機制、局部注意力機制,還是二者結合的方式,都沒有將三者進行結合的效果好。

  也就是說,隨機+局部+全局的注意力機制融合,最大程度上接近了 BERT-base 的各項指標。

  不僅如此,這種稀疏注意力機制的一部分,還包括了采用O(1) 的全局詞例(global token),例如 CLS。

  這部分使得長程注意力開銷從O(N√N)降至O(N)。

  NLP 問答和摘要任務中超越了 SOTA

  模型采用 Books、CC-News、Stories 和 Wikipedia 幾種數據集對四類模型進行了訓練,根據留出法評估,BigBird-ETC 的損失達到了最低。

  從結果來看,Big Bird 在問答任務中展示出的精度非常不錯。

  下圖是 Big Bird 與 RoBERTa 和 Longformer 對比所展現出來的精度效果,可以看見,在各項數據及上,BigBird 的兩個模型都展現出了更高的精度。

  而在對模型進行微調后,可以看見,BigBird-ETC 在 HotpotQA 的 Sup、NaturalQ 的 LA、TriviaQA 的 Verified 和 WikiHop 上均超越了 SOTA。

  與此同時,Big Bird 在 NLP 的摘要任務中表現也比較亮眼。

  摘要,顧名思義是從一段長文字中提煉出這段話的核心思想和意義。下面是從三個長文章數據集 Arxiv、PubMed 和 BigPatent 中測試的效果。

  從圖中來看,與其他非常先進的 NLP 模型相比,BigBird 極大地提高了摘要任務的各項精度,性能表現非常優異。

  不僅如此,Big Bird 被證明是圖靈完備的,這也就意味著,一切可以計算的問題,Big Bird 都能計算,理論上,它能夠用來解決任何算法。

  此外,Big Bird 在基因組數據處理方面也極具潛力。

  但雖然如此,也有網友認為,這樣的模型與 Longformer 在概念上并無本質區別,不能算是一個大突破。

  你怎么看?

  作者介紹

  論文的兩位共同一作是 Manzil Zaheer 和 Guru Guruganesh,均來自谷歌。

  △Manzil Zaheer

  Manzil Zaheer,CMU 機器學習博士,3 篇論文曾經發表于 NIPs 上,除此之外,在 ACL 和 EMNLP 等頂會上也發表過相應文章。

  △Guru Guruganesh

  Guru Guruganesh,CMU 機器學習博士,主要在近似算法、拉姆齊定理、半正定規劃等方向有所研究。

  傳送門

  「芝麻街」系列論文列表:

  • ELMo:https://arxiv.org/abs/1802.05365
  • BERT:https://arxiv.org/abs/1810.04805
  • ERNIE:https://arxiv.org/abs/1904.09223
  • Grover:https://arxiv.org/abs/1905.12616
  • KERMIT:https://arxiv.org/abs/1906.01604
  • Big Bird:https://arxiv.org/abs/2007.14062

  —

總結

以上是生活随笔為你收集整理的谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。