當(dāng)前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器？？？

發(fā)布時(shí)間：2025/3/8 ChatGpt 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器？？？小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Informer:最強(qiáng)最快的序列預(yù)測(cè)神器？？？

AAAI21最佳論文Informer：效果遠(yuǎn)超Transformer的長(zhǎng)序列預(yù)測(cè)神器！

01 簡(jiǎn)介

在很多實(shí)際應(yīng)用問題中，我們需要對(duì)長(zhǎng)序列時(shí)間序列進(jìn)行預(yù)測(cè)，例如用電使用規(guī)劃。長(zhǎng)序列時(shí)間序列預(yù)測(cè)（LSTF）要求模型具有很高的預(yù)測(cè)能力，即能夠有效地捕捉輸出和輸入之間精確的長(zhǎng)程相關(guān)性耦合。最近的研究表明，Transformer具有提高預(yù)測(cè)能力的潛力。

然而，Transformer存在一些嚴(yán)重的問題，如:

二次時(shí)間復(fù)雜度、高內(nèi)存使用率以及encoder-decoder體系結(jié)構(gòu)的固有限制。

為了解決這些問題，我們?cè)O(shè)計(jì)了一個(gè)有效的基于變換器的LSTF模型Informer，它具有三個(gè)顯著的特點(diǎn)：

ProbSparse Self-Attention，在時(shí)間復(fù)雜度和內(nèi)存使用率上達(dá)到了O(LlogL)，在序列的依賴對(duì)齊上具有相當(dāng)?shù)男阅堋?/li>
self-attention 提取通過將級(jí)聯(lián)層輸入減半來突出控制注意，并有效地處理超長(zhǎng)的輸入序列。
產(chǎn)生式decoder雖然概念上簡(jiǎn)單，但在一個(gè)正向操作中預(yù)測(cè)長(zhǎng)時(shí)間序列，而不是一步一步地進(jìn)行，這大大提高了長(zhǎng)序列預(yù)測(cè)的推理速度。

在四個(gè)大規(guī)模數(shù)據(jù)集上的大量實(shí)驗(yàn)表明，Informer的性能明顯優(yōu)于現(xiàn)有的方法，為L(zhǎng)STF問題提供了一種新的解決方案。

02 背景

Intuition：Transformer是否可以提高計(jì)算、內(nèi)存和架構(gòu)效率，以及保持更高的預(yù)測(cè)能力？

self-attention的二次計(jì)算復(fù)雜度，self-attention機(jī)制的操作，會(huì)導(dǎo)致我們模型的時(shí)間復(fù)雜度為O(L*L);
長(zhǎng)輸入的stacking層的內(nèi)存瓶頸：J個(gè)encoder/decoder的stack會(huì)導(dǎo)致內(nèi)存的使用為O(J* L *L) ;
預(yù)測(cè)長(zhǎng)輸出的速度驟降：動(dòng)態(tài)的decoding會(huì)導(dǎo)致step-by-step的inference非常慢。

本文提出的方案同時(shí)解決了上面的三個(gè)問題，我們研究了在self-attention機(jī)制中的稀疏性問題，本文的貢獻(xiàn)有如下幾點(diǎn)：

我們提出Informer來成功地提高LSTF問題的預(yù)測(cè)能力，這驗(yàn)證了類Transformer模型的潛在價(jià)值，以捕捉長(zhǎng)序列時(shí)間序列輸出和輸入之間的單個(gè)的長(zhǎng)期依賴性；
我們提出了ProbSparse self-attention機(jī)制來高效的替換常規(guī)的self-attention并且獲得了O(LlogL)的時(shí)間復(fù)雜度以及O(LlogL)的內(nèi)存使用率；
我們提出了self-attention distilling操作全縣，它大幅降低了所需的總空間復(fù)雜度；
我們提出了生成式的Decoder來獲取長(zhǎng)序列的輸出，這只需要一步，避免了在inference階段的累計(jì)誤差傳播；

03 方法

現(xiàn)有時(shí)序方案預(yù)測(cè)可以被大致分為兩類：

我們首先對(duì)典型自我注意的學(xué)習(xí)注意模式進(jìn)行定性評(píng)估。“稀疏性” self-attention得分形成長(zhǎng)尾分布，即少數(shù)點(diǎn)積對(duì)主要注意有貢獻(xiàn)，其他點(diǎn)積對(duì)可以忽略。那么，下一個(gè)問題是如何區(qū)分它們？

我們定義第i個(gè)query sparsity第評(píng)估為：

ProbSparse Self-attention

04 方法Encoder + Decoder

1. Encoder: Allowing for processing longer sequential inputs under the memory usage limitation

Self-attention Distilling

作為ProbSparse Self-attention的自然結(jié)果，encoder的特征映射會(huì)帶來V值的冗余組合，利用distilling對(duì)具有支配特征的優(yōu)勢(shì)特征進(jìn)行特權(quán)化，并在下一層生成focus self-attention特征映射。

它對(duì)輸入的時(shí)間維度進(jìn)行了銳利的修剪，如上圖所示，n個(gè)頭部權(quán)重矩陣（重疊的紅色方塊）。受擴(kuò)展卷積的啟發(fā)，我們的“distilling”過程從第j層往推j+1進(jìn):

為了增強(qiáng)distilling操作的魯棒性，我們構(gòu)建了halving replicas，并通過一次刪除一層（如上圖）來逐步減少自關(guān)注提取層的數(shù)量，從而使它們的輸出維度對(duì)齊。因此，我們將所有堆棧的輸出串聯(lián)起來，并得到encoder的最終隱藏表示。

2. Decoder: Generating long sequential outputs through one forward procedure

此處使用標(biāo)準(zhǔn)的decoder結(jié)構(gòu)，由2個(gè)一樣的multihead attention層，但是，生成的inference被用來緩解速度瓶頸，我們使用下面的向量喂入decoder：

Generative Inference

Loss Function

此處選用MSE 損失函數(shù)作為最終的Loss。

05 實(shí)驗(yàn)

1. 實(shí)驗(yàn)效果

從上表中,我們發(fā)現(xiàn)：

所提出的模型Informer極大地提高了所有數(shù)據(jù)集的推理效果（最后一列的獲勝計(jì)數(shù)），并且在不斷增長(zhǎng)的預(yù)測(cè)范圍內(nèi)，它們的預(yù)測(cè)誤差平穩(wěn)而緩慢地上升。
query sparsity假設(shè)在很多數(shù)據(jù)集上是成立的；
Informer在很多數(shù)據(jù)集上遠(yuǎn)好于LSTM和ERNN

2. 參數(shù)敏感性

從上圖中,我們發(fā)現(xiàn)：

Input Length：當(dāng)預(yù)測(cè)短序列（如48）時(shí)，最初增加編碼器/解碼器的輸入長(zhǎng)度會(huì)降低性能，但進(jìn)一步增加會(huì)導(dǎo)致MSE下降，因?yàn)樗鼤?huì)帶來重復(fù)的短期模式。然而，在預(yù)測(cè)中，輸入時(shí)間越長(zhǎng)，平均誤差越低：信息者的參數(shù)敏感性。長(zhǎng)序列（如168）。因?yàn)檩^長(zhǎng)的編碼器輸入可能包含更多的依賴項(xiàng)；
Sampling Factor:我們驗(yàn)證了冗余點(diǎn)積的查詢稀疏性假設(shè)；實(shí)踐中，我們把sample factor設(shè)置為5即可，即;
Number of Layer Stacking:Longer stack對(duì)輸入更敏感，部分原因是接收到的長(zhǎng)期信息較多

3. 解耦實(shí)驗(yàn)

從上表中我們發(fā)現(xiàn),

ProbSparse self-attention機(jī)制的效果：ProbSparse self-attention的效果更好，而且可以節(jié)省很多內(nèi)存消耗；
self-attention distilling：是值得使用的，尤其是對(duì)長(zhǎng)序列進(jìn)行預(yù)測(cè)的時(shí)候；
generative stype decoderL：它證明了decoder能夠捕獲任意輸出之間的長(zhǎng)依賴關(guān)系，避免了誤差的積累；

4. 計(jì)算高效性

在訓(xùn)練階段，在基于Transformer的方法中，Informer獲得了最佳的訓(xùn)練效率。
在測(cè)試階段，我們的方法比其他生成式decoder方法要快得多。

06 小結(jié)

本文研究了長(zhǎng)序列時(shí)間序列預(yù)測(cè)問題，提出了長(zhǎng)序列預(yù)測(cè)的Informer方法。具體地：

設(shè)計(jì)了ProbSparse self-attention和提取操作來處理vanilla Transformer中二次時(shí)間復(fù)雜度和二次內(nèi)存使用的挑戰(zhàn)。
generative decoder緩解了傳統(tǒng)編解碼結(jié)構(gòu)的局限性。
通過對(duì)真實(shí)數(shù)據(jù)的實(shí)驗(yàn)，驗(yàn)證了Informer對(duì)提高預(yù)測(cè)能力的有效性

參考文獻(xiàn)

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting：https://arxiv.org/pdf/2012.07436.pdf

更多干貨，請(qǐng)關(guān)注微信公眾號(hào)：煉丹筆記

與50位技術(shù)專家面對(duì)面20年技術(shù)見證，附贈(zèng)技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的AAAI21最佳论文Informer：效果远超Transformer的长序列预测神器？？？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。