日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Transformer and set Trasformer

發布時間:2024/7/5 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Transformer and set Trasformer 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.Transformer


  • multihead attention block:MAB(X,Y)=LayerNorm(H+rFF(H))H=LayerNorm(X+multihead(X,Y,Y;ω)MAB(X,Y)=LayerNorm(H+rFF(H))\\ H=LayerNorm(X+multihead(X,Y,Y;\omega)MAB(X,Y)=LayerNorm(H+rFF(H))H=LayerNorm(X+multihead(X,Y,Y;ω)
    * Attention:Att(Q,K,Vl;ω)=ω(QKT)VAtt(Q,K,Vl;\omega)=\omega(QK^T)VAtt(Q,K,Vl;ω)=ω(QKT)V
    * multi:multihead(Q,K,V;λ,ω)=concat(O1,...,Oh)WOmultihead(Q,K,V;\lambda,\omega)=concat(O_1,...,O_h)W^Omultihead(Q,K,V;λ,ω)=concat(O1?,...,Oh?)WO

  • self-attention

    • self-attention:Q=Wqx;K=Wkx;V=WvxQ=W_qx;K=W_kx;V=W_vxQ=Wq?x;K=Wk?x;V=Wv?x
  • Mask:解碼第i個單詞,只知道第i-1及之前的信息,然后與self-attention 一致

    • 被mask的為1:因為att+softmax之后會變成0
  • encoder-decorder Attention

    • K,V使用encoder,Q用上一層的輸出
  • 除根號:

1.1 PE

1.2優點

  • 并行
  • 無PE則是詞袋模型
  • 重點self-attention

set transformer

1.1 19年ICML::Set Transformer: A Framework for Attention-based Permutation-Invariant Neural Networks

  • problem:set-input
  • 需求:
    • 排列不變性
    • 可輸入任意尺寸集合
  • 與transformer區別:
    • 不輸入PE
    • decoder第一個self-attention改為:pooling
  • 公式
    • SAB(X)=MAB(X,X)SAB(X)=MAB(X,X)SAB(X)=MAB(X,X)–說是set attention實際是self-attention?$
      • 時間復雜度O(n^2)$
    • 改進,降低空間復雜度ISAB(X)=MAB(X,H)∈Rn×dwhereH=MAB(I,X)∈Rm×d,I是可訓練參數ISAB(X)=MAB(X,H)\in R^{n\times d}\\ where H=MAB(I,X)\in R^{m\times d},I是可訓練參數ISAB(X)=MAB(X,H)Rn×dwhereH=MAB(I,X)Rm×d,I
      • 時間復雜度O(mn)O(mn)O(mn)
      • 降維了大概
    • Pooling,可訓練的:PMAk(Z)=MAB(S,rFF(Z)),S∈Rk×d,Z是encoder的輸出PMA_k(Z)=MAB(S,rFF(Z)),S\in R^{k\times d},Z是encoder的輸出PMAk?(Z)=MAB(S,rFF(Z))SRk×d,Zencoder

1.2 pool:另一種pool的方式

  • code
  • ICLR2020: FSPOOL: LEARNING SET REPRESENTATIONS WITH FEATUREWISE SORT POOLING
  • loss:排序后可用 MSE

1.2.1集合輸出的損失函數

  • 都具有排列不變性
  • O(n3)O(n^3)O(n3)的匈牙利算法:找最優匹配
    • Joint Entity and Relation Extraction with Set Prediction Networks用的也是這個?
  • O(n^2):找最像的

1.2.2排序使得模型具備排列不變性:feature sort pooling

  • 先對每一維度的特征排序,將排序后的特征加權求和。
  • 排序后就無需再計算loss前進行分配,而分配的復雜度高
  • why 按行排序???為什么不對object排序??
  • 因為這樣可以忽略object的個數問題。

1.2.2.1 fixed-size sets

  • 先按行排序(對特征排序),這樣每一列不能單獨代表一個object,但是特征是解耦的,所以排序不會丟失信息
    • 排序不可微分,但可以梯度反傳(像最大池化一樣)

1.2.2.2 VARIABLE-SIZE SETS

  • W:是個固定長度的向量

1.2.3 decoder

  • 自編碼器,使用逆排序對齊x
  • loss

1.2 對抗學習的set transformer:loss

  • ICML2020 Spotlight:Generative Adversarial Set Transformers
    • 用對抗學習充當loss

參考

【1】transformer
【2】set transformer
【3】fs pool

總結

以上是生活随笔為你收集整理的Transformer and set Trasformer的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。