日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

<button id="64eei"><xmp id="64eei"></xmp></button>

<dd id="64eei"></dd>

<code id="64eei"><pre id="64eei"></pre></code>

<abbr id="64eei"><pre id="64eei"></pre></abbr>

<ul id="64eei"></ul>

<delect id="64eei"><tr id="64eei"></tr></delect>

<strike id="64eei"><table id="64eei"></table></strike>

歡迎訪問生活随笔！

生活随笔

生活随笔是一个全网技术分享平台，涵盖前端开发（HTML/CSS/JavaScri...

生活随笔

當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Transformer and set Trasformer

發布時間：2024/7/5 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 Transformer and set Trasformer 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.Transformer

multihead attention block: $MAB(X,Y)=LayerNorm(H+rFF(H))H=LayerNorm(X+multihead(X,Y,Y;ω)MAB(X,Y)=LayerNorm(H+rFF(H))\\ H=LayerNorm(X+multihead(X,Y,Y;\omega)$
* Attention: $Att(Q,K,Vl;ω)=ω(QKT)VAtt(Q,K,Vl;\omega)=\omega(QK^T)V$
* multi: $multihead(Q,K,V;λ,ω)=concat(O1,...,Oh)WOmultihead(Q,K,V;\lambda,\omega)=concat(O_1,...,O_h)W^O$
self-attention
- self-attention: $Q=W_qx;K=W_kx;V=W_vx$
Mask:解碼第i個單詞，只知道第i-1及之前的信息，然后與self-attention 一致
- 被mask的為1：因為att+softmax之后會變成0
encoder-decorder Attention
- K，V使用encoder，Q用上一層的輸出
除根號：

1.1 PE

1.2優點

并行
無PE則是詞袋模型
重點self-attention

set transformer

1.1 19年ICML：:Set Transformer: A Framework for Attention-based Permutation-Invariant Neural Networks

problem:set-input
需求：
- 排列不變性
- 可輸入任意尺寸集合
與transformer區別：
- 不輸入PE
- decoder第一個self-attention改為：pooling
公式
- $S A B (X) = M A B (X, X)$ –說是set attention實際是self-attention?$
  - 時間復雜度O(n^2)$
- 改進，降低空間復雜度 $ISAB(X)=MAB(X,H)∈Rn×dwhereH=MAB(I,X)∈Rm×d,I是可訓練參數ISAB(X)=MAB(X,H)\in R^{n\times d}\\ where H=MAB(I,X)\in R^{m\times d},I是可訓練參數$
  - 時間復雜度 $O (m n)$
  - 降維了大概
- Pooling，可訓練的: $PMAk(Z)=MAB(S,rFF(Z))，S∈Rk×d,Z是encoder的輸出PMA_k(Z)=MAB(S,rFF(Z))，S\in R^{k\times d},Z是encoder的輸出$

1.2 pool:另一種pool的方式

code
ICLR2020: FSPOOL: LEARNING SET REPRESENTATIONS WITH FEATUREWISE SORT POOLING
loss:排序后可用 MSE

1.2.1集合輸出的損失函數

都具有排列不變性
$O(n^3)$ 的匈牙利算法：找最優匹配
- Joint Entity and Relation Extraction with Set Prediction Networks用的也是這個？
O(n^2):找最像的

1.2.2排序使得模型具備排列不變性：feature sort pooling

先對每一維度的特征排序，將排序后的特征加權求和。
排序后就無需再計算loss前進行分配，而分配的復雜度高
why 按行排序？？？為什么不對object排序？？
因為這樣可以忽略object的個數問題。

1.2.2.1 fixed-size sets

先按行排序（對特征排序），這樣每一列不能單獨代表一個object，但是特征是解耦的，所以排序不會丟失信息
- 排序不可微分，但可以梯度反傳（像最大池化一樣）

1.2.2.2 VARIABLE-SIZE SETS

W:是個固定長度的向量

1.2.3 decoder

自編碼器，使用逆排序對齊x
loss

1.2 對抗學習的set transformer：loss

ICML2020 Spotlight：Generative Adversarial Set Transformers
- 用對抗學習充當loss

參考

【1】transformer
【2】set transformer
【3】fs pool

總結

以上是生活随笔為你收集整理的Transformer and set Trasformer的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：基于位置的知识图谱链接预测
下一篇：时间约束的实体解析中记录对排序研究

<code id="8iegg"><tbody id="8iegg"></tbody></code>

<dd id="8iegg"></dd>

<strike id="8iegg"><table id="8iegg"></table></strike>