李宏毅 Attention
生活随笔
收集整理的這篇文章主要介紹了
李宏毅 Attention
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
?考慮整個 sequence?長度的內容
可以多層 self attention?疊加 attention is all you need
1, dafada
alpha? : attention score?代表兩個輸入的關聯性
?
b1~b4?并行產生
?
?
?
?
?Muti-head self attention
?
?
Positional Encoding
No position information in self attention
each position has a unique position vector e^i
?
?Truncated self attention?并不需要看整句話,只需要考慮小范圍數據,加快訓練速度
self attention?適用于輸入為 vector set
影像也可以看成一個 vector set ,每一個pixel?都可以看成一個vector
?
CNN是簡化版的 self attention,?CNN相對是小的 model?適合數據集小的情況
?
CNN?的model小,彈性小,適合數據比較小的情況?
?
self attention?比?RNN更?平行處理輸入數據,運算速度更快
很多架構從?RNN改成 self attention?
?self attention?變形很多,?運算量非常大
?
?
總結
以上是生活随笔為你收集整理的李宏毅 Attention的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文看尽2020上半年阿里、腾讯、百度入
- 下一篇: 攻防世界reverse高手进阶 ----