日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[转] 图解Seq2Seq模型、RNN结构、Encoder-Decoder模型 到 Attention

發布時間:2024/4/17 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [转] 图解Seq2Seq模型、RNN结构、Encoder-Decoder模型 到 Attention 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

from :?https://caicai.science/2018/10/06/attention%E6%80%BB%E8%A7%88/

一、Seq2Seq?模型

1. 簡介

Sequence-to-sequence (seq2seq)?模型,顧名思義,其輸入是一個序列,輸出也是一個序列,例如輸入是英文句子,輸出則是翻譯的中文。seq2seq?可以用在很多方面:機器翻譯、QA?系統、文檔摘要生成、Image Captioning?(圖片描述生成器)。

2. 基本框架

第一種結構

[參考1]論文中提出的?seq2seq?模型可簡單理解為由三部分組成:Encoder、Decoder 和連接兩者的 State Vector (中間狀態向量) C 。

上圖中?Encoder?和?Decoder?可以是一個?RNN?,但通常是其變種?LSTM?或者?GRU?。Encoder?和?Decoder?具體介紹請見第三部分。

第二種結構

該結構是最簡單的結構,和第一種結構相似,只是?Decoder 的第一個時刻只用到了 Encoder 最后輸出的中間狀態變量?:

應用:

  • 在英文翻譯中,將英文輸入到?Encoder?中,Decoder?輸出中文。

    參考1:-原創翻譯- 基于RNNEncoder–Decoder的機器翻譯L(earning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation)

  • 在圖像標注中,將圖像特征輸入到?Encoder?中,Decoder?輸出一段文字對圖像的描述。

    參考2:-原創翻譯- 圖像標注生成器 (Show and Tell: A Neural Image Caption Generator)

  • 在?QA?系統中,將提出的問題輸入?Encoder?中,Decoder?輸出對于問題的回答。

……

注:確保你對所有模型都有所了解后再閱讀應用后面的參考鏈接。

二、RNN?結構

1. 為什么在這里提及?RNN?及?RNN?變種?

接下來要介紹的?Encoder-Decoder?模型中,Encoder?和?Decoder?兩部分的輸入輸出可以是文字、圖像、語音等等,所以?Encoder?和?Decoder?一般采用?CNN?、RNN?、LSTM?、GRU?等等。這里,我們只介紹經典?RNN?的結構。

如果對?LSTM?感興趣的話,請參考?-原創翻譯- 詳解?LSTM(Understanding LSTM Networks)

2. 圖解?RNN?結構

RNN?大都用來處理像一串句子、一段語音這種的序列化數據。展開的?RNN?結構圖如下:

由圖可見,其當前時間 t 的輸出依賴兩部分:前一時刻的隱層 $h_{t-1}$ 和當前的輸入 $x_{t}$ 。

下面主要介紹經典的三種?RNN?結構:

(1)?n VS 1

注:圓圈代表給定的輸入,箭頭代表運算,矩形代表隱層,也就是箭頭運算后的結果。其中參數 $W、U、V$ 都是一樣的。在自然語言處理問題。$x_{1}$ 可以看做是第一個單詞,$x_{2}$ 可以看做是第二個單詞…

這種結構可應用于情感分析、文本分類等等。

(2)?1 VS n

下圖是把輸入當作每個時刻的輸入:

這種結構可應用于應用于?Image Caption?,輸入是圖像的特征矩陣,輸出是一段對圖像的描述。

(3)?n VS n

這種結構可應用于機器翻譯等。如果感興趣,可以參考下面的 文章。作者使用?RNN?實現了根據一個字母推測下一個字母的概率。

參考3:-原創翻譯- RNNs的“神奇功效”(The Unreasonable Effectiveness of Recurrent Neural Networks)

(4)?n VS m

在機器翻譯中,源語言和目標語言的句子序列都是不等長的,而原始的?n VS n?結構都是要求序列等長的。為此,我們有了?n VS m?結構,這種結構又被稱為?Encoder-Decoder模型?。具體請見下一部分。

三、Encoder-Decoder?模型

1. 簡介

在第二節的第四部分,我們提出了?RNN?的?n VS m?結構:Encoder-Decoder?模型,Encoder-Decoder?模型是深度學習中常見的一種模型。在本文中,我們只簡單介紹其在文本-文本的應用,比如將英語翻譯成漢語,所以該模型也可以稱為?Seq2Seq 模型?。下圖為?Encoder-Decoder?模型的抽象圖:

2. 分析

1)?Encoder

給定句子對?<X,Y>?,我們的目標是給定輸入句子?X?,通過Encoder-Decoder?模型來翻譯成目標句子?Y?。而?X?和?Y?分別由各自的單詞序列構成:

首先,Encoder?對輸入語句?X?進行編碼,經過函數變換為中間語義向量?C?(可以通過多種方式得到) :

2)?Decoder

得到中間語義向量?C?后,使用?Decoder?進行解碼。Decoder根據中間狀態向量?C?和已經生成的歷史信息?y1,y2…yi-1?去生成?t?時刻的單詞?yi?:

$$y_{i} = g (C, y_{1}, y_{2}, y_{i-1})$$

如果直接將 c 輸入到?Decoder?中,則是?Seq2Seq?模型的第二種模型:

如果將 c 當作?Decoder?的每一時刻輸入,則是?Seq2Seq?模型的第一種模型:

  • 中英翻譯中,?<X,Y>?是不同語言的句子,X?是英文句子,Y?是中文句子。
  • QA?系統中,X?是問題,Y?是回答。
  • ……

    Encoder-Decoder?模型是使用非常廣泛的深度學習模型框架,與其說?Encoder-Decoder?是一種模型,不如稱其為一種通用框架。因為?Encoder?和?Decoder?具體使用什么模型是根據任務而定義的。在自然語言處理研究中通常使用?LSTM?或者是?GRU?。

四、Attention?模型

1.?Encoder-Decoder?模型的局限性

(1) 從第三節的第一部分的?Encoder-Decoder?模型的抽象圖中可以看出?Encoder?和?Decoder?的唯一聯系只有語義編碼?C?,即將整個輸入序列的信息編碼成一個固定大小的狀態向量再解碼,相當于將信息”有損壓縮”。很明顯這樣做有兩個缺點:

  • 中間語義向量無法完全表達整個輸入序列的信息。
  • 隨著輸入信息長度的增加,由于向量長度固定,先前編碼好的信息會被后來的信息覆蓋,丟失很多信息。

(2)大家看第三節的第二部分的第二個?Decoder?過程,其輸出的產生如下:

$y_{1}=g(C, h’_{0})$

$y_{2}=g(C, y_{1})$

$y_{3}=g(C, y_{1}, y_{2})$

明顯可以發現在生成 $y_{1}、y_{2}、y_{3}$ 時,語義編碼?C?對它們所產生的貢獻都是一樣的。例如翻譯:Cat chase mouse?,Encoder-Decoder?模型逐字生成:“貓”、“捉”、“老鼠”。在翻譯?mouse?單詞時,每一個英語單詞對“老鼠”的貢獻都是相同的。如果引入了Attention?模型,那么?mouse?對于它的影響應該是最大的。

2. 圖解?Attention

為了解決上面兩個問題,于是引入了?Attention?模型。Attention?模型的特點是?Decoder?不再將整個輸入序列編碼為固定長度的中間語義向量?C?,而是根據當前生成的新單詞計算新的?$C_{i}$?,使得每個時刻輸入不同的?C,這樣就解決了單詞信息丟失的問題。引入了?Attention?的?Encoder-Decoder?模型如下圖:

對于剛才提到的那個“貓捉老鼠”的翻譯過程變成了如下:

$y_{1}=g(C_{1}, h’_{0})$

$y_{2}=g(C_{2}, y_{1})$

$y_{3}=g(C_{3}, y_{1}, y_{2})$

整個翻譯流程如下:

圖中輸入是?Cat chase mouse?,Encoder?中隱層?h1、h2、h3?可看作經過計算?Cat、chase、mouse?這些詞的信息。

使用 $a_{ij}$ 表示?Encoder?中第?j?階段的 $h_{j}$ 和解碼時第?i?階段的相關性,計算出解碼需要的中間語義向量 $C_{i}$ 。$C_{1}$ 和 “貓” 關系最近,相對應的 $a_{11}$ 要比 $a_{12}$ 、$a_{13}$ 大;而 $C_{2}$ 和 “捉” 關系最近,相對應的 $a_{22}$ 要比 $a_{21}$ 、$a_{23}$ 大;同理 $C_{3}$ 和 “老鼠” 關系最近,相對應的 $a_{33}$ 要比 $a_{31}$ 、$a_{32}$ 大。

那么參數 $a_{ij}$ 是如何得到呢?

Encoder?中第?j?個隱層單元 $h_{j}$ 和?Decoder?第?i-1?個隱層單元 $h’{i-1}$ 經過運算得到 $a{ij}$ 。

例如 $a_{1j}$ 的計算過程:

$a_{2j}$ 的計算過程:

參考 :引入Attention?并基于?RNN?的?Encoder-Decoder?模型公式推導

轉載于:https://www.cnblogs.com/Arborday/p/10758884.html

總結

以上是生活随笔為你收集整理的[转] 图解Seq2Seq模型、RNN结构、Encoder-Decoder模型 到 Attention的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 久久这里精品 | 无码人妻一区二区三区在线视频 | 国产ts系列 | 欧美一区二区黄色 | 天堂在线免费观看 | 二区国产| 九九精品热| 久久久一级黄色片 | www.rihan| 少妇喷水在线观看 | 日产电影一区二区三区 | 亚洲天码中字 | 中文字幕在线2021 | 在线观看日韩视频 | 自拍偷拍1 | 美女av免费看 | 免费毛片看片 | 国产 第1190页 | 澳门久久久 | 久久成年 | 亚洲精品国产精品国自产 | 国产精品区在线观看 | 青青草原国产在线观看 | 天堂网一区二区 | 一边摸一边做爽的视频17国产 | 亚洲色图一区二区三区 | 清纯唯美第一页 | 秋霞成人av| 久久中文字幕视频 | www中文字幕在线观看 | 日本不卡高清视频 | 亚洲性xx| 永久免费成人 | 国产又粗又猛又爽又黄无遮挡 | 97se综合| 小视频免费在线观看 | 免费成人在线播放 | 永久免费未满 | 亚洲欧美另类中文字幕 | 一本色道久久综合亚洲精品图片 | 97se在线| 蜜臀av性久久久久蜜臀av麻豆 | 国产亚洲精品久久 | 一区二区三区在线观看视频 | 青青青免费视频观看在线 | 国产精品天堂 | jjzz黄色片 | 日韩在线视频免费看 | 玖玖精品在线 | 在线国产精品视频 | 国产视频在线免费观看 | 亚洲色图3p| 亚州av综合色区无码一区 | 亚洲最新视频 | 黄网在线观看免费 | 蜜桃av噜噜一区二区三区麻豆 | 激情午夜影院 | 淫欲av| 亚洲情侣在线 | 爆操白虎逼 | 亚洲AV无码成人精品区在线观 | 成人手机在线免费视频 | 欧美大肚乱孕交hd孕妇 | 97国产成人无码精品久久久 | 日本黄色免费网址 | 99re热这里只有精品视频 | 欧美一级免费大片 | 蜜臀av性久久久久蜜臀aⅴ涩爱 | 色综合视频在线观看 | 久久综合久久鬼色 | 久久av网站| 国产日韩久久久 | 国产又粗又黄又爽 | 一区二区三区视频在线播放 | 国产精品男人的天堂 | 三级黄色片免费 | 欧美在线性 | 男人天堂久久久 | 日日摸日日碰夜夜爽无码 | 老司机午夜免费视频 | 在线日本视频 | 6—12呦国产精品 | 欧美特级视频 | 午夜精品av | 亚洲第一成人网站 | 长篇乱肉合集乱500小说日本 | 日韩高清影院 | 自拍1区 | 男男做爰猛烈叫床爽爽小说 | 国产高清免费在线 | 99国产精品久久久久久久久久久 | 日p免费视频 | 两性动态视频 | 超碰精品在线观看 | 色中色综合| 精品一区二区三区日韩 | 男女深夜福利 | 国产尤物视频 | 亚洲第一中文字幕 |