日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CTC模型简介

發布時間:2023/12/14 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CTC模型简介 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

CTC(Connectionist temporal classification),可以理解為基于神經網絡的時序類分類。

比如語音識別的一幀數據,很難給出一個label,但是幾十幀數據就容易判斷出對應的發音label。
語音識別聲學模型的訓練屬于監督學習,需要知道每一幀對應的label才能進行有效的訓練,在訓練的數據準備階段必須要對語音進行強制對齊。?
CTC的引入可以放寬了這種一一對應的限制要求,只需要一個輸入序列和一個輸出序列即可以訓練。

有兩點好處:

1)、不需要對數據對齊和一一標注;

2)、CTC直接輸出序列預測的概率,不需要外部的后處理。


CTC解決這一問題的方法是,在標注符號集中加一個空白符號blank,然后利用RNN進行標注,最后把blank符號和預測出的重復符號消除。比如有可能預測除了一個"--a-bb",就對應序列"ab"。這樣就讓RNN可以對長度小于輸入序列的標注序列進行預測了。
RNN的訓練需要用到前向后向算法(Forward-backward algorithm),對于給定預測序列,比如“ab”,在各個字符間插入空白符號,建立起籬笆網絡(Trellis),然后對將所有可能映射到給定預測的序列都窮舉出來求和。









? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??


如上圖,傳統的Framewise訓練需要進行語音和音素發音的對齊,比如“s”對應的一整段語音的標注都是s;而CTC引入了blank(該幀沒有預測值),“s”對應的一整段語音中只有一個spike(尖峰)被認為是s,其他的認為是blank。對于一段語音,CTC最后的輸出是spike的序列,不關心每一個音素對應的時間長度。

總結

以上是生活随笔為你收集整理的CTC模型简介的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。