日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICASSP 2022 语音合成和语音识别简报

發布時間:2024/1/8 编程问答 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICASSP 2022 语音合成和语音识别简报 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

語音合成領域統計列表請訪問http://yqli.tech/page/tts_paper.html,語音識別領域論文統計請訪問http://yqli.tech/page/asr_paper.html。開源語音數據查詢 http://yqli.tech/page/data.html。如何查找語音資料請參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。讀者有什么建議可以直接給我發消息,我將不斷修改該統計。如有轉載,請注明出處。歡迎關注微信公眾號:低調奮進。


ICASSP?2022有1906篇文章,ICASSP?2021有1757篇文章,文章數量較多,本文的統計不保證完全正確,讀者可參考性?閱讀。

ICASSP 2022?文章鏈接

https://docs.google.com/spreadsheets/d/1YgWCNhQTWlmx7HGq3W74OuPGVN-ThTRC92TIiyoNd8U/edit?usp=sharing

ICASSP 2021?文章鏈接

https://docs.google.com/spreadsheets/d/1hUV7dUoI4HMkhrcsU8O4rPUscrXfy8AXHHQ9GP0CfjU/edit?usp=sharing


一 語音合成篇

以下表一給出具體分類說明。圖一為icassp 2021和2022文章總數,2021有63篇文章,2022有?89篇文章。表二和圖二為icassp 2021和2022語音合成每個研究方向的文章分布狀況以及對比,由此可知聲學模型、聲音轉換、情感合成系統、聲碼器和歌唱等占據絕對的?優勢。

表一? 語音合成分類說明

分類

說明

前端

多音字,韻律,g2p等等。

聲學模型

語言特征轉聲學特征,attention工作,多說話人以及雙重學習

聲碼器

波形生成

個性化

少數據,臟數據應用等自適應

多語言

多語言模型

歌唱合成

歌唱和音樂合成

情感

風格和情感

多模態

主要搜集talking head文章

聲音轉換

基于GAN方案和特征解耦方案

S2S

?speech-to-speech

其它

基于EEG合成,開源數據,MOS評測以及語音合成的應用

圖1?語音合成論文總數

表二??語音合成論文分布情況

icassp 2021icassp?2022
前端36
聲學模型1818
聲碼器66
個性化34
多語言24
歌唱合成46
情感風格611
多模態23
聲音轉換1423
其它58
total6389

圖2?語音合成論文分布情況餅狀圖和柱狀圖

ICASSP 2022?文章鏈接

https://docs.google.com/spreadsheets/d/1YgWCNhQTWlmx7HGq3W74OuPGVN-ThTRC92TIiyoNd8U/edit?usp=sharing

二?語音識別篇

語音識別的文章分類參照表三說明。ICASSP 2022的語音識別文章有146篇,具體的文章分布參見表4和圖3的餅狀圖和柱狀圖?。(去年沒統計識別,所以不做對比)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表三? 語音識別分類說明

分類

說明

general

包括傳統、混合語音識別,以及對asr的優化

ctc

ctc優化

rnn-t

rnn-t的優化

aed

aed優化

dataset

開源數據庫

data aug

數據增廣

lm

語言模型研究

multilingual

多語音系統以及code-switch

personal

少數據量自適應以及個性化ASR

rescoring

多種模型聯合打分

unsupervised

無監督或者自監督學習

accent?,dialect

口音和方言

other

其它方向研究,包括系統評價標準等等

robust魯棒性
speaker diarizationspeaker diarization

multichannel

多通道
speech translation語音翻譯
multi-modal多模態

? ? ? ? ? ? ? ? ? ? ? ? ?表4?語音識別研究方向分布情況

general28
ctc4
rnn-t6
aed4
dataset3
data augmentation3
lm4
multilingual6
personal | adaptation9
rescoring6
unsupervised18
accent1
multichannel4
robust4
other29
speaker diarization9
speech translation2
multimodal6
total146

? ? ? ? ? ???? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ????圖3?語音識別研究方向餅狀圖和柱狀圖

? ? ??

ICASSP 2022?文章鏈接

https://docs.google.com/spreadsheets/d/1YgWCNhQTWlmx7HGq3W74OuPGVN-ThTRC92TIiyoNd8U/edit?usp=sharing

?

總結

以上是生活随笔為你收集整理的ICASSP 2022 语音合成和语音识别简报的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。