LiveVideoStack线上分享第五季(九):语音合成中的风格控制
目前,語音合成領(lǐng)域的風(fēng)格情感控制是一個比較熱門的話題,它將決定著語音合成中的似人度和靈活性以及可轉(zhuǎn)換性。5月4日晚?20:00,LiveVideoStack線上分享第五季,第八期,我們邀請到了喜馬拉雅 音頻算法工程師 賀雯迪分享語音合成的基本模塊以及風(fēng)格遷移的概念,詳解基于Multihead-Attention的Global style token算法原理以及現(xiàn)在目前比較值得探索的變分自編碼器在語音合成中對說話人風(fēng)格控制的應(yīng)用。
嘉賓簡介
賀雯迪 喜馬拉雅 音頻算法工程師
愛丁堡大學(xué)人工智能碩士,喜馬拉雅音頻算法工程師。研發(fā)經(jīng)歷:TTS前端模塊(文本正則、分詞算法、韻律預(yù)測等),后端算法(基于深度生成模型VAE的說話人風(fēng)格控制、音色轉(zhuǎn)換、音色克隆、few-shot learning、神經(jīng)聲碼器的優(yōu)化等)。
關(guān)于LiveVideoStack線上交流分享
為了給大家提供一個學(xué)習(xí),交流的平臺,暢聊音視頻技術(shù)開發(fā)新趨勢,新實踐。我們推出了LiveVideoStack線上交流分享活動,邀請業(yè)內(nèi)資深技術(shù)專家進(jìn)行線上分享技術(shù)干貨,解答熱點問題。你可以通過以下方式參與:
掃描圖中二維碼關(guān)注LiveVideoStack公眾號【livevideostack】
回復(fù)“分享”,即可獲得進(jìn)入直播群的方式
總結(jié)
以上是生活随笔為你收集整理的LiveVideoStack线上分享第五季(九):语音合成中的风格控制的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 音视频技术开发周刊 | 142
- 下一篇: 万物皆可“小程序”——迟到的iOS 14