谷歌黑科技WaveNet,更先进的语音合成
| 導(dǎo)讀 | Google 的 DeepMind 研究實(shí)驗(yàn)室昨天公布了其在計(jì)算機(jī)語(yǔ)音合成領(lǐng)域的最新成果——WaveNet。該語(yǔ)音合成系統(tǒng)能夠模仿人類的聲音,生成的原始音頻質(zhì)量?jī)?yōu)于目前的文本轉(zhuǎn)語(yǔ)音系統(tǒng)(text to speech,簡(jiǎn)稱 TTS)。 |
DeepMind 宣稱,通過人耳測(cè)試,該技術(shù)使得模擬生成的語(yǔ)音與人類聲音之間的差異縮小了一半。當(dāng)然,這種測(cè)試不可避免地存在主觀性。WaveNet 目前還沒有被應(yīng)用到谷歌的任何產(chǎn)品中,而且該系統(tǒng)需要強(qiáng)大的計(jì)算能力,近期也無法應(yīng)用到真實(shí)世界場(chǎng)景。
讓人類跟機(jī)器自由交談是人機(jī)交互研究領(lǐng)域長(zhǎng)久以來的夢(mèng)想。在過去幾年,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用大幅度了提高計(jì)算機(jī)理解自然語(yǔ)音的能力。然而,運(yùn)用計(jì)算機(jī)生成語(yǔ)音(語(yǔ)音合成,或者 TTS 系統(tǒng))仍然主要依靠拼接式 TTS——先錄制單一說話者的大量語(yǔ)音片段,建立一個(gè)大型數(shù)據(jù)庫(kù),然后將語(yǔ)音片段合成完整的話語(yǔ)。這種語(yǔ)音合成方式很難對(duì)聲音加以修飾,無法表達(dá)強(qiáng)調(diào)或者情感。
為了解決語(yǔ)音合成的這一難題,迫切需要運(yùn)用一種參量改頻式(Parametric)TTS。在這種 TTS 系統(tǒng)中,生成數(shù)據(jù)所需要的所有信息被存儲(chǔ)于模型的參數(shù)中,語(yǔ)音所傳達(dá)的內(nèi)容及語(yǔ)音特征可以通過模型的輸入信息得以控制。然而,目前參量改頻式 TTS 生成的語(yǔ)音聽起來還不如拼接式 TTS 模型生成的語(yǔ)音自然。現(xiàn)有的參量改頻式模型通常將輸出的信息交給信號(hào)處理算法處理,從而生成音頻信號(hào)。
WaveNet 改變了這種范式,直接用音頻信號(hào)的原始波形建模,而且是一次處理一個(gè)樣本。通過這種方式生成的語(yǔ)音不但聽起來更加自然,而且使用原始波形還能為任何聲音建模,包括模仿任何人的聲音,還能生成音樂。在測(cè)試中,WaveNet 通過分析古典音樂,生成了一段鋼琴曲。
谷歌 DeepMind 的人工智能 AlphaGo 在今年早些時(shí)候打敗了韓國(guó)圍棋大師李世石九段,引起了世人的關(guān)注。谷歌一直對(duì)如何應(yīng)用其人工智能技術(shù)守口如瓶,只是稱其已經(jīng)利用這些技術(shù)降低了冷卻公司數(shù)據(jù)中心所需的電量,讓從 YouTube 到谷歌廣告產(chǎn)品的一系列服務(wù)得到了巨大改善。
總結(jié)
以上是生活随笔為你收集整理的谷歌黑科技WaveNet,更先进的语音合成的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么动物跑的快,智商高?
- 下一篇: 吸烟者的二手烟和二手香烟的危害有什么区别