语音识别中的鸡尾酒会问题
概念
“ 雞尾酒會(huì)問(wèn)題”(cocktail party problem)是在計(jì)算機(jī)語(yǔ)音識(shí)別領(lǐng)域的一個(gè)問(wèn)題。當(dāng)前語(yǔ)音識(shí)別技術(shù)已經(jīng)可以以較高精度識(shí)別一個(gè)人所講的話,但是當(dāng)說(shuō)話的人數(shù)為兩人或者多人時(shí),語(yǔ)音識(shí)別率就會(huì)極大的降低,這一難題被稱為雞尾酒會(huì)問(wèn)題。
解決方案 ?
斯坦福大學(xué)的Andrew NG教授的機(jī)器學(xué)習(xí)公開(kāi)課(http://v.163.com/special/opencourse/machinelearning.html)(ml-class.org)在第一章unsupervised learning那段視頻里解決雞尾酒會(huì)問(wèn)題(cocktail party problem)就寫(xiě)了一行代碼:[W,s,v] = svd ((repmat(sum(x.*x,1),size(x,1),1).*x)*x');
用fastICA算法可以比較好地解決http://research.ics.tkk.fi/ica/fastica/。
http://www.endolith.com/wordpress/2009/11/22/a-simple-fastica-example/ 是一個(gè)分離音樂(lè)的例子,效果比較明顯。用的就是fastICA的python實(shí)現(xiàn)。不過(guò)好像用來(lái)解決cocktail party problem的話效果不太好。
Blind Source Separation of recorded speech and music signals:http://cnl.salk.edu/~tewon/Blind/blind_audio.html
總結(jié)
以上是生活随笔為你收集整理的语音识别中的鸡尾酒会问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: qt geomery的单位是什么_生命吗
- 下一篇: SR综述论文总结