声纹识别算法阅读之CN-Celeb
論文:
CN-Celeb: A CHALLENGING CHINESE SPEAKER RECOGNITION DATASET
思想:
論文的貢獻(xiàn)在于提供了一個(gè)非約束條件下的大規(guī)模中文說話人識別數(shù)據(jù)集,該數(shù)據(jù)集包含環(huán)境、通道與情感的變化。這是與現(xiàn)目前大多數(shù)開源說話人識別數(shù)據(jù)集(約束條件,很小的噪聲和通道變化)的最大區(qū)別。該數(shù)據(jù)集包含1000個(gè)說話人,共計(jì)約13萬個(gè)句子,總時(shí)長274小時(shí),涵蓋了11種真實(shí)場景下的不同類型。作者在兩個(gè)比較流行的說話人識別算法i-vector和x-vector上做了實(shí)驗(yàn),并與英文說話人識別自然場景數(shù)據(jù)集voxceleb進(jìn)行對比,從實(shí)驗(yàn)結(jié)果看,一方面能夠表明CN-Celeb的更具挑戰(zhàn)性,另一方面也可看出非約束條件下的說話人識別的真實(shí)效果還有待提高。
CN-Celeb:
數(shù)據(jù)分布:CN-Celeb數(shù)據(jù)集跨越11種真實(shí)的場景,每一個(gè)說話人至少包含5種不同的場景錄音。
挑戰(zhàn)性:
錄音包含真實(shí)噪聲,比如背景babble、music、cheer、laugh等
錄音包含背景說話人重疊
錄音包含不同的場景,娛樂、電影、采訪等
同一說話人錄音來源不同的時(shí)間,通過不同的設(shè)備進(jìn)行采集得到
錄音包含短句
訓(xùn)練:
訓(xùn)練集:
voxceleb:7185 speakers 1,236,567 utts
CN-Celeb:800 speakers 111260 utts
驗(yàn)證集:
SITW: 299 speakers 6445 utts
CN-Celeb:200 speakers 18849
模型:
voxceleb:
i-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v1,GMMs(2048)、i-vector(400)
x-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2
CN-Celeb:i-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/cnceleb/v1
x-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2 ,TDNN節(jié)點(diǎn)由voxceleb中的512減少到256
實(shí)驗(yàn):
前端(i-vector、x-vector)和后端(PLDA)全部采用voxceleb訓(xùn)練條件下:在SITW上最好結(jié)果為EER=3.75%,在CN-Celeb上最好為15.52%
前端和后端采用不同訓(xùn)練集搭配時(shí),在CN-Celeb可以取得不錯(cuò)的結(jié)果,比如x-vector(voxceleb)+PLDA(CN-Celeb)的訓(xùn)練模式,在CN-Celeb驗(yàn)證集上能夠取得最好的實(shí)驗(yàn)結(jié)果11.99%
結(jié)論:
論文的貢獻(xiàn)在于提供了一個(gè)非約束條件下的大規(guī)模中文說話人識別數(shù)據(jù)集,該數(shù)據(jù)集包含1000個(gè)說話人,共計(jì)約13萬個(gè)句子,總時(shí)長274小時(shí)。數(shù)據(jù)集包含環(huán)境、通道與情感的變化,涵蓋了11種真實(shí)場景下的不同類型。此外,論文還通過實(shí)驗(yàn)表明了,結(jié)合voxceleb訓(xùn)練x-vector+CN-Celeb訓(xùn)練PLDA的搭配訓(xùn)練模式能夠在CN-Celeb驗(yàn)證集上取得最好的實(shí)驗(yàn)效果
實(shí)戰(zhàn):結(jié)合voxceleb v2(https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2)、CN-Celeb v1(https://github.com/kaldi-asr/kaldi/tree/master/egs/cnceleb/v1),實(shí)現(xiàn)的基于kaldi的CN-Celeb v2 x-vector+PLDA訓(xùn)練腳本,詳見github:https://github.com/zhaoyi2/xvector-cnceleb
效果:
x-vector(cn-celeb) + PLDA(cn-celeb)
CN-Celeb Eval Core:
EER: 16.71%
minDCF(p-target=0.01): 0.7657
minDCF(p-target=0.001): 0.8823
x-vector(voxceleb) + PLDA(cn-celeb)
CN-Celeb Eval Core:
EER: 12.43%
minDCF(p-target=0.01): 0.6064
minDCF(p-target=0.001): 0.7381
注:沒有去精細(xì)調(diào)參數(shù)或者添加一些前置優(yōu)化項(xiàng),如果你愿意去做這些的話,也許能夠達(dá)到與論文中可比的效果
Reference:
[1] https://arxiv.org/pdf/1911.01799.pdf(本文)
[2] voxceleb:http://openslr.org/49/
[3] 開源voxceleb模型:https://kaldi-asr.org/models/m7
[4] CN-Celeb:http://openslr.org/82/
總結(jié)
以上是生活随笔為你收集整理的声纹识别算法阅读之CN-Celeb的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python123作业怎么提交_pyth
- 下一篇: 怎么买短期交强险