日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

声纹识别算法阅读之CN-Celeb

發(fā)布時(shí)間:2023/12/15 综合教程 62 生活家
生活随笔 收集整理的這篇文章主要介紹了 声纹识别算法阅读之CN-Celeb 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文:
CN-Celeb: A CHALLENGING CHINESE SPEAKER RECOGNITION DATASET
思想:
  論文的貢獻(xiàn)在于提供了一個(gè)非約束條件下的大規(guī)模中文說話人識別數(shù)據(jù)集,該數(shù)據(jù)集包含環(huán)境、通道與情感的變化。這是與現(xiàn)目前大多數(shù)開源說話人識別數(shù)據(jù)集(約束條件,很小的噪聲和通道變化)的最大區(qū)別。該數(shù)據(jù)集包含1000個(gè)說話人,共計(jì)約13萬個(gè)句子,總時(shí)長274小時(shí),涵蓋了11種真實(shí)場景下的不同類型。作者在兩個(gè)比較流行的說話人識別算法i-vector和x-vector上做了實(shí)驗(yàn),并與英文說話人識別自然場景數(shù)據(jù)集voxceleb進(jìn)行對比,從實(shí)驗(yàn)結(jié)果看,一方面能夠表明CN-Celeb的更具挑戰(zhàn)性,另一方面也可看出非約束條件下的說話人識別的真實(shí)效果還有待提高。
CN-Celeb:

數(shù)據(jù)分布:CN-Celeb數(shù)據(jù)集跨越11種真實(shí)的場景,每一個(gè)說話人至少包含5種不同的場景錄音。

挑戰(zhàn)性:

錄音包含真實(shí)噪聲,比如背景babble、music、cheer、laugh等
錄音包含背景說話人重疊
錄音包含不同的場景,娛樂、電影、采訪等
同一說話人錄音來源不同的時(shí)間,通過不同的設(shè)備進(jìn)行采集得到
錄音包含短句

訓(xùn)練:

訓(xùn)練集:

voxceleb:7185 speakers 1,236,567 utts
CN-Celeb:800 speakers 111260 utts

驗(yàn)證集:

SITW: 299 speakers 6445 utts
CN-Celeb:200 speakers 18849

模型:

voxceleb:

    i-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v1,GMMs(2048)、i-vector(400)

    x-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2

CN-Celeb:i-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/cnceleb/v1

    x-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2 ,TDNN節(jié)點(diǎn)由voxceleb中的512減少到256

實(shí)驗(yàn):

前端(i-vector、x-vector)和后端(PLDA)全部采用voxceleb訓(xùn)練條件下:在SITW上最好結(jié)果為EER=3.75%,在CN-Celeb上最好為15.52%

前端和后端采用不同訓(xùn)練集搭配時(shí),在CN-Celeb可以取得不錯(cuò)的結(jié)果,比如x-vector(voxceleb)+PLDA(CN-Celeb)的訓(xùn)練模式,在CN-Celeb驗(yàn)證集上能夠取得最好的實(shí)驗(yàn)結(jié)果11.99%


結(jié)論:
  論文的貢獻(xiàn)在于提供了一個(gè)非約束條件下的大規(guī)模中文說話人識別數(shù)據(jù)集,該數(shù)據(jù)集包含1000個(gè)說話人,共計(jì)約13萬個(gè)句子,總時(shí)長274小時(shí)。數(shù)據(jù)集包含環(huán)境、通道與情感的變化,涵蓋了11種真實(shí)場景下的不同類型。此外,論文還通過實(shí)驗(yàn)表明了,結(jié)合voxceleb訓(xùn)練x-vector+CN-Celeb訓(xùn)練PLDA的搭配訓(xùn)練模式能夠在CN-Celeb驗(yàn)證集上取得最好的實(shí)驗(yàn)效果
實(shí)戰(zhàn):結(jié)合voxceleb v2(https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2)、CN-Celeb v1(https://github.com/kaldi-asr/kaldi/tree/master/egs/cnceleb/v1),實(shí)現(xiàn)的基于kaldi的CN-Celeb v2 x-vector+PLDA訓(xùn)練腳本,詳見github:https://github.com/zhaoyi2/xvector-cnceleb
效果:

x-vector(cn-celeb) + PLDA(cn-celeb)

CN-Celeb Eval Core:
EER: 16.71%
minDCF(p-target=0.01): 0.7657
minDCF(p-target=0.001): 0.8823

x-vector(voxceleb) + PLDA(cn-celeb)

CN-Celeb Eval Core:
EER: 12.43%
minDCF(p-target=0.01): 0.6064
minDCF(p-target=0.001): 0.7381

  注:沒有去精細(xì)調(diào)參數(shù)或者添加一些前置優(yōu)化項(xiàng),如果你愿意去做這些的話,也許能夠達(dá)到與論文中可比的效果

Reference:
[1] https://arxiv.org/pdf/1911.01799.pdf(本文)
[2] voxceleb:http://openslr.org/49/
[3] 開源voxceleb模型:https://kaldi-asr.org/models/m7
[4] CN-Celeb:http://openslr.org/82/

總結(jié)

以上是生活随笔為你收集整理的声纹识别算法阅读之CN-Celeb的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。