當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

同盾科技声纹识别建模大赛

發(fā)布時間：2024/1/8 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了同盾科技声纹识别建模大赛小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

賽事簡介

本次“同盾科技聲紋識別建模大賽”立足于選拔出色AI人才，致力于打造“智能風(fēng)控”，為高潛力人才與高增長行業(yè)建立起精準(zhǔn)對接的橋梁。此次同盾聯(lián)合科賽、希爾貝殼，并由騰訊云全程支持計算資源，發(fā)起聲紋大賽。基于同盾科技核心業(yè)務(wù)展開，以一線業(yè)務(wù)的實戰(zhàn)經(jīng)驗為素材，與廣大AI技術(shù)開發(fā)者一起針對聲紋識別在風(fēng)控領(lǐng)域的應(yīng)用做更深入的探索。

數(shù)據(jù)提供方：希爾貝殼

云資源支持：由騰訊云|云+創(chuàng)業(yè)全力

大賽命題

要求基于給定的訓(xùn)練數(shù)據(jù)建立模型，從而可對任給定的兩段語音數(shù)據(jù)，模型輸出這兩段語音是由同一個人說的概率p, p∈[0,1]。

比賽日程

??比賽時間：2018-08-01 至 2018-10-22

??????????初賽階段：2018-08-01（12:00:00）至 2018-09-07（23:59:59）

??????????初賽評審階段：2018-09-08 至 2018-09-10

??????????復(fù)賽階段：2018-09-11 （12:00:00）至 2018-10-10（23:59:59）

??????????復(fù)賽評審階段：2018-10-11 至 2018-10-15

??????????決賽線下路演：2018-10-22（14:00:00）

??比賽階段：

??????????初賽：2018-08-01 至 2018-09-10

??????????????????選取初賽排行榜前30名的隊伍進(jìn)入復(fù)賽

??????????復(fù)賽：2018-09-11 至 2018-10-15

????????????????選取復(fù)賽排行榜前10名的隊伍進(jìn)入決賽

??????????線下決賽路演：2018-10-22

????????????????當(dāng)天進(jìn)行選手作品答辯，評出獲得一、二、三等獎和優(yōu)秀獎的隊伍

獎項設(shè)置

獎金設(shè)置：

? 本次大賽共設(shè)置三個獎項，獎金一共￥276,000人民幣。

獎項	一	二	三	優(yōu)秀
隊伍數(shù)	1	2	3	4
每支隊伍獎金(￥)	80,000	50,000	20,000	9000

其他獎勵：

? 為進(jìn)入決賽的優(yōu)秀選手提供兩個實習(xí)名額（若優(yōu)秀選手較多，可適當(dāng)增加名額）

數(shù)據(jù)說明&查看路徑

初賽數(shù)據(jù)集訪問路徑

? 請在K-Lab Kernel中輸入如下指令訪問數(shù)據(jù)集：

????!ls /mnt/datasets/tongdun_competition/1st_round/

? 可以看到如下文件/文件夾

??????? pair_id.txt

??????? training_set_spk_info.csv

??????? training_set/

??????? test_set/

初賽中使用的數(shù)據(jù)分為訓(xùn)練集和測試集兩部分

? 訓(xùn)練集：

??????? 共1000個說話人，具體關(guān)于訓(xùn)練集中錄音人相關(guān)信息的內(nèi)容，請查看文件目錄下的training_set_spk_info.csv

??????? 訓(xùn)練集中每個文件夾名為該錄音人的ID，其中包含所有該錄音人所說的語音

? 測試集：

??????? 共包含1200對語音音頻組合，pair_id.txt預(yù)置在了數(shù)據(jù)集中

初賽階段：

? K-Lab使用騰訊云CPU，4核16G內(nèi)存。K-Lab的單次運(yùn)行時長為6小時，運(yùn)行時長的最后90分鐘內(nèi)皆可選擇是否“延長可用時長”。

? 任務(wù)：

? 訓(xùn)練/驗證：使用所提供的說話人各自的語音音頻數(shù)據(jù)與說話人性別，在K-Lab中建立模型、驗證模型，可對任給定的兩段語音數(shù)據(jù)，模型輸出這兩段語音是由同一個人說的概率p, p∈[0,1]

? 輸出結(jié)果：根據(jù)訓(xùn)練集中所提供的pair_id.txt，對測試集中的1200對語音分別輸出是由同一人說的概率p，并將結(jié)果文件（csv）通過K-Lab上傳至自動測評系統(tǒng)得到EER分?jǐn)?shù)

? 測試集說明：測試集包含1200對語音音頻組合，pair_id.txt預(yù)置在了復(fù)賽使用的數(shù)據(jù)集中。示例如下：??

pairs_id

0001_0002

0003_0004

0004_0005

*?每一行表示一對音頻組合。'0001_0002'表示測試集目錄test_set下的音頻0001.wav和0002.wav; '0003_0004'表示測試集目錄下的音頻0003.wav和0004.wav，以此類推。

? 本次比賽初賽的訓(xùn)練數(shù)據(jù)隨機(jī)從希爾貝殼中文普通話語音數(shù)據(jù)庫中，每人抽取5分鐘左右的數(shù)據(jù)，共1000名來自中國不同口音區(qū)域的發(fā)言人參與錄制。錄制過程在安靜室內(nèi)環(huán)境中，同時使用3種不同設(shè)備：高保真麥克風(fēng)（44.1kHz，16bit）；Android系統(tǒng)手機(jī)（16kHz，16bit）；iOS系統(tǒng)手機(jī)（16kHz，16bit）。錄音內(nèi)容涉及財經(jīng)、科技、體育、娛樂、時事新聞等12個領(lǐng)域。

? 語料池處理

??????? 脫敏處理。刪除政治敏感、個人隱私、色情暴力等內(nèi)容。

??????? 刪除 < , > , [ , ] , ～ , / , \ , = 等符號。

??????? 刪除含有中文和英文以外語言的內(nèi)容。

??????? 統(tǒng)一格式。

復(fù)賽數(shù)據(jù)集訪問路徑：

? 請在K-Lab Kernel中輸入如下指令訪問數(shù)據(jù)集：

??!ls /mnt/datasets/

? 可以看到如下文件/文件夾

??????? pairs_id.txt

??????? training_set/

??????? test_set/

??????? spk_info.csv

??????? trainingset_transcript.txt

復(fù)賽中使用的數(shù)據(jù)分為訓(xùn)練集和測試集兩部分

? 訓(xùn)練集

??????? 訓(xùn)練集包含超過6000名錄制人的音頻，來自O(shè)penSLR數(shù)據(jù)集和AISHELL-2500數(shù)據(jù)集。

??????? 對于來自AISHELL-2500數(shù)據(jù)集的部分，我們提供了spk_info.csv文件，記錄了音頻錄制人的id，年齡段，性別，口音區(qū)域，句數(shù)等信

????????息；以及trainingset_transcripts.txt，包含了音頻錄制者所有話語的文字記錄。

? 測試集

??????? 測試集共包含3000對音頻，以及pairs_id.txt，記錄了測試集音頻的ID字段。

復(fù)賽階段：

? K-Lab使用GPU，M40。

? 任務(wù)：

??????? 訓(xùn)練/驗證：使用所提供的說話人各自的語音音頻數(shù)據(jù)與說話人性別，在K-Lab中建立模型、驗證模型，可對任給定的兩段語音數(shù)據(jù)，模

??????? 型輸出這兩段語音是由同一個人說的概率p, p∈[0,1]

??????? 輸出結(jié)果：根據(jù)訓(xùn)練集中所提供的pair_id.txt，對測試集中的3000對語音分別輸出是由同一人說的概率p，并將結(jié)果文件（csv）通過

????????K-Lab上傳至自動測評系統(tǒng)得到EER分?jǐn)?shù)

??????? 測試集說明：測試集包含3000對語音音頻組合，pair_id.txt預(yù)置在了復(fù)賽使用的數(shù)據(jù)集中。示例如下：

pairs_id

0001_0002

0003_0004

0004_0005

* 每一行表示一對音頻組合。'0001_0002'表示測試集目錄test_set下的音頻0001.wav和0002.wav; '0003_0004'表示測試集目錄下的音頻0003.wav和0004.wav，以此類推。

評審標(biāo)準(zhǔn)

自動評審：

提供每天5次的評測與排名機(jī)會，實時更新排行榜，按照評測分?jǐn)?shù)從高到低排序。若隊伍一天內(nèi)多次提交結(jié)果，新結(jié)果版本將覆蓋原版本。

評測指標(biāo)說明：

初賽

? 評審使用EER值來判斷分類模型的好壞。

復(fù)賽評審

? 評測指標(biāo)EER

? 評審采用Public/Private榜，答案文件中，40%的數(shù)據(jù)被用于Public榜的評測，其余60%的數(shù)據(jù)被用于Private榜評測

*比賽結(jié)束后Private成績將被自動公開，最終比賽成績由private榜確定。

每階段比賽結(jié)束后，我們會檢查選手提交的結(jié)果是否

? 無作弊

? 提交了K-Lab notebook

? 在K-Lab中可以成功復(fù)現(xiàn)

在上述條件均滿足的隊伍中，初賽排行榜前30，和復(fù)賽排行榜分?jǐn)?shù)排名前10名的隊伍將晉級到下一階段。若參賽隊伍在上述條件中有一條未滿足，則沒有晉級資格。

* 進(jìn)行復(fù)賽進(jìn)決賽評審時，進(jìn)入復(fù)賽的全部30支隊伍需提交notebook

決賽評審

? 復(fù)賽成績權(quán)重：60%

? 決賽答辯成績：40%

? 決賽答辯評分規(guī)則：

維度	說明	權(quán)重
創(chuàng)新性	方案的技術(shù)創(chuàng)新程度，包括技術(shù)的新穎性、獨創(chuàng)性和先進(jìn)性，符合本領(lǐng)域的技術(shù)發(fā)展趨勢， ?非簡單復(fù)用現(xiàn)有成熟方案	35%
完整性	技術(shù)關(guān)鍵路徑的完整性，包括技術(shù)方案的調(diào)研?比較、測試評估的科學(xué)性、模型訓(xùn)練調(diào)優(yōu)的體系化，以及上述這些措施在最終結(jié)果中的體現(xiàn)	35%
可行性	技術(shù)方案在實際應(yīng)?用中的可?行行性，包括對計算資源、對數(shù)據(jù)量量的要求，調(diào)?用延遲?小	30%

備注：?如果選手的決賽成績相同，復(fù)賽排行榜名次高者獲勝。

決賽獲獎名單

一等獎：河姆渡小分隊

二等獎：咖喱棒， SeuTao

三等獎：HelloKittty， C-baseline， cehn

總結(jié)

以上是生活随笔為你收集整理的同盾科技声纹识别建模大赛的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：战舰少女r服务器维修,战舰少女r修理时间
下一篇：该网页无法正常运作解决方法