日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

由海天瑞声支持,全球最大多领域英语开源数据集发布

發布時間:2024/3/13 编程问答 59 豆豆
生活随笔 收集整理的這篇文章主要介紹了 由海天瑞声支持,全球最大多领域英语开源数据集发布 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

日前,由陳果果、都家宇、張衛強等發起的語音社區志愿者組織SpeechColab和清華語音與音頻技術實驗室,聯合語音社區的8個團隊,在語音界大神Daniel Povey, Sanjeev Khudanpur, Shinji Watanabe等的大力支持下(詳見下圖),發布了全球最大的多領域英語開源數據集—GigaSpeech,介紹該數據集的論文已被國際語音頂會InterSpeech2021接收。


參與人員及團隊,完整論文下載見下文

海天瑞聲很榮幸參與了本次開源數據集的工作,為部分數據集提供了標注以及全部數據集的鏡像下載支持,也為全球語音識別技術的探索貢獻了自己的力量。

語音識別的性能,很大程度上取決于訓練數據集的規模和覆蓋性?,F有的語音開源數據集適用領域狹窄,缺少難度挑戰,準確率接近飽和。學術界和工業界研究開始分道揚鑣,碎片化嚴重。作為目前全球最大的多領域英語開源數據集,GigaSpeech致力于推動學術界和產業界的共同進步。

以下文章來源于THUsatlab ,作者THUsatlab

01
概述

GigaSpeech是一個不斷發展的、多領域英語語音識別語料庫。它擁有10000小時的高質量標注音頻,適用于有監督訓練任務;以及33000小時的總音頻,適用于半監督和無監督訓練任務。

02
數據來源及質量控制

從發音風格和覆蓋主題入手,GigaSpeech從有聲讀物、播客和YouTube上收集了約33000小時的轉錄音頻,以及對應的人工轉錄文本、人工字幕等,涵蓋誦讀和自發口語等一系列不同風格,以及藝術、科學、體育等多種主題。


在質量控制上,GigaSpeech提供一種新的強制對齊和分段處理pipeline工具,以創建適合ASR訓練的句子段,并濾除低質量轉錄片段。對于有監督訓練任務,GigaSpeech提供了5個不同規模的子集。在過濾驗證環節,最大訓練子集的詞錯誤率控制在4%以下;其它較小規模的子集的詞錯誤率控制在0%。

03
適用于有監督訓練任務的數據子集詳情

GigaSpeech提供了10小時、250小時、1000小時、2500小時和10000小時等5個不同規模的子集,以適用于有監督訓練任務。詳情如下表所示:

04
開發集和測試集

05
排行榜

為方便使用,GIgaSpeech為主流的ASR框架提供了baseline的訓練腳本,并開放leaderboard排行榜,目前提供的系統包括Athena、Espnet、Kaldi、Pika、WeNet,后續還將繼續更新與完善。


06
使用申請入口

GigaSpeech數據集已開放,歡迎大家使用。

申請入口:
https://forms.gle/UuGQAPyscGRrUMLq6

更多細節,請訪問github鏈接:
https://github.com/SpeechColab/GigaSpeech

預印版論文地址(已被InterSpeech 2021接收):
https://arxiv.org/abs/2106.06909

總結

以上是生活随笔為你收集整理的由海天瑞声支持,全球最大多领域英语开源数据集发布的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。