日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

kaldi语音识别实战pdf_语音识别相关工具和资料分享

發(fā)布時間:2025/3/20 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 kaldi语音识别实战pdf_语音识别相关工具和资料分享 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者:帥帥家的人工智障

原創(chuàng)文章,轉(zhuǎn)載請申請原作者同意

常見的語音相關(guān)工具很多,這里介紹幾種常見的工具。主要有Kaldi、PyTorch-Kaldi、SpeechBrain、pykaldi、ESPnet、其他語音識別工具。常用的Kaldi,也有端到端的工具ESPnet等。

Kaldi

Kaldi是 danpovey大神使用C++編寫的開源語音識別工具集。目前占據(jù)整個語音識別工具的半邊天。目前danpovey已經(jīng)加入國內(nèi)公司小米。

1 . 資源:

文檔:http://kaldi-asr.org/doc/build_setup.html

論文:http://publications.idiap.ch/downloads/papers/2012/Povey_ASRU2011_2011.pdf

kaldi作者Dan Povey's博客:http://www.danielpovey.com/kaldi-lectures.html

gitbook上面中文教程Chinese Doc of Kaldi:https://shiweipku.gitbooks.io/chinese-doc-of-kaldi/content/about.html 版本比較老。

2 . 截止到2019年11月底github活躍情況:

kaldi語音識別大神povery的課程資料,帥帥家的人工智障公眾號直接回復:201912151

PyTorch-Kaldi

Pytorch-Kaldi是一個開源的state-of-the-art DNN/RNN用于語音識別的項目。DNN部分依賴于Pytorch,數(shù)據(jù)預(yù)處理、特征提取、解碼等依賴于Kaldi。

1 . 資源:

github:https://github.com/mravanelli/pytorch-kaldi

論文:https://arxiv.org/abs/1811.07453

vedio:https://www.youtube.com/watch?v=VDQaf0SS4K0&t=2s

Next Version: SpeechBrain

2 . 截止到2019年11月底github活躍情況:

嗶哩嗶哩視頻鏈接:https://www.bilibili.com/video/av63902650?from=search&seid=16607800262273505881

SpeechBrain

SpeechBrain項目旨在完全基于PyTorch構(gòu)建新穎的語音工具包。借助SpeechBrain,用戶可以輕松創(chuàng)建語音處理系統(tǒng),范圍包括語音識別(HMM / DNN和端到端的系統(tǒng)),說話人識別,語音增強,語音分離,多麥克風語音處理等。

目前只有預(yù)告還沒有正式發(fā)布

1 . 資源:

主頁:https://speechbrain.github.io/

github:https://github.com/speechbrain/speechbrain.github.io

vedio:https://www.youtube.com/watch?v=XETiKbN9ojE&feature=youtu.be

2 . 截止到2019年11月底github活躍情況:

嗶哩嗶哩視頻鏈接:https://www.bilibili.com/video/av71146616?from=search&seid=15739786385174746986

pykaldi

PyKaldi是Kaldi語音識別工具包的Python腳本層。為Kaldi和OpenFst庫中的C ++代碼提供了易于使用,開銷低,一流的Python包裝器。可以使用PyKaldi編寫Python代碼來完成其他需要編寫C ++代碼的事情,例如調(diào)用低級Kaldi函數(shù),在代碼中操作Kaldi和OpenFst對象或?qū)崿F(xiàn)新的Kaldi工具。

1 . 資源:

文檔:https://pykaldi.github.io/

github:https://github.com/pykaldi/pykaldi

論文:https://github.com/pykaldi/pykaldi/blob/master/docs/pykaldi.pdf

2 . 截止到2019年11月底github活躍情況:

ESPnet

ESPnet是一個端到端的語音工具,專注于端到端的語音識別和端到端的文本轉(zhuǎn)語音。使用chainer和pytorch作為主要的深度學習引擎(框架)。遵循kaldi風格的數(shù)據(jù)處理、特征提取和格式化等。提供了一個完整的pipline。

1 . 資源:

文檔:https://espnet.github.io/espnet/

github:https://github.com/espnet/espnet

論文:https://arxiv.org/abs/1804.00015?context=cs

2 . 截止到2019年11月底github活躍情況:

圖像那邊也有一個ESPnet,比如這個語義分割的演示視頻:https://www.bilibili.com/video/av48838117?from=search&seid=3905488616269165989

其他語音工具

1 . 其他著名語音識別引擎及其特點:

2 . 移動或者手機端:

3 . 還有一些wiki的可以參考的:

wiki: https://en.wikipedia.org/wiki/List_of_speech_recognition_software

我之前上傳b站的一些國外的語音相關(guān)的視頻

  • 【 語音自然語言深度學習課程 】Deep Learning for Speech and Language(合輯)(英文字幕部分)

https://www.bilibili.com/video/av38854819/

  • 【 語音 Speaker Recognition 】A Novel Method for Speaker Recognition without Active Enrollment(英文字幕)

https://www.bilibili.com/video/av36308563/

  • 【 語音Speaker Verification 】Generalized End-to-End Loss for Speak(英文字幕)

https://www.bilibili.com/video/av36308874/

  • 【語音 Speaker Verification】Deep Neural Network Embeddings for Text-Independe(英文字幕)

https://www.bilibili.com/video/av36308701/

  • 【 兩分鐘論文 】This AI Learned To Isolate Speech Signals(英文字幕)

https://www.bilibili.com/video/av35977892/

相關(guān)推薦閱讀

? 免費中文語音數(shù)據(jù)集

歡迎關(guān)注我的公眾號“帥帥家的人工智障”,或者同名 微博,一起學習提升。

總結(jié)

以上是生活随笔為你收集整理的kaldi语音识别实战pdf_语音识别相关工具和资料分享的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。