當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

汉字转拼音，文字转语音tts (语音技术、语音识别)，Asr/tts，变声

發布時間：2023/12/15 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了汉字转拼音，文字转语音tts (语音技术、语音识别)，Asr/tts，变声小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? 語音識別，語音合成。語音技術主要分兩塊：一塊是語音轉文字，即語音識別；另一塊是文字轉語音，即語音合成。
? 語音相關技術研發語音合成技術整體解決方案。一系列語音技術的相關專利，包括文本處理、韻律預測、聲學模型、拼接系統、模型自適應、神經網絡、情感合成等多個方面。
? 應用場景：在線語音合成、離線語音合成系統場景- 讀故事，小說頻道，讀新聞(新聞中的語音播報)。聲學行業.。
智能音箱大戰全面開火- http://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/78574066

? Librispeech是當前衡量語音識別技術的最權威主流的開源數據集。錯詞率（Worderrorrate，WER）是衡量語音識別技術水平的核心指標。近日，云從科技在Librispeech數據集上將錯詞率（Worderrorrate，WER）降到了2.97%，較之前提升了25%。超過阿里、百度、約翰霍普金斯大學等企業及高校，大幅刷新原先記錄。

? tts識別，合成，播放。
-- 支付寶的語音收款方案為：文字已經錄好在文件中

Android支付寶商家收款語音播報（無SDK）- https://www.jianshu.com/p/62e6382c610b

支付寶商家語音播報- https://github.com/YzyCoding/PushVoiceBroadcast

--?變聲：蘿莉/大叔/賣萌/搞笑等

Android QQ變聲特效例子- https://github.com/huanglinqing123/ChangeVoice/tree/master?
?在QQ中我們使用到的一個功能就是變聲，QQ是使用FMOD實現的，那么同樣的我們也使用FMOD讓自己的應用可以變音。
?fmod Ex 聲音系統是為游戲開發者準備的革命性音頻引擎，鏈接：https://pan.baidu.com/s/1TW3ctQd0o5bOVCx5gKL0hA 密碼：x2o4 。 fmod聲音系統是為游戲開發者準備的革命性音頻引擎，如今采用了fmod作為音頻引擎的游戲包括Far Cry（孤島驚魂）、Tom Clancy's Ghost Recon（幽靈行動），甚至著名的World Of Warcraft（魔獸爭霸）。
仿QQ語音變聲功能實現- https://github.com/CN-ZPH/MySound https://github.com/fsrmeng/VoiceChange https://github.com/Android-LiuHuan/MyVoice

> 語音識別（ASR）與語音合成服務（TTS）
? 語音識別(ASR)、語音合成(TTS)、語義理解(NLP)等技術。
語音識別ASR技術通識- https://blog.csdn.net/ZLJ925/article/details/79045034
MRCP協議-提供語音識別（ASR）與語音合成服務（TTS）-https://blog.51cto.com/chenwen/1434915

? 語音識別技術（ASR）——將人說話的語音信號轉換為可被計算機識別的文字信息，從而識別說話人的語音指令以及文字內容的技術。
? 語音合成技術（TTS）——將文字信息轉變為語音數據，以語音的方式播放出來的技術。
? TTS，英文全稱是TextToSpeech，即文語轉換，又稱為計算機語音合成，它的過程和ASR剛好相反，是把計算機中任意出現的文字轉換成自然流暢的語音輸出。一般認為，語音合成系統包括三個主要的組成部分：文本分析模塊、韻律生成模塊和聲學模塊。目前，TTS的技術已經可以達到商業化的地步。

-- MRCP
? ?媒體資源控制協議(Media Resource Control Protocol，MRCP)是由Cisco、Nuance等公司聯合開發的網絡協議，該協議由IETF作為Internet草案發布(draft-shanmugham-mrcp-07)。該協議為那些需要進行語音處理的客戶端提供了一種通過網絡來控制媒體處理資源(如ASR、TTS引擎等)的機制。該協議在設計之初就考慮了可以在將來得到擴展以支持聲紋鑒別和身份識別(Speaker Identification/Speaker Verification)等功能。?
? 媒體資源控制協議（Media Resource Control Protocol, MRCP）是一種通訊協議，用于語音服務器向客戶端提供各種語音服務(如語音識別和語音合成)。
? MRCP并不定義會話連接，不關心服務器與客戶端是如何連接的，MRCP的消息通常是承載于其它協議之上，如RTSP，SIP等。
　MRCP消息使用類似于HTTP等許多Internet協議一樣的文本格式，每個消息包括三部分：首行，消息頭，消息體。首行表明消息類型及返回碼等信息。消息頭包括了若干行內容，每一行都形如 "字段名:數值"。消息體包括了消息的詳細內容，長度在消息頭中指定。
?隨著MRCP協議的不斷推廣與應用，各語音技術廠商在實踐與部署過程中碰到了各種各樣的問題。為此，IESG(The Internet Engineering Steering Group)于2002年特許成立了Speechsc工作組，專門負責起草更加完善高效的支持分布式語音資源處理的開放協議。在Speechsc工作組的努力下，改進后的MRCPv2(draft-ietf-speechsc-mrcpv2-09)很快應運而生了。MRCPv2的消息格式和資源狀態機等都建立在MRCP協議版本1的基礎之上，它完全兼容W3C的SSML、SRGS、NLSML標準。與MRCPv1不同的是MRCPv2消息不再依賴RTSP作為載體，而是作為獨立的消息進行傳輸，但是它仍依賴于會話管理協議，如SIP(Session Initiation Protocol)協議，來在客戶端與服務器端之間建立控制會話。?
?MRCP設計的特定目標很明確，就是為那些采用不同廠商的ASR和TTS產品來構建IVR或消息類應用的開發商提供便利。

-- 主流語音技術
目前國外幾乎所有的主流語音技術供應商都已經宣布推出基于MRCPv1的產品：
?● 語音資源供應商：Acapela、BBN、IBM、Loquendo、Nuance(ScanSoft)、Rhetorical、Telisma等；
?● 板卡技術供應商：Intel、NMS、Aculab等；
?● 語音技術應用集成商：Cisco、Nortel、Lucent、HP、Edify、Genesys、Intervoice、SER、Unisys、Convedia等。?
? 市場上有很多比較成熟的語音ASR和TTS產品，而且他們大多數都支持二次開發，如微軟的Speech Application SDK（SASDK）、IBM的Dutty++等。他們能識別（生成）英語、日語和中文等不同國家的語言，Dutty++甚至能夠識別某些地區的方言，如廣東的方言－粵語。
? 科大訊飛、百度語音、捷通華聲、云知聲等。阿里云語音識別。
? 微軟SAPI將ASR和TTS功能集成在同一個語音引擎中，TTS可以將文本和文件合成為語音，ASR則是將人的聲音信號轉換為可讀的文本或文件。

? 語音識別（Automatic Speech Recognition），一般簡稱ASR；是將聲音轉化為文字的過程，相當于人類的耳朵。
? 語音識別原理流程：“輸入——編碼——解碼——輸出”
? 語音識別，大體可分為“傳統”識別方式與“端到端”識別方式，其主要差異就體現在聲學模型上。“傳統”方式的聲學模型一般采用隱馬爾可夫模型（HMM），而“端到端”方式一般采用深度神經網絡（DNN）。
? 遠場語音識別，簡稱遠場識別，口語中可更簡化為“遠場”。下面主要說3個概念：語音激活檢測、語音喚醒、以及麥克風陣列。

?iphone 6s 語音激活的低功耗芯片.按麥克風個數分：單麥、雙麥、多麥 .
?車內語音識別的難點很多，除了多人說話的干擾，還有胎噪、風噪，以及經常處于離線情況。?

? 語音識別系統的性能大致取決于以下4類因素：1. 識別詞匯表的大小和語音的復雜性；2. 語音信號的質量；3. 單個說話人還是多說話人；4. 硬件。

? 媒體采集設備主要用來采集各種語音信號，如對普通的電信網，就是PCM a律信號的采集；而對VOIP應用，采集的信號可能有很多種，包括G.711/G.723/G.729等各種語音格式。同時，該設備還需要具備一定的媒體轉換能力，能將各種媒體流轉換為ASR能夠識別的語音格式。
? 語音識別是一個多學科交叉的領域，它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等眾多學科緊密相連。
? TTS的技術實現方法，主要有2種：“拼接法”和“參數法”。

? 語音識別主要識別框架：基于模式匹配的動態時間規整法（DTW）和基于統計模型的隱馬爾可夫模型法（HMM）。

> 漢字轉拼音（ASCII碼映射等）
Android 漢字轉拼音的多種實現方式- http://blog.csdn.net/zhuwentao2150/article/details/70230341?ref=myread
利用Android源碼，輕松實現漢字轉拼音功能- http://blog.csdn.net/D_clock/article/details/69890954

HanziToPinyin（漢字轉拼音）- https://gist.github.com/D-clock/7a6e33f42c0177439a49d85b73f1e600

jpinyin- https://github.com/stuxuhai/jpinyin

?--?Android平臺上將漢字轉換成為拼音已經有一些開源的第三方實現方案，如pinyin4j和TinyPinyin
TinyPinyin：https://github.com/promeG/TinyPinyin
? ?建立一個大的對照表(比如用關聯容器Map)，同時一個漢字可能有多個發音，也就是說Map這樣的容器時不行的，因為其<key,value>必須是一一對應的。在C++中可以用STL里面的multimap來解決這個問題，但Java中沒有類似multimap這樣的東西，除非自己實現一個。pinyin4j（將漢字轉化為拼音）：https://sourceforge.net/projects/pinyin4j .
Pinyin4j（http://pinyin4j.sourceforge.net/）就是為了解決類似這樣的問題的。它是sourceforge.net上的一個開源項目，功能非常強大：
?1.支持同一漢字有多個發音
?2.還支持拼音的格式化輸出，比如第幾聲之類的，
?3.同時支持簡體中文、繁體中文轉換為拼音…使用起來也非常簡單。> TTS

--?漢語拼音開源：tinypinyin, pinyin4j
城市demo-- ?http://github.com/18722527635/CityDemo

> 語音識別引擎
Android中文語音合成（TTS）各家引擎對比- http://blog.csdn.net/yao_guet/article/details/7231489/
Android 文本轉語音TextToSpeech (TTS)- http://blog.csdn.net/zhoumushui/article/details/50496661
【Android語音合成TTS】國內主流引擎對比- http://blog.csdn.net/fengyuzhengfan/article/details/45052823
-- 五款免費開源的語音識別工具- https://blog.csdn.net/godloveyuxu/article/details/77416017
? 直到幾年之前，最先進的語音技術方案大多都是以語音為基礎的（phonetic-based），包括發音模型（Pronunciation models），聲學模型（Acoustic Modelling）和語言模型（Language Model）等。通常情況下，這些模型大多都是以隱馬爾可夫模型（HMM）和 N-gram 模型為核心的。
? 五款基于 HMM 和 N-gram 模型的語音識別工具：CMU Sphinx，Kaldi，HTK，Julius 和 ISIP。它們都是開源世界的頂級項目，與 Dragon 和 Cortana 等商業語音識別工具不同
? 基于 Julius 的語音識別樣例- https://github.com/julius-speech/dictation-kit?
? 18 個開源翻譯工具幫助你的項目本地化- https://blog.csdn.net/hj7jay/article/details/74171368

-- 常見的語音sdk主要有：科大訊飛、百度語音、捷通華聲、云知聲等手說TTS；訊飛的語音識別/百度語音識別
?Google Cloud API，百度，科大訊飛的都是初期免費，量大收費.
?JAVA SPEECH 和 SPHINX 等實現方式, 語音引擎(TTS引擎) IBM以前那個語音識別；
?到google上去搜索iris.TTS，就是語音轉文本，其中涉及的語音采樣（本地，方言，外語等等）識別技術，在國內有科大訊飛和捷通比較有名，在國外有一個叫luance公司比較有名。
> Android中文語音合成引擎的設計與實現，及在Android上應用

Google的TTS對中文不支持，支持英文。
android自帶的類，從文本中合成語音，用于立即播放或創建一個聲音文件.中文的話，需要手機系統有安裝中文引擎吧
https://developer.android.google.cn/reference/android/speech/tts/TextToSpeech.html
https://github.com/SolveBugs/Utils
TTS文字轉語音并朗讀- https://github.com/codestravel/CT_Android_demos/tree/master/CT_Text2SpeechDemo
android 文字轉語音 tts 實現支持中文 - http://download.csdn.net/download/kingda008/7570591
TTS_library_stub_3.0_market.jar- ?http://download.csdn.net/download/seamless_yang/6996789
Android TTS說中文- http://blog.csdn.net/true100/article/details/50864247
開源google框架提供了中文TTS功能-?http://code.google.com/p/eyes-free/

總結

以上是生活随笔為你收集整理的汉字转拼音，文字转语音tts (语音技术、语音识别)，Asr/tts，变声的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Javaweb城市公交查询系统的设计与实
下一篇：每日面试1题-如何防止CDN防护被绕过