當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【转】语音、音频的思考

發布時間：2025/5/22 编程问答 58 豆豆

生活随笔收集整理的這篇文章主要介紹了【转】语音、音频的思考小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

14年的文章了，覺得算是業內人士的話，沒那么水，摘自：http://www.cnblogs.com/welen/p/3790953.html

語音和圖像、視頻一樣，是人與人之間溝通的交流方式。

語音信號處理是一門綜合性的學科，它與語音學、心理學、數字信號處理、計算機科學、模式識別等有著密切聯系。

語音技術一般可以分為三大類：

1.人與人之間的通信：語音增強、語音編碼、語音通信、VOIP等　　

簡單的說，以網絡為載體，實現人與人之間的語音通信，涉及到語音前端去噪，增強，語音壓縮編碼等。

? ? ?語音增強、語音去噪等，主要解決的是前端問題，單純的語音、音頻處理技術主要應用在嵌入式方向。

? ? ?現在都有開源，像Webrtc、Speex之類。

? ? ?VOIP、語音通信主要對網絡協議等需求更多一些，VOIP和傳統移動語音通信相比，主要體現在價格上的優勢，通話質量上和傳統相比還是有一定差距。現在移動運營商的收益也在逐漸減低，當價格上有所調整時，VOIP估計也很難生存了。

這一類崗位主要集中在芯片類、通信類、語音類、嵌入式、少數互聯網公司：高通、聯發科、展訊、科大訊飛、華為、思科、愛立信、哈曼、創新科技、微軟Skype、騰訊等。

? ? ?語音、音頻編碼，做標準的很少，單純做算法的也很少。主要需求集中圍繞著具體的芯片在代碼和性能做底層匯編優化，一般很少能涉及到算法層面的優化。

? ? ?開源的像ffmpeg?等，未來安卓平臺也會像蘋果一樣，都支持硬解，所以這方面就業情況更窄。

? ? ?

2.語音合成：

簡單的說，機器說話給人聽，代替人把相關的信息繪聲繪色的念出來。

主要流程：

? ? 語音庫 ?訓練好模型

? ? 文本分析，上下文語義分析，韻律分析，輸出語音參數

? ? 語音合成器輸出

技術相對較為成熟，每一塊模塊都非常重要，都需要深入研究，才能合成出高質量的語音，所以需要整個團隊成員配合。

功能：由文本產生語音，解放了用戶的雙眼。

應用：語音合成引擎，它的優化在于大規模，任意文本組合發音，目前市場上有懶人說書、聽書之類的APP。

如果是小量的語音需求，完全用錄音就可以，成本低。

3.語音識別和理解：

簡單的說，人說話，機器能夠聽懂，能夠按照人說的內容和指示，代替人完成相關的操作。相關的還有說話人識別、情感識別、語種識別、語音測評、語義理解等。

行業現狀：

傳統的語音公司：Nuance、科大訊飛、捷通華聲等。

傳統的軟件類公司：微軟、IBM等。

互聯網公司：云知聲、百度等。

一方面語音識別是最難的語音技術，搭建好識別平臺相對容易，有很多開源的項目，但是本質進一步提高識別率并不簡單。

它包含了許多個模塊技術，門檻很高，數學功底深厚，這一類的人才更加稀少。

首先，必須要準備好大量的語音庫，做好訓練和識別。

其次，就算你只深入到語音識別的某一項技術，首先必須搭建一整套識別流程來檢測實驗的效果。

再者，基本上各個模塊都能影響到識別率，特別是噪聲，所以也必須要熟悉這些模塊。

最后，還有更難的技術還在等著你，中文分詞、語言模型的訓練和建立、以及后期的自然語言處理、語義識別、云端服務等。

另一方面，目前語音識別盈利模式還不是很明朗，所以也決定了投入這一塊的人力也很稀缺。?

早期做這一塊的微軟和IBM基本上也不靠這個盈利，Nuance的贏利點主要在車載、醫療轉錄等，最后也是與蘋果合作，做了款SIRI，火了一把。

國內的科大訊飛，在識別方向盈利也很低。

http://www.huxiu.com/article/9885/1.html

該公司的營收主要依靠傳統業務如普通話測評、英語測評、呼叫中心、嵌入式語音導航和毛利率很低的信息工程業務。

所以“科大訊飛”、云知聲開放了自己的云平臺，提供免費API，給產品應用公司提高效率，降低成本，侵占更大的市場，將語音技術融入到互聯網當中，勢必會有一些小語音公司或者團隊將會解散。

盡管如此，語音識別仍然是解決用戶與機器交互體驗性最好的方式，未來前景一片光明。

語音公司向來不依賴于員工規模，關鍵的是幾個技術大牛，所以語音公司或者部門人數比較少，令缺勿濫。

未來只有少數比較牛的團隊才能生存下來，其它的都會被Kill掉。

一方面，互聯網語音技術，用戶肯定免費，所以未來語音公司可能向第三方公司收取費用，也就是說，語音公司是給大多數公司提供解決方案，第三方公司給報酬。因此大公司BAT都有組建自己的語音團隊，不依賴第三方，效果據稱不錯。

另一方面，語音技術公司未來可能會轉型，不單單給第三方公司提供語音技術支撐，將技術轉化成產品，語音公司也將會開發直接面向用戶的產品，將盈利方式多樣化，所以未來應用開發的產品人員需求可能增多。

4.音樂技術：

聽音識曲，放個音樂片段，能檢索出歌曲的名稱。

哼唱識曲：哼唱音樂片段，能檢索出歌曲的名稱。

這個需求主要存在于互聯網音樂類軟件中，目前QQ、百度都有自己的模塊，其它主要依賴于音樂雷達。

從對語音、音頻技術來看整個技術行業：

技術里面，掌舵好方向，提供解決方案的人才是最重要的。

技術一般依賴于團隊，一個人很難撐起。

技術能細化成很多單元，每個人精力有限，只是其中的一顆螺絲釘，只能深入一部分，了解整個全局。

不能夠單純搞技術，技術的追求永遠是無止境的。

技術更新是非常快的，特別是在開源的大趨勢下，所以在年輕的時候必須淘到錢。

做技術要像醫生一樣，做些有積累性的技術，應用面、公司比較需求比較寬的技術，這樣才會值錢。太窄的技術只會把人作死，除非是在大公司還可以換崗。

技術必須轉化成產品，必須有盈利才會持久。

做技術的同時，結交各種各樣的人才，多多開闊眼界，說不定，有一天，你需要他們，或者他們需要你。

再感興趣的事情，干多了也會覺得沒啥意思，最后都是往錢看，特別是年齡越大的時候。

盡量接觸一些，面向用戶的技術，能將自己的技術沉淀到產品中，開發出一個自己的產品。

總而言之，技術是為了解決問題而存在，問題是因為用戶需求在，解決需求是因為有錢在推動。

轉載于:https://www.cnblogs.com/xingshansi/p/6779925.html

總結

以上是生活随笔為你收集整理的【转】语音、音频的思考的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：程序员版本管理知识 Git 详细整理
下一篇：二叉查找树（二叉排序树）创建，插入，删除