日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【转】语音、音频的思考

發布時間:2025/5/22 编程问答 58 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【转】语音、音频的思考 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

14年的文章了,覺得算是業內人士的話,沒那么水,摘自:http://www.cnblogs.com/welen/p/3790953.html


語音和圖像、視頻一樣,是人與人之間溝通的交流方式。

語音信號處理是一門綜合性的學科,它與語音學、心理學、數字信號處理、計算機科學、模式識別等有著密切聯系。

語音技術一般可以分為三大類:

?

1.人與人之間的通信:語音增強、語音編碼、語音通信、VOIP等  

簡單的說,以網絡為載體,實現人與人之間的語音通信,涉及到語音前端去噪,增強,語音壓縮編碼等。

? ? ?語音增強、語音去噪等, 主要解決的是前端問題,單純的語音、音頻處理技術主要應用在嵌入式方向。

? ? ?現在都有開源,像Webrtc、Speex之類。

? ? ?VOIP、語音通信主要對網絡協議等需求更多一些,VOIP和傳統移動語音通信相比,主要體現在價格上的優勢,通話質量上和傳統相比還是有一定差距。 現在移動運營商的收益也在逐漸減低,當價格上有所調整時,VOIP估計也很難生存了。

這一類崗位主要集中在芯片類、通信類、語音類、嵌入式、少數互聯網公司:高通、聯發科、展訊、科大訊飛、華為、思科、愛立信、哈曼、創新科技、微軟Skype、騰訊等。

? ? ?語音、音頻編碼,做標準的很少,單純做算法的也很少。主要需求集中圍繞著具體的芯片在代碼和性能做底層匯編優化,一般很少能涉及到算法層面的優化。

? ? ?開源的像ffmpeg?等,未來安卓平臺也會像蘋果一樣,都支持硬解,所以這方面就業情況更窄。

? ? ?

2.語音合成:

簡單的說,機器說話給人聽,代替人把相關的信息繪聲繪色的念出來。

主要流程:

? ? 語音庫 ?訓練好模型

? ? 文本分析,上下文語義分析,韻律分析,輸出語音參數

? ? 語音合成器輸出

技術相對較為成熟,每一塊模塊都非常重要,都需要深入研究,才能合成出高質量的語音,所以需要整個團隊成員配合。

功能:由文本產生語音,解放了用戶的雙眼。

應用:語音合成引擎,它的優化在于大規模,任意文本組合發音,目前市場上有懶人說書、聽書之類的APP。

如果是小量的語音需求,完全用錄音就可以,成本低。

?

3.語音識別和理解:

簡單的說,人說話,機器能夠聽懂,能夠按照人說的內容和指示,代替人完成相關的操作。相關的還有說話人識別、情感識別、語種識別、語音測評、語義理解等。

?

行業現狀:

傳統的語音公司:Nuance、科大訊飛、捷通華聲等。

傳統的軟件類公司:微軟、IBM等。

互聯網公司:云知聲、百度等。

?

一方面語音識別是最難的語音技術,搭建好識別平臺相對容易,有很多開源的項目,但是本質進一步提高識別率并不簡單。

它包含了許多個模塊技術,門檻很高,數學功底深厚,這一類的人才更加稀少。

首先,必須要準備好大量的語音庫,做好訓練和識別。

其次,就算你只深入到語音識別的某一項技術,首先必須搭建一整套識別流程來檢測實驗的效果。

再者,基本上各個模塊都能影響到識別率,特別是噪聲,所以也必須要熟悉這些模塊。

最后,還有更難的技術還在等著你,中文分詞、語言模型的訓練和建立、以及后期的自然語言處理、語義識別、云端服務等。

?

另一方面,目前語音識別盈利模式還不是很明朗,所以也決定了投入這一塊的人力也很稀缺。?

早期做這一塊的微軟和IBM基本上也不靠這個盈利,Nuance的贏利點主要在車載、醫療轉錄等,最后也是與蘋果合作,做了款SIRI,火了一把。

國內的科大訊飛,在識別方向盈利也很低。

http://www.huxiu.com/article/9885/1.html

該公司的營收主要依靠傳統業務如普通話測評、英語測評、呼叫中心、嵌入式語音導航和毛利率很低的信息工程業務。

所以“科大訊飛”、云知聲開放了自己的云平臺,提供免費API,給產品應用公司提高效率,降低成本,侵占更大的市場,將語音技術融入到互聯網當中,勢必會有一些小語音公司或者團隊將會解散。

?

盡管如此,語音識別仍然是解決用戶與機器交互體驗性最好的方式,未來前景一片光明。

?

語音公司向來不依賴于員工規模,關鍵的是幾個技術大牛,所以語音公司或者部門人數比較少,令缺勿濫。

未來只有少數比較牛的團隊才能生存下來,其它的都會被Kill掉。

?

?

一方面,互聯網語音技術,用戶肯定免費,所以未來語音公司可能向第三方公司收取費用,也就是說,語音公司是給大多數公司提供解決方案,第三方公司給報酬。因此大公司BAT都有組建自己的語音團隊,不依賴第三方,效果據稱不錯。

?

另一方面,語音技術公司未來可能會轉型,不單單給第三方公司提供語音技術支撐,將技術轉化成產品,語音公司也將會開發直接面向用戶的產品,將盈利方式多樣化,所以未來應用開發的產品人員需求可能增多。

?

4.音樂技術:

聽音識曲,放個音樂片段,能檢索出歌曲的名稱。

哼唱識曲:哼唱音樂片段,能檢索出歌曲的名稱。

這個需求主要存在于互聯網音樂類軟件中,目前QQ、百度都有自己的模塊,其它主要依賴于音樂雷達。

?

從對語音、音頻技術來看整個技術行業:

技術里面,掌舵好方向,提供解決方案的人才是最重要的。

技術一般依賴于團隊,一個人很難撐起。

技術能細化成很多單元,每個人精力有限,只是其中的一顆螺絲釘,只能深入一部分,了解整個全局。

不能夠單純搞技術,技術的追求永遠是無止境的。

技術更新是非常快的,特別是在開源的大趨勢下,所以在年輕的時候必須淘到錢。

做技術要像醫生一樣,做些有積累性的技術,應用面、公司比較需求比較寬的技術,這樣才會值錢。太窄的技術只會把人作死,除非是在大公司還可以換崗。

技術必須轉化成產品,必須有盈利才會持久。

做技術的同時,結交各種各樣的人才,多多開闊眼界,說不定,有一天,你需要他們,或者他們需要你。

再感興趣的事情,干多了也會覺得沒啥意思,最后都是往錢看,特別是年齡越大的時候。

盡量接觸一些,面向用戶的技術,能將自己的技術沉淀到產品中,開發出一個自己的產品。

?

總而言之,技術是為了解決問題而存在,問題是因為用戶需求在,解決需求是因為有錢在推動。

?

轉載于:https://www.cnblogs.com/xingshansi/p/6779925.html

總結

以上是生活随笔為你收集整理的【转】语音、音频的思考的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。