【转】语音、音频的思考
14年的文章了,覺得算是業內人士的話,沒那么水,摘自:http://www.cnblogs.com/welen/p/3790953.html
語音和圖像、視頻一樣,是人與人之間溝通的交流方式。
語音信號處理是一門綜合性的學科,它與語音學、心理學、數字信號處理、計算機科學、模式識別等有著密切聯系。
語音技術一般可以分為三大類:
?
1.人與人之間的通信:語音增強、語音編碼、語音通信、VOIP等
簡單的說,以網絡為載體,實現人與人之間的語音通信,涉及到語音前端去噪,增強,語音壓縮編碼等。
? ? ?語音增強、語音去噪等, 主要解決的是前端問題,單純的語音、音頻處理技術主要應用在嵌入式方向。
? ? ?現在都有開源,像Webrtc、Speex之類。
? ? ?VOIP、語音通信主要對網絡協議等需求更多一些,VOIP和傳統移動語音通信相比,主要體現在價格上的優勢,通話質量上和傳統相比還是有一定差距。 現在移動運營商的收益也在逐漸減低,當價格上有所調整時,VOIP估計也很難生存了。
這一類崗位主要集中在芯片類、通信類、語音類、嵌入式、少數互聯網公司:高通、聯發科、展訊、科大訊飛、華為、思科、愛立信、哈曼、創新科技、微軟Skype、騰訊等。
? ? ?語音、音頻編碼,做標準的很少,單純做算法的也很少。主要需求集中圍繞著具體的芯片在代碼和性能做底層匯編優化,一般很少能涉及到算法層面的優化。
? ? ?開源的像ffmpeg?等,未來安卓平臺也會像蘋果一樣,都支持硬解,所以這方面就業情況更窄。
? ? ?
2.語音合成:
簡單的說,機器說話給人聽,代替人把相關的信息繪聲繪色的念出來。
主要流程:
? ? 語音庫 ?訓練好模型
? ? 文本分析,上下文語義分析,韻律分析,輸出語音參數
? ? 語音合成器輸出
技術相對較為成熟,每一塊模塊都非常重要,都需要深入研究,才能合成出高質量的語音,所以需要整個團隊成員配合。
功能:由文本產生語音,解放了用戶的雙眼。
應用:語音合成引擎,它的優化在于大規模,任意文本組合發音,目前市場上有懶人說書、聽書之類的APP。
如果是小量的語音需求,完全用錄音就可以,成本低。
?
3.語音識別和理解:
簡單的說,人說話,機器能夠聽懂,能夠按照人說的內容和指示,代替人完成相關的操作。相關的還有說話人識別、情感識別、語種識別、語音測評、語義理解等。
?
行業現狀:
傳統的語音公司:Nuance、科大訊飛、捷通華聲等。
傳統的軟件類公司:微軟、IBM等。
互聯網公司:云知聲、百度等。
?
一方面語音識別是最難的語音技術,搭建好識別平臺相對容易,有很多開源的項目,但是本質進一步提高識別率并不簡單。
它包含了許多個模塊技術,門檻很高,數學功底深厚,這一類的人才更加稀少。
首先,必須要準備好大量的語音庫,做好訓練和識別。
其次,就算你只深入到語音識別的某一項技術,首先必須搭建一整套識別流程來檢測實驗的效果。
再者,基本上各個模塊都能影響到識別率,特別是噪聲,所以也必須要熟悉這些模塊。
最后,還有更難的技術還在等著你,中文分詞、語言模型的訓練和建立、以及后期的自然語言處理、語義識別、云端服務等。
?
另一方面,目前語音識別盈利模式還不是很明朗,所以也決定了投入這一塊的人力也很稀缺。?
早期做這一塊的微軟和IBM基本上也不靠這個盈利,Nuance的贏利點主要在車載、醫療轉錄等,最后也是與蘋果合作,做了款SIRI,火了一把。
國內的科大訊飛,在識別方向盈利也很低。
http://www.huxiu.com/article/9885/1.html
該公司的營收主要依靠傳統業務如普通話測評、英語測評、呼叫中心、嵌入式語音導航和毛利率很低的信息工程業務。
所以“科大訊飛”、云知聲開放了自己的云平臺,提供免費API,給產品應用公司提高效率,降低成本,侵占更大的市場,將語音技術融入到互聯網當中,勢必會有一些小語音公司或者團隊將會解散。
?
盡管如此,語音識別仍然是解決用戶與機器交互體驗性最好的方式,未來前景一片光明。
?
語音公司向來不依賴于員工規模,關鍵的是幾個技術大牛,所以語音公司或者部門人數比較少,令缺勿濫。
未來只有少數比較牛的團隊才能生存下來,其它的都會被Kill掉。
?
?
一方面,互聯網語音技術,用戶肯定免費,所以未來語音公司可能向第三方公司收取費用,也就是說,語音公司是給大多數公司提供解決方案,第三方公司給報酬。因此大公司BAT都有組建自己的語音團隊,不依賴第三方,效果據稱不錯。
?
另一方面,語音技術公司未來可能會轉型,不單單給第三方公司提供語音技術支撐,將技術轉化成產品,語音公司也將會開發直接面向用戶的產品,將盈利方式多樣化,所以未來應用開發的產品人員需求可能增多。
?
4.音樂技術:
聽音識曲,放個音樂片段,能檢索出歌曲的名稱。
哼唱識曲:哼唱音樂片段,能檢索出歌曲的名稱。
這個需求主要存在于互聯網音樂類軟件中,目前QQ、百度都有自己的模塊,其它主要依賴于音樂雷達。
?
從對語音、音頻技術來看整個技術行業:
技術里面,掌舵好方向,提供解決方案的人才是最重要的。
技術一般依賴于團隊,一個人很難撐起。
技術能細化成很多單元,每個人精力有限,只是其中的一顆螺絲釘,只能深入一部分,了解整個全局。
不能夠單純搞技術,技術的追求永遠是無止境的。
技術更新是非常快的,特別是在開源的大趨勢下,所以在年輕的時候必須淘到錢。
做技術要像醫生一樣,做些有積累性的技術,應用面、公司比較需求比較寬的技術,這樣才會值錢。太窄的技術只會把人作死,除非是在大公司還可以換崗。
技術必須轉化成產品,必須有盈利才會持久。
做技術的同時,結交各種各樣的人才,多多開闊眼界,說不定,有一天,你需要他們,或者他們需要你。
再感興趣的事情,干多了也會覺得沒啥意思,最后都是往錢看,特別是年齡越大的時候。
盡量接觸一些,面向用戶的技術,能將自己的技術沉淀到產品中,開發出一個自己的產品。
?
總而言之,技術是為了解決問題而存在,問題是因為用戶需求在,解決需求是因為有錢在推動。
?
轉載于:https://www.cnblogs.com/xingshansi/p/6779925.html
總結
以上是生活随笔為你收集整理的【转】语音、音频的思考的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 程序员版本管理知识 Git 详细整理
- 下一篇: 二叉查找树(二叉排序树)创建,插入,删除