浅谈实时语音质量监控系统
今天小王學(xué)長跟大家談?wù)?strong>實時語音質(zhì)量監(jiān)控系統(tǒng)的前世今生, 實時語音想必大家都不陌生,微信語音聊天、視頻直播,生活中的例子比比皆是。
在過去的語音通信系統(tǒng)中,影響語音質(zhì)量的因素有很多,包括但不僅限于延時(delay)、丟包(packet loss)、包延遲變化(packet delay variation)、回聲(echo)、以及由于編碼造成的失真。
語音質(zhì)量評估方法總的來說可以分為三種:有參考客觀評價方法、主觀評價方法和無參考客觀評價方法。
有參考客觀評價方法:
是指把原始參考音視頻與失真音視頻在每一個對應(yīng)幀中的每一個對應(yīng)像素之間進(jìn)行比較。準(zhǔn)確的講,這種方法得到的并不是真正的視頻質(zhì)量,而是失真音視頻相對于原始音視頻的相似程度或保真程度。最簡單的方法如均方誤差 MSE 和峰值信噪比 PSNR,其應(yīng)用比較廣泛。
PESQ 語音質(zhì)量作為衡量語音傳輸性能的一個重要指標(biāo),如何得到準(zhǔn)確、可靠的 QoE(體驗質(zhì)量)評價系統(tǒng)已成為當(dāng)前研究的重點,PESQ(perceptual evaluation of speech quality,語音質(zhì)量評價算法)是由 ITU 提出的基于 QoE 的語音質(zhì)量評價算法,并隨之成了 ITU-T P.862 標(biāo)準(zhǔn)。 PESQ 算法是當(dāng)前比較流行的語音質(zhì)量評價算法,說到 P.862 標(biāo)準(zhǔn),P.861 PSQM 是最早的標(biāo)準(zhǔn),ITU-T P.861 也叫做 PSQM,是根據(jù) PAQM 推倒出來的一種語音質(zhì)量評估體系。目前,P.862 PESQ、PESQ-WB 是應(yīng)用最廣泛的有參考評價方法,最新的有參考評價方法有 P.863 POLQA,這些都是依賴無損參考信號的。
無參考客觀評價方法:
語音質(zhì)量客觀評價研究自七十年代以來得到了迅速發(fā)展,國內(nèi)外學(xué)者提出了數(shù)以千計的客觀評價方法。客觀評價主要依據(jù)的就是原始語音信號和失真語音信號的時頻域或變換域的特征參數(shù)對比。其主要是針對主觀評價方法的不足,人們早就希望有客觀評價方法來評價語音設(shè)備的音質(zhì),這之后許多人陸續(xù)提出了基于客觀測度的客觀音質(zhì)評價方法。希望采用這些方法方便、快捷地給出被測語音系統(tǒng)的語音質(zhì)量評價值,只不過評價的主體是由機(jī)器硬件或軟件來完成。目前國內(nèi)外采用較多的客觀評價方法有 PSQM、PAMS 和 PSQM+等方法。其中 P.563 是最著名的窄帶無參考評價方法。像 ANIQUE+這樣的據(jù)作者稱準(zhǔn)確度超過有參考的 PESQ,其它的還有像 E-Model/P.1201 參數(shù)域評價方法以及 xxNet 深度學(xué)習(xí)域評價方法。
客觀評價方法也有許多弊端:
- 有參考方法: 只能用在上線前
- 無參考方法-傳統(tǒng)信號域: 應(yīng)用場景窄、魯棒性差
- 無參考方法-傳統(tǒng)參數(shù)域: 僅在有限弱網(wǎng)條件下可以保持精度
- 無參考方法-深度學(xué)習(xí): 應(yīng)用場景和語料有限,復(fù)雜度略高
通常,我們可以從不同方向提出各種客觀語音質(zhì)量評估方法,但是客觀語音質(zhì)量評估必須最終通過其與主觀語音質(zhì)量評估的相關(guān)性來確定其性能和可靠性,我們通常通過主觀和客觀語音質(zhì)量評估的擬合過程做出上述判斷。擬合的過程是通過主觀和客觀語音質(zhì)量評估輸入不同條件下的語音主觀和客觀值,然后對主觀和客觀值進(jìn)行最小二乘擬合,其中水平軸上的目標(biāo)值為目標(biāo)值在垂直軸上。畫出語音的主客觀質(zhì)量評價曲線,得出主客觀語音質(zhì)量評價的比較關(guān)系。人們通常使用預(yù)測的均方誤差值來反映主觀和客觀語音質(zhì)量評估的相關(guān)程度。預(yù)測的均方誤差值越接近,主觀和客觀語音質(zhì)量評估之間的相關(guān)性越好,即,客觀語音質(zhì)量評估的性能越好。相反,它表明主觀和客觀言語質(zhì)量評估之間的相關(guān)性越差,即客觀言語質(zhì)量評估的性能越差。
發(fā)展到現(xiàn)在以線下測試的線上化為主,具有高精度、廣覆蓋、低復(fù)雜度、強(qiáng)魯棒等特點。
- 質(zhì)量評估足夠準(zhǔn)確
- 覆蓋絕大多數(shù)業(yè)務(wù)場景
- 不引入過多算法復(fù)雜度
- 和語音內(nèi)容弱相關(guān)
上行鏈路質(zhì)量評價方法: 采集-AEC-NS-AGC-診斷,具有獨(dú)立檢測+統(tǒng)一檢測
特點:設(shè)備采集穩(wěn)定性、回聲消除能力、噪聲抑制能力、音量調(diào)整能力
下行鏈路質(zhì)量評價方法: 采用編碼-傳輸-解碼-播放
舉一個某實驗室的例子,其驗證數(shù)據(jù)繪制全球音頻質(zhì)量地圖的核心指標(biāo)有:編解碼器性能、網(wǎng)絡(luò)質(zhì)量、弱網(wǎng)對抗算法質(zhì)量、設(shè)備播放能力。
其在多弱網(wǎng)、多設(shè)備、多模式的測試 case 下,該方法的打分與 POLQA 的參考打分 MAE 小于 0.1 分,MSE 小于 0.01 分,誤差最大值小于 0.15 分
下圖是某設(shè)備某模式的多弱網(wǎng)測試結(jié)果
某設(shè)備某模式的多弱?測試結(jié)果在這里簡單說下 NOMA 吧,NOMA(Non Othogonal Multiple Access),NOMA 的理論基礎(chǔ)叫做多用戶信息論。NOMA 即非正交多址接入技術(shù),是非常有希望的 5G 技術(shù)。其優(yōu)點是可以提高頻譜效率(rate/bandwigth)和接入量,這恰好符合了即將到來的 5G 時代的爆炸性的數(shù)據(jù)增長和接入需求。在上下路鏈路質(zhì)量評價方法中可以利用 NOMA 技術(shù)進(jìn)行一個簡單的比較。
上下行鏈路質(zhì)量評價方法比較
1. 用戶發(fā)送功率的分配不同。
在下行 NOMA 技術(shù)中,每個用戶的發(fā)送功率是受基站的總發(fā)送功率以及其他各個用戶的發(fā)送功率影響的,且對于信道質(zhì)量不同的用戶分配的發(fā)送功率不同(信道質(zhì)量差即信道增益低的用戶分配得高發(fā)送功率,反之則分配得低發(fā)送功率。
上行鏈路是每個用戶的發(fā)送功率只是受到其設(shè)備的最大的發(fā)送功率影響。且對于信道質(zhì)量有差異的用戶都讓其使用本身最大的發(fā)送功率(即每個用戶都以自己最大的發(fā)射功率來發(fā)),信道質(zhì)量差異很小的情況下則會采用在保證信道質(zhì)量差的性能的同時提高信道質(zhì)量好的分配方法,但是往往在這種情況下會對信道質(zhì)量差的用戶造成不好的影響。
2. SIC 解碼順序不同。
在下行鏈路中,每個接收端都收到了來自基站的疊加信號,且每個接收端都有自己的 SIC 接收機(jī),對于接收到的信號,通過連續(xù)的解碼,得到各自需要的信號。對于某一個接收端來說,疊加信號傳過來的時候經(jīng)歷的信道是一樣的,所以在算速率的時候大家乘的信道增益是一樣的,這個時候則先解調(diào)接收功率最大的。
而在上行鏈路中的解碼順序則恰恰相反,因為發(fā)射用戶可以理解成硬件的發(fā)射機(jī)性能沒有差別,它們信道增益有高低之分,但是他們都會以自己的發(fā)射機(jī)的最大功率發(fā)射,這樣距離基站近的用戶的信號到了基站那邊其接收功率更大(接收功率=發(fā)射功率 x 信道增益),這個時候則先解調(diào)接收功率最大的(也即信道增益最大的,因為此時發(fā)射功率一樣)。
解碼順序:會對信道質(zhì)量好的(即在接收端接收功率大的)進(jìn)行優(yōu)先解碼;所以,在 NOMA 系統(tǒng)中,不管上行還是下行,在接收端優(yōu)先解調(diào)的都是在接收端的接收功率最大的。
3、用戶所受干擾不同。
在下行鏈路中,由于信道質(zhì)量差的用戶分配有高的發(fā)送功率,所以信道質(zhì)量差的用戶更容易在簇內(nèi)對其他用戶產(chǎn)生干擾,即為信道質(zhì)量好的用戶更容易受到干擾;
在上行鏈路中,由于是用戶各自給基站發(fā)送信號從而產(chǎn)生疊加信號由基站接收,所以信道質(zhì)量較差的用戶比信道質(zhì)量較好的更容易受到干擾。
4、實現(xiàn)難易度不同。
上行鏈路相較于下行鏈路更容易實現(xiàn)。在 NOMA 技術(shù)中,要最終實現(xiàn)多用戶檢測和連續(xù)干擾消除,其中連續(xù)干擾消除需要通過 SIC 接收機(jī)區(qū)分不同用戶信號接受功率來實現(xiàn)。對于***下行鏈路***來說,是由基站發(fā)送疊加信號到用戶,所以需要用戶終端來實現(xiàn)多用戶檢測和連續(xù)干擾消除技術(shù);在***上行鏈路***則是由各用戶將各自信號發(fā)至基站,只需在基站處實現(xiàn)多用戶檢測和連續(xù)干擾消除技術(shù)。用戶終端相較于基站而言處理能力過于有限,所以很難在用戶終端實現(xiàn)多用戶檢測及連續(xù)干擾消除。
如果對 NOMA 技術(shù)感興趣的小伙伴可以去搜下相關(guān)論文和資料學(xué)習(xí)下,定位就是有前景的 5G 技術(shù)。
下面簡單說下實時語音過程中漏回聲、噪音、雜音以及音量小的原因~
漏回聲的原因:
- 在延時抖動過程中:可能會存在線程繁忙、設(shè)備非線性嚴(yán)重、雙設(shè)備、非因果等
- 大混響環(huán)境:混響長度超出濾波器長度
- 采集信號溢出:導(dǎo)致濾波器不收斂
- 雙講:強(qiáng)依賴 NLP,容易顧此失彼
噪音、雜音原因
- 設(shè)備噪聲:比如單頻音、工頻噪聲、筆記本風(fēng)扇聲、無序雜音
- 環(huán)境噪聲:Babble、鳴笛等
- 信號溢出:爆破音
- 算法引入:殘留回聲等
音量小的原因
- 設(shè)備采集能力弱、說話聲音小 (這個占大多數(shù))
- 設(shè)備播放能力弱
- 模擬增益、模擬 boost 增益小
- 數(shù)字增益小
?最后在獨(dú)立監(jiān)測模塊可以分為:嘯叫檢測、雜音監(jiān)測、噪音檢測、硬件檢測四大部分。
小展望
在未來我認(rèn)為感知、反饋和監(jiān)控一定會呈現(xiàn)一體化,也會變得更細(xì)、更廣、更快、更全;內(nèi)部狀態(tài)也會變得更細(xì)、體驗覆蓋更廣、反饋速度會更快、覆蓋通話也更全。也相信我國 5G 技術(shù)和實時音視頻傳輸技術(shù)和質(zhì)量評價體系會越來愈好。
總結(jié)
以上是生活随笔為你收集整理的浅谈实时语音质量监控系统的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HyperLogLog原理与在Redis
- 下一篇: windows下最好的围棋_学围棋能使学