语音识别软件测试面试,软件测试之ASR(语音识别)评测学习
testkuaibao|軟件測試自學公眾號
一、引言
小編新接觸語音SDK項目,SDK無UI、底層調用多個C++算法庫、提供的是AI服務。語音AI項目,識別效果是至關重要的一環,識別效果評測也是一項測試重點。為了制定一個專業、全面的效果評測的方案,小編學習了相關知識,對方案制定有了初步思路。希望對測試小伙伴有所幫助~~(●—●)
二、ASR流程、系統結構、評測指標及評測模型
1、語音識別(Automatic Speech Recognition,ASR)
語音識別,也被稱自動語音識別,所要解決的問題是讓機器能夠“聽懂”人類的語音,將語音中包含的文字信息“提取”出來,相當于給機器安裝上“耳朵”,使其具備“能聽”的功能。
語音識別是一門涉及面很廣的交叉學科,它與聲學、語音學、語言學、信息理論、模式識別理論以及神經生物學等學科都有非常密切的關系。語音識別的目標是將人類的語音內容轉換為相應的文字。
2、語音識別基本流程、系統結構
語音識別原理的4個基本流程:“輸入——編碼——解碼——輸出”
語音識別系統本質上是一種模式識別系統,主要包括信號處理和特征提取、聲學模型(AM)、語言模型(LM)和解碼搜索四部分。
3、ASR評測模型
評測模型,各家評測模型殊途同歸。下圖參考為例:
首先要有測試的數據集,測試的數據集也是有一段音頻和標注。標注的就是標注音頻內容,說的是什么。注意:評測的數據集和訓練的數據集是嚴格隔離的。
準備好數據集后,SDK讀取數據集中的音頻(批量評測),每條音頻都嚴格按照待識別效果評測模塊的實際邏輯流程,得到每條音頻的識別結果,最后得到這個數據集的指標衡量的統計結果。
4、語音識別(ASR)評測指標
語音識別(ASR)評測指標:WER(字錯誤率)和SER(句錯誤率)
(1). WER 字錯誤率
為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個數,除以標準的詞序列中詞的總個數的百分比,即為WER。
公式為:
Substitution——替換(錯誤識別)
Deletion——刪除(漏識別)
Insertion——插入(多識別)
N——單詞數目(標注中含有字數總和)
結果比較示例:
比如下圖是某個小功能需求更換模型參數識別效果評測,其中一個測試集的WER統計。
(2). SER句錯誤率
SER表述為句子中如果有一個詞識別錯誤,那么這個句子被認為識別錯誤。ASR句子識別錯誤的個數,除以音頻中句子總數即為SER
其計算公式如下所示:
三、ASR評測影響因素
1、語?識別準確率影響因素
影響到準確率的因素逐漸增多,其中主要因素有以下幾種:
(1). 說話人的口音、多語種混合識別(Code-switching,如中英混合等)等問題仍對識別性能影響較大。
(2). 語音方式:目前人機對話場景下,講話相對會收著說,吐字相對清晰,識別精度會有保證。但是自然對話場景下,斷斷續續(停頓造成的斷句錯誤)、吞音、咬字不清、語速快慢等問題對識別效果有影響。
(3). 語音場景(環境):語音識別近講、遠講場景,環境噪音、混響等問題對識別效果影響很大。
(4). 識別領域:針對特定場景,需要預先對語言模型進行優化,確保領域內的專有名詞,語言習慣都能夠正確識別。
上述四項中,前三項與聲學模型相關,第四項與語言模型有關。
2、語?識別評測影響因素
(1). 聲音來源(人聲 錄音聲 廣播聲 耳機 麥克風 單/雙通道/立體聲)
(2). 語種分類(普通話 方言 英語 小語種 混合語言)
(3). 語音內容/領域(日常話語 非日常話語)【不同行業 不同場景】
(4). 音色(男音 女音)【不同年齡段的男/女音:兒童 少年 中年 老年】
(5). 環境(室內 室外 公共場所 安靜 嘈雜 回音)
(6). 音量(分貝值大 小 時大時小)
(7). 語音方式(哼唱 斷斷續續 正常說話 咬字不清)
(8). 語速(快 中等 慢 時快時慢)
(9). 錄入語音時長(0秒 1秒 1分鐘內 >1分鐘)
(10).對話方式(間隔 連續 單人 多人)
(11).特殊發音(比如普通話中sh與s ping與pin l與n f與h)
四、ASR評測方案制定
評測方案具體設計流程
(1). 了解業務邏輯、實現流程,和針對具體評測項目的主流方法;
(2). 設計專項評測方案;
(3). 組內根據方案設計文檔進行討論、補充;與相關項目組成員組會溝通,確保所有內容的認知達成一致,且對評測方案認可通過;
(4). 完成專項評測方案,并撰寫評測報告;
(5). 根據需求變更或者版本變更定期更新維護專項評測。
1、ASR評測方案設計——確定測試場景(簡單舉例)
考慮評測的各種影響因素,需要先確定某些維度(下例),制定一個測試場景評測:
確定:語種分類(普通話)、聲音來源(人聲錄音)、對話方式(單人)、語音內容(日常話語)、音色(青年女音)、語音方式(正常說話)、語速(中等)、錄入語音時長(2分鐘)
距離 聲源和麥克風之間的距離
角度 聲源和麥克風之間的角度
中等語速 每分鐘字數大約150左右
2、ASR評測方案設計——確定測試標準(簡單舉例)
3、ASR評測方案設計——制備輸?語料、選取數據集
目前現狀:標注數據集,數量有限,擴充、更新慢;
數據集要反映用戶的實際情況,做識別效果評測,需要更多、貼近用戶的數據集;
評測集拓展:新的語料來源:自己錄制;調研用戶top N的數據內容類型;收集?頻的badcase;
4、ASR評測方案執行——過程設計
小編所在項目的ASR評測需要基于語音SDK進行,具體執行方案還在修訂,遇到的問題和解決方案,小編在實踐總結后再總結分享~~
注:參考
https://my.oschina.net/u/4594489/blog/4441264
https://www.zhihu.com/question/53001402/answer/148537722
MTSC2019
來源:搜狗測試,如有侵權請聯系刪除
覺得文章不錯就點個在看唄,轉發就更好了
評測方案設計之用戶場景設計
軟件測試實用工具之手機的心電監護儀PrefDog
作為測試人員,如何理解線程同步異步
這五個新自動化測試框架,你可以了解一下
軟件測試技能之查看log日志
總結
以上是生活随笔為你收集整理的语音识别软件测试面试,软件测试之ASR(语音识别)评测学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嵌入式Linux中的根文件系统
- 下一篇: 三菱plc可以用c语言编程吗,三菱PLC