滴滴李先刚:语音识别在复杂场景的性能将显著提升
過去九年,從學校到工業界,李先剛一直專注在語音和聲學領域。他說,一方面企業越來越重視AI的應用,隨著研究的深入,在復雜場景下的語音識別性能將顯著提升。
文 / 李先剛
策劃 / LiveVideoStack
LiveVideoStack:李先剛你好,非常榮幸代表LiveVideoStack采訪你。能否向LiveVideoStack的讀者介紹下自己,以及目前關注的領域。
李先剛:我目前任職于滴滴出行AI Labs首席算法工程師,負責滴滴語音相關的技術和應用,關注的領域包括語音相關前沿算法(包括語音識別、說話人識別和自然語言處理等)和他們的產業應用(尤其是在出行場景中的應用)。
LiveVideoStack:大家對滴滴的了解可能還限于“一家出行服務公司”,作為一名工程師,你看到的滴滴是什么樣的?與國內外其他科技公司相比有什么不同?
李先剛:滴滴作為移動互聯網巨頭,一直以來都致力于“讓出行更美好”。平臺連接了大量的司機和乘客,在這個過程中,怎么樣通過技術手段來為用戶提供更好的服務,并賦能平臺上的司機,提升其服務、運營效率和收入,一直以來都是滴滴技術團隊在努力的方向。
從技術層面上來看,與大多數互聯網公司不同,滴滴的業務也是一個線上線下結合的公司。滴滴出行業務線下場景的復雜性,以及線下數據的豐富性,給技術帶來了非常大的挑戰,也給AI技術落地帶來了非常大的空間。例如,當司乘有糾紛投訴的時候,行程中錄音會被用于責任判定的數據;而如何利用AI技術幫助客服人員提效,便是一個極富挑戰性的課題。
LiveVideoStack:我注意到你在北大讀博時就在研究語音識別和聲學建模,在學校做研究與在企業中做研發和產品,最大的不同是什么?
李先剛:在學校做研究和在企業中做研發,不太的地方還是蠻多的。首先是在研發驅動力方面,學校的研究更多來自于推動技術邊界,而企業的研發更多來自于基于技術手段解決企業所面臨的業務問題。例如,在企業,項目立項時會需要論證項目的業務價值,或許是提升用戶體驗,或許是提升企業的運營效率。有了立項,才有對應的研發資源去驗證。其次,在學校和企業中,推動研究工作時的優勢也會有所不一樣,企業往往會有明顯的數據和服務器優勢。一方面,一般情況下,在企業中,尤其是大量的AI算法的應用中,通過增加數據規模得到性能收益往往相對確定;另外一方面,在企業中也會更加關注基于海量數據的算法性能的體現。
LiveVideoStack:過去九年,你一直專注在語音識別和聲學建模領域,有沒有考慮過更換方向?或者更大膽的去創業呢?
李先剛:語音相關的技術方向一致以來都是我專注的主要方向。一方面,深度學習技術已經使得語音的各個技術方向的性能都得到了顯著的提升,另外一方面,企業界也越來越重視語音相關的AI應用。從而,我也一直專注在語音相關的應用場景中的技術,例如:語音識別,說話人識別,語音合成,情緒識別,口語對話處理等。
語音這些年來也引來了其應用落地的黃金期,在方方面面都在產生其價值。以滴滴為例,語音技術就至少在三個方面起到了非常大的應用:語音智能客服,車載語音交互以及遇到糾紛投訴時基于行程中錄音數據更好地判責,賦能業務管控。這些應用也對語音技術提出了越來越高的要求,這也是我過去幾年一直在努力推動的方向。
LiveVideoStack:您可介紹下,AI技術對于語音識別、聲學建模帶來了哪些變化?最新的研究趨勢是怎樣的?
李先剛:AI技術使得語音識別等任務的基礎性能都得到顯著的提升。在企業中,在一些場景下,甚至會有這樣的預期,只要能夠構建起數據回流的正向循環,其系統的性能就會不斷地提升。這也是深度學習的強大之處,只要有足夠多的數據,企業的研發人員并不用擔心深度學習模型最終學到的模型性能。
而從研究角度,語音聲學建模中的AI技術過去幾年也一直在不斷突破著,包括最初在HMM結構下研究采用不同的神經網絡結構,而后開始從HMM到CTC再到Attention,深度學習技術也給語音技術架了一座橋,拉進了語音任務和圖像還有NLP等任務的距離,使得研究者們能夠有機會更多地借鑒相關領域的研究突破。
LiveVideoStack:語音識別、聲學建模還存在哪些瓶頸或難點待突破?
李先剛:目前,得益于深度學習的強大,當數據足夠充分的情況下,很多語音識別任務的性能都能達到一個還比較不錯的水準。但在一些特殊場景下,依然還需要突破。例如code-switch的場景,一個典型的例子,上海地區會發現這樣的情況,一段話中,上海話,普通話,英語,隨時切換。例如在復雜的會場場景,尤其是面對所謂類似的雞尾酒會場景時。隨著語音技術的迭代,研究者們也逐漸將研究精力越來越多地投入到了這些更復雜的場景中。
LiveVideoStack:我在工作中使用過國內一些主流的語音轉文字服務,在環境音嘈雜或遠場情況下,識別的效果就大打折扣。如何改進這一狀況?
李先剛:這里所提到的語音轉文字服務,其實也可以從兩個方面來看。首先是從企業角度,流量和需求大的應用往往能夠得到更多的企業資源來打磨更好的服務。由于語音識別性能是需要依托于特定場景來談的。可以看到,例如語音輸入法,語音搜索,智能音箱,這些設備的語音識別效果都已經很不錯了。這些場景都帶有大量的用戶需求和用戶價值,各大公司也很快積累了大量的針對性的語音訓練數據。而其他場景,由于其訓練數據的積累相對慢,其性能也相對差。
其次,從技術角度,如果需要做好一款針對記者的轉文字服務,也得考慮下該服務需要面臨的挑戰,會涉及到相對口語化的說話風格,以及是否需要使用特殊硬件設備實現嘈雜或遠場情況下的拾音,等等。
LiveVideoStack:能否展望未來幾年語音識別、聲學建模的發展成果,對于滴滴用戶而言,會有哪些體驗提升?
李先剛:隨著研究者們的努力,可以相信,未來幾年,語音識別在更多復雜場景下的語音識別性能也將取得顯著的提升。滴滴的語音應用,可以作為出行場景與語音技術結合的典型案例。具體地,在司乘遇到糾紛投訴時,通過語音技術實現對司乘糾紛責任識別,更好地賦能業務管控;在客服場景,通過語音交互技術實現智能輔助以及客服質檢的自動化;在車載智能交互場景,通過打造針對司機運營相關的車載語音助手提升體驗。隨著語音技術的性能提升,可以預期,平臺運營效率的提升將使得平臺體驗顯得更規范,客服效率的提升也會使得滴滴對司乘的服務更到位,車載語音助手則會能夠真正逐漸成為司機們工作時的助手。
LiveVideoStack:在獲取用戶(語音)數據的同時,如何保護好用戶的隱私,以及保證用戶數據不被濫用,您看到了哪些技術手段或規則?
李先剛:用戶數據的隱私問題一直以來都是一個需要重點關注的問題。據我所看到的,大公司針對用戶的數據安全都是非常重視的,其實國家相關法律也都是有明確規定的。例如在滴滴,行程中錄音需要乘客授權,首先如無行程糾紛,七天后會自動刪除,其次也只有在有糾紛投訴并獲得用戶授權的情況下,相關工作人員才會調取,內部也有嚴密的流程和規范。
LiveVideoStack:分享最近看的一本書或一部電影吧。
李先剛:推薦一本書《原則》
更多精彩內容:人物專訪(行業趨勢解讀)、LiveVideoStackCon 大會演講內容回顧及線上分享內容回顧(+線上分享PPT資料下載),=>>點擊【閱讀原文】!
總結
以上是生活随笔為你收集整理的滴滴李先刚:语音识别在复杂场景的性能将显著提升的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LiveVideoStack线上分享第三
- 下一篇: LiveVideoStack线上分享第三