【LiveVideoStack采访】李备:音视频技术的难点与未来
網(wǎng)易云信資深音頻算法工程師李備日前接受LiveVideoStack采訪,對(duì)于音頻技術(shù)的未來(lái),他給出了自己的觀點(diǎn)。
LiveVideoStack:李備你好,能否向讀者介紹下自己,以及目前主要的工作和關(guān)注的技術(shù)方向?
李備:我叫李備,中科大碩士畢業(yè),先后入職Cisco WebEx,網(wǎng)易云信。在軟件實(shí)時(shí)音頻領(lǐng)域工作5年多,從事過(guò)語(yǔ)音前處理算法,音頻引擎框架搭建,音頻編碼器優(yōu)化,移動(dòng)端的移植解決方案,音頻測(cè)試框架搭建等工作。目前在網(wǎng)易主要負(fù)責(zé)網(wǎng)易云信的音頻算法的優(yōu)化,音頻框架的設(shè)計(jì),以及不同場(chǎng)景下的解決方案的制定等工作。主要關(guān)注業(yè)界的音頻解決方案框架,音頻算法與音頻的機(jī)器學(xué)習(xí)方法等方向。
LiveVideoStack:能否介紹下網(wǎng)易云信在教育和實(shí)時(shí)通訊領(lǐng)域有哪些特色技術(shù)和產(chǎn)品,未來(lái)有哪些發(fā)展規(guī)劃?
李備:網(wǎng)易云信一直都關(guān)注在線教育行業(yè),已經(jīng)推出的在線教育解決方案覆蓋大型直播教學(xué)、大班互動(dòng)教學(xué)、小班輔導(dǎo)教學(xué)全系列的在線課堂模式,幫助開(kāi)發(fā)者能夠快速地搭建和上線在線教育產(chǎn)品。網(wǎng)易云信深知在不同的在線教育垂直行業(yè)有著不同的教學(xué)特點(diǎn),接下來(lái)網(wǎng)易云信將秉承場(chǎng)景化解決方案的思路,為在線教育行業(yè)推出特點(diǎn)鮮明更加契合場(chǎng)景需求的解決方案。舉例來(lái)講,今年早些時(shí)候網(wǎng)易云信推出的在線音樂(lè)教學(xué)解決方案,針對(duì)在線音樂(lè)教學(xué)對(duì)于聲音的音質(zhì)與高還原要求,首創(chuàng)定制研發(fā)了高清音樂(lè)模式,創(chuàng)新性得將音頻處理的專業(yè)領(lǐng)域與具體的行業(yè)場(chǎng)景緊密結(jié)合,這也是接下來(lái)網(wǎng)易云信會(huì)堅(jiān)持的道路與價(jià)值。
LiveVideoStack:展望整個(gè)多媒體通訊領(lǐng)域,你認(rèn)為哪些(開(kāi)源)技術(shù)棧將會(huì)快速發(fā)展?
李備:隨著AI算法的成熟,終端硬件的計(jì)算能力的提升,一些AI算法在多媒體通訊領(lǐng)域的應(yīng)用以前只能在實(shí)驗(yàn)室實(shí)現(xiàn)的方法有了落地的可能,甚至在實(shí)時(shí)音視頻領(lǐng)域。比如視頻的超分技術(shù),音頻的基于深度學(xué)習(xí)的降噪等技術(shù)可能在算法優(yōu)化與硬件升級(jí)的某個(gè)臨界值下實(shí)現(xiàn)大規(guī)模的落地。
LiveVideoStack:一種觀點(diǎn)認(rèn)為,現(xiàn)在做多媒體開(kāi)發(fā)比十年前容易很多,因?yàn)橛性S多強(qiáng)大的開(kāi)源框架、工具(如WebRTC、FFmpeg、x.264)以及像網(wǎng)易云信這樣的多媒體PaaS平臺(tái),你怎么看這種觀點(diǎn)?
李備:現(xiàn)在不管是多媒體的應(yīng)用開(kāi)發(fā)還是做多媒體的底層平臺(tái)開(kāi)發(fā)和十年前相比確實(shí)容易很多了。主要體現(xiàn)兩個(gè)方面,第一,多媒體的大環(huán)境越來(lái)越成熟,包括終端設(shè)備的性能,網(wǎng)絡(luò)的帶寬,系統(tǒng)的相關(guān)API的支持,國(guó)內(nèi)相關(guān)人才數(shù)量等十年內(nèi)都有了天翻地覆的變化。十年前基本只有巨頭公司才能玩得起多媒體,現(xiàn)在多媒體開(kāi)發(fā)已經(jīng)是大部分的基本功能了。第二,有越來(lái)越多的開(kāi)源架構(gòu),算法等開(kāi)源(如WebRTC、FFmpeg等),同時(shí)又有越來(lái)越多的專業(yè)的多媒體服務(wù)平臺(tái)(如 網(wǎng)易云信等),會(huì)提供端到端的多媒體的解決方案,場(chǎng)景的覆蓋也非常廣,從大型會(huì)議模式,到點(diǎn)對(duì)點(diǎn),直播,轉(zhuǎn)播,從低功耗設(shè)備方案到大屏方案等,使得開(kāi)發(fā)多媒體的開(kāi)發(fā)成本及周期都大大縮短。
LiveVideoStack:實(shí)時(shí)音視頻已成為許多應(yīng)用的剛需性配置,但在這一領(lǐng)域,因?yàn)檩^高的技術(shù)開(kāi)發(fā)和資源投入門(mén)檻,也為云技術(shù)服務(wù)企業(yè)帶來(lái)了嚴(yán)峻挑戰(zhàn)。具體講一下NRTC工業(yè)級(jí)的音視頻技術(shù)框架和開(kāi)源的框架有什么區(qū)別?
李備:首先,技術(shù)全面。NRTC全面的技術(shù)開(kāi)發(fā)支持包括:各種媒體服務(wù)器、信令服務(wù)器、認(rèn)證與管理服務(wù)器、混音轉(zhuǎn)碼錄制等服務(wù)、各種SDK等。此外,NRTC既支持UDP也支持TCP,既支持實(shí)時(shí)也支持準(zhǔn)實(shí)時(shí)通話,這是對(duì)WebRTC作為客戶端框架只支持UDP的實(shí)時(shí)通話的一種完善和補(bǔ)充。
其次,功能全面。
1) NRTC可以提供實(shí)時(shí)音視頻通話功能,這一方案是基于UDP的,時(shí)延低于400ms;
2) NRTC可以提供直播功能,這一方案是基于TCP的,可以提供高質(zhì)量的準(zhǔn)實(shí)時(shí)的直播能力,時(shí)延1~3s;
3) NRTC也可以將實(shí)時(shí)音視頻通話和直播能力相結(jié)合,提供互動(dòng)直播功能,通過(guò)上麥下麥控制用戶在連麥和觀眾模式間切換;
4) NRTC可以提供點(diǎn)播功能,通過(guò)NCDN實(shí)現(xiàn)海量分發(fā);
5) NRTC可以提供短視頻功能,短視頻SDK也一并俱全。
第三,場(chǎng)景全面。NRTC具備高效落地多元化場(chǎng)景應(yīng)用的能力。NRTC可以提供實(shí)時(shí)音視頻通話功能、直播功能。此外,NRTC還支撐了網(wǎng)易內(nèi)外部各個(gè)客戶的海量應(yīng)用,譬如網(wǎng)易云音樂(lè)、網(wǎng)易新聞、有道、云課堂等。
第四:靈活。NRTC傳輸層采用私有協(xié)議的方式,確保RTC實(shí)時(shí)通信功能可靈活實(shí)現(xiàn),改善了WebRTC因標(biāo)準(zhǔn)化為個(gè)性化開(kāi)發(fā)帶來(lái)的困難。基于傳輸層私有協(xié)議,用戶可以很容易的擴(kuò)展媒體包,這大大提升了開(kāi)發(fā)的便捷性,改變了過(guò)去在WebRTC開(kāi)發(fā)環(huán)境下,JavaScript 無(wú)法修改和訪問(wèn)RTP數(shù)據(jù)包和RTCP控制包的局限性。
第五,NRTC對(duì)于WebRTC的優(yōu)化。NRTC是同時(shí)適應(yīng)于Web和Server開(kāi)發(fā)的完整的音視頻技術(shù)解決方案,改善了WebRTC只能針對(duì)Web進(jìn)行點(diǎn)對(duì)點(diǎn)實(shí)時(shí)通信功能開(kāi)發(fā)的狀況。NRTC在現(xiàn)有的VoIP系統(tǒng)里通過(guò)WebRTC Gateway來(lái)兼容WebRTC,最終目的是讓音視頻技術(shù)走出實(shí)驗(yàn)室,實(shí)現(xiàn)We b音視頻的工程化開(kāi)發(fā)及應(yīng)用。同時(shí),NRTC根據(jù)自己的業(yè)務(wù)需要實(shí)現(xiàn)了很多l(xiāng)ibwebrtc里沒(méi)有的功能,并做了優(yōu)化。
第六,易用。用戶只要接入SDK即可完成多元化功能實(shí)現(xiàn):
1) Web端的音視頻通話,無(wú)需自行再寫(xiě)服務(wù)器、信令。
2) 實(shí)現(xiàn)Web端和其它移動(dòng)端、PC端的互通,改善WebRTC只針對(duì)Web端的局限性。
3) 實(shí)現(xiàn)雙人點(diǎn)對(duì)點(diǎn)和多人會(huì)議,改善WebRTC只支持點(diǎn)對(duì)點(diǎn)的狀況。
4) 實(shí)現(xiàn)Web端的互動(dòng)直播。
5) 實(shí)現(xiàn)IM+Web音視頻+聊天室+互動(dòng)直播+拉流播放器。
LiveVideoStack:搞多媒體開(kāi)發(fā)需要學(xué)習(xí)大量的基礎(chǔ)知識(shí),而且需要在實(shí)際工作中摸爬滾打。對(duì)于學(xué)習(xí)多媒體開(kāi)發(fā),您有哪些建議?能否推薦一些多媒體開(kāi)發(fā)相關(guān)的學(xué)習(xí)資料或書(shū)籍。
李備:多媒體開(kāi)發(fā)的門(mén)檻相對(duì)于其他開(kāi)發(fā)確實(shí)高一些,如果是做多媒體的應(yīng)用的開(kāi)發(fā),需要熟悉多媒體的一些基本概念,以及多種開(kāi)源算法,或者框架的主要作用和影響,比如采樣率,通道數(shù),編碼碼率等基本概念,音頻不同編碼器(如AAC 、MP3、OPUS等)的適用范圍,AEC、NS都是什么算法有什么作用等等。如果是開(kāi)發(fā)多媒體底層算法或者框架的同學(xué)就需要有更加扎實(shí)的基礎(chǔ),推薦可以看下《離散時(shí)間語(yǔ)音信號(hào)處理》和《語(yǔ)音增強(qiáng)的理論與實(shí)踐》的電子版本,除此之外可以看看開(kāi)源框架的設(shè)計(jì),RFC的一些行業(yè)標(biāo)準(zhǔn)。
LiveVideoStack:音視頻領(lǐng)域還有哪些學(xué)界、工業(yè)界公認(rèn)的難點(diǎn)?未來(lái)今年,哪些難點(diǎn)有可能取得突破?
李備:說(shuō)說(shuō)音頻的吧,回聲消除一直就是工業(yè)界里面的難點(diǎn),難在終端設(shè)備的采集播放設(shè)備的多樣性,應(yīng)用場(chǎng)景的復(fù)雜性,終端性能有限等方面,軟件層很難有完美的落地方案。未來(lái),可能像計(jì)算量非常大的非線性自適應(yīng)濾波器也可以落地移動(dòng)端。而對(duì)于音樂(lè)內(nèi)容,學(xué)術(shù)界都沒(méi)有很好的回聲消除方案,未來(lái)也許會(huì)出現(xiàn)一些與AI技術(shù)的結(jié)合可以在音樂(lè)內(nèi)容的回聲消除方案。
LiveVideoStack:說(shuō)說(shuō)你將在LiveVideoStackCon 2018分享的內(nèi)容吧。
李備:這次在LiveVideoStackCon分享的主題是“音樂(lè)場(chǎng)景下的實(shí)時(shí)音頻解決方案”,主要會(huì)講下普通場(chǎng)景的音頻解決方案的框架,每個(gè)模塊的主要作用,可能會(huì)遇到的挑戰(zhàn)和問(wèn)題,再來(lái)分析下,音樂(lè)場(chǎng)景的新的挑戰(zhàn),以及普通解決方案在音樂(lè)場(chǎng)景下的不足,以及網(wǎng)易云信在音樂(lè)教學(xué)下的一些思考。
10月11日 19:30,網(wǎng)易云信資深音頻算法工程師李備將進(jìn)行LiveVideoStackCon講師熱身分享。本次李備將與大家分享教育場(chǎng)景下的實(shí)時(shí)音視頻解決方案,討論在線教育的音頻需求,一般軟件音頻框架,以及行業(yè)的挑戰(zhàn)。
報(bào)名方式:掃碼添加MCtalk小助手,小助手將于10月10日統(tǒng)一發(fā)送報(bào)名鏈接
此外,10月19日大會(huì)第一天 ,在教育專場(chǎng)中,網(wǎng)易云信資深音頻算法工程師李備老師將與您分享《音樂(lè)場(chǎng)景下的實(shí)時(shí)音頻解決方案》相關(guān)話題,歡迎特別關(guān)注!
點(diǎn)擊【閱讀原文】進(jìn)入官網(wǎng)了解詳情。
總結(jié)
以上是生活随笔為你收集整理的【LiveVideoStack采访】李备:音视频技术的难点与未来的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 视频直播技术之iOS端推流
- 下一篇: 互联网1分钟 | 1009