當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

即构科技金健忠：回顾20年音视频技术演进

發(fā)布時(shí)間：2024/4/11 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了即构科技金健忠：回顾20年音视频技术演进小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

多媒體技術(shù)是一個(gè)傳統(tǒng)行業(yè)，從模擬到數(shù)字，VCD到藍(lán)光，從窄帶到寬帶，標(biāo)清到高清，技術(shù)演進(jìn)讓人的視聽體驗(yàn)發(fā)生了顛覆式的改變。LiveVideoStack采訪了即構(gòu)科技CTO金健忠，他回顧了過去20年多媒體技術(shù)的發(fā)展，并展望了未來的技術(shù)趨勢。

文 / 金健忠

策劃 / LiveVideoStack

LiveVideoStack：能否向LiveVideoStack讀者簡單介紹下自己，當(dāng)初是如何進(jìn)入音視頻這個(gè)領(lǐng)域的，以及這些年的工作體會(huì)。

金健忠：大家好，我是金健忠，目前擔(dān)任即構(gòu)科技CTO。從2001年開始到現(xiàn)在，先后在InterVideo、ST意法半導(dǎo)體從事音視頻軟硬件方面的開發(fā)，2010年加入騰訊，組建QQ語音團(tuán)隊(duì)，做互聯(lián)網(wǎng)音視頻。5年時(shí)間里，我們逐漸發(fā)現(xiàn)互聯(lián)網(wǎng)有很多應(yīng)用都需要用到音視頻。2015年和林友堯（即構(gòu)科技創(chuàng)始人&CEO，QQ前總經(jīng)理）等人出來創(chuàng)業(yè)，思考怎么把這些年在音視頻領(lǐng)域積累的經(jīng)驗(yàn)轉(zhuǎn)化為平臺(tái)，服務(wù)更多的應(yīng)用，到現(xiàn)在，我們創(chuàng)立即構(gòu)已經(jīng)3年多。

即構(gòu)主要為企業(yè)提供互聯(lián)網(wǎng)+音視頻整體解決方案，覆蓋音視頻的產(chǎn)生、接入、存儲(chǔ)、分發(fā)、回放等方面，幫助各個(gè)行業(yè)快速接入和應(yīng)用音視頻，讓客戶更專注在自己的領(lǐng)域發(fā)展。

這些年的工作體會(huì)主要有三點(diǎn)：

第一，音視頻是需要長期積累的技術(shù)，數(shù)字音視頻技術(shù)可以追溯到模擬信號(hào)彩色電視時(shí)代，復(fù)合視頻信號(hào)本身在時(shí)間、幀、場方面已經(jīng)離散化處理了，里面還涉及顏色空間轉(zhuǎn)換、色差信號(hào)壓縮以及各種復(fù)雜的同步。

第二，音視頻技術(shù)涉及的范圍很廣，比如雙工通訊的回聲消除是屬于算法方面的，性能優(yōu)化ARM-NEON/SSE等屬于CPU結(jié)構(gòu)方面，音頻播放線程緩沖屬于OS方面的，帶寬預(yù)測/FEC/ARQ屬于網(wǎng)絡(luò)傳輸方面，還有高包量低延遲服務(wù)、GPU等。

第三，音視頻技術(shù)應(yīng)用場景非常豐富，我自己經(jīng)歷過的就有DVD（數(shù)字視頻光盤）、DVB（數(shù)字視頻廣播）、VOD（視頻點(diǎn)播系統(tǒng)）、LIVE（直播）、Communication（通話）等應(yīng)用場景。

LiveVideoStack：在音視頻領(lǐng)域從業(yè)近20年，能否從你的角度給我們分享一下近20年來音視頻（技術(shù)）領(lǐng)域的發(fā)展歷程？

金健忠：我認(rèn)為整個(gè)音視頻行業(yè)大致圍繞以下3條線索在發(fā)展演進(jìn)：

線索1：數(shù)字化進(jìn)程和協(xié)議分層

首先我理解音視頻發(fā)展是一個(gè)數(shù)字化和協(xié)議分層的一個(gè)過程。大家知道一開始電影是一秒鐘拍24張照片，放出來看效果就是連續(xù)的，這是時(shí)間軸上的采樣。接下來模擬電視信號(hào)又在掃描線上采樣，然后再放入色差信號(hào)、音頻信號(hào)形成復(fù)合視頻信號(hào)。將復(fù)合視頻信號(hào)進(jìn)行調(diào)制發(fā)送就完成音視頻傳輸，將復(fù)合視頻信號(hào)記錄到磁帶上就完成音視頻的存儲(chǔ)。這一階段整個(gè)音視頻需要作為一個(gè)整體考慮。這些技術(shù)發(fā)生在很久之前。

接下來發(fā)生的事情就是音視頻信號(hào)純數(shù)字化的過程，這個(gè)過程產(chǎn)生了VCD/DVD/藍(lán)光BD/數(shù)字電視DVB/ATSC等一系列存儲(chǔ)傳輸方式，技術(shù)上也把整個(gè)音視頻技術(shù)分為若干層，包括如MPEG編解碼codec、存儲(chǔ)冗余編碼糾錯(cuò)技術(shù)如Reed-Solomon、傳輸編碼、傳輸數(shù)字調(diào)制如QAM/COFDM、物理傳輸如Cable、存儲(chǔ)介質(zhì)如DVD等等。這些技術(shù)都互相獨(dú)立和發(fā)展。

第三個(gè)重要的階段是通用硬件的介入以及互聯(lián)網(wǎng)化。通用硬件和互聯(lián)網(wǎng)的介入使得各個(gè)層次之間的分解更細(xì)致。比如容器和編碼的分離，MPEG2 PS/TS可能還算是codec的一部分，到了MP4/mkv等容器就已經(jīng)和codec沒有太多關(guān)系了。H.264提出NAL概念，明確建立codec和容器/協(xié)議的邊界。存儲(chǔ)可以有各種容器和介質(zhì)，傳輸也可以有各種協(xié)議和物理介質(zhì)。應(yīng)用更是豐富多彩。以前一個(gè)視頻廣播業(yè)務(wù)需要地面廣播或者Cable或者衛(wèi)星+接受機(jī)+電視一整套系統(tǒng)。現(xiàn)在無論是專用接收機(jī)、電腦，還是手機(jī)都可以完成視頻廣播的接收，基于IP的網(wǎng)絡(luò)協(xié)議可以通過光纖或者衛(wèi)星鏈路實(shí)時(shí)地傳送到各個(gè)邊緣節(jié)點(diǎn)，再通過Cable、Wifi、Cellular傳輸?shù)浇K端。

線索2：硬件和質(zhì)量提升

第二條線索可以從硬件和質(zhì)量上看。記得我剛上大學(xué)的時(shí)候，在電腦上看VCD還需要一個(gè)MPEG解碼卡的專用硬件。隨后不久，CPU等硬件能力持續(xù)增強(qiáng)，出現(xiàn)MMX等專門為多媒體設(shè)計(jì)的指令，這些讓軟解成為可能。但是好景不長，更高質(zhì)量DVD的出現(xiàn)又讓老舊硬件性能捉襟見肘。接著又是更強(qiáng)的CPU，帶硬件加速的顯卡。這種硬件的升級(jí)和質(zhì)量的需求互相促進(jìn)形成閉環(huán)。模擬信號(hào)一個(gè)頻道可以傳輸一路標(biāo)清視頻，MPEG2一條TS流可以傳輸五路標(biāo)清或一路高清，升級(jí)H.264后高清也能傳五路了。以前手機(jī)只能窄帶語音，現(xiàn)在則需要全帶全雙工。音視頻開發(fā)需要不斷更新技術(shù)，適配新硬件，滿足新的需求。

線索3：互動(dòng)和場景豐富

場景豐富，尤其是互動(dòng)的需求是不可忽略的一個(gè)趨勢。在IP化/互聯(lián)網(wǎng)化之前，早有DVD加入互動(dòng)菜單，藍(lán)光BD引入BD-J可以跑Java程序進(jìn)行互動(dòng)，數(shù)字廣播DVB加入MHP ，使用一個(gè)撥號(hào)網(wǎng)絡(luò)作為回傳通道。DVB-H則在COFDM+TS上加入DSM-CC把音視頻IP化。互聯(lián)網(wǎng)化之后，基于互聯(lián)網(wǎng)實(shí)時(shí)傳輸分發(fā)網(wǎng)絡(luò)，可以方便的實(shí)現(xiàn)全雙工多方互動(dòng)。

LiveVideoStack：經(jīng)歷了眾多產(chǎn)品的音視頻架構(gòu)底層開發(fā)，包括之前的QQ語音以及現(xiàn)在的即構(gòu)科技。相比于過往的產(chǎn)品，你認(rèn)為即構(gòu)的音視頻架構(gòu)有哪些變化與不同？

金健忠：QQ語音架構(gòu)是我在2010年加入騰訊后，針對(duì)騰訊互聯(lián)網(wǎng)+實(shí)時(shí)音視頻場景應(yīng)用開發(fā)的。后續(xù)又經(jīng)歷騰訊音視頻中心、騰訊互娛、騰訊云等多個(gè)團(tuán)隊(duì)的打磨，可以說性能已經(jīng)非常出色。在即構(gòu)，為豐富互聯(lián)網(wǎng)+音視頻應(yīng)用場景，我們重新設(shè)計(jì)了一套音視頻架構(gòu)，旨在希望以平臺(tái)的方式滿足各個(gè)行業(yè)對(duì)音視頻需求。在思路上，我們吸取了以往架構(gòu)的經(jīng)驗(yàn)，比如我們同樣設(shè)計(jì)靈活的模塊結(jié)構(gòu)，讓音視頻處理管道可以合理安排線程、buffer，保證整個(gè)管道實(shí)時(shí)、高效。同時(shí)，我們也針對(duì)更復(fù)雜的場景在技術(shù)上進(jìn)行一些優(yōu)化，比如：

音視頻引擎的整體設(shè)計(jì)
更好的音視頻同步設(shè)計(jì)
支持多協(xié)議以及多協(xié)議互通
支持時(shí)鐘注入，進(jìn)一步優(yōu)化數(shù)據(jù)驅(qū)動(dòng)鏈路
優(yōu)化元數(shù)據(jù)處理流程，媒體數(shù)據(jù)和元數(shù)據(jù)有強(qiáng)相關(guān)性，管道結(jié)構(gòu)中需要維護(hù)這種相關(guān)性，包括有緩沖節(jié)點(diǎn)和無緩沖節(jié)點(diǎn)
更靈活的buffer機(jī)制，同時(shí)支持可引用和不可引用buffer，支持CVPixelBuffer/SurfaceTexture等傳遞方式
靈活的模塊間協(xié)商機(jī)制，靜態(tài)協(xié)商、事件觸發(fā)協(xié)商、動(dòng)態(tài)協(xié)商。比如切換硬件codec的時(shí)候可以觸發(fā)事件協(xié)商改用SurfaceTexture
就近接入調(diào)度支持、最優(yōu)線路調(diào)度支持、分發(fā)調(diào)度支持

LiveVideoStack：市面上很多實(shí)時(shí)音視頻方案是基于WebRTC，即構(gòu)在最初技術(shù)選型時(shí)，為什么沒有選用WebRTC，而選擇了走自研這條路？

金健忠：即構(gòu)提供完整的互聯(lián)網(wǎng)+音視頻平臺(tái)服務(wù)，包括內(nèi)容產(chǎn)生、接入、分發(fā)、回放等環(huán)節(jié)，支持多端互通，包括WebRTC協(xié)議的Web端。Web端互通只是即構(gòu)音視頻平臺(tái)服務(wù)中眾多特性中的一個(gè)。WebRTC開源框架沒有原生支持即構(gòu)的眾多特性，相比從WebRTC框架開始修改打磨來說，自研可以從一開始就融入即構(gòu)的設(shè)計(jì)原則，從架構(gòu)、算法、平臺(tái)支持、協(xié)議等方面最優(yōu)化設(shè)計(jì)。

例如：

技術(shù)架構(gòu)上，我們希望原生支持多路音視頻，支持AUX輸入環(huán)回或混音到遠(yuǎn)端，支持低延遲耳返，原生支持多協(xié)議，支持外部采集、渲染、外部編碼、解碼音視頻外部濾鏡等。

算法設(shè)計(jì)上，一開始就考慮到架構(gòu)和場景，比如Jitter Buffer，幀率碼率控制，視頻分層編解碼等都會(huì)匹配多協(xié)議設(shè)計(jì)。帶寬預(yù)測，反饋能夠適應(yīng)多跳選路（例如國際加速優(yōu)化），分發(fā)到需求。3A設(shè)計(jì)采用全頻帶，適應(yīng)多場景多平臺(tái)多需求。

平臺(tái)支持上，能夠更好適應(yīng)通用/嵌入平臺(tái)，如CVPixelBuffer，SurfaceTexture原生支持等。

協(xié)議支持上，就近接入調(diào)度，支持多跳路由優(yōu)化，支持分發(fā)，支持秒開特性。媒體層協(xié)議進(jìn)行合理安排減少連接建立時(shí)間。

LiveVideoStack：隨著5G商用時(shí)間表的臨近，VR場景將會(huì)得到釋放，最可能帶來變革的就是音視頻領(lǐng)域。你覺得5G將會(huì)給音視頻行業(yè)帶來怎樣的機(jī)遇與挑戰(zhàn)？

金健忠：VR/AR是交互方式革新，本身還有許多技術(shù)問題需要解決。為了營造沉浸式環(huán)境，需要給用戶提供極快速的響應(yīng)。100Hz的刷新頻率、LCD（液晶顯示器）的一點(diǎn)點(diǎn)拖尾都會(huì)讓用戶覺得頭暈。高分辨率、高刷新頻率需要的高帶寬讓頭戴設(shè)備很難擺脫物理聯(lián)線。精準(zhǔn)的定位和不到10ms的響應(yīng)時(shí)間也是需要突破的難點(diǎn)。我覺得整個(gè)VR/AR的革新主要還是在其本身，只有這些問題解決后才會(huì)引起音視頻的進(jìn)一步變革。

相比VR來說，5G商用已經(jīng)有時(shí)間表。5G可能會(huì)帶來帶寬、延遲、密度方面的變化。

這些提升主要來自毫米波段的使用，QAM256，100MHz頻道。一般認(rèn)為5G可以帶來Gb/s級(jí)別的用戶帶寬，ms級(jí)別空口延遲。這個(gè)水平相當(dāng)于使用網(wǎng)線連接千兆以太局域網(wǎng)。整個(gè)系統(tǒng)的瓶頸會(huì)轉(zhuǎn)移到如國內(nèi)網(wǎng)絡(luò)環(huán)境50ms RTT，國外直連 >200ms RTT，云虛擬機(jī)負(fù)載，云虛擬機(jī)單鏈接性能，存儲(chǔ)性能等其他方面。可以從服務(wù)器接入調(diào)度，優(yōu)化負(fù)載調(diào)度，單鏈接性能等方面優(yōu)化整體性能。

LiveVideoStack：展望未來，你對(duì)音視頻領(lǐng)域有哪些期待？

金健忠：我認(rèn)為有以下幾個(gè)方面，

變聲和聲音特效
更好的語音去背景噪聲。
當(dāng)前實(shí)用的降噪算法主要集中在噪音學(xué)習(xí)和陣列降噪上。但是人耳人腦的能力遠(yuǎn)超現(xiàn)在算法能達(dá)到的水平，比如人在嘈雜環(huán)境下，也有很大可能“過濾掉”噪聲和其他人的語音集中理解某個(gè)人說話。
聲紋識(shí)別，說話人識(shí)別
語音分離，音樂分離。
比如兩個(gè)人說話，能把一個(gè)人的語音完整分離出來。能夠從交響樂分離出大提琴的聲音。
語音識(shí)別
音樂識(shí)別，哼唱識(shí)別。這個(gè)也很有意思，哼一哼就能找到對(duì)應(yīng)歌曲。這個(gè)領(lǐng)域好像有一些接近實(shí)用的應(yīng)用了。

其它還包括以下領(lǐng)域，都非常令人期待：

更高效視頻codec，4k，8k，低碼率，足夠低的計(jì)算復(fù)雜度
更好的視頻分層編碼codec
人臉識(shí)別
文字識(shí)別
AI視頻分類

超強(qiáng)干貨來襲云風(fēng)專訪：近40年碼齡，通宵達(dá)旦的技術(shù)人生

總結(jié)

以上是生活随笔為你收集整理的即构科技金健忠：回顾20年音视频技术演进的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：常青：小程序音视频能力再升级
下一篇： FFmpeg优化苏宁PP体育视频剪切效