日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

即构科技金健忠:回顾20年音视频技术演进

發(fā)布時(shí)間:2024/4/11 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 即构科技金健忠:回顾20年音视频技术演进 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


多媒體技術(shù)是一個(gè)傳統(tǒng)行業(yè),從模擬到數(shù)字,VCD到藍(lán)光,從窄帶到寬帶,標(biāo)清到高清,技術(shù)演進(jìn)讓人的視聽體驗(yàn)發(fā)生了顛覆式的改變。LiveVideoStack采訪了即構(gòu)科技CTO金健忠,他回顧了過去20年多媒體技術(shù)的發(fā)展,并展望了未來的技術(shù)趨勢。


文 / 金健忠

策劃 / LiveVideoStack


LiveVideoStack:能否向LiveVideoStack讀者簡單介紹下自己,當(dāng)初是如何進(jìn)入音視頻這個(gè)領(lǐng)域的,以及這些年的工作體會(huì)。


金健忠:大家好,我是金健忠,目前擔(dān)任即構(gòu)科技CTO。從2001年開始到現(xiàn)在,先后在InterVideo、ST意法半導(dǎo)體從事音視頻軟硬件方面的開發(fā),2010年加入騰訊,組建QQ語音團(tuán)隊(duì),做互聯(lián)網(wǎng)音視頻。5年時(shí)間里,我們逐漸發(fā)現(xiàn)互聯(lián)網(wǎng)有很多應(yīng)用都需要用到音視頻。2015年和林友堯(即構(gòu)科技創(chuàng)始人&CEO,QQ前總經(jīng)理)等人出來創(chuàng)業(yè),思考怎么把這些年在音視頻領(lǐng)域積累的經(jīng)驗(yàn)轉(zhuǎn)化為平臺(tái),服務(wù)更多的應(yīng)用,到現(xiàn)在,我們創(chuàng)立即構(gòu)已經(jīng)3年多。


即構(gòu)主要為企業(yè)提供互聯(lián)網(wǎng)+音視頻整體解決方案,覆蓋音視頻的產(chǎn)生、接入、存儲(chǔ)、分發(fā)、回放等方面,幫助各個(gè)行業(yè)快速接入和應(yīng)用音視頻,讓客戶更專注在自己的領(lǐng)域發(fā)展。


這些年的工作體會(huì)主要有三點(diǎn):


第一, 音視頻是需要長期積累的技術(shù),數(shù)字音視頻技術(shù)可以追溯到模擬信號(hào)彩色電視時(shí)代,復(fù)合視頻信號(hào)本身在時(shí)間、幀、場方面已經(jīng)離散化處理了,里面還涉及顏色空間轉(zhuǎn)換、色差信號(hào)壓縮以及各種復(fù)雜的同步。


第二, 音視頻技術(shù)涉及的范圍很廣,比如雙工通訊的回聲消除是屬于算法方面的,性能優(yōu)化ARM-NEON/SSE等屬于CPU結(jié)構(gòu)方面,音頻播放線程緩沖屬于OS方面的,帶寬預(yù)測/FEC/ARQ屬于網(wǎng)絡(luò)傳輸方面,還有高包量低延遲服務(wù)、GPU等。


第三, 音視頻技術(shù)應(yīng)用場景非常豐富,我自己經(jīng)歷過的就有DVD(數(shù)字視頻光盤)、DVB(數(shù)字視頻廣播)、VOD(視頻點(diǎn)播系統(tǒng))、LIVE(直播)、Communication(通話)等應(yīng)用場景。


LiveVideoStack:在音視頻領(lǐng)域從業(yè)近20年,能否從你的角度給我們分享一下近20年來音視頻(技術(shù))領(lǐng)域的發(fā)展歷程?


金健忠:我認(rèn)為整個(gè)音視頻行業(yè)大致圍繞以下3條線索在發(fā)展演進(jìn):


線索1:數(shù)字化進(jìn)程和協(xié)議分層


首先我理解音視頻發(fā)展是一個(gè)數(shù)字化和協(xié)議分層的一個(gè)過程。大家知道一開始電影是一秒鐘拍24張照片,放出來看效果就是連續(xù)的,這是時(shí)間軸上的采樣。接下來模擬電視信號(hào)又在掃描線上采樣,然后再放入色差信號(hào)、音頻信號(hào)形成復(fù)合視頻信號(hào)。將復(fù)合視頻信號(hào)進(jìn)行調(diào)制發(fā)送就完成音視頻傳輸,將復(fù)合視頻信號(hào)記錄到磁帶上就完成音視頻的存儲(chǔ)。這一階段整個(gè)音視頻需要作為一個(gè)整體考慮。這些技術(shù)發(fā)生在很久之前。


接下來發(fā)生的事情就是音視頻信號(hào)純數(shù)字化的過程,這個(gè)過程產(chǎn)生了VCD/DVD/藍(lán)光BD/數(shù)字電視DVB/ATSC等一系列存儲(chǔ)傳輸方式,技術(shù)上也把整個(gè)音視頻技術(shù)分為若干層,包括如MPEG編解碼codec、存儲(chǔ)冗余編碼糾錯(cuò)技術(shù)如Reed-Solomon、傳輸編碼、傳輸數(shù)字調(diào)制如QAM/COFDM、物理傳輸如Cable、存儲(chǔ)介質(zhì)如DVD等等。這些技術(shù)都互相獨(dú)立和發(fā)展。


第三個(gè)重要的階段是通用硬件的介入以及互聯(lián)網(wǎng)化。通用硬件和互聯(lián)網(wǎng)的介入使得各個(gè)層次之間的分解更細(xì)致。比如容器和編碼的分離,MPEG2 PS/TS可能還算是codec的一部分,到了MP4/mkv等容器就已經(jīng)和codec沒有太多關(guān)系了。H.264提出NAL概念,明確建立codec和容器/協(xié)議的邊界。存儲(chǔ)可以有各種容器和介質(zhì),傳輸也可以有各種協(xié)議和物理介質(zhì)。應(yīng)用更是豐富多彩。以前一個(gè)視頻廣播業(yè)務(wù)需要地面廣播或者Cable或者衛(wèi)星+接受機(jī)+電視一整套系統(tǒng)。現(xiàn)在無論是專用接收機(jī)、電腦,還是手機(jī)都可以完成視頻廣播的接收,基于IP的網(wǎng)絡(luò)協(xié)議可以通過光纖或者衛(wèi)星鏈路實(shí)時(shí)地傳送到各個(gè)邊緣節(jié)點(diǎn),再通過Cable、Wifi、Cellular傳輸?shù)浇K端。


線索2:硬件和質(zhì)量提升


第二條線索可以從硬件和質(zhì)量上看。記得我剛上大學(xué)的時(shí)候,在電腦上看VCD還需要一個(gè)MPEG解碼卡的專用硬件。隨后不久,CPU等硬件能力持續(xù)增強(qiáng),出現(xiàn)MMX等專門為多媒體設(shè)計(jì)的指令,這些讓軟解成為可能。但是好景不長,更高質(zhì)量DVD的出現(xiàn)又讓老舊硬件性能捉襟見肘。接著又是更強(qiáng)的CPU,帶硬件加速的顯卡。這種硬件的升級(jí)和質(zhì)量的需求互相促進(jìn)形成閉環(huán)。模擬信號(hào)一個(gè)頻道可以傳輸一路標(biāo)清視頻,MPEG2一條TS流可以傳輸五路標(biāo)清或一路高清,升級(jí)H.264后高清也能傳五路了。以前手機(jī)只能窄帶語音,現(xiàn)在則需要全帶全雙工。音視頻開發(fā)需要不斷更新技術(shù),適配新硬件,滿足新的需求。


線索3:互動(dòng)和場景豐富


場景豐富,尤其是互動(dòng)的需求是不可忽略的一個(gè)趨勢。在IP化/互聯(lián)網(wǎng)化之前,早有DVD加入互動(dòng)菜單,藍(lán)光BD引入BD-J可以跑Java程序進(jìn)行互動(dòng),數(shù)字廣播DVB加入MHP ,使用一個(gè)撥號(hào)網(wǎng)絡(luò)作為回傳通道。DVB-H則在COFDM+TS上加入DSM-CC把音視頻IP化。互聯(lián)網(wǎng)化之后,基于互聯(lián)網(wǎng)實(shí)時(shí)傳輸分發(fā)網(wǎng)絡(luò),可以方便的實(shí)現(xiàn)全雙工多方互動(dòng)。


LiveVideoStack:經(jīng)歷了眾多產(chǎn)品的音視頻架構(gòu)底層開發(fā),包括之前的QQ語音以及現(xiàn)在的即構(gòu)科技。相比于過往的產(chǎn)品,你認(rèn)為即構(gòu)的音視頻架構(gòu)有哪些變化與不同?


金健忠:QQ語音架構(gòu)是我在2010年加入騰訊后,針對(duì)騰訊互聯(lián)網(wǎng)+實(shí)時(shí)音視頻場景應(yīng)用開發(fā)的。后續(xù)又經(jīng)歷騰訊音視頻中心、騰訊互娛、騰訊云等多個(gè)團(tuán)隊(duì)的打磨,可以說性能已經(jīng)非常出色。在即構(gòu),為豐富互聯(lián)網(wǎng)+音視頻應(yīng)用場景,我們重新設(shè)計(jì)了一套音視頻架構(gòu),旨在希望以平臺(tái)的方式滿足各個(gè)行業(yè)對(duì)音視頻需求。在思路上,我們吸取了以往架構(gòu)的經(jīng)驗(yàn),比如我們同樣設(shè)計(jì)靈活的模塊結(jié)構(gòu),讓音視頻處理管道可以合理安排線程、buffer,保證整個(gè)管道實(shí)時(shí)、高效。同時(shí),我們也針對(duì)更復(fù)雜的場景在技術(shù)上進(jìn)行一些優(yōu)化,比如:


  • 音視頻引擎的整體設(shè)計(jì)

  • 更好的音視頻同步設(shè)計(jì)

  • 支持多協(xié)議以及多協(xié)議互通

  • 支持時(shí)鐘注入,進(jìn)一步優(yōu)化數(shù)據(jù)驅(qū)動(dòng)鏈路

  • 優(yōu)化元數(shù)據(jù)處理流程,媒體數(shù)據(jù)和元數(shù)據(jù)有強(qiáng)相關(guān)性,管道結(jié)構(gòu)中需要維護(hù)這種相關(guān)性,包括有緩沖節(jié)點(diǎn)和無緩沖節(jié)點(diǎn)

  • 更靈活的buffer機(jī)制,同時(shí)支持可引用和不可引用buffer,支持CVPixelBuffer/SurfaceTexture等傳遞方式

  • 靈活的模塊間協(xié)商機(jī)制,靜態(tài)協(xié)商、事件觸發(fā)協(xié)商、動(dòng)態(tài)協(xié)商。比如切換硬件codec的時(shí)候可以觸發(fā)事件協(xié)商改用SurfaceTexture

  • 就近接入調(diào)度支持、最優(yōu)線路調(diào)度支持、分發(fā)調(diào)度支持


LiveVideoStack:市面上很多實(shí)時(shí)音視頻方案是基于WebRTC,即構(gòu)在最初技術(shù)選型時(shí),為什么沒有選用WebRTC,而選擇了走自研這條路?


金健忠:即構(gòu)提供完整的互聯(lián)網(wǎng)+音視頻平臺(tái)服務(wù),包括內(nèi)容產(chǎn)生、接入、分發(fā)、回放等環(huán)節(jié),支持多端互通,包括WebRTC協(xié)議的Web端。Web端互通只是即構(gòu)音視頻平臺(tái)服務(wù)中眾多特性中的一個(gè)。WebRTC開源框架沒有原生支持即構(gòu)的眾多特性,相比從WebRTC框架開始修改打磨來說,自研可以從一開始就融入即構(gòu)的設(shè)計(jì)原則,從架構(gòu)、算法、平臺(tái)支持、協(xié)議等方面最優(yōu)化設(shè)計(jì)。

例如:


技術(shù)架構(gòu)上,我們希望原生支持多路音視頻,支持AUX輸入環(huán)回或混音到遠(yuǎn)端,支持低延遲耳返,原生支持多協(xié)議,支持外部采集、渲染、外部編碼、解碼音視頻外部濾鏡等。


算法設(shè)計(jì)上,一開始就考慮到架構(gòu)和場景,比如Jitter Buffer,幀率碼率控制,視頻分層編解碼等都會(huì)匹配多協(xié)議設(shè)計(jì)。帶寬預(yù)測,反饋能夠適應(yīng)多跳選路(例如國際加速優(yōu)化),分發(fā)到需求。3A設(shè)計(jì)采用全頻帶,適應(yīng)多場景多平臺(tái)多需求。


平臺(tái)支持上,能夠更好適應(yīng)通用/嵌入平臺(tái),如CVPixelBuffer,SurfaceTexture原生支持等。


協(xié)議支持上,就近接入調(diào)度,支持多跳路由優(yōu)化,支持分發(fā),支持秒開特性。媒體層協(xié)議進(jìn)行合理安排減少連接建立時(shí)間。


LiveVideoStack:隨著5G商用時(shí)間表的臨近,VR場景將會(huì)得到釋放,最可能帶來變革的就是音視頻領(lǐng)域。你覺得5G將會(huì)給音視頻行業(yè)帶來怎樣的機(jī)遇與挑戰(zhàn)?


金健忠:VR/AR是交互方式革新,本身還有許多技術(shù)問題需要解決。為了營造沉浸式環(huán)境,需要給用戶提供極快速的響應(yīng)。100Hz的刷新頻率、LCD(液晶顯示器)的一點(diǎn)點(diǎn)拖尾都會(huì)讓用戶覺得頭暈。高分辨率、高刷新頻率需要的高帶寬讓頭戴設(shè)備很難擺脫物理聯(lián)線。精準(zhǔn)的定位和不到10ms的響應(yīng)時(shí)間也是需要突破的難點(diǎn)。我覺得整個(gè)VR/AR的革新主要還是在其本身,只有這些問題解決后才會(huì)引起音視頻的進(jìn)一步變革。


相比VR來說,5G商用已經(jīng)有時(shí)間表。5G可能會(huì)帶來帶寬、延遲、密度方面的變化。


這些提升主要來自毫米波段的使用,QAM256,100MHz頻道。一般認(rèn)為5G可以帶來Gb/s級(jí)別的用戶帶寬,ms級(jí)別空口延遲。這個(gè)水平相當(dāng)于使用網(wǎng)線連接千兆以太局域網(wǎng)。整個(gè)系統(tǒng)的瓶頸會(huì)轉(zhuǎn)移到如國內(nèi)網(wǎng)絡(luò)環(huán)境50ms RTT,國外直連 >200ms RTT,云虛擬機(jī)負(fù)載,云虛擬機(jī)單鏈接性能,存儲(chǔ)性能等其他方面。可以從服務(wù)器接入調(diào)度,優(yōu)化負(fù)載調(diào)度,單鏈接性能等方面優(yōu)化整體性能。


LiveVideoStack:展望未來,你對(duì)音視頻領(lǐng)域有哪些期待?


金健忠:我認(rèn)為有以下幾個(gè)方面,


  • 變聲和聲音特效

  • 更好的語音去背景噪聲。

    當(dāng)前實(shí)用的降噪算法主要集中在噪音學(xué)習(xí)和陣列降噪上。但是人耳人腦的能力遠(yuǎn)超現(xiàn)在算法能達(dá)到的水平,比如人在嘈雜環(huán)境下,也有很大可能“過濾掉”噪聲和其他人的語音集中理解某個(gè)人說話。

  • 聲紋識(shí)別,說話人識(shí)別

  • 語音分離,音樂分離。

    比如兩個(gè)人說話,能把一個(gè)人的語音完整分離出來。能夠從交響樂分離出大提琴的聲音。

  • 語音識(shí)別

    音樂識(shí)別,哼唱識(shí)別。這個(gè)也很有意思,哼一哼就能找到對(duì)應(yīng)歌曲。這個(gè)領(lǐng)域好像有一些接近實(shí)用的應(yīng)用了。


其它還包括以下領(lǐng)域,都非常令人期待:


  • 更高效視頻codec,4k,8k,低碼率,足夠低的計(jì)算復(fù)雜度

  • 更好的視頻分層編碼codec

  • 人臉識(shí)別

  • 文字識(shí)別

  • AI視頻分類



超強(qiáng)干貨來襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生

總結(jié)

以上是生活随笔為你收集整理的即构科技金健忠:回顾20年音视频技术演进的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。