【线上圆桌整理 - 腾讯会议】进化中的视频会议
本次分享將聚焦在進(jìn)行中的視頻會議,針對視頻會議新技術(shù)做探討。視頻會議不是單純的編解碼和網(wǎng)絡(luò)傳輸應(yīng)用,它背后的數(shù)據(jù)支撐以及新能力引入都會帶來新的可能和機遇。本次演講邀請到騰訊會議產(chǎn)品部網(wǎng)絡(luò)技術(shù)組許景禧分享騰訊會議最近在網(wǎng)絡(luò)質(zhì)量分析方面的工作(本文略過),以及探討近期熱門的光場會議,與大家交流視頻會議潛在的進(jìn)化方向。
內(nèi)容源自騰訊會議產(chǎn)品部高級研究員?許景禧在視頻會議下半場圓桌上的分享。
我是來自騰訊會議產(chǎn)品部網(wǎng)絡(luò)技術(shù)組許景禧。本次想與大家討論視頻會議方面最近有哪些新的技術(shù)有可能落地。
我們今天會聊一下最近比較感興趣的視頻會議新形式——光場會議,希望可以拋磚引玉與大家做討論。光場會議主要會討論其核心模塊,目前使用相關(guān)技術(shù)有哪些種類?
1
騰訊會議關(guān)注行業(yè)前沿
1.1 先進(jìn)視頻技術(shù)
事實上,騰訊會議一直關(guān)注業(yè)界和學(xué)術(shù)界的新進(jìn)展,落地了大量前沿技術(shù),例如提高共享屏幕高保真度的特殊YUV4:4:4編碼,“Tencent Screen Encoder” TSE技術(shù),還有喜聞樂見的虛擬背景、美顏方面技術(shù)。
1.2 優(yōu)秀音頻體驗
值得一提的是騰訊會議在音頻方面花了很大力氣,設(shè)立了專門的天籟實驗室,投入大量研發(fā),推出超寬帶語言的編解碼器、智能降噪、回音檢測消除技術(shù)。我們最近還推出騰訊會議天籟模組給合作伙伴,讓他們結(jié)合自己的硬件實現(xiàn),提供與騰訊會議一樣高質(zhì)量拾音能力。
2
依托騰訊云 騰訊會議助力企業(yè)協(xié)作轉(zhuǎn)型
目前騰訊會議在全球超過一百多個地區(qū)上架海外版,讓企業(yè)與全世界各地的人做實時音視頻會議交流。
3
更多客戶選擇
大量政府企業(yè)、教育企業(yè)已經(jīng)使用了我們的產(chǎn)品,同時我們也保證了很多重要會議的召開。我們致力于持續(xù)增加騰訊會議的穩(wěn)定性以及極端網(wǎng)絡(luò)抗性。
4
企業(yè)運營管理平臺
騰訊會議有大量企業(yè)用戶,對內(nèi)部會議有較高要求,需要為它提供完整的管理工具和問題定位系統(tǒng),讓企業(yè)IT方便了解整體資源消耗,查看目前會議進(jìn)行狀態(tài),或讓企業(yè)會服在不參與會議情況下配置會議相關(guān)細(xì)節(jié)闡述。
5
新一代的視頻會議探討——光場會議
騰訊會議一直關(guān)注著最新技術(shù)進(jìn)展,因為我們知道新技術(shù)都有為客戶提供更好會議體驗的潛力。最新關(guān)注的光場會議是比較熱門方向,這里我們分享一些觀察和看法。
說到光場會議,大家首先想到的是Google Starline項目,系統(tǒng)比較大的賣點是做到讓參會者有共處一室的體驗,最關(guān)鍵的一點是,讓多個參會者能在多個不同角度看到遠(yuǎn)程會人的不同側(cè)面。
5.1 顯示
此技術(shù)最讓人關(guān)注的點是,遠(yuǎn)端參會者是通過什么方式在本地展示出三維效果的,所以我們優(yōu)先討論這點。事實上,有很多技術(shù)可以實現(xiàn)這一點。例如我們可以通過佩戴VR/AR設(shè)備,如Valve Index,或者是微軟的Hololens,看到參會者虛擬形象。又或者,如果不想佩戴此種設(shè)備就直接看到三維的效果,SONY有硬件可以通過追蹤人眼觀察角度讓用戶看到畫面多個角度:從這邊看,就顯示這邊的視角;從另一邊看,就顯示另一邊的視角,進(jìn)而感受到三維效果。如果想要像Google Starline一樣,能讓多個人同時觀看到三維效果,那就需要用到光場顯示器。比較有代表性的是Looking Glass 8K這個設(shè)備。
5.2 多人同時觀看多角度顯示器
LookingGlass廠商設(shè)備具體怎么做的呢?事實上這個技術(shù)看起來很高深,但本質(zhì)很簡單:每個像素提供45個觀看角度,當(dāng)用戶從相應(yīng)角度觀看就可以看到相應(yīng)畫面。45個角度其實是45個不同的畫面,將這些畫面按一定順序輸入至設(shè)備上,就可以如右下角那樣,搖擺顯示器就能看到不同的側(cè)面。事實上,這里有45個不同角度的視頻在同時顯示。不同廠商有不同實踐形式,LookingGlass應(yīng)該是使用棱鏡的形式,還有一些會采用納米膜。不同廠商的設(shè)備提供的可視角度會有一定區(qū)別。Looking Glass 8K這個產(chǎn)品只能從水平50度角的范圍內(nèi),平分成45個角度觀看,上下移動時是不能看到對方的頭頂?shù)?#xff0c;這點和Google的演示還有點類似。我們覺得Google有可能會用類似技術(shù)的硬件做展示,但也留意到Looking Glass暫時沒有這么大尺寸的顯示器,這里推測他們用的是定制設(shè)備。
5.3 采集
那我們怎么提供這45個視角的視頻呢?最簡單的方式,就是用扇形排布的45個攝像頭拍攝人物,并將得到的45個角度視頻實時傳到硬件上,這樣就可以完成最粗暴的光場會議。這里可能會存在一些問題,如攝像頭要怎樣做標(biāo)定和同步。同時,傳輸45個視頻雖然不是不能做到,但還是比較浪費帶寬。Google有篇論文(上圖左下角)講到它如何通過攝像頭陣列做到類似事情,感興趣的同學(xué)可以看一下如何減少攝像頭的數(shù)目做到同樣效果。
看回Google Project Starline的宣傳圖片,它的上下方看起來都有攝像頭陣列。我們猜測它的本質(zhì)還是用這種多攝像頭整列做重建。
5.4 重建
事實上,有三種不同的方式做重建。
一是采用虛擬人或者是Avatar的形式(如左上騰訊虛擬人)。用虛擬人可以事先采集人的整體特征,建立模型,再在實時會議上把人的動作表情映射到虛擬人上。缺點是要做大量前處理工作,用起來不方便。?
二是零幾年到一幾年一直流行的“點云”以及面重建技術(shù)(右上)。微軟對這一技術(shù)有很多研究,也有消息說微軟的Holoportation團(tuán)隊出來創(chuàng)業(yè)后被Google收購了,所以Google也是可能用到類似技術(shù)的。
三是最近比較新的基于深度學(xué)習(xí)的多視角合成技術(shù)。多視角合成(左下)技術(shù)認(rèn)為我們采集和傳輸45個視角太多了。事實上只需要用少量的,例如12個視角,通過一些方式生成剩下視角,就可以重建出這45個視角。這個技術(shù)的好處是泛用性較好,比較有代表性的是一個叫NeRF的工作,相關(guān)論文講到如何能通過神經(jīng)輻射場做到這點。然而,采用該論文的方案,在我們的測試環(huán)境上,每次更換場景和人員的時候都需要進(jìn)行7-8小時的訓(xùn)練,渲染一幀圖像也要用超過1分鐘的時間,很難在實時會議中落地。在新一點的論文上,會有增加泛用性的一些方案,可以做到場景更普適,渲染時間更短,各位可以留意一下相關(guān)的進(jìn)展。
以上是三套不同的方式來做的重建方案。這邊目前不確定Starline用的是哪種方案,也許是三者兼有,歡迎各位討論。目前比較明確的只有光場顯示器是必需品。
以上就是我的全部分享,謝謝大家。
詳情請掃描圖中二維碼或點擊閱讀原文了解大會更多信息。
總結(jié)
以上是生活随笔為你收集整理的【线上圆桌整理 - 腾讯会议】进化中的视频会议的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【线上圆桌整理 - 微软】后疫情时代现代
- 下一篇: 视频压缩标准简史:从1929到2020