日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

拥抱智能,AI视频编码技术的新探索

發布時間:2024/4/11 ChatGpt 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 拥抱智能,AI视频编码技术的新探索 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

隨著視頻與交互在日常生活中的作用日益突顯,愈發多樣的視頻場景與不斷提高的視覺追求對視頻編碼提出更高的挑戰。相較于人們手工設計的多種視頻編碼技術,AI編碼可以從大數據中自我學習到更廣泛的信號內在編碼規律。工業界與學術界發力推動AI視頻編碼標準并進行新框架的探索。阿里云視頻云在JVET面向人眼的視頻編碼標準和MPEG面向機器視覺的視頻編碼標準上均做出重要貢獻,對標準發展產生強有力的推動。結合產業需求強勁的視頻會議、視頻直播等場景,阿里云視頻云還開發了AI生成式壓縮系統,在同等質量下比VVC節省2-3倍碼率,實現真正的超低碼率視頻通信。本次LiveVideoStackCon 2021北京站我們邀請到了阿里云智能視頻云算法專家——王釗,為大家分享阿里云在AI視頻編碼技術的新探索。

文 | 王釗

整理 | LiveVideoStack

大家好,我是王釗,就職于阿里云視頻云,今天的分享主題是“擁抱智能,AI視頻編碼技術的新探索”。主要想和大家介紹阿里云視頻云的兩個前沿工作。

分享包括四部分,背景與動機、人物視頻生成編碼、機器視覺編碼和未來展望。

1. 背景與動機

我將從人眼視覺、機器視覺兩方面延伸介紹阿里云視頻云探索AI視頻編碼技術的背景與動機。

視頻本身的數據量非常大,一張4K圖像原始大小為24.3MB、4K未壓縮視頻的帶寬需求約為6Gbps、一個超清攝像頭每天產生的原始視頻高達63TB,只有進行了視頻編碼才可以傳輸、存儲。

隨著時代的發展,智能安防、自動駕駛、智慧城市、工業互聯網等場景中的視頻也可以被機器接收、感知、理解。

以自動駕駛為例,一輛車主要具備的系統或設備包括攝像頭系統(檢測前方物體)、夜視紅外、雷達測距器、慣性傳感器、GPS定位器及激光雷達(360°進行掃描),這些都由機器采集圖像和視頻,再交付給機器進行分析、發現并解決問題、完善功能。

機器在某些維度上的能力優于人類,比如觀測精度、感知靈敏度、工作強度耐受性(機器可以全天候運轉)、客觀性、可量化性。

據Cisco統計,以機器視覺為主的從機器到機器的數據傳輸將占據全球數據傳輸的50%,這是非常大的量。

無論是人眼視覺還是機器視覺,視頻編碼的原理都是一樣的,即依靠視頻信號本身存在的相關性:一幅圖像中相鄰的像素值接近,這是空域相關性;相鄰圖像的像素值接近,這是時域相關性;如果將像素從空域變換為頻域,其中也存在相關性。這就是視頻壓縮的三個最基本相關性,空域冗余、時域冗余,信息熵冗余,由此誕生了視頻編解碼的三個主要模塊,幀內預測、幀間預測,變換/熵編碼。

冗余消除本身是無損的,但視頻壓縮會出現失真,失真是如何造成的呢?這是為了進一步提高壓縮率,把視頻信息變換到某個域上,例如傳統編碼通常變換到頻域,再按照其重要性進行優先級排序,把優先級低的如高頻信息直接丟棄或量化操作進行消除從而大幅度提高壓縮率,所以是量化在提高壓縮率的同時帶來了失真。

綜上,視頻壓縮依靠兩個維度,一是相關性的消除,不會造成失真。二是將信息變換到某個域上進行優先級排序,對優先級低的信息進行丟棄、消除或量化。

基于以上視頻壓縮原理,在過去的50年中,全球范圍內的視頻編解碼工作人員推出了一代又一代的視頻標準,雖然標準一代一代更新,但都是基于劃分、預測、變換、量化、熵編碼的框架沒有變過去年JVET社區定稿了VVC標準,在VVC之后也致力于傳統編碼和神經網絡編碼的兩方面探索。國內在定稿了AVS3之后,也在深挖傳統編碼和神經網絡編碼以希望進一步提高視頻編碼效率。在機器視覺領域,MPEG成立了面向機器的視頻編碼工作組(VCM),國內成立了面向機器智能的數據編碼工作組(DCM)。

以VVC為例,去年制定的VVC對比2013年頒布的HEVC標準,雖然壓縮性能提升一倍,但深入研究每個模塊中模式數量的變化,會發現幀內預測、幀間預測及變換都增加了很多模式,這意味著平均每個模式能夠帶來的壓縮性能增益變得更小。

每個編碼模式都是由視頻編解碼專家根據自身所學及理解對視頻信號進行數學化表達,每個模式的本質都是數學模型,而人們掌握的數學模型都很簡單,比如線性模型、指數函數、對數函數、多項式等。模型的參數量不會很多,一般是幾個,最多是幾十個。壓縮性能提升愈發困難的原因也在此,人們能夠規律化總結的數學模型相對簡單,表達能力有限,但視頻內在的規律性卻是無限的。

從模型角度,基于人工智能的神經網絡模型可以通過更多的參數不斷提高數學表達能力。數學領域已嚴格證明神經網絡能夠表達任意函數空間,只要參數足夠,表達能力就會越來越強。手動設置的參數只有幾個或幾十個,但神經網絡設計的模型中參數可以多達幾百萬個,甚至Google推出了億級參數的超大模型。從上限來看,基于AI編碼的視頻壓縮一定會比基于傳統編碼的視頻壓縮有著更高的性能上限。

從視頻信號本身的冗余性角度,上文提到傳統的視頻編解碼在過去的五十年里都在消除空域冗余、時域冗余和信息熵冗余。

除了這三個冗余,其實還有其它的冗余對視頻壓縮來說有很大的性能提升空間。首先是結構冗余,右下方的兩朵花很相似,在編碼中,如果已經編碼好第一朵花,那么編碼第二朵花時的很多信息就可以從第一朵花的編碼中推導出來,無需完全編碼。第二個是先驗知識冗余,見右上圖,如果用手遮住右半部分人臉,只留左半部分,由于人臉接近對稱,我們依然可以想象出被遮住的部分,這是因為人們的腦海里有了人臉近似對稱的先驗知識。那么也可以讓機器記憶先驗知識,就無需把信息從編碼端編碼到解碼端。

所以對于視頻壓縮來講,結構冗余和先驗知識冗余也很重要,傳統編碼并不是不能利用這兩者,只是人工智能和神經網絡在額外利用結構冗余和先驗知識冗余上更高效,更游刃有余。

2. 人物視頻生成編碼

首先看一個簡單的兩幀編碼問題,編碼端先將第一張圖像的信息告訴解碼端,解碼端已經接受了第一張圖像并且解碼出來,我們將其作為參考幀。此時,如何壓縮當前幀?

(右上兩圖)在傳統編碼中,方法是將當前圖像分為一個個圖像塊,每個圖像塊在參考幀中找到最相似的參考塊,當前圖像塊與參考快之間的相對位移稱為運動矢量,這樣就可以基于參考塊預測當前塊的預測值,拿到當前圖像最可能的預測幀,再將預測幀和當前幀的差值編碼過去就可以了。相對于圖像壓縮來說,視頻編碼的效率非常高,因為視頻編碼的時域預測、時域相關性非常強。但這個碼率也不會很低,因為要編碼的東西很多,比如圖像塊劃分的劃分信息,每個圖像塊的運動信息、殘差值等。所以壓縮效率雖然相比圖像壓縮高很多,但也達不到超低碼率。

為了實現超低碼率壓縮,我們提出了AI生成壓縮方法。(右下兩圖)不再將整張圖像劃分為一個個的圖像塊,而是將它當做整體,將整張圖像通過神經網絡轉換至某種特征域,在特征域上提取少數關鍵點,只需將關鍵點傳輸到解碼端,解碼端收到后并基于參考幀就能夠驅動生成當前幀的圖像。其中,關鍵點數目可變,例如實例中有十個點,所以每幅圖像只需傳輸幾十個數值即可,碼率高出傳統編碼方式非常多。

對于整個視頻來說,可以先用傳統編碼傳輸第一幅圖像,再用AI生成編碼傳輸接下來的圖像,在編碼端提取每一幀的關鍵點傳輸到解碼端。解碼端如何生成這一幀?首先提取參考幀關鍵點將其和當前幀解碼的關鍵點一起送入神經網絡中,得到特征域上的稀疏運動場。兩幅稀疏運動場都會被送入Dense motion Net中得到密集運動場,并同時得到一張遮擋圖。參考幀、密集運動場和遮擋圖再一起被送入生成器中,從而生成當前幀。

這是關鍵點在特征域的可視化結果。

以第一行的圖像為例,第一副是參考圖像及其關鍵點,第二副是當前需要編碼的圖像及其關鍵點,中間十副帶顏色的圖像是每個關鍵點在特征域上反映的運動信息。其中第三副反映的是整體人臉正面的運動情況,后面幾副可能反映頭部外側的運動情況,靠近右側的幾副可能反映下巴或嘴唇的運動情況。最后,十副特征圖上的運動場會融合在一起得到密集的運動場。

這是在整個驅動生成的pipeline過程中每個環節的主觀展示。

第一列是參考幀,第二列是當前幀,第三列是編碼過去關鍵點之后在解碼第一步首先生成的稀疏運動場,在目前的案例中,稀疏運動場對每個圖像來說使用的是44矩陣,圖中可以看到有44個方格,這是一個稀疏的運動圖。將稀疏運動場作用在參考幀上就可以得到第四列中當前圖像的簡圖,可以看到第四列人臉的位置和運動已經非常接近當前幀,只是在紋理細節上還存在差距。接著,稀疏運動場通過更加復雜的運動模型后得到密集運動場,再重新將密集運動場作用到簡圖上得到第六列中運動場作用后的更精細的圖像。最后將遮擋圖作用到運動場后的圖得到當前幀的生成圖。

在人物講話的數據集上對AI生成壓縮方案進行測試,能夠看到以下主觀上的對比。

左邊兩列視頻是最新的VVC參考軟件編碼的結果,右邊兩列是AI生成壓縮方案編碼的結果,我們的碼率略低于VVC,但能明顯對比發現畫面質量遠遠好于VVC。VVC本身的塊效應、模糊度都非常嚴重,而AI生成壓縮方案無論是在頭發、眼睛、眉毛上的細節圖都更優,在整個頭部運動的流暢度、表情的自然度方面也有明顯提升。

這是在碼率接近的情況下的質量對比,可以說已經達到了代差級的質量提升。

在更低的碼率場景下使用AI生成壓縮方案會有什么效果呢?

實驗中,VVC碼率不變,AI生成壓縮方案的碼率變為VVC的1/3,結果顯示生成質量依然優于VVC的畫面質量。

這里的測試視頻分辨率是256256,對于這個分辨率,AI生成壓縮方案只需使用3~5k的碼率就可以實現用戶之間的視頻通話。由此可以推斷,在弱網甚至是超弱網環境下,AI生成壓縮方案依然能夠支持用戶進行音視頻通話。

3. 機器視覺編碼

我們在機器視覺編碼這塊工作的最初動機是,現在的視頻應用場景中,視頻的編解碼、視頻的處理和機器視覺的分析都是分開的,而我們希望在未來能夠將這幾點結合,形成統一的系統進行端到端的優化和訓練。

我們選擇了物體檢測任務,例如這張圖像(右上圖),可能來源于監控攝像頭或自動汽車攝像頭,物體檢測就是判斷圖像中有哪些物體,這里的物體包括兩個信息,物體定位(圖中的方框)和類別識別(判斷是行人、車輛等物體類別)。

選擇物體檢測任務的原因在于物體檢測在當代機器視覺領域中,是應用最廣需求最大的技術,其次它是眾多機器視覺任務的基礎,只有先完成了物體檢測,才能進行姿態識別,例如只有先檢測出“物體”是人,才能進一步判斷他是摔倒或是行走等其他行為,在姿態識別完成后才能繼續做事件分析。

對于一張輸入圖像來說,在編碼端會有神經網絡將圖像從像素域轉換到多個特征圖,將特征圖通過熵編碼傳輸到解碼端,解碼端基于特征圖進行解析,在重構出圖像的同時完成機器視覺檢測任務。

我們在編碼端提出了創新性的Inverse-bottleneck結構(右圖),網絡模型是先寬后窄的設計。機器視覺領域的網絡模型一般隨著層數的加深通道越來越多,這樣每一層才會更密集,視覺任務精度更高。但對于壓縮來說不行,壓縮是為了降低碼率,不可能傳輸太多的數據,那么如何統一壓縮和視覺呢?我們發現,在特征通道圖之間存在大量的、高度的冗余,而這些冗余信息是可以被壓縮的,所以我們將模型設計為先寬后窄的反瓶頸結構,在基本不影響機器視覺檢測精度的前提下大大提高壓縮效率。

由于整個系統既要做壓縮任務又要做機器視覺識別任務,我們把人眼視覺和機器視覺的損失放在一起形成了聯合損失函數進行整體優化,并提出了迭代搜索來確定各損失項之間的權重關系。

在MPEG-VCM標準組上,全球很多公司進行提案。

我們的機器視覺壓縮方案對比最新的VVC標準,在COCO數據集上的測試結果顯示壓縮性能提升了41.74%,在近幾次的MPEG-VCM會議上,我們的提案性能都保持第一名。

這是性能對比的幾個例子。

左上方圖像,拍攝環境光線很暗,對于機器來說需要識別圖像中有多少人,最左邊是ground truth,它會框出人像位置,并標注“person“,預測概率是100%。VVC和我們的方案均使用相同的碼率來壓縮這樣一張圖像,解碼端各自得到失真后的解碼圖像。在VVC的解碼圖像上進行識別,沒有檢測出穿紅色短袖的男生,而我們的方案能夠檢測出這個男生,并框出位置,標注“person”,預測概率是98%,雖然沒有達到100%,但相比VVC,已經提升了很多。

右下角的ground truth框出了六個人,同樣在相同的碼率下壓縮這張圖像,在VVC的解碼圖像上只能識別出一個人(白框),而我們的方案可以識別出四個人,對比VVC有非常大的性能提升。

4. 未來與展望

首先在人物視頻編碼方面,我們的目標是實現多人、多物、多運動的復雜場景下的超低碼率視頻通話及視頻會議。

在視覺分析任務方面,我們的目標是實現可分離的多任務編碼,編碼端單通道、解碼端多分支來實現多任務的統一系統。

以上是本次的分享內容,謝謝!


講師招募

LiveVideoStackCon 2022 音視頻技術大會 上海站,正在面向社會公開招募講師,無論你所處的公司大小,title高低,老鳥還是菜鳥,只要你的內容對技術人有幫助,其他都是次要的。歡迎通過 speaker@livevideostack.com 提交個人資料及議題描述,我們將會在24小時內給予反饋。

總結

以上是生活随笔為你收集整理的拥抱智能,AI视频编码技术的新探索的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。