當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 208

發布時間：2024/4/11 编程问答 71 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 208 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

每周一期，縱覽音視頻技術領域的干貨。

新聞投稿：contribute@livevideostack.com。

完整聲學極簡史

偶然得見一篇文章簡單介紹了聲學發展史，與我之前的幾篇文章有很大關聯。所以將其添油加醋放到這里，用編年史的形式呈現。顯然這里涵蓋的僅為聲學史的一隅，所以在厚顏無恥的“完整”二字后面，加上“極簡”以示謙卑。

8K 和光場/全息技術的發展現狀

本次演講由 Insight Media 的總裁，也是 8k 協會的執行董事 Chris Chinnock 帶來。演講的主題是 8K 和光場/全息技術的發展現狀，探討了使用 8K 的現實動機，并概覽了目前正在進行的工作，即把成像進一步推向光場和全息技術。

OpenGL 屏幕成像和渲染原理解析

OpenGL或者shader的編程都是面向過程的，大部分是面向GPU的，這和面向CPU編程的思想是有所不同的。以前總覺得圖形的變換總是在第一幀的基礎上進行是費時費力的，如果在上一幀的基礎上變換豈不是更省事，理解了屏幕成像和渲染原理之后對這個問題，或者說對圖形學才有了初步的理解。

Vimeo 的數字版權管理（DRM）
數字版權管理 (DRM) 可實現媒體的安全傳輸，以便除其預期接收者之外的任何實體都無法有意義地訪問它。Vimeo從事提供視頻訪問的業務，隨著我們通過 Vimeo OTT 服務支持更大的工作室，許可證持有者希望對其內容進行更深入、更細致的控制；較大的工作室在在線播放時有更嚴格的 DRM 要求。因此，從黑匣子中辨別 DRM 的可配置部分對于確保無縫播放以及有意義地保護許可視頻至關重要。

https://medium.com/vimeo-engineering-blog/drm-at-vimeo-9c3b9537119a

AV2 視頻編解碼器——早期性能評估研究

本文針對libaom AV1編碼器，提出并討論了AV2作為研究分支的新編碼工具的廣泛性能評估。

https://ottverse.com/av2-video-codec-evaluation/

DCT如此重要，作者當初竟然不知道？
前段時間，LiveVideoStack發布了一篇文章《視頻壓縮簡史：從1920到2020》，這篇文章獲得了很高的閱讀量，文章中記錄了一個又一個視頻壓縮歷史上的里程碑事件，而其中最引人注目，也最重要的發明之一就是DCT。沒有DCT，后面的H.26X， JPEG等一系列壓縮標準將無從談起。

SoundStream：端到端神經音頻編解碼器
今年早些時候，我們發布了Lyra，這是一種用于低比特率語音的神經音頻編解碼器。在“SoundStream：端到端神經音頻編解碼器”中，我們介紹了一種新穎的神經音頻編解碼器，通過提供更高質量的音頻并擴展到編碼不同的聲音類型，包括干凈的語音、嘈雜和混響語音、音樂, 和環境聲音。SoundStream 是第一個處理語音和音樂的神經網絡編解碼器，同時能夠在智能手機 CPU 上實時運行。它能夠使用單一訓練模型在廣泛的比特率范圍內提供最先進的質量，這代表了可學習編解碼器的重大進步。

https://ai.googleblog.com/2021/08/soundstream-end-to-end-neural-audio.html

fraunhoferhhi的VVC編碼器更新V 1.1.0版本
在此次的更新版本中，添加了BCW、重新定義預設、提高 SCC 和 2-pass RC 精度，以及各種錯誤修正和改進。

https://github.com/fraunhoferhhi/vvenc/releases/tag/v1.1.0

H.266/VVC 幀內預測技術
相比于 HEVC，VVC 對已有的一些幀內預測技術在多個方向上進行了細化和優化：加倍細化的預測角度，及針對長方形塊的更有效預測的廣角模式；更加高效自適應的 4 頭內插及平滑濾波；多個參考行；多個子塊劃分......

VVenC：開源實用 VVC 編碼器的優化

本篇是 PCS2021 的 workshop，講述 HHI 開發 VVenC 的一些進展與細節。首先 Benjamin 對 VVenC 有一個整體上的介紹，隨后 Adam 詳細介紹了 VVenC 的 preset 是如何通過帕累托優化挑選的，VVenC 的多線程優化，最后，Christian 介紹了 VVenC 的主觀優化。

李超：WebRTC傳輸與服務質量

為了保證音視頻的質量，WebRTC底層做了大量的工作，尤其是網絡傳輸與服務質量，更是其核心技術，本文由北京音視跳動科技有限公司首席架構師李超在LiveVideoStack線上分享的演講整理而成，詳細解析了WebRTC底層技術與優化在網絡質量、傳輸實時性與服務質量之間的矛盾以及平衡之道。

如何實現H.264的實時傳輸？
實時視頻系統中的媒體傳輸，絕大多數都會采用RTP（實時傳輸協議）標準。H.264視頻作為當前應用最廣泛的視頻編碼標準，其傳輸協議也會首選RTP標準。在設計實現H.264的實時傳輸時，H.264協議基于RTP的打包和解包定義于IETF標準-RFC6184，RTC系統需要遵循這個標準來設計打包和解包處理模塊。在通信理論中，這個過程可以被認為是基于傳輸的信道編碼。本篇技術文章帶你了解H.264在RTP中的基本格式和技術實踐。

TCP 才不傻！
本文回答了讀者對TCP在3次握手和4次揮手的一些疑問，這些問題都是關于TCP是如何處理這些異常場景的，我們在學TCP連接建立和斷開的時候，總是以為這些過程能如期完成。可惜理想很豐滿，現實很骨感，事實預料呀。但TCP才不傻，對以上這些異常場景都是有做處理的。

開啟生成式視頻壓縮：谷歌基于GAN來實現，性能與HEVC相當

來自谷歌的研究者提出了一種基于生成對抗網絡 (GAN) 的神經視頻壓縮方法，該方法優于以前的神經視頻壓縮方法，并且在用戶研究中與 HEVC 性能相當。

論文推介：語音增強模型DCCRN+—基于SNR估計的子帶DCCRN
DCCRN+是基于DCCRN的改進，提出了一種結合SNR估計和子帶處理的語音增強方法，可以在模型降噪能力和人聲質量兩個方面做較好的權衡，模型的前向推理速度也得到了一定的提升。

ICASSP2021：基于顯著性進行目標檢測的VVC編碼
本文論文基于VVC提出了面向顯著性的編碼框架用于處理機器任務。為了在編碼前獲取顯著性區域，論文使用YOLO進行目標檢測。為了驗證編碼對于機器處理的效果，論文對解碼圖像使用Mask R-CNN進行目標分割。

驚艷的NeRF算法，可用于視圖合成的神經輻射場技術

2020和2021年，最火的計算機視覺技術非Transformer莫屬。而除Transformer之外，最受歡迎也最有趣的技術我想應該是ECCV 2020的神經輻射場 (Neural Radiance Field, NERF) ，其核心點在于非顯式地將一個復雜的靜態場景用一個神經網絡來建模。在網絡訓練完成后，可以從任意角度渲染出清晰的場景圖片。

BEBLID：增強的高效局部圖像特征描述符

作者提出了一種有效的圖像描述符BELID。其有效性的關鍵是對一組圖像特征進行有區別的選擇，且計算量要求非常低。實驗是在電腦和智能手機上進行，BELID的精確度與SIFT相似，執行時間與最快的算法ORB相當。

為什么VR視頻的清晰度不高？
VR內容的清晰度一直以來廣受關注，也是提升用戶沉浸感體驗的重要因素。不過，體驗過VR視頻的不少用戶都會抱怨：我們看的明明是4K甚至是8K內容，可實際觀感還不如手機1080P的畫質。是我買了個假VR設備？還是看了個假4k內容？

基于深度學習的視覺三維重建研究總結
三維重建作為環境感知的關鍵技術之一，可用于自動駕駛、虛擬現實、運動目標監測、行為分析、安防監控和重點人群監護等。現在每個人都在研究識別，但識別只是計算機視覺的一部分。真正意義上的計算機視覺要超越識別，感知三維環境。我們活在三維空間里，要做到交互和感知，就必須將世界恢復到三維。所以，在識別的基礎上，計算機視覺下一步必須走向三維重建。本文筆者將帶大家初步了解三維重建的相關內容以及算法。

Road-SLAM：基于道路標線車道級精度SLAM
在本文中，我們提出了基于道路標記SLAM算法，該算法充分利用了從相機圖像中獲取的道路標記，道路標記物分類良好，信息豐富，用來實現全局定位。

活動推薦

【免費活動】字節跳動背后的音視頻技術揭秘

10月29日 | 北京?LiveVideoStack將聯合火山引擎的5位技術專家在本專題中，展示字節跳動背后的音視頻技術，以及如何利用這些技術支撐業務發展并滿足合作伙伴的需求。本次分享將從音視頻編解碼開始，回顧音視頻編碼技術并進行展望，介紹編碼的優化與評估；隨后，將介紹音視頻在直播方面的應用和如何通過音視頻支持業務的增長；最后，將以抖音為例，介紹RTC技術是如何追求極致的體驗。

? 活動時間：2021/10/29 14:00-18:00

???? 參與方式：線下參與?

?????報名方式：點擊鏈接?

http://livevideostack.mikecrm.com/j2buNlt 免費報名：）

【公開課預告】GVoice 千萬在線語音傳輸的那些事

本期的主題GVoice，它為騰訊旗下的主流游戲提供低延遲語音通話服務，其特點是高并發、覆蓋全球。本次分享的嘉賓許路平是GVoice后臺負責人，他會詳細介紹游戲業務的特點，以及GVoice針對性的架構與協議的設計原則和方法，高可用保障與成本控制，重點性能突破和未來展望等。

講師信息：

許路平 騰訊游戲后臺研發高級工程師。主要從事游戲多媒體網絡傳輸技術，游戲對戰網絡傳輸技術，游戲網絡傳輸優化等設計開發工作。參與王者榮耀對戰網絡傳輸，多鏈路通信設計開發，負責騰訊游戲語音GVoice后臺架構設計和開發，成功服務于王者榮耀、和平精英，PubgM，LOL等騰訊所有自研，代理游戲，并支撐行業2000多款游戲，構筑全球千萬在線語音通信平臺。在確保高并發，低延時的前提下給游戲帶來低成本高音質的語音體驗。

? 活動時間：2021. 08. 17 | 19:30

???? 觀看方式：
1. 掃描上圖二維碼加LiveVideoStack小秘書，進群與嘉賓交流
2. 關注LiveVideoStack視頻號，記得預約：）

插圖源自Pexels

超強干貨來襲云風專訪：近40年碼齡，通宵達旦的技術人生

總結

以上是生活随笔為你收集整理的音视频技术开发周刊 | 208的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： DCT如此重要，作者当初竟然不知道？
下一篇：【免费报名】与阿里云一同探索视频云的新技