當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 200

發布時間：2024/4/11 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 200 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

每周一期，縱覽音視頻技術領域的干貨。

新聞投稿：contribute@livevideostack.com。

小提示：鏈接跳轉僅支持公眾號相關鏈接

全域調度：云邊協同在視頻場景下的探索實踐

隨著多媒體業務越來越多的涌現，每個業務都有不同的差異性特征。各大視頻云廠商遇到的最大挑戰是如何打造多媒體分發網絡，使用最低成本為多業務提供最優質網絡體驗。本次分享邀請到了華為云算法專家——楊昌鵬老師，為我們介紹云邊協同在視頻場景下的探索實踐。

5G低延時的誤區和機會——從理論到工程落地的數據差異

我們有幸請到虎牙直播的5G首席架構師——林正顯老師，為我們介紹5G低延時的誤區和機會。本文從介紹5G低延時原理開始，一步步解開大眾對5G低延時的5個誤區，最后分享了虎牙直播在建設低延時確定性網絡技術的想法以及5G在其他場景的應用。

“保持耐心”，永遠從用戶角度出發— 專訪阿里巴巴淘系技術內容中臺負責人吳桂林(梁舒)

互聯網電商的出現為人們的生活帶來了很大便捷，隨著媒體化的趨勢和發展，更多電商相關如直播、短視頻等內容形式紛紛涌現，帶來的是更高的技術要求與挑戰。

FaceTime 終于接入WebRTC - 實施深度探討

在今年的全球開發者大會(WWDC)主題演講中，蘋果宣布可以在網頁瀏覽器中使用FaceTime, Android和Windows用戶也可以使用。距離我們上次看到有關FaceTime的信息已經過去六年了(那時FaceTime沒有接入WebRTC)，所以是時候更新了。

https://webrtchacks.com/facetime-finally-faces-webrtc-implementation-deep-dive/

你會在你的WebRTC 應用程序中使用哪種視頻編解碼器呢？

當為WebRTC應用程序來選擇正確的視頻編解碼器已經成為了一件非常棘手的事兒時...你是應該使用VP8? H.264? VP9? 還是 AV1? 或者 HEVC呢？

OTA：目標檢測中的最優傳輸分配

該論文主要是關于目標檢測中的標簽分配問題，作者創新性地從全局的角度重新審視了該問題，并提出將標簽分配問題看成是一個最優運輸問題。要知道最優傳輸問題是當前最優化理論和GAN理論研究領域中的一個很火的研究課題。論文的實驗效果俱佳，而且作者還提供了相應的源碼。

WebRTC 傳輸安全機制第二話：深入顯出 SRTP 協議

通過 DTLS 協商后，RTC 通信的雙方完成 MasterKey 和 MasterSalt 的協商。接下來，我們繼續分析在 WebRTC 中，如何使用交換的密鑰，來對 RTP 和 RTCP 進行加密，實現數據的安全傳輸。

H.264 編解碼器：高級視頻編碼 (AVC) 說明

本文提供了 H.264 編解碼器的快速概述：它是什么、它如何執行、它的成本是多少以及它有什么好處。我們將在最后一節介紹有效部署 H.264 編解碼器所需了解的內容。

https://www.wowza.com/blog/h264-codec-advanced-video-coding-avc-explained

使用 VideoToolbox 探索低延遲視頻編碼?

支持低延遲編碼已成為視頻應用程序開發過程的一個重要方面，在低延遲直播和 RTC 領域有著廣泛的應用。本分享主要分享了 VideoToolbox（一個低級框架，提供對硬件編碼器和解碼器的直接訪問，它提供視頻壓縮和解壓縮服務，以及存儲在 CoreVideo 像素緩沖區中的光柵圖像格式之間的轉換）是如何支持低延遲 H.264 硬件編碼，以最大限度地減少端到端延遲并實現新的性能水平，最終實現最佳實時通信和高質量視頻播放。

字節跳動億級視頻處理系統高可用架構實踐

火山引擎視頻中臺支撐了火山引擎視頻的相關 ToB 業務，同時也支持了字節跳動抖音、西瓜視頻等產品的視頻生產、下發、播放等全部視頻生命周期。本文將向大家全面介紹我們的視頻處理系統及在高可用性方面做的一些工作。

VSR-Transformer | 超越BasicVSR，Transformer拿下視頻超分

最近，Transformer在CV領域攪翻了天，在各個CV領域打出了半片天。比如，Detection、Segmentation、Classification等等均出現了Transformer這個“攪局者”；甚至Low-level領域也被Transformer占領多個高峰，比如超分、降噪、去雨等等。一直以為視頻超分可能還會再等一段時間，哪成想，視頻超分領域也成了Transformer的附屬地。

Windows Core Audio 音頻開發技術指南

在音視頻通信處理流程中，音頻方面最基本的無外乎就是音頻的采集和播放。windows 平臺下，有很多音頻采集播放的方法。在本篇內容中我們將主要圍繞 Core Audio，講解它的優劣勢，以及我們基于它來做 windows 音頻采集播放的技術實踐。

用AVQT評估視頻

本文來自蘋果WWDC21開發者大會，蘋果公司顯示和色彩技術團隊成員Pranav介紹了全新的視頻質量評價工具AVQT（ Advanced Video Quality Tool）。

遮擋人臉問題 | 詳細解讀Attention-Based方法解決遮擋人臉識別問題

本文提出了一種新的遮擋人臉識別方法，能夠識別不同遮擋區域的人臉。通過將一個ResNet中間特征映射的attentional pooling與一個單獨的聚合模塊相結合來實現這一點。為了保證attention map的多樣性，并處理被遮擋的部分，作者進一步對遮擋Face的常見損失函數進行了調整。實驗表明，在多個benchmark下本文方法的性能優于所有baseline。

XMC-GAN：從文本到圖像的跨模態對比學習

Google提出了一個跨模態對比學習框架來訓練用于文本到圖像合成的 GAN 模型，用于研究解決生成的跨模態對比損失問題。

如何在VR購物體驗中模擬毛料質感？

近期，國立臺灣大學和國立政治大學的科研人員，就提出了一種機械的毛發觸感模擬VR手柄，特點是可以模擬不同觸感的毛，比如小貓的背部，或是各種毛料材質的枕頭等等。此前的一些觸覺反饋手柄研究已經可以模擬摘蘋果、溫度變化、彈力球等場景的觸感，而臺灣科研人員發布的這項VR體感方案，則旨在模擬更加逼真的毛發感。

Facebook AR/VR戰略揭秘：為何自研操作系統、低門檻AR眼鏡是未來

在近期于Instagram上舉行的問答活動中，Facebook Reality Labs老大Andrew Bosworth連線CEO扎克伯格，回答了網友提出的許多問題，進一步透露關于未來Facebook AR/VR發展策略的更多信息。其中，扎克伯格還透露自己最喜歡玩多人VR射擊游戲《Onward》，難怪今年5月Facebook宣布收購該作開發公司Downpour Interactive。

真正的無人駕駛汽車的夢想，為何正在慢慢破滅？

美國汽車工程師學會（SAE）關于自動駕駛分級標準的定義已經成為定義自動駕駛車輛的全球行業參照標準，用以評定自動駕駛技術。其中，L5 級是完全自動化，由無人駕駛系統完成所有的駕駛操作。一些專家認為這將需要十年甚至更長的時間，而另一些專家則認為 L5 級的自動駕駛永遠不會實現。

你知道A2B技術在新興汽車應用中有哪些出色的性能嗎？

在汽車座艙電子市場，隨著汽車制造商努力實現車輛差異化以區別于競爭對手，一個越來越明顯的趨勢是音頻、語音和聲學相關應用正在迅速擴張。此外，隨著普通消費者對技術越來越了解，其對駕駛體驗和個人與車輛交互水平的期望也在大幅提高。家庭影院質量的音響系統已成為所有價位車輛的尋常配置，現在還出現了復雜的語音免提(HF)和車內通信(ICC)系統。

活動推薦

《ECUG Meetup 第 1 期丨2021 音視頻技術最佳實踐·杭州站》

為滿足各行業、多場景的需求，由 ECUG x 七牛云主辦的「ECUG Meetup 第 1 期 · 杭州站」，將從業務場景驅動，帶你吃透音視頻技術架構、應對真實業務場景的挑戰。

點擊即可報名參會，更有機會領取官方周邊 & 參與抽獎：http://nxw.so/5Y0jX

《聊聊字節跳動億級 DAU 背后的音視頻技術最佳實踐》

6 月 26 日，火山引擎開發者社區將舉辦第三期 Meetup，將和大家一起聊聊億級 DAU 短視頻產品背后的音視頻、直播、點播、RTC 等最佳技術實踐，探討如何打造極致的音視頻用戶體驗，揭秘支撐抖音和西瓜等現象級產品背后的秘密“武器”。

點擊鏈接，即可報名參與：https://www.bagevent.com/event/sales/lvsedm

插圖源自Pexels

超強干貨來襲云風專訪：近40年碼齡，通宵達旦的技術人生

總結

以上是生活随笔為你收集整理的音视频技术开发周刊 | 200的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： “保持耐心”，永远从用户角度出发— 专访
下一篇： OneVPL与FFmpeg/GStrea