當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 207

發布時間：2024/4/11 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 207 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

每周一期，縱覽音視頻技術領域的干貨。

新聞投稿：contribute@livevideostack.com。

小提示：鏈接跳轉僅支持公眾號相關鏈接

OWT在企業遠程智能視頻服務場景中的應用

本文來自峰暢科技聯合創始人&CTO 段先德在LiveVideoStack2021上海站的演講內容，以峰暢科技采用OWT開源媒體服務器在金融行業的應用為實際案例，詳細解析如何用平臺化方法破解場景碎片化、定制化的難題，達到圖形化編輯工作流的方式支持業務流程創新的目的。

美攝智能生產平臺，輕松搞定視頻制作——對話美攝科技研發總監黃裔

如今，視頻已經逐漸成為人與人之間的一種交流方式，大家越來越愛用視頻表達自己的想法，分享自己的心情，所以如何更輕松地制作出畫面精美、吸引眼球的視頻，成為視頻制作者們迫切想要解決的問題。美攝科技是一家智能視音頻整體解決方案服務商，專注于視音頻領域開發超過20年。LiveVideoStack近期采訪了美攝科技的研發總監黃裔，和他一起討論了如何降低視頻制作難度、提升視頻制作質量，以及應對客戶需求變化等問題。

萬人連麥的幕后技術詳解

7月29日-7月30日，由青云科技舉辦的 CIC2021 云計算峰會在北京成功舉辦，拍樂云服務端專家沈偉鋒受邀出席峰會，并在音視頻技術論壇上以《大規模實時音視頻技術架構的實踐和演進》為演講主題，分享了實時音視頻通訊的幾種常見架構和網絡拓撲，構建實時音視頻實際場景的復雜性和多樣性，以及拍樂云在超大規模實時音視頻系統的一些實踐。

8K VVC 編解碼演示 Demo

在德國 Fraunhofer HHI 旗下的 3IT 沉浸式成像技術創新中心進行的一次演示中，Spin Digital 與 Fraunhofer HHI 合作，展示了 8K 內容可以使用 MPEG/ITU 的 VVC 標準進行高效編碼和解碼。VVC 是 HEVC 的下一代編解碼器，在類似的質量下，最終應實現比 HEVC 降低 50% 的比特率。VVC 能支持的不僅僅是 8K 內容，它被設計成也可以對 360 度內容進行編碼，并提供空間可擴展性（即增加層次以建立高分辨率幀）。

NETINT的商用硬件AV1視頻編碼器

本文來自thevideoinsiders，NETINT技術公司的聯合創始人兼首席運營官Alex Liu談到在數據中心使用ASIC進行視頻編碼的優勢，并獨家預覽了他們支持AV1編碼和AI加速的第二代芯片。

ICME2021：基于機器視覺的RD模型

本文針對VVC幀內編碼提出了一個面向視覺分析的RD模型，該模型包括碼率控制策略和失真度量模型。

音視頻、AI和5G等技術在東京奧運會中的應用

OBS（奧林匹克廣播服務公司）一直不斷嘗試將新的數字科技應用到奧運賽事中。今年的東京奧運會，它將展示大部分科技。OBS承諾為全球觀眾呈現一場擁有豐富數據的視覺盛宴，其中IP、云、5G和人工智能都打破了廣播制作的傳統框架，改變了內容交付和觀眾體驗的基礎，讓觀眾即使不親臨現場觀看比賽也能獲得最逼真的體驗。

漫聊快直播

隨著直播行業的快速發展，直播帶貨秒殺和在線教育答題等應用場景對直播延時的需求越來越苛刻，為了應對這種需求，騰訊云推出了快直播。

直播時各種背景是怎么實現的？聊一聊虛擬背景背后的技術

2020 年一場突如其來的疫情闖進了我們的生活，上網課、在家辦公逐漸成為了一種常態，為了更好地保護用戶隱私、提升用戶體驗，各大在線辦公軟件相繼推出了虛擬背景功能，營造學習、辦公氛圍的同時，又能避免家中環境不夠正式的窘境。那么今天我們就來說道說道虛擬背景的相關技術。

網易云信變聲技術之變調不變速算法

本文先介紹了常用的變聲技術，讓讀者對變聲技術的原理和效果有一定的了解，進而引入了網易云信在變聲技術上的創新與實踐，如機器人聲、男聲變女聲和保護隱私方面的音效；最后著重介紹了網易云信如何結合變調不變速算法的實踐成果。

論文推介：Glow-WaveGAN—學習一種用于高質量語音合成的語音表征

論文提出了使用 VAE （Variational Auto-Encoder）結合 GAN（Generative Adversarial Network）直接從語音中學習中間表示，然后利用基于Flow 的聲學模型對潛在中間表示的分布進行建模。

OSA 3D圖像獲取和顯示技術分享兩則

本文展示來自 OSA Publishing 的 “3D 圖像? ? 獲取? ? 和? ? 顯示? ? ：技術、感知和應用”的兩則技術分享，主題分別是“針對基于學習的圖像修復任務進行孔徑設計”和“探索減少 ToF 深度相機中運動誤差的機器學習方案”。

CVPR 2021 | 這3D人臉追蹤的穩定性、貼合度、真實程度，簡直了

本文作者來自 Facebook 和美國羅徹斯特大學，作者提出了一個基于深度學習的光照模型 (Lighting Model)，改進當前 3D 人臉追蹤對光照條件不夠魯棒的問題，從而捕捉更加細微的面部表情，提高 3D 人臉捕捉的穩定性、貼合度和真實感。

如何入門多視角3D目標識別？超詳細最新綜述來襲！

本文將重點對近年來基于深度學習的多視角3D目標識別方法的主要進展和部分具有代表性的研究成果進行介紹，通過詳細的對比分析，以及匯總現有的絕大多數方法的實驗性能，總結了多視角3D目標識別研究中的難點和熱點，以及可能的發展趨勢。

Facebook全息超短焦AR/VR光學突破，或可實現量產

去年6月，Facebook曾重磅公布一款基于全息光學的超短焦VR眼鏡方案，其特點是體積輕便、外觀小巧，而且支持激光光源，具備視網膜級分辨率效果。據悉，利用該方案開發的VR眼鏡原型看起來如墨鏡大小，讓我們仿佛看到了未來理想的VR形態。近期，Facebook Reality Labs再次公布關于該技術的更多細節，并重點解釋該光學方案所采用的LCPH顯示技術（全名為液晶偏振全息），以及相關的量產方案。

【測評】有了這款腰部VR觸覺反饋設備，皮膚都可以“聽音樂”了？

你可曾體驗過在皮膚上直接感受來自四面八方的音樂節拍，或游戲效果帶來的震動反饋？德國技術公司Feelbelt的首席執行官兼聯合創始人Benjamin Heath表示：“我們開發了獨特的脈沖發生器系統，創造你從未體驗過的感覺。這為游戲增加了一個提高性能和體驗的全新維度。”MIXED的記者對其產品進行了簡單測試。

F-LOAM:基于激光雷達的快速里程計和建圖

同時定位與建圖（SLAM）在機器人領域有著廣泛的應用，如自動駕駛和無人駕駛等領域。一個好的SLAM系統其計算效率和定位精度是至關重要。現有的基于激光雷達的SLAM研究通常將問題描述為兩個模塊：點云幀到點云幀匹配和點云幀到地圖匹配。這兩個模塊都是通過迭代計算來解決的，計算量很大。

插圖源自Pexels

活動推薦

詳情請掃描圖中二維碼或點擊閱讀原文了解大會更多信息。

總結

以上是生活随笔為你收集整理的音视频技术开发周刊 | 207的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： QUIC协议的演进之路
下一篇：【免费活动】字节跳动背后的音视频技术揭秘