音视频技术开发周刊 81期
『音視頻技術(shù)開發(fā)周刊』由LiveVideoStack團(tuán)隊(duì)出品,專注在音視頻技術(shù)領(lǐng)域,縱覽相關(guān)技術(shù)領(lǐng)域的干貨和新聞投稿,每周一期。點(diǎn)擊『閱讀原文』,瀏覽第81期內(nèi)容,祝您閱讀愉快。
架構(gòu)
舞臺(tái)現(xiàn)場(chǎng)直播技術(shù)實(shí)踐
舞臺(tái)現(xiàn)場(chǎng)直播由于場(chǎng)景復(fù)雜度高,對(duì)各環(huán)節(jié)的可靠性要求也非常高。YY音視頻技術(shù)專家朱明亮在LiveVideoStack線上交流分享中結(jié)合YY直播實(shí)踐詳細(xì)解析了直播中涉及的視頻采集卡編程,軟硬件編碼,視頻濾鏡處理等內(nèi)容。本文由LiveVideoStack整理而成。
愛奇藝視頻版權(quán)保護(hù)技術(shù)與維權(quán)實(shí)踐
隨著海量多媒體應(yīng)用內(nèi)容的產(chǎn)生,對(duì)內(nèi)容的安全性要求也相應(yīng)提高.愛奇藝技術(shù)產(chǎn)品中心高級(jí)經(jīng)理 陳赫從多個(gè)方面介紹了愛奇藝在版權(quán)保護(hù)上的技術(shù)探索與維權(quán)實(shí)踐.本文來自陳赫在LiveVideoStack線上交流分享,并由LiveVideoStack整理而成。
DASH && Nginx 源碼解析 && WebRTC學(xué)習(xí)資料收集
自適應(yīng)流媒體傳輸(四)——深入理解MPD
在MPEG-DASH中將一組不同編碼參數(shù)的媒體內(nèi)容和相應(yīng)的描述集合定義為媒體展示(presentation)。這里的媒體內(nèi)容是由單個(gè)或多個(gè)時(shí)間上連續(xù)的媒體時(shí)段(period)組成的,這些媒體時(shí)段的內(nèi)容相互之間可能完全獨(dú)立。
SIP筆記-----語音質(zhì)量分析
目前比較常用的對(duì)語音的主觀評(píng)定方法是使用MOS方法。根據(jù)P.830建議的要求,特定的發(fā)話者與聽話者在特定的環(huán)境下,通過收集測(cè)試者在各種不同情景下的主觀感受,根據(jù)P.830的分析法則得出該語音的品質(zhì)。
音頻/視頻技術(shù)
語音識(shí)別技術(shù)之關(guān)鍵詞檢索
語音關(guān)鍵詞檢索也叫spoken term detection, 或keyword spotting。有別于大家熟知的文本搜索的最大特點(diǎn)是語音關(guān)鍵詞檢索是對(duì)語音文件的搜索。
視頻云肖長(zhǎng)杰:視頻AI科技助力短視頻生態(tài)
人工智能技術(shù)已經(jīng)應(yīng)用到了視頻的生產(chǎn)、傳輸、消費(fèi)等各個(gè)階段。比如,在用戶創(chuàng)作階段,基于人臉識(shí)別及跟蹤技術(shù)實(shí)現(xiàn)瘦臉、大眼、美白功能已經(jīng)相當(dāng)常見;當(dāng)視頻上傳到服務(wù)端之后,我們會(huì)對(duì)視頻內(nèi)容進(jìn)行審核、去重、溯源等處理,并進(jìn)一步對(duì)視頻的打標(biāo)、分類,同時(shí)采用AI技術(shù)去定義最有美學(xué)感的封面,便于完成用戶個(gè)性化搜索、智能推薦等動(dòng)作,提升用戶的點(diǎn)擊率和體驗(yàn)。
搭建直播平臺(tái)過程中Android端直播APP源碼是如何實(shí)現(xiàn)連麥功能的?
直播平臺(tái)強(qiáng)大的變現(xiàn)能力是大家有目共睹的,很多開發(fā)商在搭建直播平臺(tái)時(shí)為了增加用戶黏性,紛紛將直播中加入連麥功能。
目前市場(chǎng)上通用的有兩種連麥方案:本地混流和云端混流。
Windows 下視頻采集技術(shù)
在 Windows 下主要有兩種方法來采集視頻: 一種是通過 Media Foundation,另一種是通過 DirectShow。Meida Foundation 是 Windows 從 vista 之后推出的一套全新的 多媒體SDK,簡(jiǎn)單方便,從 Win7 開始成熟起來。另一種是 DirectShow,它主要用于 win7 之前的采集視頻。
編解碼
MPEG V-PCC項(xiàng)目啟航
本文參考Adrian Pennington近期發(fā)表在IBC的文章MPEG heads to the holograph,重點(diǎn)介紹了MPEG正在推廣的基于視頻的點(diǎn)云壓縮技術(shù) (V-PCC)。V-PCC解決了3D點(diǎn)云(空間中的一組數(shù)據(jù)點(diǎn))的編碼,以及相關(guān)的例如顏色的屬性。其目的是啟用包括人物角色表示在內(nèi)的新應(yīng)用。換句話說,人形化身或全息圖作為沉浸式擴(kuò)展現(xiàn)實(shí)的一部分在不久的將來就會(huì)實(shí)現(xiàn)。
幀間預(yù)測(cè)編碼的基本原理
在H.264中,預(yù)測(cè)編碼與變換/量化編碼、熵編碼并列的重要組成部分,對(duì)編解碼器的性能具有重大影響。預(yù)測(cè)編碼主要包括兩部分:幀內(nèi)預(yù)測(cè)和幀間預(yù)測(cè)。
Netflix:我們是如何評(píng)估Codec性能的?
Netflix會(huì)定期評(píng)估現(xiàn)有和即將推出的視頻編解碼器,不斷優(yōu)化視頻編碼技術(shù)以提供更高質(zhì)量的服務(wù)。本文介紹了視頻編碼器性能評(píng)估中的幾項(xiàng)重要元素以及如何從傳統(tǒng)與自適應(yīng)流媒體兩種視角進(jìn)行編解碼器性能對(duì)比。本文來自Netflix技術(shù)博客,LiveVideoStack進(jìn)行了翻譯。
H264視頻與pcm音頻合成MP4視頻格式
H.264是壓縮過的數(shù)據(jù),PCM是原始數(shù)據(jù),MP4是一種視頻封裝格式。實(shí)際H.264與PCM不能直接合成MP4格式,因?yàn)橐纛l格式不對(duì)。這里需要中間對(duì)音頻做一次壓縮處理。基本流程為:將PCM音頻數(shù)據(jù)壓縮成AAC格式音頻數(shù)據(jù),再將AAC與H.264合成MP4視頻格式。
AI智能
褲子換裙子,就問你GAN的這波操作秀不秀
把照片里的綿羊換成長(zhǎng)頸鹿、牛仔長(zhǎng)褲換成短裙。聽起來有點(diǎn)不可思議,但韓國(guó)科學(xué)技術(shù)院和浦項(xiàng)科技大學(xué)的研究人員目前已實(shí)現(xiàn)了這一騷操作。他們開發(fā)的一種機(jī)器學(xué)習(xí)算法可在多個(gè)圖像數(shù)據(jù)集上實(shí)現(xiàn)這種操作。其論文《InstaGAN: Instance-Aware Image-to-Image Translation》已被 ICLR2019 接收。
中科院發(fā)布了目標(biāo)追蹤數(shù)據(jù)集,1萬多條視頻,150萬個(gè)邊界框
中科院發(fā)布了一個(gè)目標(biāo)追蹤數(shù)據(jù)集,叫做Got-10k。很大,很精致。它包含了超過10,000條視頻,主角都是在現(xiàn)實(shí)世界里移動(dòng)的物體,分成560多個(gè)類別。物體的邊界框全部是手動(dòng)標(biāo)記,總計(jì)超過150萬個(gè)。
谷歌新研究用深度學(xué)習(xí)合成運(yùn)動(dòng)模糊效果,手抖也能拍出攝影師級(jí)照片
谷歌的研究人員最近開發(fā)了一種新技術(shù),使用連續(xù)拍攝的一對(duì)非模糊圖像,能夠合成運(yùn)動(dòng)模糊圖像。在發(fā)表在arXiv上的預(yù)印版論文中,研究人員概述了他們的方法,并與幾種基線方法對(duì)比,對(duì)其進(jìn)行了評(píng)估。
干掉高速攝像頭!神經(jīng)網(wǎng)絡(luò)生成極慢視頻,突破人類肉眼極限(PyTorch實(shí)現(xiàn))
英偉達(dá)團(tuán)隊(duì)CVPR-18論文Super SloMo使用深度學(xué)習(xí),能將任意視頻變?yōu)椤案咔迓俨シ拧蹦J?#xff0c;從此不再錯(cuò)過任何細(xì)節(jié)。今天有人開源了PyTorch實(shí)現(xiàn),趕緊來試試吧!
圖像
深度學(xué)習(xí)AI美顏系列----人像靜態(tài)/動(dòng)態(tài)貼紙?zhí)匦惴▽?shí)現(xiàn)
人像靜態(tài)/動(dòng)態(tài)貼紙?zhí)匦缀跻呀?jīng)是所有圖像視頻處理類/直播類app的必需品了,這個(gè)功能看起來復(fù)雜,實(shí)際上很簡(jiǎn)單,本文將給大家做個(gè)詳細(xì)的講解。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 81期的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 舞台现场直播技术实践
- 下一篇: 百度媒体云智能编码技术实践