音视频技术开发周刊 53期
『音視頻技術開發周刊』由LiveVideoStack團隊出品,專注在音視頻技術領域,縱覽相關技術領域的干貨和新聞投稿,每周一期。點擊『閱讀原文』,瀏覽本期內容,祝您閱讀愉快。
策劃 / LiveVideoStack
架構
阿里巴巴開源語音識別聲學建模技術
本文介紹了DFSMN,一種改進的前饋順序存儲器網絡(FSMN)架構,適用于大型詞匯表連續語音識別。我們發布了基于流行的Kaldi語音識別工具包的DFSMN的源代碼和訓練配方,并證明DFSMN可以在LibriSpeech語音識別任務中實現最佳性能。
HDR轉換曲線比較
隨著顯示技術的發展以及消費者對更極致觀影體驗的追求,超高清電視(UHDTV)逐漸成為熱點話題,高分辨率、高幀率、高動態范圍(HDR)、寬色域(WCG)是超高清電視的主要特征,其中高動態范圍是近年的熱點研究問題。
美拍短視頻成本減半及毫秒起播優化實踐
本文將從成本優化,成功率優化,播放體驗優化等幾個方面,整體介紹下美拍短視頻成本減半以及毫秒起播優化實踐之路。
心隨手動,快手抖音的特效是怎么來的?
本文將從編輯的原理,預覽功能,視頻預處理,特效的制作等幾個方面,介紹了抖音短視頻背后的技術故事。
STUN/TURN/ICE協議在P2P SIP中的應用(一)
本文詳細描述了基于STUN系列協議實現的P2P SIP電話過程,其中涉及到了SIP信令的交互,P2P的原理,以及STUN、TURN、ICE的協議交互。
STUN/TURN/ICE協議在P2P SIP中的應用(二)
本文詳細描述了基于STUN系列協議實現的P2P SIP電話過程,其中涉及到了SIP信令的交互,P2P的原理,以及STUN、TURN、ICE的協議交互。
50種機器學習和預測應用的API,你想要的全都有
API 是一套用于構建軟件程序的協議和工具。對于應用開發者而言,有了開放的 API,就可以直接調用其他公司做好的功能為我所用,這在很大程度上提升了工作效率。本文整理了以下四大類共 50 種 API,為你節省了尋找資源的時間。
音頻/視頻技術
騰訊視頻全網清晰度提升攻堅戰
騰訊視頻移動端播放內核技術負責人李大龍圍繞Codec,詳細解讀了騰訊為提升視頻質量做的種種工作,包括播放器、編碼與解碼端、Codec優化、AI內容分類等。本文來自李大龍在LiveVideoStackCon 2017大會的分享,由LiveVideoStack整理。
WebRTC-Native 源碼導讀(十一):混音
本文主要介紹了WebRTC 混音模塊的相關內容與實踐:AudioMixer 的實現原理、AudioMixer 的產品化、工程化要點等內容。
直播全流程探索
近年來,直播興起,QQ音樂也接入了直播能力,支持演唱會的直播和主播、明星直播,根據互動方式的不同,我們可以分為互動直播和推流直播。本文主要對web部分的直播流程進行介紹。
GPUImage詳細解析(十三)多路視頻繪制
本文主要介紹了用GPUImage進行多路視頻的渲染的幾種不同的方案,通過分析,發現其對應的應用場景。
編解碼
IBM Cloud Video工程師Scott Grizzle談流媒體協議和Codec
Streaming Media特約編輯Tim Siglin在Streaming Media East 2018采訪了IBM Cloud Video工程師Scott Grizzle。LiveVideoStack對本文進行了摘譯。
H264/SVC Temporal Scalability
在多人遠程會議或直播系統中,參與的用戶可能處于不同的網絡環境(有線、wifi、3G、4G)中,網絡質量各不一致,為了所有用戶可進行遠程會議或者直播的觀看,簡單的做法就是降低發送端的視頻碼流,這樣不管網絡質量好壞,參與的用戶都將觀看低碼率的視頻流。這種方案缺點在于大部分網絡較好的用戶會被少數的網絡較差的用戶給拖累。這里介紹 H264 編碼器中的 Temporal Scalability 機制來優化該方案。
webrtc 視頻編碼之 h264 自動調節分辨率一
webrtc 內部支持 vp8,vp9,h264 視頻編碼,由于業務需要和出于通用性考慮,我選擇了 h264 編碼,webrtc集成了openh264,ffmpeg用于h264的編解碼。本文主要介紹openh264 是如何動態調整分辨率的。
webrtc 視頻編碼之 h264 自動調節分辨率二
webrtc 內部支持 vp8,vp9,h264 視頻編碼,由于業務需要和出于通用性考慮,我選擇了 h264 編碼,webrtc集成了openh264,ffmpeg用于h264的編解碼。本文主要介紹openh264 是如何動態調整分辨率的。
AI智能
深度學習AI美顏系列----基于摳圖的人像特效算法
美顏算法的重點在于美顏,也就是增加顏值,顏值的廣定義,可以延伸到整個人體范圍,也就是說,你的顏值不單單和你的臉有關系,還跟你穿什么衣服,什么鞋子相關,基于這個定義(這個定義是本人自己的說法,沒有權威性考究),本文主要介紹基于人體摳圖來做一些人像特效算法。
一文概覽主要語義分割網絡:FCN,SegNet,U-Net...
本文作者總結了 FCN、SegNet、U-Net、FC-Densenet E-Net 和 Link-Net、RefineNet、PSPNet、Mask-RCNN 以及一些半監督方法,例如 DecoupledNet 和 GAN-SS,并為其中的一些網絡提供了 PyTorch 實現。在文章的最后一部分,作者總結了一些流行的數據集,并展示了一些網絡訓練的結果。
身份采集、活體檢測、人臉比對...曠視是如何做FaceID的?
本文講述了深度學習在互聯網身份驗證服務中的應用以及人臉識別活體檢測(動作、炫彩、視頻、靜默)技術應用場景及實現方式。
圖像
圖像處理之Canny邊緣檢測(一)
Canny邊緣檢測算法是1986年有John F. Canny開發出來一種基于圖像梯度計算的邊緣檢測算法,同時Canny本人對計算圖像邊緣提取學科的發展也是做出了很多的貢獻。盡管至今已經許多年過去,但是該算法仍然是圖像邊緣檢測方法經典算法之一。
圖像處理之Canny邊緣檢測(二)
Canny邊緣檢測算法是1986年有John F. Canny開發出來一種基于圖像梯度計算的邊緣檢測算法,同時Canny本人對計算圖像邊緣提取學科的發展也是做出了很多的貢獻。盡管至今已經許多年過去,但是該算法仍然是圖像邊緣檢測方法經典算法之一。
淺析Android平臺圖像壓縮方案
本文重點分享Android平臺的壓縮方案,并簡單介紹了Bitmap的幾個主要概念:像素密度、色彩模式以及Bitmap的計算方式。
圖像處理之線性濾波
本文主要介紹了如何應用不同的線性過濾器來使用OpenCV函數來平滑圖像。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 53期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Zoe Liu:被Chrome Medi
- 下一篇: 李大龙:音视频技术是互联网品质生活的连接