搞多媒体开发?吴威麒:先拉个书单看看
從2017年4月22日一場LiveVideoStack活動開始,每次活動都會選1-2本技術(shù)圖書作為獎品。我們相信閱讀這件事情“從來都不晚,一直都有用?!贝蠖鄶?shù)技術(shù)牛人都推薦研究開源項目的源碼,勤看論文,但推薦高質(zhì)量的多媒體開發(fā)領(lǐng)域的技術(shù)圖書并沒有達成共識。今年,我們先后推薦了《移動音視頻開發(fā)進階指南——基于Android與iOS平臺的實踐》和《FFmpeg從入門到精通》(想要得到劉歧大師兄這本書的同學(xué)可以關(guān)注我們在上海的活動《LiveVideoStack Meet上海:多媒體開發(fā)新趨勢》)
本文是對觸寶科技音頻技術(shù)專家吳威麒的郵件采訪,他非常詳盡的推薦了多本多媒體開發(fā)經(jīng)典圖書。
策劃 / LiveVideoStack
LiveVideoStack:吳威麒你好,能否簡要介紹下自己,包括目前的主要工作及關(guān)注領(lǐng)域?
吳威麒:我是2013年畢業(yè)于上海大學(xué)通信與信息工程學(xué)院,信號與信息處理專業(yè)。畢業(yè)后從事過一年的音視頻應(yīng)用層開發(fā),之后主要專注于音頻算法方面的研究與開發(fā)。目前在觸寶科技擔(dān)任音頻技術(shù)專家,主要負責(zé)優(yōu)化PC端和移動端的通話音質(zhì)。自己比較感興趣的領(lǐng)域包括語音增強、音樂分析、數(shù)字音效、語音合成與識別、VR技術(shù)、以及深度學(xué)習(xí)在音視頻領(lǐng)域的應(yīng)用。
LiveVideoStack:對于學(xué)生或沒有多媒體開發(fā)經(jīng)驗的技術(shù)人而言,如何從零開始學(xué)習(xí)多媒體開發(fā)?有哪些學(xué)習(xí)文檔、圖書、資料推薦?
吳威麒:對于想從事多媒體工程開發(fā)的新手,推薦以開源項目FFmpeg為中心,首先學(xué)會應(yīng)用,再熟悉整個架構(gòu),最后對自己感興趣的模塊深入到源碼學(xué)習(xí),遇到問題會查相關(guān)資料,這樣可以快速入門。
對于想從事語音信號處理與音頻算法開發(fā)的同學(xué)和新手,一方面吸收開源工程的優(yōu)秀模塊,但更為重要的是要學(xué)習(xí)相關(guān)理論基礎(chǔ),在這里給大家推薦一些書籍:?
《Discrete-Time Signal Processing》
這本數(shù)字信號處理圖書是最為經(jīng)典的圖書之一,作者是奧本海姆,他為數(shù)字信號處理這門學(xué)科的建立和推廣起到了極為重要的作用,因而在信號處理界擁有巨大的聲望。
《Discrete-Time Speech Signal Processing: Principles and Practice》
這本書是數(shù)字信號處理在語音領(lǐng)域應(yīng)用的經(jīng)典書籍之一,全書以概述的形式闡述了語音信號處理的方方面面:包括語音發(fā)音機理,聲道建模,語音編碼、語音增強、語音合成與變換、語音識別、說話人識別等,可以讓大家對語音信號處理領(lǐng)域有個全面的認識。
《Matlab 之語音處理與合成工具箱》,《MATLAB語音信號分析與合成》
這兩本書可以讓大家對語音有個更加直觀的認識,熟悉語音的生成、元音和輔音建模生成、語音的相關(guān)特征以及控制參數(shù)重新合成語音。
《Real-Time Digital Signal Processing Fundamentals, Implementations and Applications》
這本書的主要特點是除了理論敘述外,還有與之相關(guān)的工程實踐,進一步讓讀者加深理解,同時加強動手能力。
還有一些特定領(lǐng)域的書籍:?
語音識別:《Speech Recognition: Theory and C++ Implementation》
數(shù)字音效:《Digital Audio Effects》
語音增強:《Specch enchancement theory and practice》
以上的這些都是語音與音頻信號處理的基礎(chǔ)書籍,里面闡述的都是一些經(jīng)典方法,如果要做出更好的效果,這些是遠遠不夠的,需要多讀論文,多動手仿真,學(xué)會篩選資料,有自己的想法,用工程手段避開技術(shù)盲區(qū)等,才能以最短的時間做出最優(yōu)的效果。
最后,希望能給予這塊的研發(fā)人員更多一點耐心。因為每個技術(shù)細節(jié)可能有很多相關(guān)的文獻,經(jīng)常會仿真了很多文章,效果都不理想,即使找對了資料,很有可能忽視了某些細節(jié),很長的一段時間都沒有突破,甚至有些需求通過技術(shù)手段目前是無法落地的。
坑很大,研發(fā)不易,且行且珍惜。
LiveVideoStack:展望未來,你認為多媒體技術(shù)在哪些場景或行業(yè)有機會重度使用?
吳威麒:未來比較看好VR和AR音視頻產(chǎn)業(yè)的發(fā)展,它改變了音樂、影片、游戲等制作方式,大大提升了人們的感官體驗,豐富了人們的娛樂生活。整個VR產(chǎn)業(yè)鏈,包括VR硬件設(shè)備制造,VR內(nèi)容生成制作,以及VR內(nèi)容平臺和分發(fā)等,將會大放異彩。除了被動接收內(nèi)容,通過手勢或者語音或者虛擬按鍵,讓交互變得簡單、立體化,一切變得越來越智能,如果可以的話,完全生活在一個虛擬世界里,不用出門,就能感受到南極的風(fēng)光、喜馬拉雅山的壯麗、撒哈拉沙漠的神秘…
另外,比較看好AI產(chǎn)業(yè)助力制造業(yè)、物聯(lián)網(wǎng)改造升級,讓人們控制設(shè)備變得更加容易和方便,甚至通過AI大腦控制所有設(shè)備,實現(xiàn)更高精度、所有零件實現(xiàn)標準化、完全自動化,將人們從簡單無聊的工作中解脫出來。?
更多精彩分享,我們在上海等你
如果你對多媒體開發(fā)感興趣,希望了解多媒體技術(shù)在音視頻領(lǐng)域以及新興應(yīng)用場景和傳統(tǒng)行業(yè)的發(fā)展新趨勢,新實踐,4月21日【多媒體開發(fā)新趨勢沙龍】+5月19日-20日【W(wǎng)ebRTCon 2018垂直大會】,我們在上海等你!
吳威麒老師將在兩場活動中分享實時語音通信過程中的回聲消除、噪聲抑制,以及音量控制,并對實時語音通信中的語音處理技術(shù)的未來發(fā)展做展望。此外我們還準備了更多精彩的內(nèi)容:
《如何使用機器學(xué)習(xí)算法優(yōu)化分發(fā)鏈路》 曾小偉 PP云技術(shù)副總監(jiān)
《iOS實時相機的GPU實踐》 沈軻軼 騰訊天天P圖iOS開發(fā)組長
《超高清VR直播技術(shù)的演進與挑戰(zhàn)》 盛驍杰 優(yōu)酷VR技術(shù)專家
《實時音視頻技術(shù)賦能傳統(tǒng)行業(yè)》 崔文秀 三體云聯(lián)產(chǎn)品副總裁
《Animoji動態(tài)表情的技術(shù)實現(xiàn)》 蔡銳濤 相芯科技圖形引擎負責(zé)人
點擊 [ 閱讀原文 ] 了解相關(guān)活動信息,快來報名吧!
總結(jié)
以上是生活随笔為你收集整理的搞多媒体开发?吴威麒:先拉个书单看看的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 周正宁:研发最大的挑战是不断否定常规 否
- 下一篇: 5月19-20日WebRTCon 201