當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

搞多媒体开发？吴威麒：先拉个书单看看

發(fā)布時間：2024/4/11 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了搞多媒体开发？吴威麒：先拉个书单看看小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

從2017年4月22日一場LiveVideoStack活動開始，每次活動都會選1-2本技術(shù)圖書作為獎品。我們相信閱讀這件事情“從來都不晚，一直都有用?！贝蠖鄶?shù)技術(shù)牛人都推薦研究開源項目的源碼，勤看論文，但推薦高質(zhì)量的多媒體開發(fā)領(lǐng)域的技術(shù)圖書并沒有達成共識。今年，我們先后推薦了《移動音視頻開發(fā)進階指南——基于Android與iOS平臺的實踐》和《FFmpeg從入門到精通》（想要得到劉歧大師兄這本書的同學(xué)可以關(guān)注我們在上海的活動《LiveVideoStack Meet上海：多媒體開發(fā)新趨勢》）

本文是對觸寶科技音頻技術(shù)專家吳威麒的郵件采訪，他非常詳盡的推薦了多本多媒體開發(fā)經(jīng)典圖書。

策劃 / LiveVideoStack

LiveVideoStack：吳威麒你好，能否簡要介紹下自己，包括目前的主要工作及關(guān)注領(lǐng)域？

吳威麒：我是2013年畢業(yè)于上海大學(xué)通信與信息工程學(xué)院，信號與信息處理專業(yè)。畢業(yè)后從事過一年的音視頻應(yīng)用層開發(fā)，之后主要專注于音頻算法方面的研究與開發(fā)。目前在觸寶科技擔(dān)任音頻技術(shù)專家，主要負責(zé)優(yōu)化PC端和移動端的通話音質(zhì)。自己比較感興趣的領(lǐng)域包括語音增強、音樂分析、數(shù)字音效、語音合成與識別、VR技術(shù)、以及深度學(xué)習(xí)在音視頻領(lǐng)域的應(yīng)用。

LiveVideoStack：對于學(xué)生或沒有多媒體開發(fā)經(jīng)驗的技術(shù)人而言，如何從零開始學(xué)習(xí)多媒體開發(fā)？有哪些學(xué)習(xí)文檔、圖書、資料推薦？

吳威麒：對于想從事多媒體工程開發(fā)的新手，推薦以開源項目FFmpeg為中心，首先學(xué)會應(yīng)用，再熟悉整個架構(gòu)，最后對自己感興趣的模塊深入到源碼學(xué)習(xí)，遇到問題會查相關(guān)資料，這樣可以快速入門。

對于想從事語音信號處理與音頻算法開發(fā)的同學(xué)和新手，一方面吸收開源工程的優(yōu)秀模塊，但更為重要的是要學(xué)習(xí)相關(guān)理論基礎(chǔ)，在這里給大家推薦一些書籍：?

《Discrete-Time Signal Processing》

這本數(shù)字信號處理圖書是最為經(jīng)典的圖書之一，作者是奧本海姆，他為數(shù)字信號處理這門學(xué)科的建立和推廣起到了極為重要的作用，因而在信號處理界擁有巨大的聲望。

《Discrete-Time Speech Signal Processing: Principles and Practice》

這本書是數(shù)字信號處理在語音領(lǐng)域應(yīng)用的經(jīng)典書籍之一，全書以概述的形式闡述了語音信號處理的方方面面：包括語音發(fā)音機理，聲道建模，語音編碼、語音增強、語音合成與變換、語音識別、說話人識別等，可以讓大家對語音信號處理領(lǐng)域有個全面的認識。

《Matlab 之語音處理與合成工具箱》，《MATLAB語音信號分析與合成》

這兩本書可以讓大家對語音有個更加直觀的認識，熟悉語音的生成、元音和輔音建模生成、語音的相關(guān)特征以及控制參數(shù)重新合成語音。

《Real-Time Digital Signal Processing Fundamentals, Implementations and Applications》

這本書的主要特點是除了理論敘述外，還有與之相關(guān)的工程實踐，進一步讓讀者加深理解，同時加強動手能力。

還有一些特定領(lǐng)域的書籍：?

語音識別：《Speech Recognition: Theory and C++ Implementation》
數(shù)字音效：《Digital Audio Effects》
語音增強：《Specch enchancement theory and practice》

以上的這些都是語音與音頻信號處理的基礎(chǔ)書籍，里面闡述的都是一些經(jīng)典方法，如果要做出更好的效果，這些是遠遠不夠的，需要多讀論文，多動手仿真，學(xué)會篩選資料，有自己的想法，用工程手段避開技術(shù)盲區(qū)等，才能以最短的時間做出最優(yōu)的效果。

最后，希望能給予這塊的研發(fā)人員更多一點耐心。因為每個技術(shù)細節(jié)可能有很多相關(guān)的文獻，經(jīng)常會仿真了很多文章，效果都不理想，即使找對了資料，很有可能忽視了某些細節(jié)，很長的一段時間都沒有突破，甚至有些需求通過技術(shù)手段目前是無法落地的。

坑很大，研發(fā)不易，且行且珍惜。

LiveVideoStack：展望未來，你認為多媒體技術(shù)在哪些場景或行業(yè)有機會重度使用？

吳威麒：未來比較看好VR和AR音視頻產(chǎn)業(yè)的發(fā)展，它改變了音樂、影片、游戲等制作方式，大大提升了人們的感官體驗，豐富了人們的娛樂生活。整個VR產(chǎn)業(yè)鏈，包括VR硬件設(shè)備制造，VR內(nèi)容生成制作，以及VR內(nèi)容平臺和分發(fā)等，將會大放異彩。除了被動接收內(nèi)容，通過手勢或者語音或者虛擬按鍵，讓交互變得簡單、立體化，一切變得越來越智能，如果可以的話，完全生活在一個虛擬世界里，不用出門，就能感受到南極的風(fēng)光、喜馬拉雅山的壯麗、撒哈拉沙漠的神秘…

另外，比較看好AI產(chǎn)業(yè)助力制造業(yè)、物聯(lián)網(wǎng)改造升級，讓人們控制設(shè)備變得更加容易和方便，甚至通過AI大腦控制所有設(shè)備，實現(xiàn)更高精度、所有零件實現(xiàn)標準化、完全自動化，將人們從簡單無聊的工作中解脫出來。?

更多精彩分享，我們在上海等你

如果你對多媒體開發(fā)感興趣，希望了解多媒體技術(shù)在音視頻領(lǐng)域以及新興應(yīng)用場景和傳統(tǒng)行業(yè)的發(fā)展新趨勢，新實踐，4月21日【多媒體開發(fā)新趨勢沙龍】+5月19日-20日【W(wǎng)ebRTCon 2018垂直大會】，我們在上海等你！

吳威麒老師將在兩場活動中分享實時語音通信過程中的回聲消除、噪聲抑制，以及音量控制，并對實時語音通信中的語音處理技術(shù)的未來發(fā)展做展望。此外我們還準備了更多精彩的內(nèi)容：

《如何使用機器學(xué)習(xí)算法優(yōu)化分發(fā)鏈路》曾小偉 PP云技術(shù)副總監(jiān)
《iOS實時相機的GPU實踐》沈軻軼騰訊天天P圖iOS開發(fā)組長
《超高清VR直播技術(shù)的演進與挑戰(zhàn)》盛驍杰優(yōu)酷VR技術(shù)專家
《實時音視頻技術(shù)賦能傳統(tǒng)行業(yè)》崔文秀三體云聯(lián)產(chǎn)品副總裁
《Animoji動態(tài)表情的技術(shù)實現(xiàn)》蔡銳濤相芯科技圖形引擎負責(zé)人

點擊 [ 閱讀原文 ] 了解相關(guān)活動信息，快來報名吧!

總結(jié)

以上是生活随笔為你收集整理的搞多媒体开发？吴威麒：先拉个书单看看的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：周正宁：研发最大的挑战是不断否定常规否
下一篇： 5月19-20日WebRTCon 201