日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

分离人声和伴奏

發(fā)布時間:2023/12/31 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 分离人声和伴奏 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

點擊上方“機器學(xué)習(xí)與生成對抗網(wǎng)絡(luò)”,關(guān)注星標

獲取有趣、好玩的前沿干貨!

博雯 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI

寫歌填詞、改換風(fēng)格、續(xù)寫音樂的AI,今天又來做編曲人了!

上傳一段《Stay》,一鍵按下:

伴奏和人聲就輕松分離。

人聲頗有種在空曠地帶清唱的清晰感,背景樂都能直接拿去做混剪了!

這樣驚人的效果也引發(fā)了Reddit熱議:

這項研究的主要負責(zé)人孔秋強來自字節(jié)跳動,全球最大的古典鋼琴數(shù)據(jù)集GiantMIDI-Piano,也是由他在去年牽頭發(fā)布的。

那么今天,他又帶來了怎樣的一個AI音樂家呢?

一起來看看。

基于深度殘差網(wǎng)絡(luò)的音源分離

這是一個包含了相位估計的音樂源分離(MSS)系統(tǒng)。

首先,將幅值(Magnitude)與相位(Phase)解耦,用以估計復(fù)數(shù)理想比例掩碼(cIRM)。

其次,為了實現(xiàn)更靈活的幅值估計,將有界掩碼估計和直接幅值預(yù)測結(jié)合起來。

最后,為MSS系統(tǒng)引入一個143層的深度殘差網(wǎng)絡(luò)(Deep Residual UNets),利用殘差編碼塊(REB)和殘差解碼塊(RDB)來增加其深度:

殘差編碼塊和殘差卷積塊中間還引入了中間卷積塊(ICB),以提高殘差網(wǎng)絡(luò)的表達能力。

其中每個殘差編碼塊由4個殘差卷積塊(RCB)組成,殘差卷積塊又由兩個核大小為3×3的卷積層組成。

每個殘差解碼塊由8個卷積層和1個反卷積層組成。

實驗結(jié)果

接下來,將這一系統(tǒng)在MUSDB18數(shù)據(jù)集上進行實驗。

MUSDB18中的訓(xùn)練/驗證集分別包含100/50個完整的立體聲音軌,包括獨立的人聲、伴奏、低音、鼓和其他樂器。

在訓(xùn)練時,利用上述系統(tǒng)進行并行的混合音頻數(shù)據(jù)增強,隨機混合來自同一來源的兩個3秒片段,然后作為一個新的3秒片段進行訓(xùn)練。

以信號失真率(SDR)作為評判標準,可以看到ResUNetDecouple系統(tǒng)在分離人聲、低音、其他和伴奏方面明顯優(yōu)于以前的方法:

在消融實驗中,143層殘差網(wǎng)絡(luò)的表現(xiàn)也證實了,結(jié)合有界掩碼估計和直接幅值預(yù)測確實能夠改善聲音源分離系統(tǒng)的性能。

作者介紹

這項研究的論文一作為孔秋強,本碩都畢業(yè)于華南理工大學(xué),博士則畢業(yè)于英國薩里大學(xué)的電子信息工程專業(yè)。

他在2019年加入字節(jié)跳動的Speech, Audio and Music Intelligence研究小組,主要負責(zé)音頻信號處理和聲音事件檢測等領(lǐng)域的研究。

論文:
https://arxiv.org/abs/2109.05418

試玩:
https://huggingface.co/spaces/akhaliq/Music_Source_Separation

開源地址:
https://github.com/bytedance/music_source_separation

參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

—??—

猜您喜歡:

等你著陸!【GAN生成對抗網(wǎng)絡(luò)】知識星球!

CVPR 2021 | GAN的說話人驅(qū)動、3D人臉論文匯總

CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文

【CVPR 2021】通過GAN提升人臉識別的遺留難題

CVPR 2021生成對抗網(wǎng)絡(luò)GAN部分論文匯總

經(jīng)典GAN不得不讀:StyleGAN

最新最全20篇!基于 StyleGAN 改進或應(yīng)用相關(guān)論文

超100篇!CVPR 2020最全GAN論文梳理匯總!

附下載 | 《Python進階》中文版

附下載 | 經(jīng)典《Think Python》中文版

附下載 | 《Pytorch模型訓(xùn)練實用教程》

附下載 | 最新2020李沐《動手學(xué)深度學(xué)習(xí)》

附下載 |?《可解釋的機器學(xué)習(xí)》中文版

附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》

附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!

附下載 |《計算機視覺中的數(shù)學(xué)方法》分享

總結(jié)

以上是生活随笔為你收集整理的分离人声和伴奏的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。