如何提取出一首歌曲的梅尔频谱
生活随笔
收集整理的這篇文章主要介紹了
如何提取出一首歌曲的梅尔频谱
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
如何提取出一首歌曲的梅爾頻譜
1.聲譜圖
如下圖1一段聲音信號直觀地看起來是時間和能量的關系,在語音識別,音樂信息檢索中常常關注的是聲音中頻率和能量的關系,即聲譜圖描述的就是頻率和能量的關系。所以我們拿到一段音頻需要先進行初步的處理,獲得它的聲譜圖。具體的做法則是將聲音信號分幀,然后對每一幀都用短時傅里葉變換處理,當然進行傅里葉變換之前還預先需要對聲音信號進行預加重,加窗。
2.梅爾頻譜
由于人耳對聲音的感知不是線性的,人耳對聲音的低頻比對聲音的高頻更加敏感。所以常常需要將線性頻譜轉換到非線性的梅爾頻譜。普通頻率轉換到梅爾頻率的公式是 m = 2595 l o g 10 ( 1 + f 700 ) ? m=2595log_{10}(1+\frac f{700})? m=2595log10?(1+700f?)?,我們將一組頻域信號通過梅爾濾波器組就可以獲得梅爾頻譜。
總結一下獲得梅爾頻譜的大概流程:首先對時域信號進行傅里葉變換轉換到頻域,然后再利用梅爾頻率刻度的濾波器組對應頻域信號進行處理,就可以得到梅爾頻譜。這個流程可以使用librosa庫來完成,下面就是相應的代碼。
import librosa import numpy as np # audio_path是歌曲的保存路徑,需要是load方法可以讀取的歌曲文件格式 def get_melcepstrum(audio_path,mel_save_path):y, sr = librosa.load(aduio_path,sr=22050) #返回這首歌的time series序列和采樣率S = librosa.core.stft(y,n_fft=1024,hop_length=512,win_length=1024)# S.shape = (1+n_fft/2,幀數)X = np.abs(S)mel_basis = librosa.filters.mel(r,n_fft=1024,n_mels=128) #梅爾濾波器矩陣# mel_basis.shape=(n_mels,1+n_fft/2)mel_s = np.dot(mel_basis,X)np.save(mel_save_path,mel_s)reference
以下這兩篇博客將梅爾頻率倒譜系數(MFCC)講得很清楚,推薦!求MFCC需要在梅爾頻譜的基礎上繼續取對數再進行變換。這次我只是把梅爾頻譜當做神經網絡的輸入,就先到這里。
總結
以上是生活随笔為你收集整理的如何提取出一首歌曲的梅尔频谱的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《重学Java系列》之 泛型(上)
- 下一篇: 一条sql语句查询成绩排名