购物网站 wordpress 英文模板/智能优化网站
Griffin Lim算法利用frame之间相位的约束来实现迭代收敛,可以在缺乏原始相位信息的基础上利用频谱重构出语音信号。
以下是G-L算法的大致思路:
- 由频谱我们已经有了Amplitude矩阵A1A_{1}A1,随机初试化一个相位矩阵ϕ1\phi_{1}ϕ1.
- 做IFFT变换,得到时域信号(此时的相位并不准确);
- 将时域信号做STFT变换,得到频谱。保留相位矩阵,把Amplitude替换为原始的A1A_{1}A1;
- 回到步骤2.进行迭代,直到满足迭代停止条件。
如今,也有人使用神经网络来直接重构语音信号,可以搜索“neural vocoder”的相关内容。
Reference:
- What are intuitive explanations of the Griffin Lim Algorithm?
- Griffin, Daniel, and Jae Lim. “Signal estimation from modified short-time Fourier transform.” IEEE Transactions on Acoustics, Speech, and Signal Processing 32.2 (1984): 236-243.
- Reconstruction of audio signal from Spectrogram
- Reconstruction of Audio Signal from its Absolute Spectrogram
- A Phase Vocoder in Matlab