基于图傅里叶变换的语音增强算法研究

发布日期:2023年4月14日
基于图傅里叶变换的语音增强算法研究 基于图傅里叶变换的语音增强算法研究

本内容试读结束

下载后可阅读完整内容,立即下载

在语音增强过程中,人们往往采用语音信号的频谱信息作为特征输入,再进行进一步的训练增强处理。最为常见的便是对语音信号进行短时傅里叶变换后取其幅度频谱作为特征输入,在语音恢复阶段,则将含有噪声语音的相位信息作为增强语音的相位信息进行语音的重构。但是,这一做法必然导致相位信息的缺失。本文提出将图傅里叶变换(GFT)分别与非负矩阵分解(NMF)算法以及全卷积神经网络(FCNN)模型相结合来实现含有噪声语音的增强,实验表明,图傅里叶变换–非负矩阵分解算法在语音增强上与短时傅里叶变换–非负矩阵分解算法表现相当,基于图傅里叶变换–全卷积神经网络的语音增强相较于基于短时傅里叶变换–全卷积神经网络的语音增强有更为优异的性能。

随着信息技术的快速发展以及人工智能技术的不断地落地推进, 以语音为基础的信息科技不断涌现。

例如:语音识别、声纹识别、音视频会议等。

在语音技术领域, 语音增强技术一直起着举足轻重的作用。

随着语音识别、语音通信应用场景中环境向着复杂化、多样化发展,语音质量也将面临着各式各样的挑战,语音增强将作为众多语音应用的前端处理模块为后续模块提供高质量的语音。语音增强效果如何重点在于训练目标的选择[1] [2] [3]以及模型的构建[4] [5]。

在特征模块,研究人员大多采用时序语音信号经时频分解后得到时频特征作为模型的输入,时频特征又可分为:幅度频谱与复频谱。基于幅度频谱的语音增强,在训练阶段只将幅度频谱喂入模型中,最后得到一个收敛的模型,在语音增强阶段将带有噪声语音的相位信息与增强后的幅度频谱结合后重构语音时序信号[6] [7] [8]。虽然以幅度谱为特征进行语音增强时取得了非常优异的效果,但是其忽略了相位信息在语音增强中的作用,因为在早期研究中,人们认为相位信息对于语音的增强作用微乎其微[9]。但是,新的研究表明,相位信息对语音的质量好坏起着重要作用[10] [11]。由于相位信息具有缠绕性[12], 深度神经网络不善于处理非结构化的数据。因此,人们采用复频谱作为语音增强模型的输入特征构建一个多通道的语音增强模型,相较于幅度谱语音增强模型取得更好的语音增强效果。但是,采用复频谱为特征的双通道语音增强模型相比于幅度谱为特征的模型需要有更大的算力要求以及更多的训练时间。以DCCRN [13]为例,相较于DCRN 增加了4 倍的训练时间以及2 倍的模型参数。

因此,本文拟采用图傅里叶变换作为语音时序信号的时频分解方法,分别结合传统的非负矩阵分解算法以及全卷积神经网络算法进行语音增强的研究。

2. 基于图傅里叶变换–非负矩阵分解的语音增强 2.1. 语音时序信号的图傅里叶变换 对语音信号进行图傅里叶变换,首先需要构造语音信号的图信号表示。一段语音时序信号可表示为[]12, , , nSS SS=。为了将语音时序信号转变为图信号,需要先对时序语音信号进行加窗和分帧的操作,



相关标签