本文的研究工作主要是在幅度平方谱最小均方估计器的基础上提出了一种新的算法。由于带噪语音的统计模型中语音存在不确定性,统一对语音信号进行处理必然会造成语音成分的丢失,从而影响语音增强
语音通信和人机交互是现代通信中重要的通信方式。但是,在语音通信和语音识别的过程中,语音信号无法免除地会受到外界噪声的干扰,所以阻碍了人与人之间,人与机器之间的交流。因此从带噪语音中提取出纯净语音信号是语音增强技术的目的所在。单信道语音增强是语音信号处理的关键分支,其应用技术的研究具有重要的适用价值,尤其在语音识别,医疗领域,军事通信,数字家电等领域已被广泛应用[1]。为了提高移动环境下的通信品质,实现实时通信,需要在传输到远端之前有效抑制背景噪声[2]。虽然语音增强技术看似只是一个恢复纯净语音的简易过程,但在学术领域涉及到的众多技术和方法是不容小觑的。随着人们对接收语音信号的质量要求不断提高,越来越多的语音增强算法被提出。其中比较经典和具有代表性的算法有谱减算法,维纳滤波算法,最小均方误差算法,小波变换算法等等[3]。
由于基于谱估计统计模型的语音增强算法中的模型能够很好的适应信号的变化,因此这种算法受到了广大学者的青睐。基于谱估计统计模型算法的优点是适用范围广,易于理解,实施起来比较简单,且对于各种背景噪声抑制效果较好。
其中比较经典的谱估计统计模型算法是幅度平方谱最小均方估计算法,该算法在低先验信噪比和高后验信噪比的情况下能够有效地抑制背景噪声,减少语音失真。但是,基于谱估计统计模型的幅度平方谱最小均方算法并没有将语音信号的语音存在不确定性考虑在内[4],因此会不可避免的造成语音成分的丢失,影响了语音增强的效果。因此本文针对幅度平方谱最小均方估计器算法中没有考虑到语音信号存在不确定度的缺点提出了一种新的算法融合无语音概率的算法。本算法是在幅度平方谱最小均方估计器的基础上,推导出每一个频点的无语音概率,进而将幅度平方谱最小估计器的增益函数与无语音概率相结合成一个新的增益函数。
本文的结构如下:第二部分简单描述了基于统计模型的语音增强算法基本理论,第三部分主要是对提出的新的算法——融合无语音概率的语音增强算法进行理论分析和公式推导,第四部分通过实验仿真的语谱图,以及四种客观评价标准:分段信噪比(Segmental SNR, SegSNR),短时客观可懂度(Short Time Objective Intelligibility, STOI),感知语音质量(Perceptual Evaluation of Speech, PESQ)和对数谱距离(Log-Spectral Distortion, LSD)结果进行定量分析,进一步比较了两种算法的优缺点,最后做出总结。
2. 语音增强算法基本理论 基于统计模型的语音增强算法,经过傅里叶变换后其纯净语音信号以及噪声语音信号通常都假设服从高斯分布,基于此模型Loizou 等人提出了一种语音增强算法幅度平方谱最小均方误差估计器算法