基于理想组合掩蔽的监督性语音增强算法

发布日期:2018年4月30日
基于理想组合掩蔽的监督性语音增强算法 基于理想组合掩蔽的监督性语音增强算法

本内容试读结束

下载后可阅读完整内容,立即下载

为了解决传统的语音增强算法只对语音幅值谱进行估计,而让语音相位谱保持不变的问题,提出了基于相位谱估计的监督性语音分离算法。首先,对传统的相位补偿理论进行分析,提出了一种同时考虑语音

在实际的语音通信系统中,语音信号总是不可避免的受到噪声的干扰。这些噪声的存在不仅极大地损害了语音的可懂性,还对原始语音的数学模型造成破坏,使得语音质量下降。因此,为了得到纯净语音,一些语音增强算法相继提出。从信号处理的角度来看,许多方法提出估计噪音的功率谱或者理想维纳滤波器, 比如谱减法、维纳滤波法、最小均方误差估计法和子空间法等[1]。但传统的单通道语音增强算法都聚集在语音幅度谱的估计,而忽略了相位谱估计。这是因为有研究表明,人耳对信号相位信息并不敏感[2]。但是,最近一些研究显示,相位信息对于提高语音的感知质量具有重要的作用[3]。文献[4]提出一种非接触语音检测增强算法,通过对语音信号振幅谱保持不变,通过相位谱来对信号进行重构增强。这种方法虽然能够对背景噪声起到一定的抑制作用,但对语音的整体结构没有较好的还原。文献[5]提出了一种改进的相位谱补偿算法。该算法对相位补偿函数进行改进,通过语音存在概率算法估计噪声功率谱密度,取得了较好的增强效果。本文对传统的相位补偿算法进行分析,提出了一种同时考虑幅值和相位信息的分离目标, 即理想组合掩码(Ideal Compositional Mask, ICM), 并应用到监督性语音分离算法中。

2. 相位补偿理论 2.1. 传统相位谱补偿算法[6] 假设( )x t 为纯净语音,( )v t 为加性噪声,且( )x t 与( )v t 相互独立,则加噪语音可表示为 ( )( )( )y tx tv t=+ (1) 经过短时傅里叶变换变换到频域,可表示为 ()( ) ()(), exp2πmY n ky m w nmjkm N∞=−∞=−−∑ (2) 其中,k 表示频率,n 表示帧数,N 表示离散傅里叶变换长度,( )w n 为分帧窗函数,一般为汉宁窗。

信号经过傅里叶变换,都可通过幅值谱和相位谱表示。

(), Y n k 可表示为位极坐标形式,即 ()()()(), , exp, Y n kY n kj Y n k=∠ (3) 其中, (), Y n k表示短时幅值谱, (), Y n k∠表示短时相位谱。在传统的相位补偿算法中[7],定义一个相位谱补偿函数,其表达式为



相关标签