高斯混合模型–通用背景模型(Gaussian mixture model-universal background model, GMM-UBM)是说话人识别技术中最为常用的模型,该模型在诸多试验中都取得了很好的效果。本设计探索把GMM-UBM
随着科学技术的发展,用科学技术方法来保障人们所处环境的安全越来越得到重视。异常声音识别技术[1]是近年来语音识别的一个新兴的研究方向,通过对声音信号的监测跟踪,能及时判断出是否有异常事件发生,进而采取相应的措施。一般来言,当发动机出现异常时,往往都伴随着异常的响动。因此我们可以通过对发动机的异常声音的监控识别,来判断是否出现了异常,以便提前得到处理,可以预防危急事件的发生。
本文研究的飞机发动机声音识别属于非语音的识别问题。一直以来,对语音识别的研究很多,但是对于非语音方面的研究却很匮乏,大多数是把基于单一的GMM, SVM (Support Vector Machine), HMM (Hidden Markov Model)等作为分类器, 效果并不理想, 因此本文考虑用GMM-UBM 的方法作为识别模型, 实验证明,识别率比单一的分类器模型高很多。
2. 发动机异常声音识别系统结构 GMM-UBM [2]是一个高阶的GMM,它是根据训练声音音自适应得到的,可以减小测试声音与训练声音不同所带来的影响,提高系统识别率。在训练阶段,首先对发动机声音进行预处理之后,提取出发动机声音的MFCC (Mel Frequency Cepstral Coefficients)特征[3],然后用部分声音训练统一背景模型即UBM 模型,再通过最大后验准则[4]训练来得到在通用背景模型的每个高斯分量上进行自适应得到GMM-BUM 模型。最后在识别阶段,把待测试语音的特征,与训练好的GMM-UBM 结构模型匹配,最终的输出评分为GMM 和UBM 的输出评分之差。图1 为基于GMM-UBM 的异常声音识别结构图。
3. 基本原理 3.1. 预处理和特征提取 一个完整的声音识别系统,第一步是要对声音做预处理,并提取出准确代表声音特性的特征,预处理一般有预加重、分帧、加窗和端点检测,把声音信号预处理之后,就要提取声音特征,常用的声音特征有基音周期[5],线性预测系数LPC (Line Prediction Coefficient) [6],线性预测倒谱系数LPCC (Line prediction Cepstral Coefficient) [7],梅尔倒谱系数MFCC[8]等等。由于MFCC 特征表征人耳频率特性,鲁棒性更好,所以本设计用MFCC 系数作为发动机声音特征。