基于CNN和LightGBM的环境声音分类

发布日期:2019年10月17日
基于CNN和LightGBM的环境声音分类 基于CNN和LightGBM的环境声音分类

本内容试读结束

下载后可阅读完整内容,立即下载

针对传统卷积神经网络在环境声音分类中泛化能力不足且准确率不高的问题,提出了一个新的将CNN和

音频识别是模式识别领域一个前沿研究课题。作为音频识别的一个重要分支,环境声音分类(Environmental Sound Classification, ESC)受到了业界许多专家学者的关注, 成为了热门研究话题。

ESC 是用机器进行声学环境分析最重要的技术之一,广泛应用于监听[1]、智能家居[2]、场景分析[3]和机器视听[4]等领域,如监管系统通过检测监管区域异常声音自动报告紧急情况并启动应急方案[5]、机器人通过对环境声音的分类识别确定下一步行动计划[6]等。与语音和音乐不同,环境声音的音频具有多样性特点, 拥有更广泛的频率范围。近年来,随着医疗保健、安全监控、生态环境变化预测等应用需求的涌现,环境声音分类识别研究已越来越受到学术界的重视。环境声音的准确分类识别已成为相关应用成功与否的关键。

环境声音分类识别属于音频识别范围。传统的音频识别方法分为信号处理方法和机器学习方法。传统的信号处理方法直接使用音频数据[7] [8] [9],如Mel 滤波器组属性[10]、Gammatone 属性[11]、基于小波的属性[12]和多频带谱减法[13]等;传统的机器学习方法如SVM [14] [15]、GMM [16]和KNN [17]等。

近年来,随着深度学习技术的发展,将深度神经网络(Deep Neural Network, DNN)应用于自动语音识别(Automatic Speech Recognition, ASR)和音乐信息检索(Music Information Retrieval, MIR) [18] [19]取得了巨大的成功。对于音频信号,DNN 能够从原始数据中提取特征,一些基于DNN 的模型被提出并且表现得比传统的机器学习模型效果更好[20], 如:Picza K.J.将简单的卷积神经网络层结构应用于log 梅尔频谱图, 对环境声音进行分类处理[21];Medhat F.等人通过嵌入类滤波器组的稀疏性来引导网络在频谱中的学习[22];Takahashi 等人通过使用log 梅尔频谱图和增量及增量的增量信息作为类似于图像RGB 输入的三通道输入[23]。然而,DNN 的深度全连接架构对于转换特征并不具备强鲁棒性。一些新的研究发现卷积神经网络具有强大的通过大量训练数据探索潜在的关联信息能力,通过从环境声音中学习类似频谱图的特征[24], 将CNN 应用于ESC 的几次尝试已经获得了性能提升, 如Zhang 等人通过调整网络中各层的激活函数提高了模型的性能[25];Zhang 等人通过调整卷积网络层结构并且融合混合样本生成新样本训练网络, 提升了模型效果[26]。

但是网络结构的设计依然有待改进, 模型的特征获取与分类预测功能没有很好地进行分离,这为进一步改进模型提供了新的思路。

为了更好地利用音频数据信息,设计更好的网络结构模型,本文在此基础上调整网络层结构,同时由于卷积神经网络结构模型具有提取音频特征功能作用,本文将使用卷积神经网络模型对音频数据特征进行提取,而使用LightGBM 模型对提取特征后的音频数据进行分类预测以加强模型效果,将模型提取



相关标签