针对音乐资源过于庞大,现有的音乐推荐方法分类准确度不高,对用户情感的识别较模糊导致人们在生活中难以寻找到偏好音乐的问题,本文提出一种将长短期记忆神经网络(Long Short-Term Memory, LSTM)与注意力机制(Attention Model, AM)相融合的音乐分类及推荐方法,该方法由音乐分类模型和音乐推荐模型两部分组成。首先对音频数据的声学特征进行捕获,构成含有多维特征的序列后,通过LSTM神经网络和注意力机制对音乐进行情感分类,接下来采集用户的历史收听记录,选取最近的十首歌曲并生成频谱图,结合CNN (Convolutional Neural Networks, CNN)对用户当前情感进行识别,提升推荐的高效性。实验部分将新提出的模型与其他传统音乐分类模型进行多组对比测试,结果显示与近年来现存的模型相比,新提出的模型明显提升了情感判断及用户情感识别的准确度,音乐推荐的准确度有所增强。
随着移动技术的不断发展,音乐自媒体的高速发展使得众多的音乐网站都存在大量的用户。目前听音乐已经成为人们在最大程度上在碎片化时间中寻求放松的一种有效方法,难以找到自己喜爱的音乐无疑会降低音乐库的使用效率,体验感不高,影响用户友好度[1]。在这些庞大的音乐库中,怎样快速搜索到用户在最近一段时间内心仪的音乐并提高音乐库的使用效率,提升用户体验是目前大热的研究方向。
繁重的音乐信息致使音乐的分类准确度不高,对用户情感判别的实时性较差。对于这个问题,本文选用语音信号的音频特征以及用户收听的历史记录作为依据,来对音乐进行情感分类以及推荐。
就目前的研究现状而言,音频特征和用户的音乐理解存在巨大的语义鸿沟,推荐效果不好[2]。传统音乐推荐方法,例如基于文本标注的推荐算法[3],需要大量的人工标注,存在耗时长且低效的问题。为此Huang 等结合了卷积神经网络(Convolutional Neural Networks, CNN)和注意力机制,对音乐中情感表达较明显的部分实现了高亮[4];Mirsamadi 等融合了注意力机制与循环神经网络(Recurrent Neural Network, RNN),集中提取了一些与情感相关联的短时帧级声学特征来自动识别说话者的情感[5];Picza KJ 将简单的卷积神经网络结构用于Log 梅尔频谱图来分类处理声音[6];Zhang 等融合卷积网络层结构与混合样本生成的新样本训练网络,极大的提升了频谱识别模型的效果[7]。
近期随着深度学习技术的不断革新,将长短期记忆网络LSTM 应用于音乐信息检索(Music Informa-tion Retrieval, MIR)取得了巨大的成功[8]。
同时也总结出基于原始声学信号分解对情感识别问题进行特征提取的两种方法:一是从原始音频文件中捕捉最本质的声学特征,提取出信号特征[9];二是直接在原始音频上运行深度学习框架。然而仅利用这些数据并不足以跟进用户近期的喜好变化和情绪转换,因此本文提出一种融合LSTM 和注意力机制进行音乐分类及推荐的方法,其中音乐分类模型高效的结合了音乐本身的多项音频特征,融合LSTM、注意力机制对音乐进行了情感分类,训练音乐的情感分类模型,接下来对用户的历史收听记录进行筛选,选取最有代表性的数据与CNN 相结合来对音乐进行推荐。
本文与其它常见的模型作对比,采用了多组对比测试,实验结果可验证音乐情感分类以及用户情感分类的准确性,对用户进行更精准的音乐推荐,实时性较高。