基于卷积神经网络的声纹检测签到系统

发布日期:2021年9月17日
基于卷积神经网络的声纹检测签到系统 基于卷积神经网络的声纹检测签到系统

本内容试读结束

下载后可阅读完整内容,立即下载

针对高校传统考勤方式,如人工点名、手写签到等方式存在他人代替、耗时且效率低下等问题,基于深度学习强大的建模能力,本项目提出基于改进神经网络模型的智能化课堂语音签到系统,采用卷积神经网络(Convolutional Neural Network, CNN)进行语音模型的训练,自动提取语音深层次的声纹特征并识别,实验结果表明该系统能有效提高点名效率并能够制止代签等行为,具有有效提高教师的课堂教学效率的重要意义。

随着互联网技术的飞速发展,广大高等院校引入了智能化办公系统提高工作效率[1],同时也将大量的课堂点名系统投入使用,如使用二维码进行身份识别的签到系统[2],通过在微信群发言来识别身份的签到系统等[3]。这些系统的出现大大提高了学校学生们的出勤率,保证了学校的教学质量。但是通过对现有系统的进一步研究, 我们能够发现这些签到系统在进行身份识别的时候仍然使用着比较传统的方式, 这些传统的方式虽然提高了效率,但是都具有一定的局限性,他们仅仅只能通过账号或扫码识别身份, 这就导致如果账号被集中到一个学生手上或者二维码图片被发送,就能完成大量的签到作弊行为。虽然有的系统引入GPS 定位来进行签到时的实时定位[4],但是这仍然无法完全制止签到作弊的行为, 而这种签到作弊行为对学校教学产生了很大影响。因此,广大高校现在需要一种更加完备的方法来完成课堂考勤,以便进一步提高教学质量。随着深度神经网络等人工智能技术的快速发展,深度学习算法作为新一代人工智能技术的核心算法,为数据挖掘、模式识别、计算机视觉、语音识别、自然语言处理等领域带来了颠覆性变化[5]。

传统的考勤方式,如学生自行刷卡签到,教师人工点名等方式存在他人代替、卡片遗失和卡片被盗用等风险,且因为缺乏准确的模型,无法处理数量级较大的数据集,而深度学习的兴起提供了强大的建模能力,为进行语音识别奠定了技术基础,提高了初始数据的利用效率。早期由于硬件与软件条件的限制,国内对语音识别的研究开始得比较晚,但是引入技术之后发展的速度特别快。文献[6]针对语音识别率低以及噪声影响等问题,设计了结合经验模态分解和RBF 的语音识别模型,使得实验结果受噪音的影响达到更低,最终的仿真实验也验证了与其他算法相比该算法进一步提高了语音识别率。

文献[7]提出一种基于深度神经网络的麦克风阵列降噪算法,这种算法能够有效提高真实噪声环境下的语音识别率。

文献[8]提出基于深度置信网络隐马尔可夫混合模型(DBN-HMM)无监督语音签到系统, 但实验结果并没有获得识别率在95%以上理想的DBN-HMM 语音识别模型, 如何在更复杂的环境干扰下, 尽可能使用最少的语音数据学习训练仍然存在一定挑战。文献[9]提出基于高斯混合模型(GMM)课堂语音签到器,但声纹的不固定性影响了识别效率,如何以一种较为准确的方法识别语音仍是一个较难攻克的课题。国外语音识别的研究始于1952 年,世界上第一个语音识别系统是Audrey 系统[10],该系统可以识别10 个英文字母,自此开辟了语音识别研究之路。1980 年后,研究员们有了更大的目标,研究方向逐渐偏向更大词汇量的语音识别系统上。同时随着计算机的发展和神经网络技术的出现,识别算法的技术开始过渡到统计模型,隐马尔科夫模型(HMM)更是成了当时的主流技术[8] [11]。文献[12]提出基于时域的无监督单通道语音源分离方法,通过将语音特定信息与经验模式分解相结合,可产生语



相关标签