为了去除复杂的音频切分和强制对齐过程,并在噪音环境下充分发挥说话人发音过程中发音器官的视觉作用,本文提出了一种融合唇部特征的端到端的多模态语音识别算法。本文首先对说话人视频进行处理得到对应图像集,使用基于回归树的人脸对齐算法对图像集中发音的主要视觉部分进行特征提取,并与说话人的声学特征进行对齐融合得到新的特征,然后使用支持变长输入的端到端双向长短期记忆网络模型(DeepBiLstmCtc)对特征进行处理,输出对应的音素序列。实验结果表明该算法能有效地识别出视听觉信息中的音素序列,在噪声情况下也有一定的识别率提升。
语音是人与人之间最重要的交流方式之一,而自动语音识别(ASR)技术[1]实现了人和计算机之间的交互功能,计算机通过训练以及识别,将语音信息转换成相对应的命令或文本。人类对语音的识别过程实质上是一个多模态过程[2],其中的特征除了声音外,还涉及说话人口型、面部表情、手势等多个部分。
在很多情况下唇部视觉信息与声学信息就有很强的互补性,具体地体现在一些音位的对比上,例如辅音/n/与元音/u/在声学信息的表征力较小[3],但是在唇部视觉信息的表征上更加显著。
传统语音识别技术比较单一地关注声学信息的研究,特别明显的一个缺点就是单模态语音识别鲁棒性比较差,在比较复杂的环境下,特别是噪音的情况下识别基本处于不可用状态[4]。事实上通过唇动视觉信号和音频信号进行融合,多模态语音识别能较好地应对噪声环境并提高识别的正确率[5]。
本文融合了视觉特征和声学特征,使用基于连接时序分类(CTC)算法[6]的端到端LSTM [7]模型实现了对音素序列的多模态识别,避免了时域上复杂的切分和强制对齐过程。实验结果表明,本算法可以在避免切分和强制对齐的情况下,有效地完成音素序列的识别功能,并一定程度提高了识别正确率,在复杂环境下也有更强的鲁棒性。
2. 融合唇部特征的语音识别模型 2.1. 实验数据集 本文使用的数据集为GRID 数据集,该数据集是一个支持语音感知联合计算–行为研究的大型多语言视听句子语料库。
由34 名说话者(18 名男性, 16 名女性)每人说出1000 句话的高质量音频和视频(面部)录音组成。
数据集说话人视频为mpg 格式,分辨率为360 × 288,帧率为25 帧/秒。音频文件为wav 格式,采样率为50 kHz,音频长度与视频相同,标注文件为align 格式,标注文件对单词进行了标注。
2.2. 音频数据预处理及特征提取 语音信号预处理是对语音信号进行转换,使其适合计算机处理,同时符合特征提取的要求。提取出能表示语音信号本质的特征参数,语音识别才可以高效地进行。语音信号预处理包括预加重、分帧和加窗[8]处理。