1. 研究目的与意义
人类之所以能过通过语音了解对方的情感状态,是因为人脑具有感知和理解语音信号中能过反应说话人情感状态的信息的能力。
计算机要实现智能也应具有识别、理解和表达人类的情感的能力,这是实现人机交互的前提。
时序建模是对系统观测得到的时间序列数据通过曲线拟合和参数估计或谱分析等来建立系统的数学模型的理论和方法。
2. 课题关键问题和重难点
关键问题
1.搭建时间序列相关的情感检测网络模型,选好要搭建的模型对课题研究十分的重要。
2.如何使用praat、cooledit、opensmile等软件对声音进行采集,预处理,和提取。
3. 国内外研究现状(文献综述)
1国外文献综述
文献[1]提到了通过前馈网络(feedforward neural network, fnn)和渐进神经网络(progressive neuralnetwork,pnn)实现的语音情感识别迁移学习的效率。并且于iemocap数据库的实验结果表明,利用脚本情绪数据使用迁移学习来识别语音中的情绪是有用的,并真名即使是少量的原数据也可以提高系统性能。
4. 研究方案
整个系统包括部分,语音采集模块、语音预处理模块、特征提取模块、谎言情感检测模块。
图1:实验流程图
首先将待测信号输入,通过语音采集,将语音信号采集,使模拟信号转化为数字信号,再对该信号进行预处理,包括语音增强、语音分离等。使其他因素的干扰降低,提高语音情感识别的准确性。其中语音增强是指语音信号被噪声干扰时,对噪声进行抑制,从混合型号中提取有用的信号的技术。语音分离则用于处理人声干扰的前端技术,旨在多说话人的场景下提取目标说话人的语音信号而去除其他人的语音信号。对语音预处理后,将语音进行特征提取,选择合适的算法模型将语音中的情感特征提取出来,再送入谎言情感检测模块进行检测得出结果。 情感特征提取有基于CNN特征表征的语音情感识别模型,基于CNN和SRU的串行网络模型,和基于CNN和LSTM的并行网络模型等等模型进行特征提取。其中基于CNN和LSTM的并行网络模型与前两种模型相比,在不同的数据集中进行的测试加权精度均高于前两种模型。CNN网络通常由卷积层、池化层、全连接层组成。其模型结构和算法可以有效降低网络模型的浮渣都和训练参数的数量,并从提取的3-D谱图特征的时间和频率中学习情感细节。LSTM适用于时间序列数据,因为它可以保持数据前后的相关性。LSTM网络可以通过每次输入一帧的算法来处理不同大小的特征,帧级特征的帧数随时间而变化。为了满足模型的要求,需要将提取的帧级特征填充到相同维度中,填充采用补零操作,并记录原始时间步长,当时间步长超出实际数据长度范围时,LSTM内部参数将停止更新。CNN和LSTM并行网络模型采用并行的结构框架,同时利用卷积神经模块和长短期记忆模块对两种特征进行学习。两模块之间采用了并行的架构,并且同时提取3-D谱图特征和帧级特征,两种不同作用的特征作为模型的输入,利用CNN模块和LSTM模块同时进行训练,将学习到的高级特征合并进行批归一化(BatchNormalization, BN)处理后利用SoftMax分类器进行情感分类。 以一段语音为例,基于CNN和LSTM的并行网络模型会先对语音波形进行归一化处理。然后分别提取两种不同的特征,在模型的不同模块中同时进行训练,以学习时频域中情感特征的细节。CNN 模块用于从提取的3-D谱图特征的时间和频率中学习情感细节。LSTM模块研究情感细节在时间上的变化。然后我们将两个模块中同时训练的高级特征进行拼接,为了提高训练的收敛速度,避免训练的梯度扩散,采用批归一化的方法对输出标准化。最后,使用SoftMax分类器对情感进行分类。所有模块同时进行训练,以确保模型能够提取到完整性的情感细节。
|
5. 工作计划
在寒假期间查找并了解国内外论文,学习有关深度学习卷积神经网络的有关资料,去了解和练习相关的实验操作,为完成自己的实验目的和做出满意的成果打下基础。
2022-2023-1学期
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。