1. 研究目的与意义
人类之所以能够通过语音捕捉对方的情感状态,是因为人脑具备了感知和理解语音信号中能够反应说话人情感状态的信息的能力。计算机的语音情感识别是计算机情感智能的重要组成部分,是实现人机交互的关键前提。语音情感识别是计算机对人类情感和理解的过程的模拟,通过提取其中的声学特征,找到其与人类之间的情感的联系。功能性副语言是副语言狭义定义的一部分。对于功能性副语言的研究最开始主要用于人们交谈中,近几年逐渐被引入到情感研究领域。韵律特征,突发性特征等功能性副语言已被证明有着举足轻重的作用,忽视它们会造成信息沟通的障碍,严重的还会导致语言意义的完全曲解。所以,语言中的非语言现象——副语言引起了越来越多人的注意和重视。
2. 课题关键问题和重难点
关键问题
1.使用praat对语音进行采集,使模拟信号转化为数字信号,方便后续进行处理、分割、情感识别。
2.使用cooledit对语音预处理,包括放大、降噪等,提高后续语音情感识别的准确性,减少其他因素的干扰。
3. 国内外研究现状(文献综述)
1.综述
文献[1]提出了深度学习技术在金融中的应用,同时也引出在语音情感识别中深度学习技术也同样适用。文献[2]提到递归神经网络(recursive neural network, rnn)和长短期记忆网络(long short-term memory, lstm)等深度学习方法在基于语音的分类中非常有效。基于lstm的rnns能够处理可变的输入数据,并对长距离的连续文本数据进行建模。与传统技术相比,深度学习算法在情感识别方面表现更好。同时列举了多个深度学习技术的模型如dbm、rnn、cnn等。但同时也指出了深度学习技术的局限性。例如,层级内部结果过于庞大,对时间变化的输入数据的效率较低,在记忆层级信息时的过度学习。
4. 研究方案
整个系统主要包含四部分,语音采集模块、语音预处理模块、音频分割模块以及语音情感识别模块。首先将待测信号输入,通过语音采集模块,将信号采集,使得模拟信号转化为数字信号。再对该信号进行预处理,包括预加重,补偿信号高频成分提高输出信噪比;分帧,因为把若干个语音采样点分为一帧,在这一帧内,语音信号的特性可是视为是稳定的;加窗等,使其他因素的干扰降低,增加后续语音情感识别的准确性。然后是将预处理后的待测信号进行分割,选择合适的分割算法,将其分成传统语音段和功能性副语言语音段。构建一个lstm深度学习模型,在对该模型进行训练后,将语音段输入,通过相应的算法可以将情感特征提取出来,最后通过支持向量机(support vector machine,svm)进行分类得出情感结果。
音频分割算法主要有三种,基于距离、基于模型、基于模型选择。基于距离的算法采用滑动窗得到一条距离曲线,曲线上大于某一阈值的局部最大点即确认为分割点。该算法实现简单,缺点是阈值很难确定,阈值过大则会漏检正确的分割点,阈值过小则会增加虚假分割点。基于模型选择的算法,最常见的是基于贝叶斯信息准则(bayesian information criterion,bic)算法,由于具有良好的统计学理论基础,而取得了较好的效果。但是bic音频分割算法的缺点是计算量较大、受惩罚因子影响较大。基于模型的算法,则是为不同的音频类别建立模型,并于分割时利用训练好的模型对每一帧或若干帧进行识别分类,再将类别发生变化处作为分割点。
5. 工作计划
2022-2023-1学期第15-16周完成选题,查阅关于语音情感识别和功能性副语言的中英文资料,进行相关技术的学习;17周与导师沟通课题;18-19周完成外文翻译,选择一种合适的语音情感识别模型进行搭建。
2022-2023-2学期第1-2周进行课题需求分析,选择一种合适的音频分割算法,对语音段进行分割,并且学习相应软件的使用方法;
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。