1. 研究目的与意义
由于人类的生理特性,语音中的情绪信息是多变的,而且持续的时间一般是较短暂的,所以带有情绪的语音信息的采集和标注并不简单。语音中大部分的情绪语音都偏向于中性的情绪语音,而每个数据库中愤怒情绪语音只占其中的小部分(五分之一或者更少)。其中数据的获取主要来源是清华大学声纹处理联合实验室提供的THU_EV_1062数据库。THU_EV_1062数据库是包含了1062条长对话语音原始音频文件和录制剧本的连续对话语音的数据库。
语音愤怒情绪检测具有较大的实际应用范围。在客户电话服务中,客服人员可以通过计算机感知用户的情绪是否处于愤怒状态,从而对应地调整服务方式。同时客户服务系统也可以通过监督客服人员是否处于愤怒情绪状态,智能地为客服人员的服务状态进行打分和评价,及时提醒客服人员注意服务态度从而提高服务质量。在驾驶系统中,语音交互设备在车载系统中较为普及,增加愤怒情绪检测功能有助于监控驾驶员的情绪状态,保障安全驾驶。随着上路车辆的不断增多,路怒症的出现时刻威胁着交通安全。愤怒情绪检测可以及时地发现驾驶员是否处于暴躁的情绪状态,若驾驶员处于愤怒状态,则系统可以对驾驶员和相关人员进行及时地提醒,或者自动调节驾驶参数以防止发生交通事故,提高驾驶安全性。
2. 课题关键问题和重难点
关键问题:
1.为了更好地研究愤怒情绪语音模型,选取和获得愤怒情绪语音数据就显得非常重要。
2.使用向量机分类器或随机森林分类器搭建愤怒情绪识别模型。
3. 国内外研究现状(文献综述)
1国外文献综述
文献[1]提出了使用暹罗网络结构来完成语音情感识别中的迁移学习任务,使用微调方法进行训练,并使用包含对之间相对距离的距离损失进一步优化。一个公开的数据集ravdess被用作目标数据,因为它的演讲者和样本量相对较少。另外两个情感数据集crema-d和enterface05被用作源数据,以比较不同源域的影响。我们的结果表明,源数据的选择可以对暹罗网络的微调产生重大影响,并且我们的距离损失可以显着有利于暹罗网络的微调过程,与在没有建议的距离损失的情况下微调暹罗网络相比,它产生了高达7%的改进。
文献[2][4]规划了一种新颖的ser方法,以提高识别精度,减少整体模型计算和处理时间的成本。相比之下,该论文提出了一种新技术,使用基于rbf的k均值聚类算法从语音中选择更有效的序列,并通过应用stft算法将其转换为频谱图。因此,该论文中利用cnn模型的“fc-1000”层(称为resnet)从语音信号的频谱图中提取了判别性和显着特征,并通过应用平均值和标准差来消除变化。归一化后,将这些判别特征提供给深度bilstm,以学习隐藏的信息并识别序列的最终状态,并对说话者的情绪状态进行分类。
4. 研究方案
图1愤怒情绪检测总框架
图2愤怒情绪检测
5. 工作计划
2022-2022-2学期:
第1-2周:提交开题报告,并进行课题的需求分析。
第3周:在导师的指导下进行课题详细设计。
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。