1. 研究目的与意义
语音是人与人之间沟通和交往当中最重要的方式,因为语音信号不但蕴含了各种丰富的语义信息,还传达流露出交流时丰富的情绪状态。语音是人与人之间沟通和交往当中最重要的方式,因为语音信号不但蕴含了各种丰富的语义信息,还传达流露出交流时丰富的情绪状态。
自动语音情感识别重新构建了人们情感识别和理解过程的计算机模拟机制。一般来说,各种声音的语音信号在时域、基频和共振等特征方面有着各种不同的分布规律,识别系统可以根据这些不同之处提取到相应的情感声学特征,并以此为参考模板,识别出语音中隐含的情感内容。随着语音的研究与发展,人们的日常生活日益受到语音情感识别技术的影响。2. 课题关键问题和重难点
关键问题:虽然语音情感识别技术的研究一定程度上取得了重要发展,但是因为人类情感本身自带的丰富性和复杂性,该领域仍面临着许多需要深入研究和解决的问题与挑战,具体主要表现在以下几个方面:
1.获取情感语料数据库问题。开展语音情感识别研究工作的重要前提就是具备一个优质可靠的语音情感数据库,但是情感语音数据的采集和整理过程就十分复杂和麻烦,所以很难获取一个公开免费且高质量被权威广泛认可的情感语音数据库。
2.语音情感识别的相关模型问题。语音情感识别模型的构建工作十分重要,必须建立正确有效的模型。但是,由于当前对其认知水平有限,目前语音情感识别模型仍处于功能模拟的层面,两者之间有较大差距,情感与情感关系的确定尚不精确。
3. 国内外研究现状(文献综述)
文献[1]讲述了语音情感识别是目前模式识别领域的研究热点之一,通常包括预处理、特征提取、特征变换和情感分类等几个步骤。其中,声学特征主要有两大类别,一类是基于韵律、声音质量的全局统计特征,如基于基频、共振峰的统计量;一类是局部的频谱特征,如线性预测倒谱系数(linear predictive cepstrum coefficient, lpcc)、mel-频率倒谱系数(mel-frequency cepstrum coefficient, mfcc)等。情感分类中使用的建模方法,比较流行的方法有基于概率生成模型的方法,如高斯混合模型(gaussian mixture model, gmm)和隐马尔科夫模型(hidden markov model, hmm);基于判别模型的方法,经典模型有支持向量机(support vector machine, svm)和人工神经网络(artificial neuralnetwork, ann);新提出的模型有将不同模型通过串联或并联后形成混合模型的建模方法。
文献[2]采用调制频谱特征来自动识别人的语音中的情感信息。受人耳听觉系统启发,语音信号通过听觉滤波器组以及调制滤波器组得到长时频域-时域表示,从而获得声学频率和时域调制频率的信息,进而提取出调制频谱特征。
文献[3]研究解决了跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合的技术难点。利用stb/itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征;然后研究改进的dbn网络模型并对传统声学特征与新提取的语谱图特征进行了特征层融合,增强了特征子集的尺度,提升了情感表征能力。
4. 研究方案
1.完成声音的采集。praat软件的主要功能是对自然语言的语音信号进行采集、预处理,分析和标注,并执行包括变换和滤波等在内的多种处理任务。作为分析结果的文字报表和语图,不但可以输出到个人计算机的磁盘文件中和终端的显示器上,更能够输出为精致的矢量图或位图;
2.语音情感信号的预处理。语音信号的预处理指的是在提取语音信号的特征之前进行的一些基础处理工作,使得更好地满足后续语音工作需要,预处理过程主要分为采样量化、预加重、分帧,加窗以及端点检测,如图所示:
5. 工作计划
2022-2023-1学期:
第15-16周:完成选题,查阅相关中英文资料,进行相关技术的学习;第二阶段:完成论文的提纲文献,课题研究背景及其意义和基本概念和理论部分。
第17周:进行课题总体规划;
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。