全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210008936.3 (22)申请日 2022.01.06 (71)申请人 浙江工业大 学之江学院 地址 312030 浙江省绍兴 市柯桥区柯桥 街 道越州大道 958号 (72)发明人 陈少辉 徐晓刚 丁述勇  (74)专利代理 机构 杭州鼎乎专利代理事务所 (普通合伙) 33377 专利代理师 黄勇 (51)Int.Cl. G10L 15/16(2006.01) G10L 25/63(2013.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称 一种融入语义的语音情感识别方法 (57)摘要 本发明公开了一种融入语义的语音情感识 别方法, 涉及语音情感识别技术领域。 本发明包 括如下步骤: 计算机将视频输入到基于层次注意 力机制的模 型中学习面部情感显著特征; 计算机 将音频信号输入到频域注意力机制导向的卷积 网络中学习显著频域情感特征信息; 计算机将文 本词向量输入到语义情感特征提取网络学习显 著话语文本情感特征; 计算机利用多模态注意力 机制将音频情感特征和语义情感特征融合。 本发 明通过融合语义和语音的CNN的神经网络模型框 架An‑Net, 实现在复杂场景中, 准确识别出特定 人员语话及语音中的情感情绪, 通过采用层次注 意力机制导向下多 模态情感识别模型。 权利要求书1页 说明书4页 附图3页 CN 114550707 A 2022.05.27 CN 114550707 A 1.一种融入语义的语音情感识别方法, 其特 征在于, 包括如下步骤: 计算机将视频输入到基于层次注意力机制的模型中学习面部情感显著特 征; 计算机将音频信号输入到频域注意力机制导向的卷积网络中学习显著频域情感特征 信息; 计算机将文本词向量输入到语义情感特 征提取网络学习显著话语文本情感特 征; 计算机利用多模态 注意力机制将音频情感特 征和语义情感特 征融合。 2.如权利要求1所述的一种融入语义的语音情感识别方法, 其特征在于, 层次注意力 机 制对音频预处理, 按照每0.04s为一帧提取音 频频谱图, 设置一个长度为n的滑动窗口, 将前 n‑1帧音频频谱图与当前帧频谱图进行拼接, 作为当前帧的特 征输入。 3.如权利要求2所述的一种融入语义的语音情感识别方法, 其特征在于, 计算机控制滑 动窗口以步长为1继续向后滑动采样, 将提取好的单帧频谱图序列和整体频谱图分别输入 到两个并行的三层卷积池化模块中学习局部频率信息和整体频率信息 。 4.如权利要求3所述的一种融入语义的语音情感识别方法, 其特征在于, 局部频率信 息 模块的输出激活函数为Sigmo id, 把单帧频谱图输出 特征值映射0 到1之间。 5.如权利要求4所述的一种融入语义的语音情感识别方法, 其特征在于, 将输出的局部 频率特征进 行拼接, 与整体频率特征进 行对应元素相乘, 根据情感标签反向传播, 来对整体 频率特征中的各个维度进行选择性加强或者削弱。 6.如权利要求1所述的一种融入语义的语音情感识别方法, 其特征在于, 多模态注意力 机制中经过层次注意力机制处理过的频域音频信息, 然后经过卷积池化模块提取的特征信 息, 再经过全连接层输入到LSTM中学习时间上 下文信息 。 7.如权利要求6所述的一种融入语义的语音情感识别方法, 其特征在于, t时刻的隐藏 层输出计算公式为: ht=F(ht‑1,xt), 其中, xt为t时刻的音频特征, ht‑1为t‑1时刻LSTM隐藏层 的输出, F()为 LSTM门控函数。 8.如权利要求7所述的一种融入语义的语音情感识别方法, 其特征在于, 每维特征的注 意力权重计算公式为: 其中, wv,wg分别是注意力模 型输入、 文本语义特征输出、 语音音频输出和隐藏层输出的权重矩阵, vt为t时刻语义向量 特征。 9.如权利要求8所述的一种融入语义的语音情感识别方法, 其特征在于, 经过注意力模 型处理过的语音特 征计算公式为: 10.如权利要求9所述的一种融入语义的语音情感识别方法, 其特征在于, 将LSTM中的 音频上下文信息和人脸特征融合的计算公式为: ct=λtht+(1‑λt)c′t, 其中, λt为t时刻音频 特征的权重, 1‑λt为t时刻视频 特征的权重。权 利 要 求 书 1/1 页 2 CN 114550707 A 2一种融入语 义的语音情 感识别方 法 技术领域 [0001]本发明属于语音情感识别技术领域, 特别是涉及 一种融入语义的语音情感识别方 法。 背景技术 [0002]语音情感识别是新型人机交互技术的研究热点之一,在人工智能方面有着较广泛 的应用前景,语音情感识别包括情感语音库的建立、 语音情感特征提取及语音情感识别 分 类器等, 语音情感识别是从语音信号的角度研究说话人情感状态的形成和变化, 以使计算 机和人类之间的交互更加智能化, 在目前 的研究中, 用于情感识别的声学特征主要包括谱 相关特征、 韵律特 征、 音质特 征以及上述特 征的融合特 征。 [0003]现有的语音情感识别方法难以准确的识别复杂场景中语音的情感和情绪, 且对于 混合噪音严重的单个帧, 处 理效果较差, 难以获得较为满意的结果。 发明内容 [0004]本发明的目的在于提供一种融入语义的语音情感识别方法, 解决了现有的语音情 感识别方法难以准确的识别复杂场景中语音的情感和情绪, 且对于混合噪音严重的单个 帧, 处理效果较差, 难以获得较为满意结果的技 术问题。 [0005]为达上述目的, 本发明是通过以下技 术方案实现的: [0006]一种融入语义的语音情感识别方法, 包括如下步骤: [0007]计算机将视频输入到基于层次注意力机制的模型中学习面部情感显著特 征; [0008]计算机将音频信号输入到频域注意力机制导向的卷积网络中学习显著频域情感 特征信息; [0009]计算机将文本词向量输入到语义情感特 征提取网络学习显著话语文本情感特 征; [0010]计算机利用多模态 注意力机制将音频情感特 征和语义情感特 征融合。 [0011]可选的, 多模态注意力机制中经过层 次注意力机制处理过的频域音频信息, 然后 经过卷积池化模块提取的特征信息, 再经过全连接层输入到LSTM中学习时间上下文信息, t 时刻的隐藏层输出计算公式为: ht=F(ht‑1,xt), 其中, xt为t时刻的音频特征, ht‑1为t‑1时刻 LSTM隐藏层的输出, F()为 LSTM门控函数, 每维特 征的注意力权 重计算公式为: [0012] 其中, wv,wg分别是注意力模型输入、 文本 语义特征输出、 语音音频输出和隐藏层输出的权重矩阵,vt为t时刻语义向量特征, 以Vgg19 为例: 提取的特征是5次卷积模块的输出, FeatureMap的特征大小为64 ×512, 因此vt的特征 维数为64, 每个特征深度为512, 经过注意力模型处理过的语音特征计算公式为: 将LSTM中的音频上下文信息和人脸特征融合的计算公式为: ct=λtht+(1‑λt) c′t, 其中, λt为t时刻音频 特征的权重, 1‑λt为t时刻视频特 征的权重。说 明 书 1/4 页 3 CN 114550707 A 3

PDF文档 专利 一种融入语义的语音情感识别方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融入语义的语音情感识别方法 第 1 页 专利 一种融入语义的语音情感识别方法 第 2 页 专利 一种融入语义的语音情感识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。