全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211517134.1 (22)申请日 2022.11.30 (71)申请人 广汽埃安 新能源汽车股份有限公司 地址 511447 广东省广州市番禺区石楼镇 龙瀛路36号 (72)发明人 蒋建辉 李敏 龙文 蔡仲辉  申苗 刘智睿 艾永军 黄家琪  (74)专利代理 机构 北京唯智勤实知识产权代理 事务所(普通 合伙) 11557 专利代理师 姜悦 (51)Int.Cl. G10L 15/26(2006.01) G10L 13/02(2013.01) G10L 15/06(2013.01) B60R 16/037(2006.01)G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/335(2019.01) G06N 5/04(2006.01) (54)发明名称 对话语音生成方法、 装置 (57)摘要 本公开的实施例公开了对话语音生成方法、 装置。 该方法的一具体实施方式包括: 采集用户 语音, 以及将用户语音转换为语音文本; 将语音 文本输入预先训练的常识推理模 型, 以生成多个 推理维度中每个推理维度对应的推理文本, 得到 推理文本集合; 根据推理文本集合和语音文本, 生成对话文本; 将对话文本转化为对话语音以及 播放对话语音。 该实施方式实现了生成准确的对 话语音。 权利要求书2页 说明书8页 附图2页 CN 115527538 A 2022.12.27 CN 115527538 A 1.一种对话语音生成方法, 应用于车 载智能设备, 包括: 采集用户语音, 以及将所述用户语音转换为语音 文本; 将所述语音文本输入预先训练 的常识推理模型, 以生成多个推理维度中每个推理维度 对应的推理文本, 得到推理文本集 合; 根据所述推理文本集 合和所述语音 文本, 生成对话文本; 将所述对话文本转 化为对话语音以及播 放所述对话语音。 2.根据权利要求1所述的方法, 其中, 所述常识推理模型为多任务模型, 包括编码器和 多个解码器, 其中, 所述多个解码 器中每个解码 器对应一个推理维度, 所述编码器用于将所 述语音文本编码为文本 向量, 所述多个解码器中的解码器用于根据所述文本 向量, 生成所 对应的推理维度的推理文本 。 3.根据权利要求2所述的方法, 其中, 所述根据所述推理文本集合和所述语音文本, 生 成对话文本, 包括: 分别对所述推理文本集合和所述语音文本进行特征提取, 得到推理文本特征和语音文 本特征; 对所述推理文本特 征和语音 文本特征进行融合, 得到融合文本特 征; 将所述融合文本特 征输入对话生成网络, 生成对话文本 。 4.根据权利要求3所述的方法, 其中, 所述常识推理模型 是通过以下步骤训练得到的: 获取训练样本集, 所述训练样本集中的每个训练样本包括样本语音文本和所述样本语 音文本的样本推理文本和样本推理维度; 将所述样本语音 文本输入所述编码器, 得到文本编码向量; 将所述文本编码向量输入所述样本推理维度对应的解码器, 生成实际推理文本; 基于所述实际推理文本和所述样本推理文本之间的差异, 调 整所述编码器和所述解码 器的参数, 直至满足训练结束条件, 得到所述常识推理模型。 5.根据权利要求 4所述的方法, 其中, 所述训练样本是通过以下步骤生成的: 将多个样本语音文本中的每个样本语音文本发送至一个目标终端, 以使所述目标终端 对所述样本语音 文本进行显示; 获取所述目标终端发送的、 用户针对所述样本语音文本的标注信息, 所述标注信息包 括用户推理维度和用户推理文本; 根据所述样本语音 文本和所述样本语音 文本对应的标注信息, 生成所述训练样本 。 6.根据权利要求5所述的方法, 其中, 在所述根据所述推理文本集合和所述语音文本, 生成对话文本之前, 所述方法包括: 获取所述车载智能设备的屏幕中当前 所显示的元宇宙场景; 以及 所述根据所述推理文本集 合和所述语音 文本, 生成对话文本, 包括: 根据所述推理文本集 合、 所述语音 文本、 所述元宇宙场景, 生成对话文本 。 7.一种对话语音生成装置, 包括: 采集单元, 被配置成采集用户语音, 以及将所述用户语音转换为语音 文本; 推理单元, 被配置成将所述语音文本输入预先训练的常识推理模型, 以生成多个推理 维度中每 个推理维度对应的推理文本, 得到推理文本集 合; 生成单元, 被配置成根据所述推理文本集 合和所述语音 文本, 生成对话文本;权 利 要 求 书 1/2 页 2 CN 115527538 A 2播放单元, 被配置成将所述对话文本转 化为对话语音以及播 放所述对话语音。 8.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 其上存 储有一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑6中任一所述的方法。 9.一种计算机可读介质, 其上存储有计算机程序, 其中, 所述程序被处理器执行时实现 如权利要求1 ‑6中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115527538 A 3

PDF文档 专利 对话语音生成方法、装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 对话语音生成方法、装置 第 1 页 专利 对话语音生成方法、装置 第 2 页 专利 对话语音生成方法、装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。