专利 对话语音生成方法、装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211517134.1 (22)申请日 2022.11.30 (71)申请人广汽埃安新能源汽车股份有限公司地址 511447 广东省广州市番禺区石楼镇龙瀛路36号 (72)发明人蒋建辉　李敏　龙文　蔡仲辉　申苗　刘智睿　艾永军　黄家琪　 (74)专利代理机构北京唯智勤实知识产权代理事务所(普通合伙) 11557 专利代理师姜悦 (51)Int.Cl. G10L 15/26(2006.01) G10L 13/02(2013.01) G10L 15/06(2013.01) B60R 16/037(2006.01)G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/335(2019.01) G06N 5/04(2006.01) (54)发明名称对话语音生成方法、装置 (57)摘要本公开的实施例公开了对话语音生成方法、装置。该方法的一具体实施方式包括：采集用户语音，以及将用户语音转换为语音文本；将语音文本输入预先训练的常识推理模型，以生成多个推理维度中每个推理维度对应的推理文本，得到推理文本集合；根据推理文本集合和语音文本，生成对话文本；将对话文本转化为对话语音以及播放对话语音。该实施方式实现了生成准确的对话语音。权利要求书2页说明书8页附图2页 CN 115527538 A 2022.12.27 CN 115527538 A 1.一种对话语音生成方法，应用于车载智能设备，包括：采集用户语音，以及将所述用户语音转换为语音文本；将所述语音文本输入预先训练的常识推理模型，以生成多个推理维度中每个推理维度对应的推理文本，得到推理文本集合；根据所述推理文本集合和所述语音文本，生成对话文本；将所述对话文本转化为对话语音以及播放所述对话语音。 2.根据权利要求1所述的方法，其中，所述常识推理模型为多任务模型，包括编码器和多个解码器，其中，所述多个解码器中每个解码器对应一个推理维度，所述编码器用于将所述语音文本编码为文本向量，所述多个解码器中的解码器用于根据所述文本向量，生成所对应的推理维度的推理文本。 3.根据权利要求2所述的方法，其中，所述根据所述推理文本集合和所述语音文本，生成对话文本，包括：分别对所述推理文本集合和所述语音文本进行特征提取，得到推理文本特征和语音文本特征；对所述推理文本特征和语音文本特征进行融合，得到融合文本特征；将所述融合文本特征输入对话生成网络，生成对话文本。 4.根据权利要求3所述的方法，其中，所述常识推理模型是通过以下步骤训练得到的：获取训练样本集，所述训练样本集中的每个训练样本包括样本语音文本和所述样本语音文本的样本推理文本和样本推理维度；将所述样本语音文本输入所述编码器，得到文本编码向量；将所述文本编码向量输入所述样本推理维度对应的解码器，生成实际推理文本；基于所述实际推理文本和所述样本推理文本之间的差异，调整所述编码器和所述解码器的参数，直至满足训练结束条件，得到所述常识推理模型。 5.根据权利要求 4所述的方法，其中，所述训练样本是通过以下步骤生成的：将多个样本语音文本中的每个样本语音文本发送至一个目标终端，以使所述目标终端对所述样本语音文本进行显示；获取所述目标终端发送的、用户针对所述样本语音文本的标注信息，所述标注信息包括用户推理维度和用户推理文本；根据所述样本语音文本和所述样本语音文本对应的标注信息，生成所述训练样本。 6.根据权利要求5所述的方法，其中，在所述根据所述推理文本集合和所述语音文本，生成对话文本之前，所述方法包括：获取所述车载智能设备的屏幕中当前所显示的元宇宙场景；以及所述根据所述推理文本集合和所述语音文本，生成对话文本，包括：根据所述推理文本集合、所述语音文本、所述元宇宙场景，生成对话文本。 7.一种对话语音生成装置，包括：采集单元，被配置成采集用户语音，以及将所述用户语音转换为语音文本；推理单元，被配置成将所述语音文本输入预先训练的常识推理模型，以生成多个推理维度中每个推理维度对应的推理文本，得到推理文本集合；生成单元，被配置成根据所述推理文本集合和所述语音文本，生成对话文本；权　利　要　求　书 1/2 页 2 CN 115527538 A 2播放单元，被配置成将所述对话文本转化为对话语音以及播放所述对话语音。 8.一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1 ‑6中任一所述的方法。 9.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1 ‑6中任一所述的方法。权　利　要　求　书 2/2 页 3 CN 115527538 A 3

专利 对话语音生成方法、装置

专利对话语音生成方法、装置