GB-T 44089-2024 信息技术全双工语音交互系统通用技术要求

ICS35.240.01 CCSL77 中华人民共和国国家标准 GB/T44089—2024 信息技术全双工语音交互系统通用技术要求 Informationtechnology—Generaltechnicalrequirementsof fullduplexspeechinteractionsystem 2024-05-28发布 2024-05-28实施国家市场监督管理总局国家标准化管理委员会发布目次前言 Ⅲ ………………………………………………………………………………………………………… 1 范围 1 ……………………………………………………………………………………………………… 2 规范性引用文件 1 ………………………………………………………………………………………… 3 术语和定义 1 ……………………………………………………………………………………………… 4 缩略语 2 …………………………………………………………………………………………………… 5 系统参考功能框架及交互过程 2 ………………………………………………………………………… 5.1 系统参考功能框架 2 ………………………………………………………………………………… 5.2 系统交互过程 4 ……………………………………………………………………………………… 6 功能要求 5 ………………………………………………………………………………………………… 6.1 核心要求 5 …………………………………………………………………………………………… 6.2 声学处理层 6 ………………………………………………………………………………………… 6.3 语音识别层 6 ………………………………………………………………………………………… 6.4 对话处理层 6 ………………………………………………………………………………………… 6.5 语音合成层 6 ………………………………………………………………………………………… 7 性能要求 6 ………………………………………………………………………………………………… 7.1 语音识别层 6 ………………………………………………………………………………………… 7.2 对话处理层 7 ………………………………………………………………………………………… 7.3 语音合成层 7 ………………………………………………………………………………………… 7.4 交互响应时间 7 ……………………………………………………………………………………… 附录A(资料性) FDX语音交互过程案例 8 ……………………………………………………………… A.1 车载终端场景 8 ……………………………………………………………………………………… A.2 智能客服场景 8 ……………………………………………………………………………………… A.3 智慧办公场景 9 ……………………………………………………………………………………… A.4 智能家居场景 10 …………………………………………………………………………………… 参考文献 11 …………………………………………………………………………………………………… ⅠGB/T44089—2024 前言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、美的集团(上海)有限公司、深圳市腾讯计算机系统有限公司、北京百度网讯科技有限公司、中国电信集团有限公司、小米通讯技术有限公司、中移(杭州)信息技术有限公司、青岛海尔科技有限公司、福州数据技术研究院有限公司、深圳云天励飞技术股份有限公司、北京电信规划设计院有限公司、思必驰科技股份有限公司、杭州方得智能科技有限公司、羚羊工业互联网股份有限公司、合肥智能语音创新发展有限公司、深圳市矽赫科技有限公司、上海智能制造功能平台有限公司、北京捷通华声科技股份有限公司、马上消费金融股份有限公司。本文件主要起草人:董建、徐洋、贾一君、刘颖、宋文林、何永春、于磊、苏丹、袁杰、鄂磊、蔡亚森、梅林海、赵培、刘聪、杨震、雷宗、龚晟、樊帅、洪鹏达、黄超、李林璐、方斌、陈明、胡国平、杨一帆、刘志强、毕盛楠、丁强、高羽、李旭。 ⅢGB/T44089—2024 信息技术全双工语音交互系统通用技术要求 1 范围本文件规定了全双工语音交互系统的参考功能框架、交互过程,以及功能要求、性能要求。本文件适用于全双工语音交互系统的设计、开发、应用、测试和维护。 2 规范性引用文件本文件没有规范性引用文件。 3 术语和定义下列术语和定义适用于本文件。 3.1 全双工 fullduplex 能够同时双向传递数据的通信方法。 3.2 功能单元 functionalunit 能够完成特定目标的硬件或软件实体。 3.3 语音识别 speechrecognition 将人类的声音信号转化为文字或者指令的过程。 [来源:GB/T21023—2007,3.1] 3.4 语义理解 semanticunderstanding 使功能单元理解人说话的意图。 [来源:GB/T36464.1—2020,3.11] 3.5 语音合成 speechsynthesis 通过机械的、电子的方法合成人类语言的过程。 [来源:GB/T21024—2007,3.1] 3.6 话术 telephony 交互过程中使用的具有一定逻辑的对话文本内容。 3.7 对话管理 dialoguemanagement 跟进当前的对话状态和上下文输入,对对话的状态进行更新,同时依据对话处理逻辑生成需要实施的对话动作。 1GB/T44089—2024 4 缩略语下列缩略语适用于本文件。 AI:人工智能(ArtificialIntelligence) FDX:全双工(FullDuplex) MOS:平均意见得分(MeanOpinionScore) VAD:声音活动检测(VoiceActivityDetection) 5 系统参考功能框架及交互过程 5.1 系统参考功能框架 5.1.1 概述图1所示的FDX语音交互系统的参考功能框架包括交互层、知识和数据资源层、AI和机器学习层和基础层。 a) 交互层包括声学处理层、语音识别层、对话处理层、语音合成层。交互层的主要功能是将输入信号通过声学处理层以及语音识别层识别为纯文本,通过对话处理层理解输入信号的真实意图,并生成交互回复语,最后通过语音合成层将交互回复语合成语音音频作为输出信号。 b)知识和数据资源层主要为交互层提供必备的数据资源和知识库。 c)AI和机器学习层主要为交互层提供模型推理、在线数据挖掘、数据分析等能力;基础层包括云服务、终端和边缘计算,提供硬件计算资源,是AI和机器学习算法的运行载体,同时负责保障 FDX语音交互过程中每个模块的能力调用、系统稳定。层是指完成一大类功能能力的单元集合体。这些层可以根据其输入、输出及其意图或功能来描述。每层及其组件都可以单独使用和测试。所有层可以集成在一起,使用户能够与功能单元进行对话,帮助用户满足自己的需求。图1 FDX语音交互系统的参考功能框架 2GB/T44089—2024

GB-T 44089-2024 信息技术 全双工语音交互系统通用技术要求

GB-T 44089-2024 信息技术全双工语音交互系统通用技术要求