全网唯一标准王
ICS35.240.01 CCSL77 中华人民共和国国家标准 GB/T44089—2024 信息技术 全双工语音交互系统 通用技术要求 Informationtechnology—Generaltechnicalrequirementsof fullduplexspeechinteractionsystem 2024-05-28发布 2024-05-28实施 国家市场监督管理总局 国家标准化管理委员会发布目 次 前言 Ⅲ ………………………………………………………………………………………………………… 1 范围 1 ……………………………………………………………………………………………………… 2 规范性引用文件 1 ………………………………………………………………………………………… 3 术语和定义 1 ……………………………………………………………………………………………… 4 缩略语 2 …………………………………………………………………………………………………… 5 系统参考功能框架及交互过程 2 ………………………………………………………………………… 5.1 系统参考功能框架 2 ………………………………………………………………………………… 5.2 系统交互过程 4 ……………………………………………………………………………………… 6 功能要求 5 ………………………………………………………………………………………………… 6.1 核心要求 5 …………………………………………………………………………………………… 6.2 声学处理层 6 ………………………………………………………………………………………… 6.3 语音识别层 6 ………………………………………………………………………………………… 6.4 对话处理层 6 ………………………………………………………………………………………… 6.5 语音合成层 6 ………………………………………………………………………………………… 7 性能要求 6 ………………………………………………………………………………………………… 7.1 语音识别层 6 ………………………………………………………………………………………… 7.2 对话处理层 7 ………………………………………………………………………………………… 7.3 语音合成层 7 ………………………………………………………………………………………… 7.4 交互响应时间 7 ……………………………………………………………………………………… 附录A(资料性) FDX语音交互过程案例 8 ……………………………………………………………… A.1 车载终端场景 8 ……………………………………………………………………………………… A.2 智能客服场景 8 ……………………………………………………………………………………… A.3 智慧办公场景 9 ……………………………………………………………………………………… A.4 智能家居场景 10 …………………………………………………………………………………… 参考文献 11 …………………………………………………………………………………………………… ⅠGB/T44089—2024 前 言 本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、美的集团(上海)有限公司、 深圳市腾讯计算机系统有限公司、北京百度网讯科技有限公司、中国电信集团有限公司、小米通讯技术 有限公司、中移(杭州)信息技术有限公司、青岛海尔科技有限公司、福州数据技术研究院有限公司、深圳 云天励飞技术股份有限公司、北京电信规划设计院有限公司、思必驰科技股份有限公司、杭州方得智能 科技有限公司、羚羊工业互联网股份有限公司、合肥智能语音创新发展有限公司、深圳市矽赫科技有限 公司、上海智能制造功能平台有限公司、北京捷通华声科技股份有限公司、马上消费金融股份有限公司。 本文件主要起草人:董建、徐洋、贾一君、刘颖、宋文林、何永春、于磊、苏丹、袁杰、鄂磊、蔡亚森、 梅林海、赵培、刘聪、杨震、雷宗、龚晟、樊帅、洪鹏达、黄超、李林璐、方斌、陈明、胡国平、杨一帆、刘志强、 毕盛楠、丁强、高羽、李旭。 ⅢGB/T44089—2024 信息技术 全双工语音交互系统 通用技术要求 1 范围 本文件规定了全双工语音交互系统的参考功能框架、交互过程,以及功能要求、性能要求。 本文件适用于全双工语音交互系统的设计、开发、应用、测试和维护。 2 规范性引用文件 本文件没有规范性引用文件。 3 术语和定义 下列术语和定义适用于本文件。 3.1 全双工 fullduplex 能够同时双向传递数据的通信方法。 3.2 功能单元 functionalunit 能够完成特定目标的硬件或软件实体。 3.3 语音识别 speechrecognition 将人类的声音信号转化为文字或者指令的过程。 [来源:GB/T21023—2007,3.1] 3.4 语义理解 semanticunderstanding 使功能单元理解人说话的意图。 [来源:GB/T36464.1—2020,3.11] 3.5 语音合成 speechsynthesis 通过机械的、电子的方法合成人类语言的过程。 [来源:GB/T21024—2007,3.1] 3.6 话术 telephony 交互过程中使用的具有一定逻辑的对话文本内容。 3.7 对话管理 dialoguemanagement 跟进当前的对话状态和上下文输入,对对话的状态进行更新,同时依据对话处理逻辑生成需要实施 的对话动作。 1GB/T44089—2024 4 缩略语 下列缩略语适用于本文件。 AI:人工智能(ArtificialIntelligence) FDX:全双工(FullDuplex) MOS:平均意见得分(MeanOpinionScore) VAD:声音活动检测(VoiceActivityDetection) 5 系统参考功能框架及交互过程 5.1 系统参考功能框架 5.1.1 概述 图1所示的FDX语音交互系统的参考功能框架包括交互层、知识和数据资源层、AI和机器学习层 和基础层。 a) 交互层包括声学处理层、语音识别层、对话处理层、语音合成层。交互层的主要功能是将输入 信号通过声学处理层以及语音识别层识别为纯文本,通过对话处理层理解输入信号的真实意 图,并生成交互回复语,最后通过语音合成层将交互回复语合成语音音频作为输出信号。 b)知识和数据资源层主要为交互层提供必备的数据资源和知识库。 c)AI和机器学习层主要为交互层提供模型推理、在线数据挖掘、数据分析等能力;基础层包括云 服务、终端和边缘计算,提供硬件计算资源,是AI和机器学习算法的运行载体,同时负责保障 FDX语音交互过程中每个模块的能力调用、系统稳定。 层是指完成一大类功能能力的单元集合体。这些层可以根据其输入、输出及其意图或功能来描述。 每层及其组件都可以单独使用和测试。所有层可以集成在一起,使用户能够与功能单元进行对话,帮助 用户满足自己的需求。 图1 FDX语音交互系统的参考功能框架 2GB/T44089—2024

.pdf文档 GB-T 44089-2024 信息技术 全双工语音交互系统通用技术要求

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 44089-2024 信息技术 全双工语音交互系统通用技术要求 第 1 页 GB-T 44089-2024 信息技术 全双工语音交互系统通用技术要求 第 2 页 GB-T 44089-2024 信息技术 全双工语音交互系统通用技术要求 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-07-18 03:35:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。