ICS35.240.01
CCSL77
中华人民共和国国家标准
GB/T44089—2024
信息技术 全双工语音交互系统
通用技术要求
Informationtechnology—Generaltechnicalrequirementsof
fullduplexspeechinteractionsystem
2024-05-28发布 2024-05-28实施
国家市场监督管理总局
国家标准化管理委员会发布目 次
前言 Ⅲ …………………………………………………………………………………………………………
1 范围 1 ………………………………………………………………………………………………………
2 规范性引用文件 1 …………………………………………………………………………………………
3 术语和定义 1 ………………………………………………………………………………………………
4 缩略语 2 ……………………………………………………………………………………………………
5 系统参考功能框架及交互过程 2 …………………………………………………………………………
5.1 系统参考功能框架 2 …………………………………………………………………………………
5.2 系统交互过程 4 ………………………………………………………………………………………
6 功能要求 5 …………………………………………………………………………………………………
6.1 核心要求 5 ……………………………………………………………………………………………
6.2 声学处理层 6 …………………………………………………………………………………………
6.3 语音识别层 6 …………………………………………………………………………………………
6.4 对话处理层 6 …………………………………………………………………………………………
6.5 语音合成层 6 …………………………………………………………………………………………
7 性能要求 6 …………………………………………………………………………………………………
7.1 语音识别层 6 …………………………………………………………………………………………
7.2 对话处理层 7 …………………………………………………………………………………………
7.3 语音合成层 7 …………………………………………………………………………………………
7.4 交互响应时间 7 ………………………………………………………………………………………
附录A(资料性) FDX语音交互过程案例 8 ………………………………………………………………
A.1 车载终端场景 8 ………………………………………………………………………………………
A.2 智能客服场景 8 ………………………………………………………………………………………
A.3 智慧办公场景 9 ………………………………………………………………………………………
A.4 智能家居场景 10 ……………………………………………………………………………………
参考文献 11 ……………………………………………………………………………………………………
ⅠGB/T44089—2024
前 言
本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、美的集团(上海)有限公司、
深圳市腾讯计算机系统有限公司、北京百度网讯科技有限公司、中国电信集团有限公司、小米通讯技术
有限公司、中移(杭州)信息技术有限公司、青岛海尔科技有限公司、福州数据技术研究院有限公司、深圳
云天励飞技术股份有限公司、北京电信规划设计院有限公司、思必驰科技股份有限公司、杭州方得智能
科技有限公司、羚羊工业互联网股份有限公司、合肥智能语音创新发展有限公司、深圳市矽赫科技有限
公司、上海智能制造功能平台有限公司、北京捷通华声科技股份有限公司、马上消费金融股份有限公司。
本文件主要起草人:董建、徐洋、贾一君、刘颖、宋文林、何永春、于磊、苏丹、袁杰、鄂磊、蔡亚森、
梅林海、赵培、刘聪、杨震、雷宗、龚晟、樊帅、洪鹏达、黄超、李林璐、方斌、陈明、胡国平、杨一帆、刘志强、
毕盛楠、丁强、高羽、李旭。
ⅢGB/T44089—2024
信息技术 全双工语音交互系统
通用技术要求
1 范围
本文件规定了全双工语音交互系统的参考功能框架、交互过程,以及功能要求、性能要求。
本文件适用于全双工语音交互系统的设计、开发、应用、测试和维护。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
3.1
全双工 fullduplex
能够同时双向传递数据的通信方法。
3.2
功能单元 functionalunit
能够完成特定目标的硬件或软件实体。
3.3
语音识别 speechrecognition
将人类的声音信号转化为文字或者指令的过程。
[来源:GB/T21023—2007,3.1]
3.4
语义理解 semanticunderstanding
使功能单元理解人说话的意图。
[来源:GB/T36464.1—2020,3.11]
3.5
语音合成 speechsynthesis
通过机械的、电子的方法合成人类语言的过程。
[来源:GB/T21024—2007,3.1]
3.6
话术 telephony
交互过程中使用的具有一定逻辑的对话文本内容。
3.7
对话管理 dialoguemanagement
跟进当前的对话状态和上下文输入,对对话的状态进行更新,同时依据对话处理逻辑生成需要实施
的对话动作。
1GB/T44089—2024
4 缩略语
下列缩略语适用于本文件。
AI:人工智能(ArtificialIntelligence)
FDX:全双工(FullDuplex)
MOS:平均意见得分(MeanOpinionScore)
VAD:声音活动检测(VoiceActivityDetection)
5 系统参考功能框架及交互过程
5.1 系统参考功能框架
5.1.1 概述
图1所示的FDX语音交互系统的参考功能框架包括交互层、知识和数据资源层、AI和机器学习层
和基础层。
a) 交互层包括声学处理层、语音识别层、对话处理层、语音合成层。交互层的主要功能是将输入
信号通过声学处理层以及语音识别层识别为纯文本,通过对话处理层理解输入信号的真实意
图,并生成交互回复语,最后通过语音合成层将交互回复语合成语音音频作为输出信号。
b)知识和数据资源层主要为交互层提供必备的数据资源和知识库。
c)AI和机器学习层主要为交互层提供模型推理、在线数据挖掘、数据分析等能力;基础层包括云
服务、终端和边缘计算,提供硬件计算资源,是AI和机器学习算法的运行载体,同时负责保障
FDX语音交互过程中每个模块的能力调用、系统稳定。
层是指完成一大类功能能力的单元集合体。这些层可以根据其输入、输出及其意图或功能来描述。
每层及其组件都可以单独使用和测试。所有层可以集成在一起,使用户能够与功能单元进行对话,帮助
用户满足自己的需求。
图1 FDX语音交互系统的参考功能框架
2GB/T44089—2024
GB-T 44089-2024 信息技术 全双工语音交互系统通用技术要求
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2025-07-18 03:35:16上传分享