全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210787946.1 (22)申请日 2022.07.06 (71)申请人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区德雅路 109号 (72)发明人 张煜 李鑫 袁唯淋 罗俊仁  刘运 杨景照 李婷婷 蒋超远  刘屹峰  (74)专利代理 机构 长沙国科天河知识产权代理 有限公司 432 25 专利代理师 彭小兰 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06K 9/62(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于智能辅助和知识赋能的视觉语言导航 方法及装置 (57)摘要 本申请属于视觉语 言导航技术领域, 涉及基 于智能辅助和知识赋能的视觉语言导航方法, 方 法包括: 获取包括语言指令和视觉感知的视觉语 言导航任务; 根据视觉感知, 提取视觉特征和物 体标签, 得到物体的房间特征; 根据物体标签和 预设的知识图谱库, 得到物体的水平特征; 根据 语言指令、 视觉特征、 房间特征和水平特征, 生成 实记忆信息; 以记忆信息为输入, 基于多模态模 型的决策框架, 输出决策; 根据决策, 执行动作并 进行第一判断, 当启发式规则和预算条件满足帮 助机制时, 发出帮助请求, 执行干预动作并进行 第二判断, 当视觉状态与语言指令相符合时, 完 成视觉语言导航任务。 本申请能够提高智能体在 未知环境中的泛化能力。 权利要求书2页 说明书10页 附图4页 CN 114880440 A 2022.08.09 CN 114880440 A 1.基于智能辅助和知识赋能的视 觉语言导 航方法, 其特 征在于, 包括: 获取视觉语言导 航任务, 所述视 觉语言导 航任务包括: 语言指令以及视 觉感知; 根据所述视觉感知, 提取视觉特征和物体标签, 并根据所述物体标签得到物体的房间 特征; 基于注意力机制, 根据所述物体标签以及预设的知识图谱库, 进行知识推理, 得到物 体的水平特征; 根据所述语言指 令、 所述视觉特征、 所述物体的房间特征以及所述物体的水 平特征, 生成记 忆信息; 以所述记 忆信息为输入, 基于多模态模型的决策框架, 输出决策; 根据所述决策, 执行动作并进行第 一判断, 当启发式规则和预算条件满足帮助机制时, 向建议者发出帮助请求; 根据所述帮助请求, 执行干预动作并进 行第二判断, 当视觉状态与 语言指令相符合时, 完成视 觉语言导 航任务。 2.根据权利要求1所述的方法, 其特征在于, 根据所述视觉感知, 提取视觉特征和物体 标签, 并根据所述物体标签得到物体的房间特 征包括: 采用特征提起器, 从所述视 觉感知中提取视 觉特征; 采用检测器, 从所述视 觉感知中检测物体的物体标签; 根据所述物体标签和房间知识 矩阵, 判断物体所在的房间, 得到物体的房间特 征。 3.根据权利要求1或2所述的方法, 其特征在于, 基于注意力 机制, 根据 所述物体标签以 及预设的知识图谱库, 进行知识推理, 得到物体的水平特 征包括: 以所述物体标签为索引, 从预设的知识图谱库中进行检索, 得到检索结果; 对所述检索结果进行多步图卷积, 得到卷积后的物体特征矩阵; 基于注意力机制, 根据 所述物体特 征矩阵, 进行知识推理, 得到物体的水平特 征。 4.根据权利要求3所述的方法, 其特征在于, 以所述物体标签为索引, 从预设的知识图 谱库中进 行检索, 得到检索结果; 对所述检索结果进 行多步图卷积, 得到卷积后的物体特征 矩阵包括: 以所述物体标签为索引, 从预设的知识图谱库中进行检索, 得到标签物体以及与所述 标签物体相邻的相邻物体; 根据所述标签物体, 建立与所述视觉感知相对应的内部知识图谱; 根据所述标签物体 以及所述相邻物体, 建立与所述视 觉感知相对应的外 部知识图谱; 对所述内部知识图谱和所述外部知识图谱进行多步图卷积, 得到卷积后的物体特征矩 阵。 5.根据权利要求1或2所述的方法, 其特征在于, 根据所述语言指令、 所述视觉特征、 所 述物体的房间特 征以及所述物体的水平特 征, 生成记 忆信息包括: 将所述语言指令、 所述视觉特征、 所述物体的房间特征以及所述物体的水平特征进行 拼接, 生成记 忆信息; 所述记 忆信息具有实时性。 6.根据权利要求1或2所述的方法, 其特征在于, 启发式规则和预算条件满足帮助机制 包括: 任一启发式规则满足相应的阈值, 且预算大于零。 7.根据权利要求6所述的方法, 其特 征在于, 任一启发式规则满足相应的阈值包括: 智能体偏离教师路径的距离大于第一阈值; 或智能体 计算的导 航分布熵与均匀分布的导 航熵之差小于第二阈值;权 利 要 求 书 1/2 页 2 CN 114880440 A 2或智能体保留在相同视点的时间步满足第三阈值; 或智能体在目标视点时导 航分布的最高概 率动作不是 “停止”。 8.根据权利要求1或2所述的方法, 其特征在于, 当启发式规则和预算条件不满足帮助 机制时, 进行第二判断。 9.根据权利要求1或2所述的方法, 其特 征在于, 当视 觉状态与语言指令不相符合时: 根据当前视觉感知, 生成当前记忆信 息; 以所述记忆信 息为历史信 息, 以当前记忆信 息 和历史信息为输入, 基于多模态模型的决策框架, 输出当前决策; 根据当前决策执行当前动 作, 并重新进行第一判断和第二判断, 直至 视觉状态与语言指令相符合。 10.基于智能辅助和知识赋能的视 觉语言导 航装置, 其特 征在于, 包括: 获取模块, 用于获取视觉语言导航任务, 所述视觉语言导航任务包括: 语言指令以及视 觉感知; 提取模块, 用于根据 所述视觉感知, 提取视觉特征和物体标签, 并根据 所述物体标签得 到物体的房间特征; 基于注意力机制, 根据所述物体标签以及预设的知识图谱库, 进 行知识 推理, 得到物体的水平特征; 根据所述语言指令、 所述视觉特征、 所述物体的房间特征以及 所述物体的水平特 征, 生成记 忆信息; 决策模块, 用于以所述记 忆信息为输入, 基于多模态模型的决策框架, 输出决策; 执行模块, 用于根据 所述决策, 执行动作并进行第 一判断, 当启发式规则和预算条件满 足帮助机制时, 向建议者发出帮助请求; 根据所述帮助请求, 执行干预动作并进行第二判 断, 当视觉状态与语言指令相符合时, 完成视 觉语言导 航任务。权 利 要 求 书 2/2 页 3 CN 114880440 A 3

PDF文档 专利 基于智能辅助和知识赋能的视觉语言导航方法及装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于智能辅助和知识赋能的视觉语言导航方法及装置 第 1 页 专利 基于智能辅助和知识赋能的视觉语言导航方法及装置 第 2 页 专利 基于智能辅助和知识赋能的视觉语言导航方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:42:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。