专利基于智能辅助和知识赋能的视觉语言导航方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210787946.1 (22)申请日 2022.07.06 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人张煜　李鑫　袁唯淋　罗俊仁　刘运　杨景照　李婷婷　蒋超远　刘屹峰　 (74)专利代理机构长沙国科天河知识产权代理有限公司 432 25 专利代理师彭小兰 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01)G06K 9/62(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于智能辅助和知识赋能的视觉语言导航方法及装置 (57)摘要本申请属于视觉语言导航技术领域，涉及基于智能辅助和知识赋能的视觉语言导航方法，方法包括：获取包括语言指令和视觉感知的视觉语言导航任务；根据视觉感知，提取视觉特征和物体标签，得到物体的房间特征；根据物体标签和预设的知识图谱库，得到物体的水平特征；根据语言指令、视觉特征、房间特征和水平特征，生成实记忆信息；以记忆信息为输入，基于多模态模型的决策框架，输出决策；根据决策，执行动作并进行第一判断，当启发式规则和预算条件满足帮助机制时，发出帮助请求，执行干预动作并进行第二判断，当视觉状态与语言指令相符合时，完成视觉语言导航任务。本申请能够提高智能体在未知环境中的泛化能力。权利要求书2页说明书10页附图4页 CN 114880440 A 2022.08.09 CN 114880440 A 1.基于智能辅助和知识赋能的视觉语言导航方法，其特征在于，包括：获取视觉语言导航任务，所述视觉语言导航任务包括：语言指令以及视觉感知；根据所述视觉感知，提取视觉特征和物体标签，并根据所述物体标签得到物体的房间特征；基于注意力机制，根据所述物体标签以及预设的知识图谱库，进行知识推理，得到物体的水平特征；根据所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征，生成记忆信息；以所述记忆信息为输入，基于多模态模型的决策框架，输出决策；根据所述决策，执行动作并进行第一判断，当启发式规则和预算条件满足帮助机制时，向建议者发出帮助请求；根据所述帮助请求，执行干预动作并进行第二判断，当视觉状态与语言指令相符合时，完成视觉语言导航任务。 2.根据权利要求1所述的方法，其特征在于，根据所述视觉感知，提取视觉特征和物体标签，并根据所述物体标签得到物体的房间特征包括：采用特征提起器，从所述视觉感知中提取视觉特征；采用检测器，从所述视觉感知中检测物体的物体标签；根据所述物体标签和房间知识矩阵，判断物体所在的房间，得到物体的房间特征。 3.根据权利要求1或2所述的方法，其特征在于，基于注意力机制，根据所述物体标签以及预设的知识图谱库，进行知识推理，得到物体的水平特征包括：以所述物体标签为索引，从预设的知识图谱库中进行检索，得到检索结果；对所述检索结果进行多步图卷积，得到卷积后的物体特征矩阵；基于注意力机制，根据所述物体特征矩阵，进行知识推理，得到物体的水平特征。 4.根据权利要求3所述的方法，其特征在于，以所述物体标签为索引，从预设的知识图谱库中进行检索，得到检索结果；对所述检索结果进行多步图卷积，得到卷积后的物体特征矩阵包括：以所述物体标签为索引，从预设的知识图谱库中进行检索，得到标签物体以及与所述标签物体相邻的相邻物体；根据所述标签物体，建立与所述视觉感知相对应的内部知识图谱；根据所述标签物体以及所述相邻物体，建立与所述视觉感知相对应的外部知识图谱；对所述内部知识图谱和所述外部知识图谱进行多步图卷积，得到卷积后的物体特征矩阵。 5.根据权利要求1或2所述的方法，其特征在于，根据所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征，生成记忆信息包括：将所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征进行拼接，生成记忆信息；所述记忆信息具有实时性。 6.根据权利要求1或2所述的方法，其特征在于，启发式规则和预算条件满足帮助机制包括：任一启发式规则满足相应的阈值，且预算大于零。 7.根据权利要求6所述的方法，其特征在于，任一启发式规则满足相应的阈值包括：智能体偏离教师路径的距离大于第一阈值；或智能体计算的导航分布熵与均匀分布的导航熵之差小于第二阈值；权　利　要　求　书 1/2 页 2 CN 114880440 A 2或智能体保留在相同视点的时间步满足第三阈值；或智能体在目标视点时导航分布的最高概率动作不是 “停止”。 8.根据权利要求1或2所述的方法，其特征在于，当启发式规则和预算条件不满足帮助机制时，进行第二判断。 9.根据权利要求1或2所述的方法，其特征在于，当视觉状态与语言指令不相符合时：根据当前视觉感知，生成当前记忆信息；以所述记忆信息为历史信息，以当前记忆信息和历史信息为输入，基于多模态模型的决策框架，输出当前决策；根据当前决策执行当前动作，并重新进行第一判断和第二判断，直至视觉状态与语言指令相符合。 10.基于智能辅助和知识赋能的视觉语言导航装置，其特征在于，包括：获取模块，用于获取视觉语言导航任务，所述视觉语言导航任务包括：语言指令以及视觉感知；提取模块，用于根据所述视觉感知，提取视觉特征和物体标签，并根据所述物体标签得到物体的房间特征；基于注意力机制，根据所述物体标签以及预设的知识图谱库，进行知识推理，得到物体的水平特征；根据所述语言指令、所述视觉特征、所述物体的房间特征以及所述物体的水平特征，生成记忆信息；决策模块，用于以所述记忆信息为输入，基于多模态模型的决策框架，输出决策；执行模块，用于根据所述决策，执行动作并进行第一判断，当启发式规则和预算条件满足帮助机制时，向建议者发出帮助请求；根据所述帮助请求，执行干预动作并进行第二判断，当视觉状态与语言指令相符合时，完成视觉语言导航任务。权　利　要　求　书 2/2 页 3 CN 114880440 A 3

专利 基于智能辅助和知识赋能的视觉语言导航方法及装置

专利基于智能辅助和知识赋能的视觉语言导航方法及装置