(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210919201.6
(22)申请日 2022.08.02
(71)申请人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 孙健 李本帆 王钢 陈杰
(74)专利代理 机构 北京理工大 学专利中心
11120
专利代理师 李爱英
(51)Int.Cl.
G06T 1/00(2006.01)
G06V 20/52(2022.01)
G06V 20/58(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于强化学习的移动机器人社交导航
方法
(57)摘要
本发明涉及一种基于强化学习的移动机器
人社交导航方法, 属于强化学习技术领域, 尤其
涉及基于强化学习的社交导航方法。 首先对社交
导航问题进行建模, 获取无人车状态、 行人状态
等时空状态信息, 其次构建基于DQN的强化学习
模型, 模型包含四个模块: 交互模块、 历史特征提
取模块、 池化模块和规划模块。 其中交互模块用
于处理移动机器人与行人的交互特征, 历史特征
提取模块用于提取移动机器人与人群之间时间
维度特征, 池化模块用于将任意数量的行人输入
转换为固定长度的特征向量输出, 规划模块根据
无人车状态及提取出来的人群特征规划出一条
可行路径。 最后通过对专家经验的模仿学习对模
型进行预训练, 加快模型收敛速度。
权利要求书3页 说明书6页 附图1页
CN 115456851 A
2022.12.09
CN 115456851 A
1.一种基于强化学习的移动机器人 社交导航方法, 其特 征在于该 方法的步骤 包括:
步骤1, 构建社交导 航问题的模型;
步骤2, 根据步骤1构建的社交导 航问题的模型构建深度强化学习网络 框架;
步骤3, 训练步骤2构建的深度强化学习网络 框架;
步骤4, 将步骤3训练后的深度强化学习网络框架作为实际导航的最优策略, 完成移动
机器人的社交导 航。
2.根据权利要求1所述的一种基于强化学习的移动机器人 社交导航方法, 其特 征在于:
所述的步骤1中, 构建社交导 航问题的模型为: (st,at,rt,st+1)四元组;
其中, st为t时刻的状态, at为t时刻的动作, st+1为t+1时刻的状态, rt为t时刻的奖励。
3.根据权利要求2所述的一种基于强化学习的移动机器人 社交导航方法, 其特 征在于:
所述的t时刻状态st为:
其中, 状态包括移动 机器人状态和人群状态, i=1,2, …,N, 表示行人编号, N为t时刻环
境中的行人个 数,
表示机器 人与每个 行人的联合状态, St=[dgt,vpref,vxt,vyt,r]
表示机器人在t时刻的状态, 其中dgt表示移动机器人到目标点的距离, vpref表示移动机器人
的参考速度, vxt,vyt表示t时刻移动机器人在x,y方向上的速度, r表示移动机器人半径,
表示t时刻第i个行人的可观测状态, 其中dti表示t时刻第i
个行人与移动机器人的相对距离,
表示t时刻第i个行人相对移动机器人的x,y坐标,
表示t时刻第i个行人相对移动机器人的速度, ri表示第i个行人的假设半径, r+ri表
示移动机器人半径与第i个行 人假设半径和。
4.根据权利要求3所述的一种基于强化学习的移动机器人 社交导航方法, 其特 征在于:
所述的t时刻动作at为:
at=[vxt,vyt]。
5.根据权利要求3或4所述的一种基于强化学习的移动机器人社交导航方法, 其特征在
于:
t时刻在状态st下采取动作at所获得的奖励rt为:
rt=R(st,at)
其中, dt表示在[t ‑Δt,t]时间内无人车与行人的最小距离, Δt表示决策最小时间步
长, Ptc表示在t时刻无 人车的位置, Pg表示无人车的目标点。
6.根据权利要求3或4所述的一种基于强化学习的移动机器人社交导航方法, 其特征在
于:
所述的步骤1中, 社交导航问题模型的最优策略为π*:st→at, 最优策略通过最大化以下
期望回报得到;权 利 要 求 书 1/3 页
2
CN 115456851 A
2其中, P(st,at,st+Δt)为从t到t+Δt的状态转移概率, V*为最优价值函数, γ为衰减常
数, T为终止时间。
7.根据权利要求1或5所述的一种基于强化学习的移动机器人社交导航方法, 其特征在
于:
所述的步骤2中, 深度强化学习网络框架包括交互模块、 历史特征提取模块、 池化模块
和规划模块。
8.根据权利要求7 所述的一种基于强化学习的移动机器人 社交导航方法, 其特 征在于:
所述的交互模块是指根据构建的社交导航问题模型, 处理无人车与人群的交互, 利用
多层全连接层提取移动机器人的状态特 征:
rt=φ1(St; W1)
其中, φ1为全连接层, W1为全连接层对应权 重;
利用多层感知机提取每 个人‑机对的特 征:
Pt=φ2(Jt; W2)
利用图注意力机制计算出 人群的注意力矩阵, 并利用图卷积神经网络提取 人群特征:
At=Attention1(Pt; W3)
Gt=GCN(At,Pt; W4)
其中, Attention1为注意力网络;
将图卷积神经网络输出特征与人 ‑机对特征联合作为自注意力网络的输入, 得到移动
机器人对各个行 人的注意力值:
scorest=Attention2(Gt,Pt; W5)
其中, Attention2为自注意力网络;
利用掩码maskt对注意力值进行加权, 表征当前时刻机器人与人群的空间特 征:
wt=softmax(scores ×maskt)×[Gt,Pt];
其中, 当t时刻行 人状态可观测时maskt为1, 否则maskt为0。
9.根据权利要求8所述的一种基于强化学习的移动机器人 社交导航方法, 其特 征在于:
所述的历史信 息提取模块用于提取移动机器人与 人群时空图中的时间信 息, 将各个时
刻移动机器人与人群的空间信息作为输入, 得到时间特 征:
ht=LSTM(wt,ht‑1,ct‑1; W6)
所述的池化模块用于将任意长度的输入处 理成固定 长度的特 征向量, 采用均值池化:
ct=Avgpooling(wt,ht; W7)
所述的规划模块用于将池化模块输出的人群特征与无人车当前状态特征作为决策网
络的输入, 计算各个动作的价 值:
vt=φ4(rt,ct; W4)。权 利 要 求 书 2/3 页
3
CN 115456851 A
3
专利 一种基于强化学习的移动机器人社交导航方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:17:09上传分享