专利一种基于强化学习的移动机器人社交导航方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210919201.6 (22)申请日 2022.08.02 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人孙健　李本帆　王钢　陈杰　 (74)专利代理机构北京理工大学专利中心 11120 专利代理师李爱英 (51)Int.Cl. G06T 1/00(2006.01) G06V 20/52(2022.01) G06V 20/58(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于强化学习的移动机器人社交导航方法 (57)摘要本发明涉及一种基于强化学习的移动机器人社交导航方法，属于强化学习技术领域，尤其涉及基于强化学习的社交导航方法。首先对社交导航问题进行建模，获取无人车状态、行人状态等时空状态信息，其次构建基于DQN的强化学习模型，模型包含四个模块：交互模块、历史特征提取模块、池化模块和规划模块。其中交互模块用于处理移动机器人与行人的交互特征，历史特征提取模块用于提取移动机器人与人群之间时间维度特征，池化模块用于将任意数量的行人输入转换为固定长度的特征向量输出，规划模块根据无人车状态及提取出来的人群特征规划出一条可行路径。最后通过对专家经验的模仿学习对模型进行预训练，加快模型收敛速度。权利要求书3页说明书6页附图1页 CN 115456851 A 2022.12.09 CN 115456851 A 1.一种基于强化学习的移动机器人社交导航方法，其特征在于该方法的步骤包括：步骤1，构建社交导航问题的模型；步骤2，根据步骤1构建的社交导航问题的模型构建深度强化学习网络框架；步骤3，训练步骤2构建的深度强化学习网络框架；步骤4，将步骤3训练后的深度强化学习网络框架作为实际导航的最优策略，完成移动机器人的社交导航。 2.根据权利要求1所述的一种基于强化学习的移动机器人社交导航方法，其特征在于：所述的步骤1中，构建社交导航问题的模型为： (st,at,rt,st+1)四元组；其中， st为t时刻的状态， at为t时刻的动作， st+1为t+1时刻的状态， rt为t时刻的奖励。 3.根据权利要求2所述的一种基于强化学习的移动机器人社交导航方法，其特征在于：所述的t时刻状态st为：其中，状态包括移动机器人状态和人群状态， i＝1,2, …,N，表示行人编号， N为t时刻环境中的行人个数，表示机器人与每个行人的联合状态， St＝[dgt,vpref,vxt,vyt,r] 表示机器人在t时刻的状态，其中dgt表示移动机器人到目标点的距离， vpref表示移动机器人的参考速度， vxt,vyt表示t时刻移动机器人在x,y方向上的速度， r表示移动机器人半径，表示t时刻第i个行人的可观测状态，其中dti表示t时刻第i 个行人与移动机器人的相对距离，表示t时刻第i个行人相对移动机器人的x,y坐标，表示t时刻第i个行人相对移动机器人的速度， ri表示第i个行人的假设半径， r+ri表示移动机器人半径与第i个行人假设半径和。 4.根据权利要求3所述的一种基于强化学习的移动机器人社交导航方法，其特征在于：所述的t时刻动作at为： at＝[vxt,vyt]。 5.根据权利要求3或4所述的一种基于强化学习的移动机器人社交导航方法，其特征在于： t时刻在状态st下采取动作at所获得的奖励rt为： rt＝R(st,at) 其中， dt表示在[t ‑Δt,t]时间内无人车与行人的最小距离， Δt表示决策最小时间步长， Ptc表示在t时刻无人车的位置， Pg表示无人车的目标点。 6.根据权利要求3或4所述的一种基于强化学习的移动机器人社交导航方法，其特征在于：所述的步骤1中，社交导航问题模型的最优策略为π*:st→at，最优策略通过最大化以下期望回报得到；权　利　要　求　书 1/3 页 2 CN 115456851 A 2其中， P(st,at,st+Δt)为从t到t+Δt的状态转移概率， V*为最优价值函数， γ为衰减常数， T为终止时间。 7.根据权利要求1或5所述的一种基于强化学习的移动机器人社交导航方法，其特征在于：所述的步骤2中，深度强化学习网络框架包括交互模块、历史特征提取模块、池化模块和规划模块。 8.根据权利要求7 所述的一种基于强化学习的移动机器人社交导航方法，其特征在于：所述的交互模块是指根据构建的社交导航问题模型，处理无人车与人群的交互，利用多层全连接层提取移动机器人的状态特征： rt＝φ1(St； W1) 其中， φ1为全连接层， W1为全连接层对应权重；利用多层感知机提取每个人‑机对的特征： Pt＝φ2(Jt； W2) 利用图注意力机制计算出人群的注意力矩阵，并利用图卷积神经网络提取人群特征： At＝Attention1(Pt； W3) Gt＝GCN(At,Pt； W4) 其中， Attention1为注意力网络；将图卷积神经网络输出特征与人 ‑机对特征联合作为自注意力网络的输入，得到移动机器人对各个行人的注意力值： scorest＝Attention2(Gt,Pt； W5) 其中， Attention2为自注意力网络；利用掩码maskt对注意力值进行加权，表征当前时刻机器人与人群的空间特征： wt＝softmax(scores ×maskt)×[Gt,Pt]；其中，当t时刻行人状态可观测时maskt为1，否则maskt为0。 9.根据权利要求8所述的一种基于强化学习的移动机器人社交导航方法，其特征在于：所述的历史信息提取模块用于提取移动机器人与人群时空图中的时间信息，将各个时刻移动机器人与人群的空间信息作为输入，得到时间特征： ht＝LSTM(wt,ht‑1,ct‑1； W6) 所述的池化模块用于将任意长度的输入处理成固定长度的特征向量，采用均值池化： ct＝Avgpooling(wt,ht； W7) 所述的规划模块用于将池化模块输出的人群特征与无人车当前状态特征作为决策网络的输入，计算各个动作的价值： vt＝φ4(rt,ct； W4)。权　利　要　求　书 2/3 页 3 CN 115456851 A 3

专利 一种基于强化学习的移动机器人社交导航方法

专利一种基于强化学习的移动机器人社交导航方法