机器人气味/气源定位的深度Q网络:建模、测量和比较研究
摘要
??在考虑气流扩散、气味分子随机游走和障碍物的情况下,提出一种气味命中分布模型。
1 引言
??本文提出一种基于OSL算法的深度Q网络,该算法设计用于引导机器人以最少移动步数定位释放速率未知的气味源,并避开搜索区域的障碍物。
2 气味源定位任务
??假设嗅觉机器人具有区域大小、障碍物位置和自身的先验知识,它还可以测量其所在位置的气味浓度和气流方向。对于源定位的定义为:机器人能够在距离气源1m范围内定位气味源。 ??某一位置的气味浓度可能是两个过程的结果:一个是气流的扩散,另一个是气味分子的随机行走
Aw是羽流宽度,Ad是扩散参数,As是源释放速率,Ar是随机行走参数。如果有障碍物阻挡,则1{not blocked}=1,否则为0。如果(x,y)在羽流沿着其边界绕着障碍物的下风方向上,1{going around the obstacle}=1,否则为0。rm表示分子随机游动
3 基于OSL算法的DQN
嗅觉机器人在OSL任务中的运动可视为马尔可夫决策过程,在每一步中,嗅觉机器人根据动作策略采取动作,环境对该动作作出响应,并向嗅觉机器人呈现新情况。状态S是气流方向和气味命中嗅觉机器人的测量值。机器人更具其当前状态为其采取的行动获得奖励R。在t时刻,行动At不仅影响瞬时奖励Rt,还影响后续状态和未来奖励。
CNN的输入层包括四个矩阵: (1)嗅觉机器人轨迹矩阵,对应于机器人通过相应位置的次数 (2)平均测量气流方向矩阵 (3)平均测量气味命中矩阵 (4)当前地图矩阵
输出层是具有4个单元的密集层,每个单元表示对应运动方向的预期累积未来奖励
将气体浓度转化成气味分子命中数公式如上图所示。
|