上海交通大学智能网联电动汽车创新中心团队在秦通和杨明老师指导下,于机器人领域顶级旗舰会议IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)上发表题为“Embodied Escaping: End-to-End Reinforcement Learning for Robot Navigation in Narrow Environment”的研究论文。文章主要探讨了扫地机器人在狭窄环境下的自主脱困问题,为机器人端到端导航提供了系统性解决方案。本文共同第一作者是溥渊未来技术学院2025级博士生郑翰、自动化与感知学院2023级博士生张家乐。
研究背景 Research Background
在家庭清洁等场景中,扫地机器人需全覆盖作业,不可避免进入狭窄死区。然而,传统方法常因以下原因导致脱困失败:1)高度非凸环境与密集障碍大幅压缩自由空间,几何近似法难以维持安全裕度,显著增加碰撞风险;2)导航依赖精确环境建模,微小地图误差即引发规划失效;3)非完整动力学约束使高维连续空间中可行逃脱轨迹极度稀疏;4)逃离受限空间通常需要复杂的机动,包括频繁改变方向和饱和转弯率,导致轨迹充满饱和转向和急剧转折点。这些耦合挑战导致现有强化学习与规则方法在死区场景中普遍失效,亟需新型解决方案。
研究成果 Research Results
为综合解决上述问题,论文提出了一种基于强化学习的端到端无图脱困架构。为了缓解与长距离导航相关的稀疏奖励,采用一种混合训练策略,使用在线A*算法并反算动作序列来加速目标点附近的收敛。在处理冗余和无效动作时,本文创新设计了一种新的动作表征形式,通过等比例缩放线速度和角速度以统一的转弯半径来重塑离散的动作空间。此外,本文改进了一个动作掩码方法来快速选择有效动作,并为神经网络提供有效动作分布的先验特征,平衡了精度和效率。
具身脱困模型框架图
大量仿真对比实验表明,所提方法在成功率和避撞方面明显优于传统规划方法和强化学习方法。在现实世界的实验中,机器人配备了激光雷达、IMU和两轮编码器。在不同难度的实验中,机器人均能成功逃脱狭窄复杂死区,从而验证了模型的真实世界泛化能力。
不同算法脱困可视化对比
方法展示与实物视频
作者信息
Author Information
郑翰
上海交通大学溥渊未来技术学院2025级博士研究生。研究方向:通用机器人学习、端到端自动驾驶、生成式人工智能。
张家乐
上海交通大学自动化与感知学院2023级博士研究生。研究方向:端到端自动驾驶、车辆自主跟驰。
蒋铭阳
上海交通大学自动化与感知学院2023级硕士研究生。研究方向:自动驾驶决策、基于强化学习的运动规划。
秦通
上海交通大学溥渊未来技术学院副教授。博士毕业于香港科技大学电子及计算机工程系,曾任职华为车BU。秦通被评选为华为公司首届“天才少年”。他在担任华为车BU感知SLAM技术专家期间,参与研发华为ADS智能驾驶系统,贡献了业界领先的智能驾驶方案,并在多款车型上实现了规模化商用。近年来以第一/通讯作者身份在TRO、JFR、RAL、ICRA等机器人领域顶级期刊和会议上发表高质量论文十余篇。曾获得IROS2018最佳学生论文奖和TRO最佳论文提名奖。研究方向:智能驾驶感知、构图、定位;端到端AI大模型;移动机器人 SLAM。
杨明
上海交通大学自动化与感知学院特聘教授,博士生导师,智能网联电动汽车创新中心主任,国家“万人计划”科技创新领军人才。现任中国自动化学会智能车工委会副主任和教工委副主任、中国人工智能学会理事和智能机器人专委会副主任、IEEE IROS-CPRB副主编、《IEEE Transactions on Intelligent Vehicles》和《IEEE Transactions on Intelligent Transportation Systems》期刊编委。长期从事无人车和智能机器人等方面教学与研究工作,近年来在国内外学术刊物上发表论文200余篇,获国家发明专利授权50余项,指导学生多次获得IEEE Intelligent Vehicle Symposium、中国智能机器人大会等国内外顶级会议优秀论文。作为负责人,先后获得上海市技术发明一等奖、上海市教学成果一等奖、教育部技术发明奖等奖项。研究方向:低速无人驾驶系统。