新闻

溥渊团队在机器人领域顶级旗舰会议IROS发表论文:自动代客泊车场景图:用于自动代客泊车的层次化视觉语言建图和导航方法

发布时间2025-09-19

上海交通大学智能网联电动汽车创新中心团队在机器人国际会议IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)上发表题为“AVP Scene Graph: Hierarchical Visual Language Mapping and Navigation for Autonomous Valet Parking”的研究论文。文章主要探讨了一种服务于自动代客泊车(AVP)任务的视觉语言场景图,其能够有效提升自动代客泊车功能的灵活性。本文第一作者是溥渊未来技术学院2024级博士生牟相如,本文通讯作者是秦通副教授。

论文封面

研究背景 Research Background

当前,自动代客泊车已成为自动驾驶的重要落地场景:驾驶员仅需通过手机指令,即可完成车辆的自动巡航泊车与自动召回。该功能的实现依赖于车端传感器在首次进入停车场时采集数据,并据此预先构建高精度泊车地图;当车辆再次驶入同一停车场,可直接调用既有地图并指定目标车位,随后启动自动代客泊车功能,实现从入口到车位的全程自主、安全、精准泊入。

研究现状 Current Research

现有泊车地图存在三大痛点:

1)信息维度单一,仅有预先定义好的类别(车道线、箭头等),不能充分反映环境中的有用信息(标志牌、引导标志等);

2)可读性和扩展性较差,难以支持司机与系统的直观交互;

3)结构复杂,读图和更新效率低。

因此,亟需构建一种结构清晰、信息丰富、检索高效且便于人机交互的自动代客泊车地图,以填补当前技术缺口。

研究成果 Research Results

为解决上述问题,本文构建了一种面向自动代客泊车任务的多层场景地图:首先利用视觉语言模型提取开放世界的语义,将其嵌入到矢量地图的节点中,再通过自下而上的特征融合将地图进行场景抽象,最终形成结构清晰、信息丰富的多层场景地图。

与此同时,本文提出一种自上而下的导航方法:先利用大模型实现人机交互,从人类指令中获取导航目标;再借助图结构的高效检索自上而下定位目标;最后由路径规划算法生成最优路径,实现自动代客泊车。

图片1

方法框架图

如下图所示,传统地图语义有限、人机交互受限;而本文方法能够从人类指令“帮我导航到地库出口”或“把车停到B2车库的电梯厅旁边”中提取导航目标,按人类预期实现灵活、准确的自动代客泊车。

图片2

         

演示视频

 

作者信息

Author Profile

牟相如

牟相如

上海交通大学溥渊未来技术学院2024级博士研究生。研究方向:自动泊车构图、端到端自动驾驶。

陈丰毅

陈丰毅

上海交通大学溥渊未来技术学院2024级博士研究生。研究方向:机器人模仿学习、强化学习。

陈思源

陈思源

上海交通大学自动化与感知学院2023级硕士研究生。研究方向:自动驾驶规划控制,V2X系统。

秦通

秦通

上海交通大学溥渊未来技术学院副教授。博士毕业于香港科技大学电子及计算机工程系,曾任职华为车BU。秦通被评选为华为公司首届“天才少年”。他在担任华为车BU感知SLAM技术专家期间,参与研发华为ADS智能驾驶系统,贡献了业界领先的智能驾驶方案,并在多款车型上实现了规模化商用。近年来以第一/通讯作者身份在TRO、JFR、RAL、ICRA等机器人领域顶级期刊和会议上发表高质量论文十余篇。曾获得IROS2018最佳学生论文奖和TRO最佳论文提名奖。研究方向:智能驾驶感知、构图、定位;端到端AI大模型;移动机器人SLAM。