新闻

上海交大溥渊学院张颂安团队发文:交通法规知识驱动的自动驾驶强化学习奖励设计新方法

发布时间2026-05-11

上海交通大学溥渊未来技术学院张颂安副教授团队在机器人学与自动化领域期刊IEEE Robotics and Automation Letters(RA-L)上发表题为“ROAD: Responsibility-Oriented Reward Design for Reinforcement Learning in Autonomous Driving” 的研究论文。文章围绕自动驾驶强化学习中奖励函数难以有效刻画交通责任与规则约束的问题,提出了一种名为ROAD的责任导向奖励设计方法,该方法融合视觉语言模型、交通法规知识图谱与事故责任判定机制,能够将交通法规中的责任划分原则引入强化学习训练过程,使智能体不仅能提升任务完成率,还能降低由自身主要责任导致的碰撞风险,为提升自动驾驶决策模型的安全性、合规性和社会兼容性提供了新的研究思路。论文第一作者为陈泳铭,通讯作者为张颂安。

研究背景

自动驾驶决策是智能网联汽车领域的核心问题之一。近年来,模仿学习和强化学习被广泛用于自动驾驶策略学习。其中,模仿学习能够通过专家驾驶数据复现人类驾驶行为,但在长尾场景、复杂交互场景以及分布外环境中往往存在泛化能力不足的问题。相比之下,强化学习通过智能体与环境的试错交互来学习驾驶策略,能够在仿真环境中不断优化决策行为,进而在复杂交通场景下展现出较强潜力。

然而,强化学习方法的效果高度依赖奖励函数设计。传统自动驾驶强化学习通常将碰撞、越界、到达终点、行驶速度、车道保持等因素纳入奖励函数,但这类奖励往往依赖人工经验,且对“事故责任”缺乏细粒度建模。例如,在复杂交通交互中,车辆发生碰撞可能并不完全由自车造成:有些碰撞可能是自车违反让行规则导致,有些则可能是其他交通参与者行为异常造成。如果强化学习系统对所有碰撞都施加相同惩罚,就会混淆“自车主动违规”与“被动遭遇风险”两类本质不同的情形,进而导致奖励信号失真。

这种统一碰撞惩罚机制可能带来两类问题:一方面,如果碰撞惩罚过强,智能体可能学会过度保守的“冻结式”驾驶策略,即为了避免任何碰撞而不愿进入交互场景;另一方面,如果碰撞惩罚过弱,智能体可能倾向于激进驾驶,将碰撞视作完成任务过程中的可接受代价。因此,如何让强化学习奖励函数更好地区分事故责任、遵守交通法规约束,是提升自动驾驶策略安全性和合规性的关键问题。

研究现状

已有研究尝试利用大语言模型和视觉语言模型为强化学习提供更丰富的语义反馈,使奖励函数不再局限于简单的数值规则。例如,视觉语言模型能够理解交通场景图像,并结合文本提示生成对驾驶行为的解释或评价。这为自动驾驶奖励设计提供了新的可能:模型可以从图像和语言层面判断车辆是否遵守交通规则、是否存在危险驾驶行为,从而辅助构建更加语义化、场景化的奖励信号。

然而,视觉语言模型在安全关键场景中仍面临一个突出问题,即幻觉和不稳定推理。对于自动驾驶而言,如果模型错误理解路权关系、错误判断事故场景,或者在没有法规依据的情况下生成看似合理但实际不准确的责任判定,就可能向强化学习智能体传递错误奖励信号,最终影响驾驶策略的安全性。因此,仅依赖视觉语言模型的参数化知识进行责任判断并不可靠,还需要引入结构化、可检索、可解释的交通法规知识。

此外,现有强化学习奖励函数多数仍以“是否发生碰撞”为核心,而不是进一步判断“碰撞责任由谁承担”。这种设计虽然能在一定程度上降低事故率,但难以引导智能体学习符合交通规则和社会驾驶规范的行为。例如,在无信号交叉口、环岛等交互密集场景中,驾驶策略不仅要避免碰撞,还需要理解让行规则、通行优先级和责任归属。由此可见,面向自动驾驶强化学习的奖励函数设计需要从“结果惩罚”进一步走向“责任感知”。

研究成果

为综合解决上述问题,论文提出了ROAD(Responsibility-Oriented Reward Design for Autonomous Driving)框架,将交通法规知识、视觉语言模型推理和强化学习奖励设计有机结合。该框架的核心思想是:当自动驾驶智能体发生碰撞时,不再简单地对所有碰撞施加统一惩罚,而是根据自车在事故中的责任程度动态调整碰撞惩罚,使奖励函数能够反映交通法规中的责任划分原则。

ADRL-pipeline

图1:ROAD框架

具体而言,论文首先构建了交通法规知识图谱 TRKG(Traffic Regulation Knowledge Graph)。该知识图谱从交通法规文本中抽取驾驶场景、适用标准和责任判定信息等关键节点,并通过结构化关系组织起来。例如,在交叉口、环岛等典型场景中,知识图谱能够提供车辆让行、优先通行、责任划分等规则依据。为了降低人工构建成本,论文采用大语言模型辅助抽取法规三元组,并由领域专家进行校验,最终形成可查询、可用于责任推理的交通法规知识结构。

KGshow1

图2:TRKG

其次,论文将TRKG与视觉语言模型结合,构建事故责任判定流程。系统首先利用视觉语言模型识别事故图像中的交通场景和车辆交互信息,再从TRKG中检索相关法规条款和责任判定依据,最后结合检索到的法规知识推理自车在事故中的责任类型,包括主要责任、共同责任和次要责任。相比单纯依赖大模型自身知识,这种检索增强机制能够使责任判定更加贴近正式交通法规,降低视觉语言模型幻觉带来的风险。

同时,为了避免在线调用视觉语言模型带来的高成本和实时性限制,论文利用上述TRKG-RAG流程生成并校验“事故图像—责任标签”数据集,然后训练离线事故责任分类模型。该模型能够在强化学习训练过程中实时判断碰撞责任,并将责任结果映射为奖励信号。具体来说,当自车承担主要责任时,系统给予较强的惩罚;当责任较低时,惩罚相应减弱。由此,强化学习智能体能够在训练过程中逐步学习到:不仅要减少碰撞,更要避免由自身违规或不合理驾驶行为导致的主要责任事故。

在实验方面,论文基于MetaDrive仿真平台,在交叉口和环岛两类复杂交通场景中验证了ROAD方法的有效性。实验结果表明,与原始策略相比,ROAD在交叉口场景中的任务成功率达到73.2%,提升8.2个百分点;在环岛场景中的任务成功率达到54.0%,提升11.2个百分点。同时,自车主要责任比例在交叉口场景中下降13.5个百分点,在环岛场景中下降5.7个百分点。这些结果说明,责任导向奖励不仅能够提升任务完成能力,还能有效减少由自车承担主要责任的碰撞行为。

此外,论文还进行了消融实验和敏感性分析。结果显示,引入TRKG-RAG后,责任判定准确率明显优于仅使用GPT-4o的基线方法,说明结构化交通法规知识能够有效提升责任推理的可靠性。对于惩罚缩放系数的分析也表明,简单增大碰撞惩罚并不能等价于责任导向奖励;过强惩罚可能导致过度保守行为,而合理的责任加权机制能够在安全性和通行效率之间取得更好的平衡。

总体来看,ROAD的主要贡献在于:第一,提出了面向自动驾驶责任判定的交通法规知识图谱,缓解视觉语言模型在交通责任推理中的幻觉问题;第二,将事故责任划分引入强化学习奖励函数,使奖励设计从统一碰撞惩罚转向责任感知惩罚;第三,在复杂交叉口和环岛场景中验证了该方法能够同时提升成功率并降低自车主要责任事故比例。该研究为构建更加安全、合规、可解释的自动驾驶强化学习系统提供了新的技术路径。

论文链接:

https://ieeexplore.ieee.org/document/11457333

 

个人简介

陈泳铭

上海交通大学溥渊未来技术学院硕士研究生,研究方向:自动驾驶强化学习、知识图谱、大语言模型与多模态智能系统。

张颂安

上海交通大学溥渊未来技术学院长聘教轨副教授,智能网联电动汽车创新中心成员,主要从事自动驾驶汽车决策系统算法设计方面的研究,在TITS, TIV, CVPR,ICCV等期刊与会议上发表30余篇论文。张颂安老师于2013年和2016年在清华大学车辆工程系分别获得本科和硕士学位,2021年于美国密歇根大学机械工程系获得博士学位,导师为Mcity Director彭晖教授。毕业后,其加入美国福特汽车公司机器人研究所担任研究员,并兼任福特—大学联合项目机器人方向提案评审组Committee Chair。2023年,张颂安老师加入上海交通大学溥渊未来技术学院。研究方向:智能车和机器人决策控制算法、强化学习、元强化学习、工业具身智能、AI辅助航空发动机设计。