
这项由弗吉尼亚理工大学、普渡大学和小鹏汽车联合进行的开创性研究,发表于2026年1月,论文编号为arXiv:2601.22032v1。研究团队成功开发了Drive-JEPA框架,这是第一个将视频预测学习与多模态轨迹蒸馏相结合的端到端自动驾驶系统。
想象一下,如果让你闭着眼睛开车,你肯定会感到恐慌。但如果给你一个能够"预见未来"的超能力,让你能够在脑海中提前看到接下来几秒钟道路上会发生什么,那开车就变得轻松多了。这正是研究团队想要给自动驾驶汽车的能力——通过观看大量驾驶视频来学会预测和规划。
自动驾驶技术发展至今,面临着一个核心挑战:如何让机器像人类驾驶员一样,不仅能看懂当前的道路状况,还能预测接下来可能发生的情况,并据此做出最佳的驾驶决策。传统的自动驾驶系统往往依赖复杂的模块化设计,就像一个需要多个部门协作的大公司,信息在传递过程中容易丢失,导致决策效率低下。
更令人头疼的是,现实世界的驾驶场景充满了不确定性。同一个路口,不同的司机可能会选择不同的路径——有人喜欢稳妥地慢慢通过,有人则倾向于快速穿行。但传统的训练数据中,每个场景通常只记录了一个人类驾驶员的操作,这就像是给学生提供了一道数学题,但只给出了一种解法,限制了机器学习多样化驾驶策略的能力。
展开剩余92%Drive-JEPA的巧妙之处在于它借鉴了人类学习驾驶的方式。人类新手司机在学车时,不仅要跟着教练实地练习,还会观看大量的驾驶教学视频,从中学习各种路况下的应对策略。研究团队让计算机系统观看了208小时的真实驾驶视频,这相当于让它接受了一个月的"视频驾校"培训。
一、视频预测学习:给汽车装上"第三只眼"
Drive-JEPA的第一个创新是引入了V-JEPA(Video Joint-Embedding Predictive Architecture)技术,这就像是给汽车安装了一只能够"预见未来"的第三只眼。这项技术的工作原理可以用看电影来类比:当你在看一部悬疑电影时,即使导演故意遮挡了某些画面,你的大脑也能根据前后情节推测出被遮挡部分可能发生的事情。
V-JEPA就是这样工作的。研究团队故意将驾驶视频的某些时空片段"抠掉",然后训练神经网络根据剩余的视频内容来预测这些被遮挡的部分。这种训练方式迫使系统深入理解驾驶场景的内在逻辑和动态规律,而不是简单地记住表面的图像特征。
与传统的像素级视频生成方法相比,V-JEPA采用的是特征级预测。这就好比学习绘画时,不是要求学生一笔一画地临摹照片,而是让他们理解物体的结构和光影关系,然后用自己的方式表现出来。这种方法不仅大大降低了计算复杂度,还避免了系统过分关注与驾驶决策无关的视觉细节。
为了训练这个"预见未来"的能力,研究团队精心收集了来自CoVLA、DrivingDojo和OpenScene三个公开数据集的大量驾驶视频,总时长达到208小时。所有视频都经过了标准化处理,分辨率设置为512×256像素,帧率为2Hz,每8帧构成一个训练片段。这样的设置确保了系统能够捕捉到驾驶过程中的关键动态信息,同时保持合理的计算效率。
经过这种"视频驾校"式的训练,系统获得了强大的场景理解能力。在实际测试中,即使仅使用简单的Transformer解码器,这种经过V-JEPA预训练的视觉编码器就能显著超越之前的方法。在NAVSIM数据集的无感知注释设置下,仅凭视频预训练就比现有最佳方法提升了3个PDM分数点,这一成果充分证明了视频预测学习对自动驾驶的重要价值。
二、多模态轨迹蒸馏:让机器学会"举一反三"
如果说V-JEPA解决了"看得懂"的问题,那么多模态轨迹蒸馏技术就是要解决"想得全"的问题。这就像是在驾校学车时,教练不仅会教你一种通过十字路口的方法,还会告诉你在不同情况下的多种选择:遇到行人时要减速让行,看到黄灯时可以根据距离决定是否通过,发现前车突然刹车时要立即变道或停车。
传统的自动驾驶训练方法面临一个根本性限制:每个驾驶场景只有一个人类司机的操作记录。这就像是学做菜时,每道菜只有一个食谱,无法了解同一道菜的不同做法和口味变化。Drive-JEPA通过多模态轨迹蒸馏技术巧妙地解决了这个问题。
研究团队首先建立了一个包含8192个不同驾驶轨迹的"词汇表"。这个词汇表通过K-means聚类算法从超过10万条训练轨迹中精选而来,涵盖了各种可能的驾驶行为模式。然后,他们使用基于规则的仿真器对每个场景中的所有候选轨迹进行安全性和舒适性评估,就像是让一个经验丰富的驾驶教练对每种可能的操作打分。
这个评估过程考虑了多个维度:是否会发生碰撞、是否遵守交通规则、行驶是否平稳舒适等等。通过这种方式,系统为每个驾驶场景找到了多条高质量的可行轨迹,而不再局限于单一的人类驾驶记录。这些多样化的轨迹成为了"伪教师",为系统提供了丰富的学习素材。
在训练过程中,Drive-JEPA采用了一种创新的监督策略。系统不仅要学习模仿原始的人类轨迹,还要同时学习这些由仿真器验证的高质量替代方案。这种训练方式的效果立竿见影:在不使用多模态轨迹蒸馏时,系统生成的候选路径往往集中在很窄的范围内,缺乏多样性;而引入这项技术后,系统能够生成分布更广、更具多样性的候选路径,为后续的路径选择提供了更丰富的选项。
三、路径锚定提议生成:精确制导的轨迹规划
Drive-JEPA的第三个关键创新是路径锚定提议生成机制,这就像是给GPS导航系统装上了一个智能大脑,不仅能规划出一条路线,还能同时考虑多条可能的路径,并在行进过程中不断优化选择。
这个机制的工作原理颇具巧思。系统首先生成32个初始的轨迹提议查询,每个查询都包含了对未来多个时间点车辆位置的预测。这些初始查询就像是在地图上标记的多个可能的目标点。然后,系统通过一种叫做"路径锚定可变形注意力"的技术,以这些预测的路径点为"锚点",从周围环境中聚集相关的特征信息。
这种机制的妙处在于它能够将抽象的特征学习与具体的几何约束相结合。传统的方法往往在高维特征空间中进行复杂的推理,就像是在一个看不见的迷宫里摸索前进。而路径锚定方法则将这种推理过程"接地"到实际的道路几何结构上,使得每次特征更新都有明确的物理意义。
系统通过多轮迭代不断精化这些轨迹提议。在每次迭代中,当前的路径点被用作"注意力锚点",系统会聚焦于这些位置周围的环境特征,然后更新对应的轨迹查询。这个过程类似于一个经验丰富的司机在复杂路况下的思考过程:先观察整体环境,然后聚焦于几个关键区域,最后根据这些重点信息调整行驶计划。
经过多轮迭代优化,系统最终产生32条精心制作的候选轨迹。这些轨迹不仅在技术上可行,还经过了多模态轨迹蒸馏的指导,确保了足够的多样性和安全性。与传统的固定词汇表方法相比,这种在线生成的方式能够更好地适应具体场景的特殊要求,就像是定制化的解决方案比标准化产品更能满足个性化需求。
四、动量感知轨迹选择:平衡安全与舒适的智慧抉择
有了多条高质量的候选轨迹后,如何选择最佳的那一条就成了关键问题。这就像是一个人面对餐厅菜单上的多道美食时,需要综合考虑口味偏好、营养搭配、价格预算等多个因素来做出最终选择。Drive-JEPA的动量感知轨迹选择机制正是这样一个"智慧抉择器"。
系统首先为每条候选轨迹计算一个综合评分,这个评分考虑了安全性、合规性和舒适性等多个维度。安全性评估主要关注是否会与其他车辆或障碍物发生碰撞;合规性评估检查是否遵守交通规则,如红绿灯信号、车道保持等;舒适性评估则关注行驶的平稳程度,避免急加速、急刹车等不适操作。
然而,仅仅基于当前时刻的静态评分还不够。研究团队发现,当系统生成多样化轨迹时,如果每次都简单地选择评分最高的路径,可能会导致车辆在连续时刻之间的行为不一致,造成"颠簸感"。这就像是一个人在跑步时突然改变方向,虽然新方向可能更好,但突然的转变会让身体感到不适。
为了解决这个问题,Drive-JEPA引入了动量感知机制。这个机制会记住上一时刻选择的轨迹,然后在当前时刻的选择中加入一个"舒适性惩罚"项。如果某条候选轨迹与前一时刻的轨迹差异过大,它的总体评分就会被相应降低。这种设计确保了车辆行为的连续性和一致性,大大提升了乘车舒适度。
具体的评分调整公式采用了7:1的权重比例,即原始安全性评分占70%,舒适性调整占30%。这个比例的设定反映了安全优先的原则,同时也充分考虑了乘车体验。在实际测试中,这种动量感知机制显著改善了系统的表现,特别是在扩展舒适度(EC)指标上,从47.9分大幅提升到84.8分,提升幅度超过75%。
五、实验验证:多重考验下的卓越表现
为了验证Drive-JEPA的有效性,研究团队在三个权威的自动驾驶评估平台上进行了全面测试:NAVSIM v1、NAVSIM v2和Bench2Drive。这些测试就像是让一个新手司机依次通过科目一理论考试、科目二场地考试和科目三路考,每个阶段都有不同的评判标准和难度等级。
在NAVSIM v1测试中,Drive-JEPA取得了93.3分的PDM得分,创下了新的记录。这个成绩的取得特别令人瞩目的是,Drive-JEPA仅使用了前视摄像头,而许多竞争方法还需要激光雷达等昂贵的传感器。在各个细分指标中,系统在无碰撞率、可驾驶区域合规性、自车进展等方面都表现出色,显示了均衡而优异的综合能力。
NAVSIM v2的评估标准更加严格,引入了扩展预测驾驶员模型评分(EPDMS),增加了驾驶方向合规性、交通灯合规性、车道保持等更细致的评判维度。在这个更具挑战性的测试中,Drive-JEPA依然保持了87.8分的优异成绩,继续领先于所有对比方法。特别值得注意的是,在扩展舒适度这个最困难的指标上,Drive-JEPA的表现远超其他方法,体现了动量感知选择机制的显著效果。
在Bench2Drive的闭环仿真测试中,Drive-JEPA面临的是更接近真实驾驶的动态环境。在这种设置下,其他车辆会根据自车的行为做出相应反应,形成真正的交互式驾驶场景。测试结果显示,Drive-JEPA在驾驶评分上达到了64.52分,成功率为36.82%,在所有参与对比的方法中表现最佳。这种在交互环境中的优异表现证明了系统不仅能应对静态场景,还能有效处理复杂的动态交互。
研究团队还专门进行了感知无关设置下的对比实验。在这种设置中,系统不能使用任何人工标注的感知信息,完全依靠原始视频数据进行学习和预测。结果显示,仅凭V-JEPA预训练的视觉编码器配合简单的Transformer解码器,就能达到89.0分的PDM得分,比之前最好的方法提升了3分。这一结果充分证明了视频预测学习在自动驾驶中的巨大潜力。
六、技术细节剖析:魔鬼藏在细节里
Drive-JEPA的成功不仅来自于整体架构的创新,更体现在众多技术细节的精心设计上。这些看似不起眼的技术选择,就像是一道精美菜肴中恰到好处的调料,缺一不可。
在视频预训练阶段,研究团队使用了8块H800 GPU,训练时间长达3天,处理了50个训练周期。这种大规模的计算投入确保了模型能够充分学习驾驶视频中的复杂模式。相比之下,传统的端到端驾驶系统训练只需要几小时到一天的时间,但其效果远不如经过充分视频预训练的系统。
在轨迹提议的生成过程中,系统设置了32个候选轨迹,这个数量是经过仔细权衡的结果。太少的候选数量可能无法覆盖足够的行为多样性,而太多的候选则会增加计算复杂度并可能引入质量较低的选项。通过大量实验,研究团队发现32个候选能够在多样性和效率之间达到最佳平衡。
损失函数的设计同样体现了研究团队的匠心。主要的轨迹损失采用了分层衰减策略,早期迭代的权重较低(λ=0.1),后期迭代的权重较高,这种设计鼓励系统进行从粗糙到精细的逐步优化。辅助任务的权重设置也经过了精心调试:评分损失权重为1.0,地图损失权重为2.0,碰撞损失权重为1.0,这些权重反映了不同任务在整体目标中的重要性。
在多模态轨迹蒸馏过程中,伪教师轨迹的阈值设置为0.95,这意味着只有那些在仿真评估中得分非常高的轨迹才会被选为学习目标。这种严格的筛选确保了系统学习到的都是高质量的驾驶行为。同时,系统还引入了随机采样机制,当某个场景中高质量轨迹数量超过需求时,会随机选择其中的几条,增加训练的随机性和泛化能力。
七、对比实验的深度洞察
为了全面验证各个技术模块的贡献,研究团队设计了详尽的消融实验。这些实验就像是拆解一台精密机器,逐个检验每个零件的作用,最终组装出性能最优的完整系统。
第一组实验对比了不同视觉预训练方法的效果。研究团队测试了ImageNet预训练、MAE、DINOv2、SigCLIP等多种主流方法,结果显示V-JEPA 2在自动驾驶任务上表现最佳。有趣的是,MAE和DepthAnything这两种看似相关的方法在驾驶任务上甚至无法收敛,说明并非所有的视觉预训练方法都适用于动态场景理解。
第二组实验验证了驾驶视频预训练的价值。使用Drive-JEPA特别策划的208小时驾驶视频进行预训练后,系统性能比直接使用V-JEPA 2预训练权重又提升了近3个PDM分数点。这个结果证明了领域特定数据的重要性——即使是最先进的通用预训练模型,也需要在目标领域的数据上进一步调优才能发挥最佳效果。
多模态轨迹蒸馏的效果验证最为戏剧性。在引入这项技术之前,系统生成的候选轨迹会严重聚集在一个狭窄的区域内,多样性得分仅为25%。而在引入多模态蒸馏后,多样性得分跃升至40%,提升幅度达到60%。更重要的是,这种多样性的提升并没有以牺牲安全性为代价——各项安全指标都保持在高水平。
动量感知选择机制的作用在扩展舒适度指标上体现得最为明显。没有这个机制时,系统的EC得分仅有47.9分,而引入后直接跃升至84.8分,提升幅度高达77%。这个巨大的改善说明了行为一致性对乘车体验的重要影响。
研究团队还测试了不同数量伪教师轨迹的影响。实验结果显示,使用1-8条伪教师轨迹时性能比较稳定,都明显优于不使用伪教师的情况(Npseudo=0)。这说明即使少量的多模态监督信号也能带来显著的性能提升,而过多的伪教师轨迹并不会带来额外的好处。
八、实际应用前景与技术影响
Drive-JEPA的技术突破不仅仅停留在学术层面,它为实际的自动驾驶应用开辟了多条新路径。最直接的影响是大幅降低了自动驾驶系统的硬件成本。传统的高级自动驾驶系统往往需要昂贵的激光雷达,成本动辄数万美元,而Drive-JEPA仅用一个前视摄像头就能达到相近甚至更好的效果。
从技术演进的角度看,Drive-JEPA代表了自动驾驶技术发展的一个重要转折点。它证明了通过大规模无监督学习,机器可以从驾驶视频中自主提取出与人类驾驶员相当的场景理解能力。这种能力的获得不依赖于昂贵的人工标注,而是通过观察大量真实驾驶行为自然涌现出来。
在数据利用效率方面,Drive-JEPA展现出了巨大的优势。传统的端到端驾驶系统需要精确的轨迹标注,而Drive-JEPA可以利用大量未标注的驾驶视频进行预训练。考虑到网络上存在海量的行车记录仪视频,这种技术路径具有几乎无限的扩展潜力。
多模态轨迹蒸馏技术的引入也为自动驾驶系统的安全性验证提供了新思路。通过仿真器生成的多样化高质量轨迹,系统不仅学会了模仿人类驾驶员,还学会了在相同场景下探索更安全、更高效的驾驶策略。这种能力使得自动驾驶系统在某些方面甚至可能超越人类驾驶员的表现。
从产业发展的角度看,Drive-JEPA的成功可能会推动整个行业重新审视技术路线选择。相比于依赖复杂传感器融合的方案,基于视觉的端到端学习路径显示出了更大的可扩展性和成本优势。这可能会影响未来自动驾驶汽车的产品定义和市场策略。
当然,Drive-JEPA也面临着一些挑战和限制。系统目前主要在仿真环境和结构化数据集上验证,距离真实道路部署还需要解决恶劣天气、特殊路况、传感器故障等各种边缘情况。此外,纯视觉方案在夜间、雨雪天气等低能见度条件下的可靠性仍需进一步验证。
九、技术演进的历史意义
回顾自动驾驶技术的发展历程,Drive-JEPA的出现具有里程碑式的意义。早期的自动驾驶研究主要依赖手工设计的规则和算法,就像是给机器编写详细的驾驶手册,告诉它在每种情况下应该如何操作。这种方法的局限性很快显现出来——现实世界的复杂性远超人类的想象力和编程能力。
随后出现的模块化方案试图将自动驾驶分解为感知、预测、规划等独立模块,每个模块负责特定的功能。这种方法在一定程度上降低了系统复杂度,但也带来了新的问题:模块间的误差传播、优化目标不一致、实时性要求难以满足等。更重要的是,这种分而治之的策略可能无法充分利用不同任务间的相关性。
端到端学习的兴起代表了范式的根本转变。与其试图人为分解这个复杂问题,不如让机器从数据中自主学习从感知到控制的完整映射。早期的端到端方法如PilotNet展现了这种思路的潜力,但受限于当时的数据规模和计算能力,效果并不理想。
Drive-JEPA的突破在于它找到了端到端学习在自动驾驶领域的正确打开方式。通过V-JEPA的视频预测学习,系统获得了强大的时空表示能力;通过多模态轨迹蒸馏,系统学会了多样化的驾驶策略;通过动量感知选择,系统保证了行为的一致性和舒适性。这三个创新的有机结合,使得端到端学习在自动驾驶领域首次真正展现出了超越传统方法的潜力。
从更宏观的角度看,Drive-JEPA的成功也反映了人工智能技术发展的总体趋势:从规则驱动到数据驱动,从模块化设计到端到端学习,从监督学习到自监督学习。这种演进路径不仅在自动驾驶领域有效,在自然语言处理、计算机视觉等众多AI应用领域都得到了验证。
结论部分
说到底,Drive-JEPA为我们展示了一种全新的思路:让机器像人类一样通过观察学习驾驶。这种方法不仅更贴近人类学习的自然方式,还能显著降低系统成本和复杂度。
归根结底,这项研究的最大价值在于证明了仅凭视频观察就能训练出优秀的自动驾驶系统。考虑到网络上存在的海量行车记录仪视频,这种技术路径具有几乎无限的扩展潜力。未来的自动驾驶汽车可能不再需要昂贵的激光雷达,一个普通的摄像头配合智能算法就足以应对大部分驾驶场景。
当然,从实验室到真实道路还有一段距离要走。恶劣天气、复杂路况、突发事件等各种挑战都需要进一步解决。但Drive-JEPA已经为我们指明了一个充满希望的方向:通过模仿人类的学习方式,机器或许能够获得与人类相当甚至更强的驾驶能力。
对于普通消费者来说,这项技术的最直接影响可能是让自动驾驶汽车变得更便宜、更普及。而对整个交通系统来说,更智能、更协调的自动驾驶车辆可能会带来效率的显著提升和事故率的大幅下降。这个未来虽然还没有完全到来,但Drive-JEPA让我们看到了实现它的清晰路径。
有兴趣深入了解这项研究的读者可以通过论文编号arXiv:2601.22032v1查询完整的技术细节,或关注研究团队在GitHub上发布的开源代码实现。
Q&A
Q1:Drive-JEPA和传统自动驾驶技术有什么区别?
A:传统自动驾驶需要激光雷达等昂贵传感器,而Drive-JEPA只用一个普通摄像头就能达到更好效果。它让汽车通过观看大量驾驶视频来学习,就像人类学车一样,比传统的模块化设计更自然高效。
Q2:为什么说Drive-JEPA能让自动驾驶汽车变便宜?
A:因为它不需要昂贵的激光雷达设备,仅用前视摄像头就能工作。激光雷达成本动辄数万美元,而摄像头只需几百元,这能大幅降低自动驾驶汽车的制造成本。
Q3:Drive-JEPA现在可以在真实道路上使用吗?
A:目前还不行。Drive-JEPA主要在仿真环境中验证网上炒股开户,距离真实道路部署还需要解决恶劣天气、夜间驾驶、特殊路况等各种实际挑战,需要更多测试和改进。
发布于:北京市钱程策略提示:文章来自网络,不代表本站观点。