Nvidia_VLA

Alpamayo / Cosmos-Reason 学习笔记 主题:Vision-Language-Action(VLA)规划、Reason–Action 对齐、Anti Ego-Shortcut、COC Dataset、RL(GRPO) 1. 论文关注的核心问题(VLA 视角) 论文围绕 VLA 在自动驾驶中的落地问题,明确指出现有方法的痛点: 多帧时序理解 连续多帧中信息高度冗余,但决策依赖变化而非静态状态 决策必须具备因果性 不能只学到“结果—动作”的统计共现 需要显式建模 为什么 采取某个动作 实时、多模态、符合动力学 / 运动学约束 多模轨迹必须可执行、可快速解码 不能牺牲实时性 Reason 与 Action 强对齐 Reason 不是事后解释 必须能被 Action 验证与约束 2. 系统输入 / 输出设计 2.1 输入(Inputs) Multi-camera、多时间戳视觉观测 User command + Navigation instructions Historical ego motion(速度、轨迹历史等) 设计原则: Ego 信息作为 conditioning,而非决策的主要因果来源,避免 ego shortcut。 2.2 输出(Outputs) Reason Trace 对关键对象、因果关系、环境变化的解释 Meta Action 高层语义动作(stop / yield / follow / lane change 等) Future Trajectories(多模) ...

January 11, 2026 · 3 min