Alpamayo / Cosmos-Reason 学习笔记

主题:Vision-Language-Action(VLA)规划、Reason–Action 对齐、Anti Ego-Shortcut、COC Dataset、RL(GRPO)


1. 论文关注的核心问题(VLA 视角)

论文围绕 VLA 在自动驾驶中的落地问题,明确指出现有方法的痛点:

  1. 多帧时序理解

    • 连续多帧中信息高度冗余,但决策依赖变化而非静态状态
  2. 决策必须具备因果性

    • 不能只学到“结果—动作”的统计共现
    • 需要显式建模 为什么 采取某个动作
  3. 实时、多模态、符合动力学 / 运动学约束

    • 多模轨迹必须可执行、可快速解码
    • 不能牺牲实时性
  4. Reason 与 Action 强对齐

    • Reason 不是事后解释
    • 必须能被 Action 验证与约束

2. 系统输入 / 输出设计

2.1 输入(Inputs)

  • Multi-camera、多时间戳视觉观测
  • User command + Navigation instructions
  • Historical ego motion(速度、轨迹历史等)

设计原则:
Ego 信息作为 conditioning,而非决策的主要因果来源,避免 ego shortcut。


2.2 输出(Outputs)

  1. Reason Trace

    • 对关键对象、因果关系、环境变化的解释
  2. Meta Action

    • 高层语义动作(stop / yield / follow / lane change 等)
  3. Future Trajectories(多模)

    • 符合动力学、可执行的未来轨迹

3. Backbone:Cosmos-Reason

3.1 预训练目标

  • 基于 Cosmos-Reason VLM
  • 使用约 3.7M VQA 数据
    • 自动驾驶场景
    • 场景理解与描述
    • 困难 / 长尾样本
    • Reason trace

目标:

让模型具备 物理知觉 + 具身因果推理能力,而非仅做图像描述。


3.2 SFT 阶段与数据构建

行为–理由配对的重要性

  • 现有驾驶数据中的 Reason:
    • 模糊、事后、与 Action 不绑定
  • 导致模型学到“做什么”,而不是“为什么做”

因此引入 COC(Cause-of-Change)范式


手工标注数据(高质量)

  • Design domain:
    • weather / lighting / road condition
  • Critical object causal reasoning:
    • 明确指出触发决策的关键对象与因果关系

自动标注数据(Teacher–Student)

  • Teacher model:Qwen 等大模型
  • 生成内容:
    • Ego behavior reasoning
    • 行为预测
  • 通过 prompt 约束:
    • 禁止 ego-trigger 的解释
    • 必须指向外部对象与环境变化

4. Vision Encoder 设计

4.1 设计目标

  • 尽可能少的 token 数量
  • 在压缩的前提下保留环境相关语义信息
  • 满足 VLA 实时性要求

4.2 环视相机:Tri-plane 表征

  • 使用 Tri-plane compression
    • XY / XZ / YZ 三个平面
  • 将环视相机信息统一编码为 3D 场景语义
  • 避免简单拼接多视角导致 token 爆炸

4.3 时序压缩(Temporal Compression)

问题本质:

连续帧之间大量重复信息

方法:

  • 时间作为额外维度
  • 与空间一起进行 joint encoding
  • 使用跨时间步联合编码 + 全局注意力压缩(Flex)

4.4 Learnable Query

  • 解决结构化特征表征带来的性能上限
  • 允许模型自主选择关注的关键信息
  • 避免被固定结构限制表达能力

4.5 推理阶段压缩

  • 使用 post-training token pruning 等技术
  • 在不显著影响性能的前提下提升推理速度

5. Trajectory Decoder 设计

5.1 Action 表征选择

  • 不直接使用 raw trajectory(避免 sensor noise)
  • 使用 基于自行车模型的控制级表征

优势:

  • 满足动力学约束
  • 更利于多模建模
  • 提高轨迹稳定性与可解释性

5.2 Fidelity(动作保真性)

  • 指 Reason → Action → Control 编解码过程中信息尽量不丢失
  • 确保高层决策意图能真实反映到低层控制

5.3 Expert Decoder(大小脑结构)

  • VLA(大脑):
    • 感知、Reason、Meta action
    • 输出 KV 表示
  • Action Expert(小脑):
    • 接收 KV
    • 通过 Flow Matching
    • 解码为高精度、平滑的连续控制指令

6. Action 模态与训练策略

6.1 离散 Action Token 的作用

  1. RL 友好

    • 可直接使用 Policy Gradient 方法
    • 优化 reasoning 质量与一致性
  2. 与 Reason 共享 token space

    • 为 Reason–Action 对齐提供基础
  3. 强监督 + 高效推理

    • 离散表示保证训练稳定
    • Flow Matching 解决推理阶段精度与多模问题

6.2 知识隔离(Training Decoupling)

  • 先训练 VLA(感知 + 推理)
  • 冻结后导出
  • 再训练 Action Expert
  • 防止低层控制噪声污染高层 Reasoning

7. COC Dataset 的作用

COC ≠ 生成更长的 Reason
COC = 强制显式因果结构

目标:

  • 明确:
    • 是哪个环境变化
    • 哪个关键对象
    • 导致当前决策与动作

8. Ego Shortcut 问题与解决方式

8.1 Ego Shortcut 表现

  • 速度 = 0 → 推断为红灯
  • 减速 → 推断前方有车
  • 平稳轨迹 → keep lane

本质:

使用 ego 状态替代环境理解的伪因果。


8.2 结构层面

  • Reason 主要通过 Vision token + learnable query 生成
  • Ego 信息不作为 Reason 的主路径

8.3 数据层面

  • 在相同 ego 状态下构造不同因果解释
  • 强制模型依赖环境而非 ego

8.4 训练层面

  • Reason token 在序列中更靠前
  • Reason loss 权重更高
  • 先弱化 / 移除 ego 信息训练,再逐步引入

9. RL 阶段(GRPO)

9.1 目标

  • 提供 explicit inference feedback
  • 基于模型自身 rollout 对齐优化目标

9.2 Reward 设计(三部分)

  1. Reasoning Quality

    • Expert LLM 作为 judge
    • 重点惩罚 hallucination 与无因果解释
  2. Reason–Action Consistency

    • 将生成轨迹反解为 meta action
    • 与 Reason 中的 meta action 对齐校验
  3. Trajectory Quality(Rule-based)

    • 碰撞、越界、舒适性、效率等规则

9.3 Cost-effective RL

  • On-policy sampling 成本高
  • 构建专用 post-train dataset
  • 使用:
    • 模型 logits
    • Reward 信号
  • 通过 KL divergence 衡量分歧
  • 分歧越大,样本价值越高

相关基建:


10. 总结

Alpamayo 的核心贡献不在于单一模块,而在于:

  • 结构、数据、训练、RL 四层协同
  • 系统性避免 ego shortcut
  • 强制 Reason–Action 因果对齐
  • 在保证实时性的前提下实现可解释、多模、可执行的自动驾驶规划