Alpamayo / Cosmos-Reason 学习笔记
主题:Vision-Language-Action(VLA)规划、Reason–Action 对齐、Anti Ego-Shortcut、COC Dataset、RL(GRPO)
1. 论文关注的核心问题(VLA 视角)
论文围绕 VLA 在自动驾驶中的落地问题,明确指出现有方法的痛点:
多帧时序理解
- 连续多帧中信息高度冗余,但决策依赖变化而非静态状态
决策必须具备因果性
- 不能只学到“结果—动作”的统计共现
- 需要显式建模 为什么 采取某个动作
实时、多模态、符合动力学 / 运动学约束
- 多模轨迹必须可执行、可快速解码
- 不能牺牲实时性
Reason 与 Action 强对齐
- Reason 不是事后解释
- 必须能被 Action 验证与约束
2. 系统输入 / 输出设计
2.1 输入(Inputs)
- Multi-camera、多时间戳视觉观测
- User command + Navigation instructions
- Historical ego motion(速度、轨迹历史等)
设计原则:
Ego 信息作为 conditioning,而非决策的主要因果来源,避免 ego shortcut。
2.2 输出(Outputs)
Reason Trace
- 对关键对象、因果关系、环境变化的解释
Meta Action
- 高层语义动作(stop / yield / follow / lane change 等)
Future Trajectories(多模)
- 符合动力学、可执行的未来轨迹
3. Backbone:Cosmos-Reason
3.1 预训练目标
- 基于 Cosmos-Reason VLM
- 使用约 3.7M VQA 数据:
- 自动驾驶场景
- 场景理解与描述
- 困难 / 长尾样本
- Reason trace
目标:
让模型具备 物理知觉 + 具身因果推理能力,而非仅做图像描述。
3.2 SFT 阶段与数据构建
行为–理由配对的重要性
- 现有驾驶数据中的 Reason:
- 模糊、事后、与 Action 不绑定
- 导致模型学到“做什么”,而不是“为什么做”
因此引入 COC(Cause-of-Change)范式。
手工标注数据(高质量)
- Design domain:
- weather / lighting / road condition
- Critical object causal reasoning:
- 明确指出触发决策的关键对象与因果关系
自动标注数据(Teacher–Student)
- Teacher model:Qwen 等大模型
- 生成内容:
- Ego behavior reasoning
- 行为预测
- 通过 prompt 约束:
- 禁止 ego-trigger 的解释
- 必须指向外部对象与环境变化
4. Vision Encoder 设计
4.1 设计目标
- 尽可能少的 token 数量
- 在压缩的前提下保留环境相关语义信息
- 满足 VLA 实时性要求
4.2 环视相机:Tri-plane 表征
- 使用 Tri-plane compression
- XY / XZ / YZ 三个平面
- 将环视相机信息统一编码为 3D 场景语义
- 避免简单拼接多视角导致 token 爆炸
4.3 时序压缩(Temporal Compression)
问题本质:
连续帧之间大量重复信息
方法:
- 时间作为额外维度
- 与空间一起进行 joint encoding
- 使用跨时间步联合编码 + 全局注意力压缩(Flex)
4.4 Learnable Query
- 解决结构化特征表征带来的性能上限
- 允许模型自主选择关注的关键信息
- 避免被固定结构限制表达能力
4.5 推理阶段压缩
- 使用 post-training token pruning 等技术
- 在不显著影响性能的前提下提升推理速度
5. Trajectory Decoder 设计
5.1 Action 表征选择
- 不直接使用 raw trajectory(避免 sensor noise)
- 使用 基于自行车模型的控制级表征
优势:
- 满足动力学约束
- 更利于多模建模
- 提高轨迹稳定性与可解释性
5.2 Fidelity(动作保真性)
- 指 Reason → Action → Control 编解码过程中信息尽量不丢失
- 确保高层决策意图能真实反映到低层控制
5.3 Expert Decoder(大小脑结构)
- VLA(大脑):
- 感知、Reason、Meta action
- 输出 KV 表示
- Action Expert(小脑):
- 接收 KV
- 通过 Flow Matching
- 解码为高精度、平滑的连续控制指令
6. Action 模态与训练策略
6.1 离散 Action Token 的作用
RL 友好
- 可直接使用 Policy Gradient 方法
- 优化 reasoning 质量与一致性
与 Reason 共享 token space
- 为 Reason–Action 对齐提供基础
强监督 + 高效推理
- 离散表示保证训练稳定
- Flow Matching 解决推理阶段精度与多模问题
6.2 知识隔离(Training Decoupling)
- 先训练 VLA(感知 + 推理)
- 冻结后导出
- 再训练 Action Expert
- 防止低层控制噪声污染高层 Reasoning
7. COC Dataset 的作用
COC ≠ 生成更长的 Reason
COC = 强制显式因果结构
目标:
- 明确:
- 是哪个环境变化
- 哪个关键对象
- 导致当前决策与动作
8. Ego Shortcut 问题与解决方式
8.1 Ego Shortcut 表现
- 速度 = 0 → 推断为红灯
- 减速 → 推断前方有车
- 平稳轨迹 → keep lane
本质:
使用 ego 状态替代环境理解的伪因果。
8.2 结构层面
- Reason 主要通过 Vision token + learnable query 生成
- Ego 信息不作为 Reason 的主路径
8.3 数据层面
- 在相同 ego 状态下构造不同因果解释
- 强制模型依赖环境而非 ego
8.4 训练层面
- Reason token 在序列中更靠前
- Reason loss 权重更高
- 先弱化 / 移除 ego 信息训练,再逐步引入
9. RL 阶段(GRPO)
9.1 目标
- 提供 explicit inference feedback
- 基于模型自身 rollout 对齐优化目标
9.2 Reward 设计(三部分)
Reasoning Quality
- Expert LLM 作为 judge
- 重点惩罚 hallucination 与无因果解释
Reason–Action Consistency
- 将生成轨迹反解为 meta action
- 与 Reason 中的 meta action 对齐校验
Trajectory Quality(Rule-based)
- 碰撞、越界、舒适性、效率等规则
9.3 Cost-effective RL
- On-policy sampling 成本高
- 构建专用 post-train dataset
- 使用:
- 模型 logits
- Reward 信号
- 通过 KL divergence 衡量分歧
- 分歧越大,样本价值越高
相关基建:
10. 总结
Alpamayo 的核心贡献不在于单一模块,而在于:
- 结构、数据、训练、RL 四层协同
- 系统性避免 ego shortcut
- 强制 Reason–Action 因果对齐
- 在保证实时性的前提下实现可解释、多模、可执行的自动驾驶规划