Alpamayo / Cosmos-Reason 学习笔记

主题：Vision-Language-Action（VLA）规划、Reason–Action 对齐、Anti Ego-Shortcut、COC Dataset、RL（GRPO）

1. 论文关注的核心问题（VLA 视角）

论文围绕 VLA 在自动驾驶中的落地问题，明确指出现有方法的痛点：

多帧时序理解
- 连续多帧中信息高度冗余，但决策依赖变化而非静态状态
决策必须具备因果性
- 不能只学到“结果—动作”的统计共现
- 需要显式建模 为什么 采取某个动作
实时、多模态、符合动力学 / 运动学约束
- 多模轨迹必须可执行、可快速解码
- 不能牺牲实时性
Reason 与 Action 强对齐
- Reason 不是事后解释
- 必须能被 Action 验证与约束

2. 系统输入 / 输出设计

2.1 输入（Inputs）

Multi-camera、多时间戳视觉观测
User command + Navigation instructions
Historical ego motion（速度、轨迹历史等）

设计原则：
Ego 信息作为 conditioning，而非决策的主要因果来源，避免 ego shortcut。

2.2 输出（Outputs）

Reason Trace
- 对关键对象、因果关系、环境变化的解释
Meta Action
- 高层语义动作（stop / yield / follow / lane change 等）
Future Trajectories（多模）
- 符合动力学、可执行的未来轨迹

3. Backbone：Cosmos-Reason

3.1 预训练目标

基于 Cosmos-Reason VLM
使用约 3.7M VQA 数据：
- 自动驾驶场景
- 场景理解与描述
- 困难 / 长尾样本
- Reason trace

目标：

让模型具备 物理知觉 + 具身因果推理能力，而非仅做图像描述。

3.2 SFT 阶段与数据构建

行为–理由配对的重要性

现有驾驶数据中的 Reason：
- 模糊、事后、与 Action 不绑定
导致模型学到“做什么”，而不是“为什么做”

因此引入 COC（Cause-of-Change）范式。

手工标注数据（高质量）

Design domain：
- weather / lighting / road condition
Critical object causal reasoning：
- 明确指出触发决策的关键对象与因果关系

自动标注数据（Teacher–Student）

Teacher model：Qwen 等大模型
生成内容：
- Ego behavior reasoning
- 行为预测
通过 prompt 约束：
- 禁止 ego-trigger 的解释
- 必须指向外部对象与环境变化

4. Vision Encoder 设计

4.1 设计目标

尽可能少的 token 数量
在压缩的前提下保留环境相关语义信息
满足 VLA 实时性要求

4.2 环视相机：Tri-plane 表征

使用 Tri-plane compression
- XY / XZ / YZ 三个平面
将环视相机信息统一编码为 3D 场景语义
避免简单拼接多视角导致 token 爆炸

4.3 时序压缩（Temporal Compression）

问题本质：

连续帧之间大量重复信息

方法：

时间作为额外维度
与空间一起进行 joint encoding
使用跨时间步联合编码 + 全局注意力压缩（Flex）

4.4 Learnable Query

解决结构化特征表征带来的性能上限
允许模型自主选择关注的关键信息
避免被固定结构限制表达能力

4.5 推理阶段压缩

使用 post-training token pruning 等技术
在不显著影响性能的前提下提升推理速度

5. Trajectory Decoder 设计

5.1 Action 表征选择

不直接使用 raw trajectory（避免 sensor noise）
使用 基于自行车模型的控制级表征

优势：

满足动力学约束
更利于多模建模
提高轨迹稳定性与可解释性

5.2 Fidelity（动作保真性）

指 Reason → Action → Control 编解码过程中信息尽量不丢失
确保高层决策意图能真实反映到低层控制

5.3 Expert Decoder（大小脑结构）

VLA（大脑）：
- 感知、Reason、Meta action
- 输出 KV 表示
Action Expert（小脑）：
- 接收 KV
- 通过 Flow Matching
- 解码为高精度、平滑的连续控制指令

6. Action 模态与训练策略

6.1 离散 Action Token 的作用

RL 友好
- 可直接使用 Policy Gradient 方法
- 优化 reasoning 质量与一致性
与 Reason 共享 token space
- 为 Reason–Action 对齐提供基础
强监督 + 高效推理
- 离散表示保证训练稳定
- Flow Matching 解决推理阶段精度与多模问题

6.2 知识隔离（Training Decoupling）

先训练 VLA（感知 + 推理）
冻结后导出
再训练 Action Expert
防止低层控制噪声污染高层 Reasoning

7. COC Dataset 的作用

COC ≠ 生成更长的 Reason
COC = 强制显式因果结构

目标：

明确：
- 是哪个环境变化
- 哪个关键对象
- 导致当前决策与动作

8. Ego Shortcut 问题与解决方式

8.1 Ego Shortcut 表现

速度 = 0 → 推断为红灯
减速 → 推断前方有车
平稳轨迹 → keep lane

本质：

使用 ego 状态替代环境理解的伪因果。

8.2 结构层面

Reason 主要通过 Vision token + learnable query 生成
Ego 信息不作为 Reason 的主路径

8.3 数据层面

在相同 ego 状态下构造不同因果解释
强制模型依赖环境而非 ego

8.4 训练层面

Reason token 在序列中更靠前
Reason loss 权重更高
先弱化 / 移除 ego 信息训练，再逐步引入

9. RL 阶段（GRPO）

9.1 目标

提供 explicit inference feedback
基于模型自身 rollout 对齐优化目标

9.2 Reward 设计（三部分）

Reasoning Quality
- Expert LLM 作为 judge
- 重点惩罚 hallucination 与无因果解释
Reason–Action Consistency
- 将生成轨迹反解为 meta action
- 与 Reason 中的 meta action 对齐校验
Trajectory Quality（Rule-based）
- 碰撞、越界、舒适性、效率等规则

9.3 Cost-effective RL

On-policy sampling 成本高
构建专用 post-train dataset
使用：
- 模型 logits
- Reward 信号
通过 KL divergence 衡量分歧
分歧越大，样本价值越高

10. 总结

Alpamayo 的核心贡献不在于单一模块，而在于：

结构、数据、训练、RL 四层协同
系统性避免 ego shortcut
强制 Reason–Action 因果对齐
在保证实时性的前提下实现可解释、多模、可执行的自动驾驶规划

Alpamayo / Cosmos-Reason 学习笔记#

1. 论文关注的核心问题（VLA 视角）#

2. 系统输入 / 输出设计#

2.1 输入（Inputs）#

2.2 输出（Outputs）#

3. Backbone：Cosmos-Reason#

3.1 预训练目标#

3.2 SFT 阶段与数据构建#

行为–理由配对的重要性#

手工标注数据（高质量）#

自动标注数据（Teacher–Student）#

4. Vision Encoder 设计#

4.1 设计目标#

4.2 环视相机：Tri-plane 表征#

4.3 时序压缩（Temporal Compression）#

4.4 Learnable Query#

4.5 推理阶段压缩#

5. Trajectory Decoder 设计#

5.1 Action 表征选择#

5.2 Fidelity（动作保真性）#

5.3 Expert Decoder（大小脑结构）#

6. Action 模态与训练策略#

6.1 离散 Action Token 的作用#

6.2 知识隔离（Training Decoupling）#

7. COC Dataset 的作用#

8. Ego Shortcut 问题与解决方式#

8.1 Ego Shortcut 表现#

8.2 结构层面#

8.3 数据层面#

8.4 训练层面#

9. RL 阶段（GRPO）#

9.1 目标#

9.2 Reward 设计（三部分）#

9.3 Cost-effective RL#

10. 总结#

Alpamayo / Cosmos-Reason 学习笔记

1. 论文关注的核心问题（VLA 视角）

2. 系统输入 / 输出设计

2.1 输入（Inputs）

2.2 输出（Outputs）

3. Backbone：Cosmos-Reason

3.1 预训练目标

3.2 SFT 阶段与数据构建

行为–理由配对的重要性

手工标注数据（高质量）

自动标注数据（Teacher–Student）

4. Vision Encoder 设计

4.1 设计目标

4.2 环视相机：Tri-plane 表征

4.3 时序压缩（Temporal Compression）

4.4 Learnable Query

4.5 推理阶段压缩

5. Trajectory Decoder 设计

5.1 Action 表征选择

5.2 Fidelity（动作保真性）

5.3 Expert Decoder（大小脑结构）

6. Action 模态与训练策略

6.1 离散 Action Token 的作用

6.2 知识隔离（Training Decoupling）

7. COC Dataset 的作用

8. Ego Shortcut 问题与解决方式

8.1 Ego Shortcut 表现

8.2 结构层面

8.3 数据层面

8.4 训练层面

9. RL 阶段（GRPO）

9.1 目标

9.2 Reward 设计（三部分）

9.3 Cost-effective RL

10. 总结