VLA | Xu'Log

Alpamayo / Cosmos-Reason 学习笔记主题：Vision-Language-Action（VLA）规划、Reason–Action 对齐、Anti Ego-Shortcut、COC Dataset、RL（GRPO） 1. 论文关注的核心问题（VLA 视角）论文围绕 VLA 在自动驾驶中的落地问题，明确指出现有方法的痛点：多帧时序理解连续多帧中信息高度冗余，但决策依赖变化而非静态状态决策必须具备因果性不能只学到“结果—动作”的统计共现需要显式建模为什么采取某个动作实时、多模态、符合动力学 / 运动学约束多模轨迹必须可执行、可快速解码不能牺牲实时性 Reason 与 Action 强对齐 Reason 不是事后解释必须能被 Action 验证与约束 2. 系统输入 / 输出设计 2.1 输入（Inputs） Multi-camera、多时间戳视觉观测 User command + Navigation instructions Historical ego motion（速度、轨迹历史等）设计原则： Ego 信息作为 conditioning，而非决策的主要因果来源，避免 ego shortcut。 2.2 输出（Outputs） Reason Trace 对关键对象、因果关系、环境变化的解释 Meta Action 高层语义动作（stop / yield / follow / lane change 等） Future Trajectories（多模） ...