Flow Matching 训练的广度、深度与物理 horizon:cone 几何下的三轴分解
navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象:trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint,最后两三个点会往内或往外偏一个肉眼可见的角度,定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule:Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0,inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端,第一个 Euler 步因此在欠训区间上做了一次大跳,误差被后续步序放大。这个自洽,但只是表象。 ...
MiniT2I:把文生图拉回 ImageNet 实验台
一、一个被默认接受的复杂性 文生图(Text-to-Image,T2I)在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮,但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文,第一反应是:先攒卡。 ...
从 million 到 billion:VLA 训练 recipe 在量级跃迁上的工程层重构
VLA(vision-language-action)训练这一两年走到一个尴尬阶段:架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里,data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省,业界各家给出的答案差异显著,且大多是后置工程经验,缺少同条件下的横向 ablation。 ...
X-Foresight:长时 chunk-wise AR 把世界模型嵌进 VLA 主干
X-Foresight(PWM Team, XPeng Inc., arXiv:2605.24892, v3 2026-06-08)是小鹏 GWM (Generative World Models) 谱系的第三块拼图。前两块——X-World 把 production-grade 多相机驾驶世界模型从话题做成了可对照的工程对象,X-Cache 把它的推理 wall-clock 压到闭环可承受。X-Foresight 解决的是怎么把这套世界模型真正接进 VLA 策略训练循环里——它的命题是把 world model 直接嵌进 VLA 主干联合训练,让同一张网络同时输出 chunk-wise 未来视频和 ego action,跟之前"世界模型当外部数据生成器"的解耦范式分道扬镳。 ...
训练大模型的 Scaling Law:科学、工程与边界
2026-06-25 更新:本文从原"训练大模型的工程学:从 Chinchilla 到 2026"全面升级——前半段(§1-§4)补齐 Lilian Weng 在 Scaling Laws, Carefully 中梳理的 scaling law 完整科学叙述(前史、Why power law、数据约束、拟合脆弱性),并增加一个交互式 D3 拟合 playground;后半段(§5-§10)保留原文的越界训练、训练基建、Post-training、VLA 工程清单,但每节都加上前半段科学结论在 VLA 场景的具体投影。Lilian 原文是这次升级的主要参考来源——我做的是把她的科学叙述与本博客原有的工程落地视角融合。 ...
Qwen-VLA 解读:T2A 解压先验、流匹配 PPO、跨形态零样本
Qwen-VLA(Qwen Team,arXiv:2605.30280,2026-05-28 v1)把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合;真正想清楚的设计在训练侧:四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来,T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT,让动作分布的语言索引在视觉介入之前就学完。 ...
VLA 加几何 backbone 的负结果:GR00T × VGGT 三架构对照
NVIDIA + MIT + UT Austin 团队(Yang et al., arXiv:2605.24642)把 GR00T-N1.5(manipulation VLA)跟 VGGT(geometric foundation model)拼起来,做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果:standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著(p < 0.05)超过 GR00T baseline。 ...
深入理解 KL 散度:四个视角
熵与信息论 §4 给了 KL 散度的定义跟几条性质,但容易在 ∑plog(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL,每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用,每一个都能直接挂到其中一个视角的语言下。 ...
HiF-VLA:把 codec 副产品当成 VLA 的时间记忆
CVPR 2026 的 HiF-VLA(项目页 / 代码),西湖 + 浙大 + 港科广 + 南大那拨人做的。架构上是 OpenVLA 之上挂两件事:往前用 VLM 直接预测未来 motion vectors,往后用一组历史 motion vectors 经 AdaLN 调制动作流。LIBERO-Long multi-view 刷到 96.4%,比堆 4 帧历史的方案显存少 1/2、延迟少 2/3。 ...
量产 VLA 的 8 个工程判断 + 4 个反例
量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...