Welcome to Xu’Blog

Hello, I’m LexHsu. Pain is inevitable, but suffering is optional. I’ll be documenting my learning journey on this blog with immense patience, starting in 2025.

Flow Matching 训练的广度、深度与物理 horizon：cone 几何下的三轴分解

navi VLA 训练在多个 checkpoint 上都观察到一个稳定的现象：trajectory 末端在拐弯场景里弯折——本该平直伸到 30m 外的几个 waypoint，最后两三个点会往内或往外偏一个肉眼可见的角度，定量上 endBend 角度比早段 waypoint 高一个数量级。第一反应是去查时间步采样 schedule：Flow Matching 训练用的 Beta 分布把密度压到 τ≈0\tau \approx 0，inference 时 τ=1→0.9\tau = 1 \to 0.9 这一段处于训练分布的尾端，第一个 Euler 步因此在欠训区间上做了一次大跳，误差被后续步序放大。这个自洽，但只是表象。 ...

MiniT2I：把文生图拉回 ImageNet 实验台

一、一个被默认接受的复杂性文生图（Text-to-Image，T2I）在过去三年里逐渐变成一个让人觉得"高不可攀"的研究方向。SD3、FLUX.1-dev、DALL·E 3、Show-o2、BAGEL、Tuna-2 这些工作做得漂亮，但门槛也写得很清楚——多十亿参数的模型、十亿级图文对、上千卡的训练预算、VAE + DiT + RL + cascade 的工程流水线。学术组想做一篇 T2I 论文，第一反应是：先攒卡。 ...

从 million 到 billion：VLA 训练 recipe 在量级跃迁上的工程层重构

VLA（vision-language-action）训练这一两年走到一个尴尬阶段：架构基本收敛——pretrained VLM backbone + flow-matching action head 已成为 Physical Intelligence π 系谱、Qwen-VLA、GR00T 等一众工作的事实标准——但 recipe 还没收敛。数据 scaling 从 million 推到 billion sample 这一档跃迁里，data 怎么配、phase 怎么拆、loss 怎么权、compute 怎么省，业界各家给出的答案差异显著，且大多是后置工程经验，缺少同条件下的横向 ablation。 ...

X-Foresight：长时 chunk-wise AR 把世界模型嵌进 VLA 主干

X-Foresight（PWM Team, XPeng Inc., arXiv:2605.24892, v3 2026-06-08）是小鹏 GWM (Generative World Models) 谱系的第三块拼图。前两块——X-World 把 production-grade 多相机驾驶世界模型从话题做成了可对照的工程对象，X-Cache 把它的推理 wall-clock 压到闭环可承受。X-Foresight 解决的是怎么把这套世界模型真正接进 VLA 策略训练循环里——它的命题是把 world model 直接嵌进 VLA 主干联合训练，让同一张网络同时输出 chunk-wise 未来视频和 ego action，跟之前"世界模型当外部数据生成器"的解耦范式分道扬镳。 ...

训练大模型的 Scaling Law：科学、工程与边界

2026-06-25 更新：本文从原"训练大模型的工程学：从 Chinchilla 到 2026"全面升级——前半段（§1-§4）补齐 Lilian Weng 在 Scaling Laws, Carefully 中梳理的 scaling law 完整科学叙述（前史、Why power law、数据约束、拟合脆弱性），并增加一个交互式 D3 拟合 playground；后半段（§5-§10）保留原文的越界训练、训练基建、Post-training、VLA 工程清单，但每节都加上前半段科学结论在 VLA 场景的具体投影。Lilian 原文是这次升级的主要参考来源——我做的是把她的科学叙述与本博客原有的工程落地视角融合。 ...

Qwen-VLA 解读：T2A 解压先验、流匹配 PPO、跨形态零样本

Qwen-VLA（Qwen Team，arXiv:2605.30280，2026-05-28 v1）把 Qwen3.5-4B 的多模态骨干扩展到机器人操作 + 视觉语言导航 + 自我中心人类轨迹三类任务。架构上是 Physical Intelligence π₀ 系谱的 VLM + DiT 流匹配动作专家组合；真正想清楚的设计在训练侧：四阶段 recipe 把"语言→动作先验"从"视觉→动作接地"中分离出来，T2A 阶段冻住 VLM、屏蔽全部图像、只用文本和 embodiment prompt 训练 DiT，让动作分布的语言索引在视觉介入之前就学完。 ...

VLA 加几何 backbone 的负结果：GR00T × VGGT 三架构对照

NVIDIA + MIT + UT Austin 团队（Yang et al., arXiv:2605.24642）把 GR00T-N1.5（manipulation VLA）跟 VGGT（geometric foundation model）拼起来，做了 Early Fusion / Late Fusion / Spatial Forcing 三种几何注入架构的 controlled 对照实验。主结果是一个负结果：standard finetune 下没有一种几何 VLA 在 RoboCasa average 上显著（p < 0.05）超过 GR00T baseline。 ...

深入理解 KL 散度：四个视角

熵与信息论 §4 给了 KL 散度的定义跟几条性质，但容易在 ∑plog⁡(p/q)\sum p \log(p/q) 这一坨形式上卡住——为什么这个量自然出现、为什么不对称、为什么 ML 里到处用到它。本文从四个互补视角拆 KL，每个视角解释它的一个性质。看完之后再回去看 entropy post §7 的几个应用，每一个都能直接挂到其中一个视角的语言下。 ...

HiF-VLA：把 codec 副产品当成 VLA 的时间记忆

CVPR 2026 的 HiF-VLA（项目页 / 代码），西湖 + 浙大 + 港科广 + 南大那拨人做的。架构上是 OpenVLA 之上挂两件事：往前用 VLM 直接预测未来 motion vectors，往后用一组历史 motion vectors 经 AdaLN 调制动作流。LIBERO-Long multi-view 刷到 96.4%，比堆 4 帧历史的方案显存少 1/2、延迟少 2/3。 ...

量产 VLA 的 8 个工程判断 + 4 个反例

量产 VLA 做工程选择时大量依据是"试过其他做法、最后没选"——某个 loss 试过被换掉、某个精巧设计验证没收益、某条蒸馏路径走不通。这些经验在论文和发布会里都很少展开。 ...