StarVLA 这段时间以来 • Axi's Blog

前言#

虽然在很长一段时间之内，笔者一直从事着仿真相关的工作，但是实际上对于模型相关的探索也从来没有停止过，不仅限于对于论文的阅读，也包括在各个项目中的迭代。读者不难从往期的博客中看到很多关于笔者对于 VLA 论文的相关分析以及解读，不过要是说其中什么是最重要的，大概还是作为 StarVLA 的贡献者之一，参与到这个项目的迭代中。

了解笔者的读者应该知道，笔者很长一段时间一直在上海人工智能实验室进行一些科研的探索，从去年（甚至说前年）开始，伦哥一直带领大家做 InternVLA-M1，主要的 coder 主力是 jinhui 以及 fangjing，而我在为 InternVLA-M1 搭建配套的 Simulation Infra，后续包括 junqiu, bolun 以及 yangkun 都算是参与到了整体的项目中，而 jinyu 为我提供了很多的支持。

后来在若干的 struggle 之后，InternVLA-M1 得以问世，我们注意到这套本身的 Codebase 在设计之初就已经相当可以复用，并且十分灵活，因此诞生了搭建 starVLA 的想法。

StarVLA 本身抽身于 InternVLA-M1 的 codebase，我们将其中的大多数的 feature 保留，并且进行了完整的重构。

早在搭建 InternVLA-M1 之初，我们就发现单纯使用 VLM，只要整体的 training infra 没有 bugs，并且设计相对合理，只用 Qwen-VL 的 VL 预训练，模型就可以有相当不错的效果。这也就诞生了后续基于 Qwen 的一系列 StarVLA Family，比如说 QwenOFT, QwenPi, QwenGR00t, QwenFast。更进一步地，StarVLA 意图做到好用，对于大多数 Model Architecture 的 Designer，你不需要在意 Trainer, Dataloader 以及 Benchmark，这些东西全部都是准备好的，而你只需要模块化地搭建自己的模型，之后训练以及测试，享受我们的 Infra。

从本质上来说，starVLA并没有在试图提出又一个普通的刷榜的模型，而是尝试去搭建一套整体的 uniform trainer，以及一套训测一体的相关支持。我们认为一个干净的 Codebase 对于迭代来说可能是至关重要的，而从 LLM 以及 VLM 的发展来看，大多数时候对于模型结构的乐高式搭建修改，很难带来本质的提升，而是可能仅作为在整体迭代过程中一个获取 insight 的环节。

StarVLA 的发展#

从 StarVLA 推出开始，我们从来没有主动进行过大规模的宣传，不过还是很高兴看到，在这个浮躁且充斥着各种信息的世界中，依旧存在着酒香不怕巷子深的道理。在社区的大家的口口相传中，StarVLA 拥有了超过 1.5K 的 Star 以及超过 100 的 Fork。我们也很开心地见到很多的大厂, startup 以及实验室正在基于 StarVLA 搭建自己的 VLA Model，虽然有一些似乎没有 acknowledge 我们，但是还是很高兴大家可以一起共建一个更好的 VLA 开源社区。

在大家都在具身 VLA 的浪潮中狂奔的时候，StarVLA 稍微沉淀了一会，我们逐渐适配了市面上绝大多数的 Benchmarks，比如说 Libero, Simpler, Robocasa-GR1, RoboTwin 2.0, Calvin 以及前不久的 BEHAVIOR，同样我们看到很多的地方在使用 StarVLA 进行真机，比如说 RoboChallenge 也有不错的结果，这在一定程度上说明了我们的模型不是只在仿真中才有效的过拟合，而是真的可以部署在真机上面进行流畅的任务执行。

我们欣慰地发现，From Scratch 的 StarVLA Family 可以在任何 Benchmark 以及部署中取得相当亮眼的成绩，这对于绝大多数的实验室或者公司来说都是一个不错的出发点。

同时 StarVLA 也在延续着我们一直以来的更多 Feature。

比如说 Cross-embodiment，我们发现现有的框架其实拥有相当不错的 capacity，在异构机器人多本体多任务的训练中依然可以保持性能，相关的内容我们应该在最近就可以放出，一个可以在更多本体以及更多 Task 上面 Work 的 Policy 还是很有意思的。

比如说 VLM Co-training，这是从 M1 开始的内容，VLM 的知识可以 Benefit VLA，以 Co-training 的方式。（btw How Do VLAs Effectively Inherit from VLMs? 是前段时间一篇非常不错讨论 VLM4VLA 的论文，得到了和我们相似的结论，Co-training 比诸如 KI 以及 LoRA 等方法更加有效）

而最近以来大火的 VA Model（经典的比如 InternVLA-A1, Lingbot-VA 以及 DreamZero）我们也正在支持，事实上排除模型设计上的内容，从 Trainer 角度，VA 以及 VLA 需要的东西并无二致，我们其实已经支持了诸如 Cosmos Policy 的 Model（感谢社区的贡献），也期待后续社区可以带来更多的惊喜。

未来的展望#

站在 2026 年第一季度的当下，一些热点正在过去，而新的热点正在出现，其实还有不少的事情是 starVLA 可以去做的。在此之前，我们已经充分探索了 VLM 和 VLA 相关方法，如何在一个 uniform trainer 里面进行训练。

我们使用非常简洁的结构就为大家搭建了一个很好的 starting point，稳定的性能以及清晰的实现，因此用户在这些内容的基础之上去迭代非常不错的模型。在这方面带来的经验教训可能是，事实上 VLA 的模型训练并没有很多的玄学在其中，不存在玄之又玄的优化策略，不存在百分之百有效的 trick，而更加重要的在于整体 infra 搭建的完备性，并且没有 bug，就可以让你拥有非常不错的效果。

本质上在当下的 VLA 还是处于过拟合以及在拟合中进行插值来达成所谓泛化的能力范围内，而同时模型本身具有相当可观的 capacity，可以让我们一定程度上忽略那些过度设计而来的模型结构，从而聚焦在优化模型的吞吐，以及怎么更好地让模型记住这些数据。

根据目前的领域趋势来看，今年大火的 topic 应该还是那么几个。一方面，World Model 是目前远超 VLM-based 的 VLA 的一种新型范式，现在也有称之为 VA 或者 WAM。而从输入输出的统一性来看，或许更好的名字是WM-VLA。World Model 的好处一方面在于视频预测和 IDM 进行的显式或者隐式解耦，可以使得其更好地利用大量的无标注视频数据，例如人类数据以及常规视频数据，所以说具有更大的 scaling up 潜力。而同时 WM 天然的 KV-Cache 可以让其具备天生的记忆能力，而只需要在此基础之上进行更多的设计，就引来了第二个 topic，也就是 Agent。

纵观整个 AI 领域，Agentic 也毫无疑问是最为正确的方向，使用更加程序设计的思路来搭建体系化框架，从而更好地去 leverage LLM 和 VLM 的能力，并且带来生产力的提升和自动化。对于 VLA 来说，这件事情也同样适用。我们之所以要引入 Agent 系统，就是因为我们如今已经不再指望一个天然的端到端模型可以解决一切问题，无论在文本还是动作。相较于两年前一系列所谓的 modular framework，如今的 Agent 设计显得更加成体系，并且具有更加完备的设计思路。同时 System 1 也显得更加的成熟，可以在一定泛化性的基础上作为一个很好的 skill set 去执行一些特定任务，将来或许 starVLA 会有类似的 scope 去做一些相关的探索。

当然，还有就是最后也是十分长久的方向，也就是 RL。毕竟想让 VLA 模型以及整套系统真正落地，安全性是必不可少的。我们需要具备很高的可执行性，并且达到接近 99%甚至更高的成功率，才可以让 VLA 模型进入可以使用的范畴内，那么在这一过程中，RL 似乎是必不可少的。目前来说 starVLA和 RLinf 进行了联动，从而实现了基础的 RL 支持。当然在后续我们也会依据情况进行调整，来去看是否需要自己实现原生的 RL，来更加定制化以及灵活地配置和应用。

结语#

前段日子听了 WhyNotTV 关于翁家翌的 Podcast，还是深受触动。在这个 Scaling up 的世代，Infra 至关重要，甚至说“模型的性能往往取决于 Infra 的 Bug 的多少”，starVLA 作为一套面向整个社区的 Codebase，我们希望在 VLA 的土壤上建立像是 vLLM, SGLang 或者 veRL 一样的大厦。如果你也认为这些必不可少的基建是一切发展的基石，又或者是希望参与到 VLA 共建的浪潮中，无论是为了发论文、推进企业项目还是兴趣所致，一份付出就会有一份 credit。无论是想要帮忙还是寻求帮助，欢迎联系我们，或者加入我们的社区讨论群。

也希望将来可以做出更出色的内容。