5-vla基础学习

Tue, 07 Apr 2026 14:00:00 +0800

欢迎来到我的博客链接到标题

此次记录主要有关飞特舵机以及claudecode指令

开始写博客链接到标题

传统控制实习实在是很难投，大部分公司要么根本没有这个实习岗位，要么就是招超人，感觉死磕下去不一定有什么好的收获，并且目前组里还是比较缺少硬件和实际工程经验的，我目前属于一个人走一条路，感觉未来前景并不是很光明，之前了解过 vla 这个概念，但是当时还是相对胆小，感觉这东西太高级了，我完全驾驭不了。但是到现在我发现，vla 这个东西可能也没有特别的难，毕竟传统控制改算法然后进行稳定性证明这一套真的很难做了，已经属于是超级数学理论推导计算了。

一、首先先看了一个访谈类的讲座，有关基础vla的概念链接到标题

AI for Roboticis 是近十年才开始出现的新兴概念，早期是深度学习的影响力较大，主要也是体现在CV，代表作就是 YOLO，作为机器人的感知出现在机器人的视野里面。

接下来深度强化学习，强化学习本质上是一种较为古老的算法，但是之前几乎仅仅停留在简单的小游戏。目前代表作就是 Alpha go ，深度的神经网络和强化学习相结合，实现了一些解决连续空间问题，机器人的行为决策和控制，就是连续空间问题。但目前，依旧有个问题就是不太通用。

接下来 chatgpt 的出现，解决了一种通用性的问题，这个模型代表了一种通用性。早期的openai发布过与音乐相关的实验性模型，但这与chatgpt1并不算是同一条技术路线。chatgpt1是一种LLM（大语言模型），几乎LLM都算是基于NLP的深度学习模型。再到后来的 vlm 再到现在的 vla。vla的出现，展现出了一种通用性，通用能力，泛化能力。通用的可能性，通用的技术和更简易的实现。目前技术还在收敛的过程中，技术收敛期结束后，才会到场景和商业应用的收敛。 理论上可以用端到端的，大的能够去scale和泛化的模型，同时能够处理 v 、 l 、a 这三种模态。未来可以更多模态，比如加入力，温度等等。目前的 vla 也不一定是未来的真正技术路线。

目前核心的问题：找到一个能够去scale的模型的架构。目前来说很大程度上算是一种科学上的问题。

补充两个概念：

1 Robot Foundation Model（机器人基础模型，简称 RFM）

2 Scaling Laws：只要持续、按比例地增加模型参数量（N）、训练数据量（D）和计算资源（C），模型性能（通常以损失函数 Loss 衡量）就会以可预测的幂律关系持续提升，且在相当大的范围内不存在突然的性能饱和点。这一信仰被视为大模型时代最底层的技术信念，也是 OpenAI、Google、Meta 等科技巨头敢于投入数百亿美元训练超大模型的 “信仰之源”。

二、传统机器人到具身智能机器人链接到标题

传统机器的控制逻辑为三个核心框架：感知、规划、执行。

在发展过程中，首先是规划部分，使用了LLM代替掉了规划模块，比如 SayCan。论文链接如下: https://say-can.github.io/assets/palm_saycan.pdf 是一种逻辑上应该做什么和现实中能做什么的一种匹配。

其次是对感知部分做了处理，传统的分割识别，到当前就直接使用 vlm 模型进行了代替，可以实现更加通用的一种感知识别。代表成果为：Inner Monologue。[2207.05608] Inner Monologue: Embodied Reasoning through Planning with Language Models 十分有意思的标题，内心独白。

Vla on 范彼得

5-vla基础学习

欢迎来到我的博客 链接到标题

开始写博客 链接到标题

一、首先先看了一个访谈类的讲座，有关基础vla的概念 链接到标题

二、传统机器人到具身智能机器人 链接到标题

欢迎来到我的博客链接到标题

开始写博客链接到标题

一、首先先看了一个访谈类的讲座，有关基础vla的概念链接到标题

二、传统机器人到具身智能机器人链接到标题