5-vla基础学习

Tue, 07 Apr 2026 14:00:00 +0800

欢迎来到我的博客链接到标题

此次记录主要有关飞特舵机以及claudecode指令

开始写博客链接到标题

传统控制实习实在是很难投，大部分公司要么根本没有这个实习岗位，要么就是招超人，感觉死磕下去不一定有什么好的收获，并且目前组里还是比较缺少硬件和实际工程经验的，我目前属于一个人走一条路，感觉未来前景并不是很光明，之前了解过 vla 这个概念，但是当时还是相对胆小，感觉这东西太高级了，我完全驾驭不了。但是到现在我发现，vla 这个东西可能也没有特别的难，毕竟传统控制改算法然后进行稳定性证明这一套真的很难做了，已经属于是超级数学理论推导计算了。

一、首先先看了一个访谈类的讲座，有关基础vla的概念链接到标题

AI for Roboticis 是近十年才开始出现的新兴概念，早期是深度学习的影响力较大，主要也是体现在CV，代表作就是 YOLO，作为机器人的感知出现在机器人的视野里面。

接下来深度强化学习，强化学习本质上是一种较为古老的算法，但是之前几乎仅仅停留在简单的小游戏。目前代表作就是 Alpha go ，深度的神经网络和强化学习相结合，实现了一些解决连续空间问题，机器人的行为决策和控制，就是连续空间问题。但目前，依旧有个问题就是不太通用。

接下来 chatgpt 的出现，解决了一种通用性的问题，这个模型代表了一种通用性。早期的openai发布过与音乐相关的实验性模型，但这与chatgpt1并不算是同一条技术路线。chatgpt1是一种LLM（大语言模型），几乎LLM都算是基于NLP的深度学习模型。再到后来的 vlm 再到现在的 vla。vla的出现，展现出了一种通用性，通用能力，泛化能力。通用的可能性，通用的技术和更简易的实现。目前技术还在收敛的过程中，技术收敛期结束后，才会到场景和商业应用的收敛。 理论上可以用端到端的，大的能够去scale和泛化的模型，同时能够处理 v 、 l 、a 这三种模态。未来可以更多模态，比如加入力，温度等等。目前的 vla 也不一定是未来的真正技术路线。

目前核心的问题：找到一个能够去scale的模型的架构。目前来说很大程度上算是一种科学上的问题。

补充两个概念：

1 Robot Foundation Model（机器人基础模型，简称 RFM）

2 Scaling Laws：只要持续、按比例地增加模型参数量（N）、训练数据量（D）和计算资源（C），模型性能（通常以损失函数 Loss 衡量）就会以可预测的幂律关系持续提升，且在相当大的范围内不存在突然的性能饱和点。这一信仰被视为大模型时代最底层的技术信念，也是 OpenAI、Google、Meta 等科技巨头敢于投入数百亿美元训练超大模型的 “信仰之源”。

二、传统机器人到具身智能机器人链接到标题

传统机器的控制逻辑为三个核心框架：感知、规划、执行。

在发展过程中，首先是规划部分，使用了LLM代替掉了规划模块，比如 SayCan。论文链接如下: https://say-can.github.io/assets/palm_saycan.pdf 是一种逻辑上应该做什么和现实中能做什么的一种匹配。

其次是对感知部分做了处理，传统的分割识别，到当前就直接使用 vlm 模型进行了代替，可以实现更加通用的一种感知识别。代表成果为：Inner Monologue。[2207.05608] Inner Monologue: Embodied Reasoning through Planning with Language Models 十分有意思的标题，内心独白。

服务器复现openvla

Mon, 06 Apr 2026 14:00:00 +0800

欢迎来到我的博客链接到标题

此次记录主要是为了有关远程链接服务器，和openvla远程复现，包括一些小细节和小技巧

开始写博客链接到标题

之前使用的恒源云在开机后，莫名其妙提示远程服务器网络错误不能使用，所以换了另一个便宜点的彗星云：portal.huixingyun.com

一、前言链接到标题

之前我是成功部署过openvla的，在 5060ti 16g 显存的基础上，勉强可以跑通，因为无法使用 bitsandbytes，所以几乎占满了显存，又因为使用的是带图形界面的ubuntu，所以几乎要关掉所有东西，才能勉强运行推理。

但可恶的是，这一代显卡的驱动和 ubuntu22 有冲突，网上好多人都有，我在一次关机之后莫名其妙掉了网络驱动，怎么样都恢复不了，按照网络的方法怎么都解决不了，所以才决定使用服务器。顺带一提，我在一怒之下重装了 ubuntu 但是出现了 grub 错误，分析了一下原因，应该是我直接在硬盘上抹掉了 ubuntu 所在的区域，但是没有在启动项里删除ubuntu的选项，所以重装上之后有冲突，出现了 grub 错误。目前已经完全删除 ubuntu存在的痕迹，但还没有重新安装，如果安装后没有grub错误，可以任务是这个原因。

#但目前我的远程连接还有点问题，应该有很多可以优化的地方。#

二、具体复现过程链接到标题

使用服务器确实不太擅长，对于如何在本地调程序然后push到服务器我更是不太熟练，为了快速复现，我跟随了一个帖子，链接如下：openvla复现记录-环境配置 | Photinia。这个帖子很干，如果之前没有了解过确实不容易看懂操作，并且我在复现的时候出现了很多小bug，都不致命但是很烦人。我没有完全按照他的教程进行，我认为这不是我出现bug的原因，我的 bug 几乎都与路径有关，就算我的各个驱动与他版本完全一致，我认为我还是会出现这些bug。

三、个人bug 链接到标题

首先不提及一些各种底层冲突导致要重新安装的 bug ，这些都很简单，ai 一下就可以解决。

目前主要有两个特殊的 bug ，这两个bug大概与我租用的服务器有关。

第一个是找不到 libero 这个库，需要手动在终端中 source 进去，按理说在conda环境下，已经安装了，激活是可以直接找到的，但我目前不行。

第二个也是一个找不到的问题，好像是 nvidia 的某一个工具，找不到位置，也是需要手动source 进去

严格来说还有第三个问题，这个问题是我用本地 5060ti 推理的时候碰到的，就是下错了模型，官方的库中有这七个模型，使用libero跑仿真推理，需要下载那个libero-spatial模型，我在本地下载的时候，下载了openvla-7b，这个应该是实物推理的模型。这导致我在本地推理的时候，成功率都是0 还找不到问题所在。

Openvla on 范彼得

5-vla基础学习

欢迎来到我的博客 链接到标题

开始写博客 链接到标题

一、首先先看了一个访谈类的讲座，有关基础vla的概念 链接到标题

二、传统机器人到具身智能机器人 链接到标题

服务器复现openvla

欢迎来到我的博客 链接到标题

开始写博客 链接到标题

一、前言 链接到标题

二、具体复现过程 链接到标题

三、个人bug 链接到标题

欢迎来到我的博客链接到标题

开始写博客链接到标题

一、首先先看了一个访谈类的讲座，有关基础vla的概念链接到标题

二、传统机器人到具身智能机器人链接到标题

欢迎来到我的博客链接到标题

开始写博客链接到标题

一、前言链接到标题

二、具体复现过程链接到标题