<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Openvla on 范彼得</title>
    <link>/tags/openvla/</link>
    <description>Recent content in Openvla on 范彼得</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Tue, 07 Apr 2026 14:00:00 +0800</lastBuildDate>
    <atom:link href="/tags/openvla/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>5-vla基础学习</title>
      <link>/posts/5-vla%E5%9F%BA%E7%A1%80%E7%90%86%E8%AE%BA%E5%AD%A6%E4%B9%A0/</link>
      <pubDate>Tue, 07 Apr 2026 14:00:00 +0800</pubDate>
      <guid>/posts/5-vla%E5%9F%BA%E7%A1%80%E7%90%86%E8%AE%BA%E5%AD%A6%E4%B9%A0/</guid>
      <description>&lt;h1 id=&#34;欢迎来到我的博客&#34;&gt;&#xA;  欢迎来到我的博客&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e6%ac%a2%e8%bf%8e%e6%9d%a5%e5%88%b0%e6%88%91%e7%9a%84%e5%8d%9a%e5%ae%a2&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h1&gt;&#xA;&lt;p&gt;此次记录主要有关飞特舵机以及claudecode指令&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;开始写博客&#34;&gt;&#xA;  开始写博客&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e5%bc%80%e5%a7%8b%e5%86%99%e5%8d%9a%e5%ae%a2&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h2&gt;&#xA;&lt;p&gt;传统控制实习实在是很难投，大部分公司要么根本没有这个实习岗位，要么就是招超人，感觉死磕下去不一定有什么好的收获，并且目前组里还是比较缺少硬件和实际工程经验的，我目前属于一个人走一条路，感觉未来前景并不是很光明，之前了解过 vla 这个概念，但是当时还是相对胆小，感觉这东西太高级了，我完全驾驭不了。但是到现在我发现，vla 这个东西可能也没有特别的难，毕竟传统控制改算法然后进行稳定性证明这一套真的很难做了，已经属于是超级数学理论推导计算了。&lt;/p&gt;&#xA;&lt;h3 id=&#34;一首先先看了一个访谈类的讲座有关基础vla的概念&#34;&gt;&#xA;  一、首先先看了一个访谈类的讲座，有关基础vla的概念&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e4%b8%80%e9%a6%96%e5%85%88%e5%85%88%e7%9c%8b%e4%ba%86%e4%b8%80%e4%b8%aa%e8%ae%bf%e8%b0%88%e7%b1%bb%e7%9a%84%e8%ae%b2%e5%ba%a7%e6%9c%89%e5%85%b3%e5%9f%ba%e7%a1%80vla%e7%9a%84%e6%a6%82%e5%bf%b5&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h3&gt;&#xA;&lt;p&gt;AI for Roboticis 是近十年才开始出现的新兴概念 ，早期是&lt;strong&gt;深度学习&lt;/strong&gt;的影响力较大，主要也是体现在CV，代表作就是 YOLO，作为机器人的感知出现在机器人的视野里面。&lt;/p&gt;&#xA;&lt;p&gt;接下来深度强化学习，强化学习本质上是一种较为古老的算法，但是之前几乎仅仅停留在简单的小游戏。目前代表作就是 Alpha go ，深度的神经网络和强化学习相结合，实现了一些解决连续空间问题，机器人的&lt;strong&gt;行为决策和控制&lt;/strong&gt;，就是连续空间问题。但目前，依旧有个问题就是不太通用。&lt;/p&gt;&#xA;&lt;p&gt;接下来 chatgpt 的出现，解决了一种通用性的问题，这个模型代表了一种通用性。早期的openai发布过与音乐相关的实验性模型，但这与chatgpt1并不算是同一条技术路线。chatgpt1是一种LLM（大语言模型），几乎LLM都算是基于NLP的深度学习模型。再到后来的 vlm 再到现在的 vla。vla的出现，展现出了一种通用性，通用能力，泛化能力。通用的可能性，通用的技术和更简易的实现。&lt;strong&gt;目前技术还在收敛的过程中，技术收敛期结束后，才会到场景和商业应用的收敛。&lt;/strong&gt; 理论上可以用端到端的，大的能够去scale和泛化的模型，同时能够处理 v 、 l 、a 这三种模态。未来可以更多模态，比如加入力，温度等等。目前的 vla 也不一定是未来的真正技术路线。&lt;/p&gt;&#xA;&lt;p&gt;目前核心的问题：&lt;strong&gt;找到一个能够去scale的模型的架构&lt;/strong&gt;。目前来说很大程度上算是一种科学上的问题。&lt;/p&gt;&#xA;&lt;p&gt;补充两个概念：&lt;/p&gt;&#xA;&lt;p&gt;1  &lt;strong&gt;Robot Foundation Model（机器人基础模型，简称 RFM）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;2  &lt;strong&gt;Scaling Laws&lt;/strong&gt;：只要持续、按比例地增加模型参数量（N）、训练数据量（D）和计算资源（C），模型性能（通常以损失函数 Loss 衡量）就会以可预测的幂律关系持续提升，且在相当大的范围内不存在突然的性能饱和点。这一信仰被视为大模型时代最底层的技术信念，也是 OpenAI、Google、Meta 等科技巨头敢于投入数百亿美元训练超大模型的 &amp;ldquo;信仰之源&amp;rdquo;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;二传统机器人到具身智能机器人&#34;&gt;&#xA;  二、传统机器人到具身智能机器人&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e4%ba%8c%e4%bc%a0%e7%bb%9f%e6%9c%ba%e5%99%a8%e4%ba%ba%e5%88%b0%e5%85%b7%e8%ba%ab%e6%99%ba%e8%83%bd%e6%9c%ba%e5%99%a8%e4%ba%ba&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h3&gt;&#xA;&lt;p&gt;传统机器的控制逻辑为三个核心框架：感知、规划、执行。&lt;/p&gt;&#xA;&lt;p&gt;在发展过程中，首先是&lt;strong&gt;规划&lt;/strong&gt;部分，使用了LLM代替掉了规划模块，比如 SayCan。论文链接如下: &lt;a href=&#34;https://say-can.github.io/assets/palm_saycan.pdf&#34;  class=&#34;external-link&#34; target=&#34;_blank&#34; rel=&#34;noopener&#34;&gt;https://say-can.github.io/assets/palm_saycan.pdf&lt;/a&gt; 是一种逻辑上应该做什么和现实中能做什么的一种匹配。&lt;/p&gt;&#xA;&lt;p&gt;其次是对&lt;strong&gt;感知&lt;/strong&gt;部分做了处理，传统的分割识别，到当前就直接使用 vlm 模型进行了代替，可以实现更加通用的一种感知识别。代表成果为：Inner Monologue。&lt;a href=&#34;https://arxiv.org/abs/2207.05608&#34;  class=&#34;external-link&#34; target=&#34;_blank&#34; rel=&#34;noopener&#34;&gt;[2207.05608] Inner Monologue: Embodied Reasoning through Planning with Language Models&lt;/a&gt; 十分有意思的标题，内心独白。&lt;/p&gt;</description>
    </item>
    <item>
      <title>服务器复现openvla</title>
      <link>/posts/3-openvla%E6%9C%8D%E5%8A%A1%E5%99%A8%E5%A4%8D%E7%8E%B0/</link>
      <pubDate>Mon, 06 Apr 2026 14:00:00 +0800</pubDate>
      <guid>/posts/3-openvla%E6%9C%8D%E5%8A%A1%E5%99%A8%E5%A4%8D%E7%8E%B0/</guid>
      <description>&lt;h1 id=&#34;欢迎来到我的博客&#34;&gt;&#xA;  欢迎来到我的博客&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e6%ac%a2%e8%bf%8e%e6%9d%a5%e5%88%b0%e6%88%91%e7%9a%84%e5%8d%9a%e5%ae%a2&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h1&gt;&#xA;&lt;p&gt;此次记录主要是为了有关远程链接服务器，和openvla远程复现，包括一些小细节和小技巧&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;开始写博客&#34;&gt;&#xA;  开始写博客&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e5%bc%80%e5%a7%8b%e5%86%99%e5%8d%9a%e5%ae%a2&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h2&gt;&#xA;&lt;p&gt;之前使用的恒源云在开机后，莫名其妙提示远程服务器网络错误不能使用，所以换了另一个便宜点的 彗星云：portal.huixingyun.com&lt;/p&gt;&#xA;&lt;h3 id=&#34;一前言&#34;&gt;&#xA;  一、前言&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e4%b8%80%e5%89%8d%e8%a8%80&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h3&gt;&#xA;&lt;p&gt;之前我是成功部署过openvla的，在 5060ti 16g 显存的基础上，勉强可以跑通，因为无法使用 bitsandbytes，所以几乎占满了显存，又因为使用的是带图形界面的ubuntu，所以几乎要关掉所有东西，才能勉强运行推理。&lt;/p&gt;&#xA;&lt;p&gt;但可恶的是，这一代显卡的驱动和 ubuntu22 有冲突，网上好多人都有，我在一次关机之后莫名其妙掉了网络驱动，怎么样都恢复不了，按照网络的方法怎么都解决不了，所以才决定使用服务器。顺带一提，我在一怒之下重装了 ubuntu 但是出现了 grub 错误，分析了一下原因，应该是我直接在硬盘上抹掉了 ubuntu 所在的区域，但是没有在启动项里删除ubuntu的选项，所以重装上之后有冲突，出现了 grub 错误。目前已经完全删除 ubuntu存在的痕迹，但还没有重新安装，如果安装后没有grub错误，可以任务是这个原因。&lt;/p&gt;&#xA;&lt;p&gt;#但目前我的远程连接还有点问题，应该有很多可以优化的地方。#&lt;/p&gt;&#xA;&lt;h3 id=&#34;二具体复现过程&#34;&gt;&#xA;  二、具体复现过程&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e4%ba%8c%e5%85%b7%e4%bd%93%e5%a4%8d%e7%8e%b0%e8%bf%87%e7%a8%8b&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h3&gt;&#xA;&lt;p&gt;使用服务器确实不太擅长，对于如何在本地调程序然后push到服务器我更是不太熟练，为了快速复现，我跟随了一个帖子，链接如下：&lt;a href=&#34;https://photin1a.github.io/posts/20af9ceb.html&#34;  class=&#34;external-link&#34; target=&#34;_blank&#34; rel=&#34;noopener&#34;&gt;openvla复现记录-环境配置 | Photinia&lt;/a&gt;。这个帖子很干，如果之前没有了解过确实不容易看懂操作，并且我在复现的时候出现了很多小bug，都不致命但是很烦人。我没有完全按照他的教程进行，我认为这不是我出现bug的原因，我的 bug 几乎都与路径有关，就算我的各个驱动与他版本完全一致，我认为我还是会出现这些bug。&lt;/p&gt;&#xA;&lt;h3 id=&#34;三个人bug&#34;&gt;&#xA;  三、个人bug&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e4%b8%89%e4%b8%aa%e4%ba%babug&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h3&gt;&#xA;&lt;p&gt;首先不提及一些各种底层冲突导致要重新安装的 bug ，这些都很简单，ai 一下就可以解决。&lt;/p&gt;&#xA;&lt;p&gt;目前主要有两个特殊的 bug ，这两个bug大概与我租用的服务器有关。&lt;/p&gt;&#xA;&lt;p&gt;第一个是找不到 libero 这个库 ，需要手动在终端中 source 进去，按理说在conda环境下，已经安装了，激活是可以直接找到的，但我目前不行。&lt;/p&gt;&#xA;&lt;p&gt;第二个也是一个找不到的问题 ，好像是 nvidia 的某一个工具，找不到位置，也是需要手动source 进去&lt;/p&gt;&#xA;&lt;p&gt;严格来说还有第三个问题，这个问题是我用本地 5060ti 推理的时候碰到的，就是下错了模型，官方的库中有这七个模型，使用libero跑仿真推理，需要下载那个libero-spatial模型，我在本地下载的时候，下载了openvla-7b，这个应该是实物推理的模型。这导致我在本地推理的时候，成功率都是0 还找不到问题所在。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
