<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Vla on 范彼得</title>
    <link>/tags/vla/</link>
    <description>Recent content in Vla on 范彼得</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Tue, 07 Apr 2026 14:00:00 +0800</lastBuildDate>
    <atom:link href="/tags/vla/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>5-vla基础学习</title>
      <link>/posts/5-vla%E5%9F%BA%E7%A1%80%E7%90%86%E8%AE%BA%E5%AD%A6%E4%B9%A0/</link>
      <pubDate>Tue, 07 Apr 2026 14:00:00 +0800</pubDate>
      <guid>/posts/5-vla%E5%9F%BA%E7%A1%80%E7%90%86%E8%AE%BA%E5%AD%A6%E4%B9%A0/</guid>
      <description>&lt;h1 id=&#34;欢迎来到我的博客&#34;&gt;&#xA;  欢迎来到我的博客&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e6%ac%a2%e8%bf%8e%e6%9d%a5%e5%88%b0%e6%88%91%e7%9a%84%e5%8d%9a%e5%ae%a2&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h1&gt;&#xA;&lt;p&gt;此次记录主要有关飞特舵机以及claudecode指令&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;开始写博客&#34;&gt;&#xA;  开始写博客&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e5%bc%80%e5%a7%8b%e5%86%99%e5%8d%9a%e5%ae%a2&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h2&gt;&#xA;&lt;p&gt;传统控制实习实在是很难投，大部分公司要么根本没有这个实习岗位，要么就是招超人，感觉死磕下去不一定有什么好的收获，并且目前组里还是比较缺少硬件和实际工程经验的，我目前属于一个人走一条路，感觉未来前景并不是很光明，之前了解过 vla 这个概念，但是当时还是相对胆小，感觉这东西太高级了，我完全驾驭不了。但是到现在我发现，vla 这个东西可能也没有特别的难，毕竟传统控制改算法然后进行稳定性证明这一套真的很难做了，已经属于是超级数学理论推导计算了。&lt;/p&gt;&#xA;&lt;h3 id=&#34;一首先先看了一个访谈类的讲座有关基础vla的概念&#34;&gt;&#xA;  一、首先先看了一个访谈类的讲座，有关基础vla的概念&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e4%b8%80%e9%a6%96%e5%85%88%e5%85%88%e7%9c%8b%e4%ba%86%e4%b8%80%e4%b8%aa%e8%ae%bf%e8%b0%88%e7%b1%bb%e7%9a%84%e8%ae%b2%e5%ba%a7%e6%9c%89%e5%85%b3%e5%9f%ba%e7%a1%80vla%e7%9a%84%e6%a6%82%e5%bf%b5&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h3&gt;&#xA;&lt;p&gt;AI for Roboticis 是近十年才开始出现的新兴概念 ，早期是&lt;strong&gt;深度学习&lt;/strong&gt;的影响力较大，主要也是体现在CV，代表作就是 YOLO，作为机器人的感知出现在机器人的视野里面。&lt;/p&gt;&#xA;&lt;p&gt;接下来深度强化学习，强化学习本质上是一种较为古老的算法，但是之前几乎仅仅停留在简单的小游戏。目前代表作就是 Alpha go ，深度的神经网络和强化学习相结合，实现了一些解决连续空间问题，机器人的&lt;strong&gt;行为决策和控制&lt;/strong&gt;，就是连续空间问题。但目前，依旧有个问题就是不太通用。&lt;/p&gt;&#xA;&lt;p&gt;接下来 chatgpt 的出现，解决了一种通用性的问题，这个模型代表了一种通用性。早期的openai发布过与音乐相关的实验性模型，但这与chatgpt1并不算是同一条技术路线。chatgpt1是一种LLM（大语言模型），几乎LLM都算是基于NLP的深度学习模型。再到后来的 vlm 再到现在的 vla。vla的出现，展现出了一种通用性，通用能力，泛化能力。通用的可能性，通用的技术和更简易的实现。&lt;strong&gt;目前技术还在收敛的过程中，技术收敛期结束后，才会到场景和商业应用的收敛。&lt;/strong&gt; 理论上可以用端到端的，大的能够去scale和泛化的模型，同时能够处理 v 、 l 、a 这三种模态。未来可以更多模态，比如加入力，温度等等。目前的 vla 也不一定是未来的真正技术路线。&lt;/p&gt;&#xA;&lt;p&gt;目前核心的问题：&lt;strong&gt;找到一个能够去scale的模型的架构&lt;/strong&gt;。目前来说很大程度上算是一种科学上的问题。&lt;/p&gt;&#xA;&lt;p&gt;补充两个概念：&lt;/p&gt;&#xA;&lt;p&gt;1  &lt;strong&gt;Robot Foundation Model（机器人基础模型，简称 RFM）&lt;/strong&gt;&lt;/p&gt;&#xA;&lt;p&gt;2  &lt;strong&gt;Scaling Laws&lt;/strong&gt;：只要持续、按比例地增加模型参数量（N）、训练数据量（D）和计算资源（C），模型性能（通常以损失函数 Loss 衡量）就会以可预测的幂律关系持续提升，且在相当大的范围内不存在突然的性能饱和点。这一信仰被视为大模型时代最底层的技术信念，也是 OpenAI、Google、Meta 等科技巨头敢于投入数百亿美元训练超大模型的 &amp;ldquo;信仰之源&amp;rdquo;。&lt;/p&gt;&#xA;&lt;h3 id=&#34;二传统机器人到具身智能机器人&#34;&gt;&#xA;  二、传统机器人到具身智能机器人&#xA;  &lt;a class=&#34;heading-link&#34; href=&#34;#%e4%ba%8c%e4%bc%a0%e7%bb%9f%e6%9c%ba%e5%99%a8%e4%ba%ba%e5%88%b0%e5%85%b7%e8%ba%ab%e6%99%ba%e8%83%bd%e6%9c%ba%e5%99%a8%e4%ba%ba&#34;&gt;&#xA;    &lt;i class=&#34;fa-solid fa-link&#34; aria-hidden=&#34;true&#34; title=&#34;链接到标题&#34;&gt;&lt;/i&gt;&#xA;    &lt;span class=&#34;sr-only&#34;&gt;链接到标题&lt;/span&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h3&gt;&#xA;&lt;p&gt;传统机器的控制逻辑为三个核心框架：感知、规划、执行。&lt;/p&gt;&#xA;&lt;p&gt;在发展过程中，首先是&lt;strong&gt;规划&lt;/strong&gt;部分，使用了LLM代替掉了规划模块，比如 SayCan。论文链接如下: &lt;a href=&#34;https://say-can.github.io/assets/palm_saycan.pdf&#34;  class=&#34;external-link&#34; target=&#34;_blank&#34; rel=&#34;noopener&#34;&gt;https://say-can.github.io/assets/palm_saycan.pdf&lt;/a&gt; 是一种逻辑上应该做什么和现实中能做什么的一种匹配。&lt;/p&gt;&#xA;&lt;p&gt;其次是对&lt;strong&gt;感知&lt;/strong&gt;部分做了处理，传统的分割识别，到当前就直接使用 vlm 模型进行了代替，可以实现更加通用的一种感知识别。代表成果为：Inner Monologue。&lt;a href=&#34;https://arxiv.org/abs/2207.05608&#34;  class=&#34;external-link&#34; target=&#34;_blank&#34; rel=&#34;noopener&#34;&gt;[2207.05608] Inner Monologue: Embodied Reasoning through Planning with Language Models&lt;/a&gt; 十分有意思的标题，内心独白。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
