欢迎来到我的博客 链接到标题

此次记录主要有关飞特舵机以及claudecode指令


开始写博客 链接到标题

传统控制实习实在是很难投,大部分公司要么根本没有这个实习岗位,要么就是招超人,感觉死磕下去不一定有什么好的收获,并且目前组里还是比较缺少硬件和实际工程经验的,我目前属于一个人走一条路,感觉未来前景并不是很光明,之前了解过 vla 这个概念,但是当时还是相对胆小,感觉这东西太高级了,我完全驾驭不了。但是到现在我发现,vla 这个东西可能也没有特别的难,毕竟传统控制改算法然后进行稳定性证明这一套真的很难做了,已经属于是超级数学理论推导计算了。

一、首先先看了一个访谈类的讲座,有关基础vla的概念 链接到标题

AI for Roboticis 是近十年才开始出现的新兴概念 ,早期是深度学习的影响力较大,主要也是体现在CV,代表作就是 YOLO,作为机器人的感知出现在机器人的视野里面。

接下来深度强化学习,强化学习本质上是一种较为古老的算法,但是之前几乎仅仅停留在简单的小游戏。目前代表作就是 Alpha go ,深度的神经网络和强化学习相结合,实现了一些解决连续空间问题,机器人的行为决策和控制,就是连续空间问题。但目前,依旧有个问题就是不太通用。

接下来 chatgpt 的出现,解决了一种通用性的问题,这个模型代表了一种通用性。早期的openai发布过与音乐相关的实验性模型,但这与chatgpt1并不算是同一条技术路线。chatgpt1是一种LLM(大语言模型),几乎LLM都算是基于NLP的深度学习模型。再到后来的 vlm 再到现在的 vla。vla的出现,展现出了一种通用性,通用能力,泛化能力。通用的可能性,通用的技术和更简易的实现。目前技术还在收敛的过程中,技术收敛期结束后,才会到场景和商业应用的收敛。 理论上可以用端到端的,大的能够去scale和泛化的模型,同时能够处理 v 、 l 、a 这三种模态。未来可以更多模态,比如加入力,温度等等。目前的 vla 也不一定是未来的真正技术路线。

目前核心的问题:找到一个能够去scale的模型的架构。目前来说很大程度上算是一种科学上的问题。

补充两个概念:

1 Robot Foundation Model(机器人基础模型,简称 RFM)

2 Scaling Laws:只要持续、按比例地增加模型参数量(N)、训练数据量(D)和计算资源(C),模型性能(通常以损失函数 Loss 衡量)就会以可预测的幂律关系持续提升,且在相当大的范围内不存在突然的性能饱和点。这一信仰被视为大模型时代最底层的技术信念,也是 OpenAI、Google、Meta 等科技巨头敢于投入数百亿美元训练超大模型的 “信仰之源”。

二、传统机器人到具身智能机器人 链接到标题

传统机器的控制逻辑为三个核心框架:感知、规划、执行。

在发展过程中,首先是规划部分,使用了LLM代替掉了规划模块,比如 SayCan。论文链接如下: https://say-can.github.io/assets/palm_saycan.pdf 是一种逻辑上应该做什么和现实中能做什么的一种匹配。

其次是对感知部分做了处理,传统的分割识别,到当前就直接使用 vlm 模型进行了代替,可以实现更加通用的一种感知识别。代表成果为:Inner Monologue。[2207.05608] Inner Monologue: Embodied Reasoning through Planning with Language Models 十分有意思的标题,内心独白。


持续更新 链接到标题

我会定期更新这个博客,分享更多有趣的内容。

感谢您的访问!


同时在此声明 本次博客网址搭建感谢我的好朋友Gemini提供技术细节支持,感谢GLM与Claude Code提供技术实现支持,感谢王甫12135、刻舟求剑的人、男男等好友提供的GLM密匙与环境搭建。