欢迎来到我的博客 链接到标题
此次记录主要是为了有关远程链接服务器,和openvla远程复现,包括一些小细节和小技巧
开始写博客 链接到标题
之前使用的恒源云在开机后,莫名其妙提示远程服务器网络错误不能使用,所以换了另一个便宜点的 彗星云:portal.huixingyun.com
一、前言 链接到标题
之前我是成功部署过openvla的,在 5060ti 16g 显存的基础上,勉强可以跑通,因为无法使用 bitsandbytes,所以几乎占满了显存,又因为使用的是带图形界面的ubuntu,所以几乎要关掉所有东西,才能勉强运行推理。
但可恶的是,这一代显卡的驱动和 ubuntu22 有冲突,网上好多人都有,我在一次关机之后莫名其妙掉了网络驱动,怎么样都恢复不了,按照网络的方法怎么都解决不了,所以才决定使用服务器。顺带一提,我在一怒之下重装了 ubuntu 但是出现了 grub 错误,分析了一下原因,应该是我直接在硬盘上抹掉了 ubuntu 所在的区域,但是没有在启动项里删除ubuntu的选项,所以重装上之后有冲突,出现了 grub 错误。目前已经完全删除 ubuntu存在的痕迹,但还没有重新安装,如果安装后没有grub错误,可以任务是这个原因。
#但目前我的远程连接还有点问题,应该有很多可以优化的地方。#
二、具体复现过程 链接到标题
使用服务器确实不太擅长,对于如何在本地调程序然后push到服务器我更是不太熟练,为了快速复现,我跟随了一个帖子,链接如下:openvla复现记录-环境配置 | Photinia。这个帖子很干,如果之前没有了解过确实不容易看懂操作,并且我在复现的时候出现了很多小bug,都不致命但是很烦人。我没有完全按照他的教程进行,我认为这不是我出现bug的原因,我的 bug 几乎都与路径有关,就算我的各个驱动与他版本完全一致,我认为我还是会出现这些bug。
三、个人bug 链接到标题
首先不提及一些各种底层冲突导致要重新安装的 bug ,这些都很简单,ai 一下就可以解决。
目前主要有两个特殊的 bug ,这两个bug大概与我租用的服务器有关。
第一个是找不到 libero 这个库 ,需要手动在终端中 source 进去,按理说在conda环境下,已经安装了,激活是可以直接找到的,但我目前不行。
第二个也是一个找不到的问题 ,好像是 nvidia 的某一个工具,找不到位置,也是需要手动source 进去
严格来说还有第三个问题,这个问题是我用本地 5060ti 推理的时候碰到的,就是下错了模型,官方的库中有这七个模型,使用libero跑仿真推理,需要下载那个libero-spatial模型,我在本地下载的时候,下载了openvla-7b,这个应该是实物推理的模型。这导致我在本地推理的时候,成功率都是0 还找不到问题所在。
持续更新 链接到标题
我会定期更新这个博客,分享更多有趣的内容。
感谢您的访问!
同时在此声明 本次博客网址搭建感谢我的好朋友Gemini提供技术细节支持,感谢GLM与Claude Code提供技术实现支持,感谢王甫12135、刻舟求剑的人、男男等好友提供的GLM密匙与环境搭建。