24小时热门版块排行榜    

CyRhmU.jpeg
查看: 569  |  回复: 0

BFT驿站

新虫 (小有名气)

[交流] Franka Robotics × VLMgineer:以大模型之力,首拓机器人硬件新领域

研究背景:

本文以Franka Research 3机械臂为核心载体,聚焦机器人在复杂操作任务中对工具的创造性设计与高效使用问题。


在传统的机器人研究中,多侧重于优化控制策略,而工具设计往往依赖人工,这在一定程度上限制了机器人在超出自身能力范围任务中的表现。


为此,研究人员提出了VLMGINEER框架。该框架结合视觉语言模型(VLM)的创造力与进化搜索算法,实现了工具与动作计划的协同设计,成功解决了传统方法中工具设计依赖人工、泛化能力弱、控制与工具设计脱节等问题。


实验设置


核心硬件


采用Franka Research 3机械臂作为标准载体,将其默认两指夹爪作为基线对比,工具通过末端执行器接口连接。


感知与模拟环境

环境通过PyBullet物理引擎模拟,并集成overhead相机以提供场景视觉输入。
无需额外外部传感器,依赖模拟环境的状态反馈(如物体位置、姿态)评估任务完成度。

软件框架

基于Python实现,VLM采用gemini-2.5-pro-preview模型,进化搜索与模拟评估并行计算以加速迭代。


图1:VLMGINEER 以未修改的环境源代码、环境图像、环境描述和任务描述作为上下文,通过视觉语言模型(VLM)零样本生成工具和动作设计。随后,它通过候选样本采样、基于仿真的评估以及进化改进的循环,对工具和动作设计进行迭代优化。


核心方法


VLM驱动的工具 - 动作协同设计


通过VLM生成初始工具设计(URDF 格式)和对应动作序列(末端执行器位姿与夹爪状态),利用进化搜索迭代优化,逐步提升工具性能与动作效率


图2:面对机器人能力之外的操作任务,VLMGINEER先提示视觉语言模型生成工具和动作,再在仿真中用进化搜索优化工具几何结构并合成机器人运动规划,最终使配备自动设计工具的机器人成功完成任务。


进化搜索机制:


采样:VLM基于环境代码、任务描述生成多样化工具 - 动作候选对;

评估:通过任务适应度函数筛选表现优异的候选;

迭代:引导VLM对优秀候选进行突变(如调整尺寸)和交叉(融合设计元素),生成新一代设计。


统一表示格式

工具以URDF格式描述,确保与机器人模型兼容;动作以离散位姿数组表示(含末端执行器6自由度+夹爪状态),简化控制逻辑。


实验设计与验证


基准测试集



构建了 ROBOTOOLBENCH 基准,包含 12 项任务(如取远处物体、聚集球体、移动小球等),这些任务均被设计为默认机械臂难以完成的场景。


图 3:本图对比了 Franka 夹具实验、3 组人工提示实验以及本文提出的方法在 12 项任务中的奖励情况。对于每种方法,图例中颜色较深的柱形表示 5 次运行的平均奖励,而位于其上方、颜色较浅的柱形则表示这些运行中的最佳奖励。


图4:本图对人工设计的工具、RLBench(强化学习基准)工具以及 VLMGINEER工具在三项任务上进行了定性对比,这三项任务分别是:取cube(顶行)、踢进球门(中行)和收集球体(底行)。


对比实验

基线 1:Franka 默认夹爪(无额外工具)。
基线 2:人类指定工具设计(含机器人专家、LLM 专家、普通人三组)。
基线 3:RLBench 现有工具(日常常用工具)。

成果表明,该框架在 12 项日常操作任务中,不仅超越了人类指定设计的工具和现有日常工具,还将复杂机器人任务转化为简单执行流程,为机器人硬件设计与应用开辟了新路径。


评估指标:任务完成度(归一化奖励0-1)、动作效率(末端执行器移动距离)。


关键成果与突破


性能超越基线

相比人类指定设计的 VLM 生成工具,平均奖励提升 64.7%;

优于现有人类设计工具,平均奖励提升 24.3%,且动作更高效(如在 BringCube 任务中移动距离更短)。

进化机制的有效性

经进化迭代后,工具设计显著优化(如 GatherSpheres 任务中添加护栏防止球体掉落);

相比仅初始采样的设计,进化后任务成功率平均提升 30% 以上。

泛化能力

无需任务特定模板或示例,可直接应用于12项不同任务,展示跨场景适应性。

图 5:展示了进化算法在工具设计中(a)定量和(b)定性两方面的有效性。a)所有评估任务的平均最高奖励,对比 “无进化” 和 “有进化” 条件;b)收集球体(顶行)和移动球体(底行)任务在进化前后的定性对比。


结语

VLMGINEER通过融合大模型的创造力与进化算法的优化能力,首次实现了机器人工具与动作的全自动协同设计,为Franka机械臂等硬件拓展了在复杂环境中的应用边界。

该研究不仅验证了大模型在物理设计中的潜力,更开创了 “软件定义硬件” 的新范式 —— 未来机器人或可通过自主设计工具,灵活应对家庭、工业等多样化场景的挑战。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 BFT驿站 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见