24小时热门版块排行榜    

CyRhmU.jpeg
查看: 781  |  回复: 0

BFT驿站

新虫 (小有名气)

[交流] RoboFactory:Franka Research 3机械臂在实现具有组合约束的实体代理协作探索

前言:
机器人技术迅猛发展,多智能体协作系统在工业制造、服务、救援等领域潜力巨大。但多智能体系统因智能体间协作及与环境的交互,策略开发及验证复杂度高,面临两大难题:

1、数据收集处理低效,传统人工标注或手动设计场景方式耗时费力且难以覆盖所有协作场景;
2、策略评估复杂,需综合考量多智能体行为与交互。


针对上述难题,本文以Franka Research 3机械臂为载体,借助集成多种先进算法与工具、支持全流程自动化的RoboFactory框架,成功解决了多智能体系统策略开发中的数据收集与评估难题。


二、技术框架与核心参数
Franka Research 3机械臂:
7自由度设计
Franka末端执行夹爪
传感器配置
RoboFactory框架:
开源的机器人仿真平台:RoboFactory框架建立在ManiSkill模拟器之上
RoboBrain:智能体行为规划和控制的核心
RoboChecker:制定智能体的行为符合预设的安全和协作标准


如图1所示,在执行“抓取牛排并协同4个实体代理(a₁、a₂、a₃、a₄)操控相机完成拍摄”任务时,各代理需突破单任务局限,通过动态协同实现整体目标:a₁精准抓取牛排,a₂与a₃协作抬升相机,a₄负责触发快门。为保障协作安全高效,本文引入组合约束机制,通过逻辑约束规避如a₃误触镜头等不当交互,利用空间约束避免a₂与a₃执行轨迹冲突引发碰撞,并借助时间约束消除a₁因等待其他代理完成非冲突操作而产生的无效停滞,从而构建起多智能体安全高效协作体系。



三、策略开发全流程
框架构建:RoboFactory框架,该框架包含两个核心模块
RoboBrain:负责生成子目标和轨迹序列
RoboChecker:负责构建约束接口并检查约束违反情况。

输入处理:接收RGB观测值、、全局文本指令、先前子目标集及约束违规反馈,输入至RoboBrain中的VLM模型(如GPT-4o)。

策略生成——
任务分解(子目标序列)——轨迹规划:Gnext, C=FVLM (0, Gglobal, Gpre, f pre)


图2:RoboFactory概述。给定全局任务描述、先验信息和观察结果,RoboBrain为每个代理生成下一个子目标,并输出文本组合约束。然后,它为每个代理生成无约束的轨迹序列,以实现相应的子目标,调用预定义的运动图元。RoboChecker基于文本组合约束和当前多智能体状态构建相应的约束接口。它检查代理在执行生成的轨迹时是否违反了任何约束。该框架通过将抽象文本约束转换为可以通过构建约束接口与代理行为交互的表示,确保为多体现代理生成安全高效的协作数据。



约束验证
约束接口:RoboChecker将文本约束转换为具体物理表示(交互位置、方向、3D占用、动态占用),形成约束接口。

实时监控:在轨迹执行过程中,RoboChecker持续监控逻辑、空间、时间约束的有效性,确保代理间安全高效协作。

图3。不同的约束界面。对于C1,我们注释了对象的交互点和每个点的交互方向。对于Cs,我们对观测结果进行建模以获得深度图,并将其与机器人手臂状态一起用于构建3D占用表示。对于Ct,我们基于代理在每个变化位置的轨迹对时间状态表示进行建模,并通过分析将这些表示用于调度。


反馈与迭代

违规处理:若检测到约束违规,立即停止轨迹执行,并返回违规原因及重新规划反馈。


数据积累:验证通过的轨迹和观测序列被纳入基准数据集,用于后续策略优化。

表1。RoboFactory和其他嵌入式基准之间的比较。它具有多智能体任务和高级规划与低级控制的集成。


四、实验验证:RoboFactory基准测试评估

在RoboFactory基准测试评估中,Diffusion Policy的评估:在RoboFactory基准测试上,对Diffusion Policy的性能进行评估,以验证其在不同难度智能体任务中的表现。


表2。DP基线性能结果。我们报告了不同演示数据量的基准任务的成功率。


多智能体架构比较:基于模仿学习,对比共享策略与独立策略等架构,探究适合多智能体协作任务的架构。

图5。我们设计了四种多实体代理模仿学习架构。图像输入中的全局视图表示包含所有代理的观察,局部视图表示每个代理的自我视图观察。在策略训练中,共享策略表示所有代理共享一个策略,单独策略表示每个代理训练一个独立的策S略。

消融研究:分析RoboFactory数据生成中不同约束对智能体行为和数据质量的影响。

表3,四种多种现代理模仿学习架构的结果,报告了两项任务的成功率。

实验结果
Diffusion Policy:性能取决于任务难度和智能体数量。
架构比较:独立策略在Food Place任务中优于共享策略,适合复杂协作任务。
消融研究:合理约束设置提高协作效率和任务成功率。

RoboFactory框架展现的有效性
高效数据生成:自动生成高质量训练数据,提升学习效率。
灵活架构设计:支持多种架构,为研究者提供选择空间。
强大约束处理:确保智能体行为符合安全和协作标准。

关键发现
数据充足性:数据量对多智能体系统性能至关重要,150个训练演示达最佳性能。
独立策略优势:处理复杂协作任务时,独立策略更合适,避免共享策略的挑战。
约束设置重要性:合理约束设置对协作效率和任务成功率有重要意义。


结论:
在“抓取牛排并协同多个实体代理(如a₁、a₂、a₃、a₄)操控相机完成拍摄”的复杂操作任务中,Franka Research 3机械臂结合RoboFactory框架展现了其高效的数据生成能力、灵活的架构设计以及强大约束处理能力。

而RoboFactory基准测试评估验证了其在高效数据生成、灵活架构设计和强大约束处理方面的有效性和优势,为构建安全、高效的多智能体系统提供支持,并为未来研究提供参考。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 BFT驿站 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见