| 查看: 616 | 回复: 0 | |||
[交流]
Franka助力GraspMolmo研究,实现可泛化任务导向抓取的关键突破
|
|
研究背景: 传统机器人抓取技术多依赖物体几何特征,仅关注抓取稳定性,却忽视了任务具体需求。例如,同一把刀在“切菜”与“安全传递”任务中需要完全不同的抓取位置。 现有面向任务的抓取(TOG)方法因受限于小规模数据集、简化语言描述及整洁场景假设,难以泛化至新任务和未见过的物体,导致在真实复杂环境中灵活性不足。 为解决这一难题,研究团队以Franka Research 3七自由度机械臂为实验平台,提出了GraspMolmo——一种可泛化的开放词汇任务导向抓取模型。 其核心目标是:通过结合自然语言指令与单帧RGB-D图像,精准预测符合任务需求的抓取方式,真正实现“机器人不仅能抓,还懂为何抓、如何抓”。 GraspMolmo是一种可泛化的开放词汇面向任务的抓取模型,它在给定自然语言指令的情况下预测语义上合适的抓取 核心方法:GraspMolmo与PRISM数据集 GraspMolmo的突破离不开两大关键支撑:大规模合成数据集PRISM的构建,以及基于视觉语言模型的高效训练。 1.PRISM:大规模任务语义抓取数据集 PRISM(Purpose-driven Robotic Interaction in Scene Manipulation)是支撑GraspMolmo的核心训练数据,通过程序化生成覆盖复杂场景、多样化物体和自然任务描述的37.9万样本。 其构建流程包括: 场景生成:基于ShapeNet-Sem 3D模型库与ACRONYM抓取数据集,利用SceneSynthesizer工具生成10,000个独特场景(每场景含2-12个物体,覆盖91类日常用品),并随机化光照、相机视角(每场景10视角)和物体排列,模拟真实杂乱环境。 任务与抓取描述生成:通过GPT-4o生成抓取的自然语言描述(如“抓取平底锅边缘内侧和外侧”),再经人工验证修正(45%生成描述准确,55%需修正),确保描述的空间关系与接触点精度; 同时针对每个物体类别生成两种差异显著的抓取方式(如杯子的“握柄”与“握杯身”),并为每种抓取设计4个语义任务(如“用杯子倒水”“挂杯子到钩子上”)。 任务-抓取匹配:通过GPT-4o匹配任务描述与抓取描述,构建“场景-任务-抓取”三元组,最终形成包含图像、任务指令、抓取坐标和自然语言描述的PRISM数据集。 我们生成的数据集PRISM-Train和评估基准是一项重大贡献 PRISM测试。首先,从Shapenet-Sem 资产生成合成场景, ACRONYM [50]抓取。接下来,生成以对象为中心的抓取空间描述,并手动过滤,为对象类别生成有趣且多样的任务 GraspMolmo模型训练: GraspMolmo基于视觉语言模型(VLM)Molmo微调,结合PRISM(45%)、TaskGrasp-Image(10%)及其他多模态数据(如VQA、PixMo)混合训练,保留模型对新物体和场景的泛化能力,同时适应抓取任务需求。 模型输出图像平面上的抓取点,通过射线投射和最近点查询匹配稳定抓取生成器(如M2T2)预测的候选抓取,最终选择最接近的抓取作为结果。 实验设计与验证 实验以Franka Research 3机械臂为硬件平台(搭载RGB-D相机实现实时感知与抓取),通过三级基准测试逐步验证GraspMolmo的性能: 1. 基准测试与场景设计 TaskGrasp-Image:基于真实RGB-D图像的传统TOG基准,评估模型在简单对象和有限视觉场景下的基础性能。 PRISM-Test:全合成评估集(包含未见过的物体实例和类别,如TeaCup、Fork),测试模型对新物体和新场景的泛化能力。 PRISM-Real:真实杂乱场景评估(覆盖3类家庭场景:厨房、书桌、客厅,包含9类物体的18项任务,如“倒咖啡”“安全递刀”“倒出花瓶中的花”),验证模型实际应用表现。 我们在三个代表家庭使用案例的真实场景中进行评估,具有不同任务语义的不同对象。我们还展示了对双手的零样本适用性面向任务的抓取。我们展示了GraspMolmo和基线的样本抓取输出 任务“倒出花朵”,机器人必须抓住花瓶并将其翻转过来,以清空花瓶 花朵。GraspMolmo正确地在最佳位置抓住花瓶,将其翻转 2、场景设计严格模拟真实限制 采用单视角RGB-D观测(贴近传感器实际输入),构建多物体混乱场景(模拟真实杂乱环境),以自然语言下达任务指令(增加任务复杂度),并拓展双手抓取测试(验证复杂任务灵活性)。 在越来越具有挑战性的面向任务的抓取中,抓取预测的Top-1准确率 设置。按照,我们在TaskGrasp-Image评估中跨任务进行归一化。对于现实世界的在线评估,我们分别报告预测成功率(预测的抓取是否 是否正确)和总体成功率(预测的抓取是否正确,机器人是否成功 抓住物体) 关键成果与突破 实验结果表明,GraspMolmo在复杂任务和真实场景中表现远超现有方法,具体突破如下: 1. 泛化能力显著提升 PRISM-Test(合成杂乱场景):GraspMolmo抓取成功率为62.5%,远高于基线方法(低于50%),验证了模型对新物体和场景的强泛化能力。 PRISM-Real(真实场景):预测成功率70.4%,整体成功率61.1%,显著优于基线方法(31%),在“倒出花瓶中的花”等任务中,GraspMolmo能精准选择花瓶最佳翻转位置,完成任务。 2. 零样本双手抓取能力 通过将双手任务分解为两个单臂任务(如“打开水瓶”分解为“提起水瓶”和“拧开瓶盖”),GraspMolmo成功展示零样本预测语义正确的双手抓取能力,初步验证了其在复杂任务中的灵活性和通用性。 3. 评估指标与真实表现强相关 PRISM-Test的合成评估结果与真实场景表现高度相关(如图所示),证明其作为高效评估基准的可靠性,为后续研究提供了优质工具。 PRISM测试的表现是现实场景中成功的更好指标 比 TaskGrasp-Image 更有效 结语 GraspMolmo通过大规模合成数据集PRISM训练与视觉语言模型的深度融合,,突破了传统TOG方法在场景泛化和任务语义理解上的瓶颈,在真实杂乱环境中实现了高效、智能的任务导向抓取。其开源的数据集、模型和基准,为机器人无结构化环境部署奠定了重要基础。 未来,研究团队将持续优化模型性能(如减少对外部抓取生成器的依赖),拓展应用场景(如工业装配、家庭服务),推动机器人技术向更智能、更通用的方向发展。 论文详情:https://abhaybd.github.io/GraspMolmo/ |
» 猜你喜欢
sci投稿求助
已经有5人回复
如何找到GSAS-II软件中的Rp、Rwp、Rexp等值?
已经有3人回复
机械工程论文润色/翻译怎么收费?
已经有289人回复
华北电力大学2026届申博
已经有0人回复
同一篇文章,用不同账号投稿对编辑决定是否送审有没有影响?
已经有3人回复
高低温、冷热冲击试验箱哪家质量好?国产比较好的品牌,优质厂家排名比较好的
已经有0人回复
郑州大学田佳佳团队诚招2026年入学博士研究生
已经有0人回复













回复此楼