24小时热门版块排行榜    

CyRhmU.jpeg
查看: 530  |  回复: 0

BFT驿站

新虫 (小有名气)

[交流] ObjectVLA如何让Franka机器人自主理解新物体

人类演示数据的缺失问题与泛化挑战

在机器人模仿学习领域,依赖海量人类演示数据的传统方法正面临开放世界场景的严峻挑战。当训练目标从"递出苹果"转变为语义相似但视觉差异显著的"递出桃子"时,现有端到端模型在分布外(OOD)物体上的泛化成功率骤降至不足30%。这种局限性直接制约了机器人在动态商业场景(如仓储分拣、柔性制造)中的实际应用价值。

ObjectVLA:视觉-语言-动作协同进化

ObjectVLA框架通过三重创新突破这一瓶颈:
定位感知推理机制:构建包含2000个视觉-文本对的数据集,利用边界框标注建立物体语义与空间定位的精确映射。

混合训练策略:采用10:1的机器人交互数据与视觉语言数据配比,在Franka机器人上验证了该比例在保持任务精度与泛化能力间的平衡性。
智能手机增强方案:通过手机拍摄21张多角度图像配合1个epoch微调,即可将新物体操作成功率提升至80%以上。

真实场景验证

基础任务验证:在"移动到物体"任务中,对100个OOD物体取得64%的泛化成功率。

复合技能测试:推动/旋转任务的分布外成功率分别达到62%和58%。
工业级料箱拣选:在含多干扰物的复杂场景中,目标物体检索成功率较基线提升46.7%。

这些实验强调了我们的方法在减少对大规模人类演示的依赖的同时,实现强大的物体泛化的能力。
本研究所有实验均使用Franka机械臂完成,使用两个外部ZED摄像头和一个手腕处的Realsense 435i摄像头来获取现实世界的视觉信息。该7自由度协作机器人可通过BFT机器人平台获取

技术突破与商业价值

相比传统方案,ObjectVLA在三个维度实现跨越:
部署成本降低:新物体适配时间从72小时压缩至10分钟。
操作精度提升:在标准测试环境中,位姿估计误差<0.5mm。
商业场景扩展:已成功应用于3C电子装配、医药物流分拣等10+行业场景。

为什么选择BFT?
我们为Franka用户打造全周期服务生态:
采购无忧 - 提供设备融资租赁方案(首付低至30%)
开发支持 - 200+即插即用算法库实时调用
售后保障 - 7×24小时专家响应团队
生态对接 - 接入500+合作企业的场景方案库
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 BFT驿站 的主题更新
普通表情 高级回复(可上传附件)
信息提示
请填处理意见