24小时热门版块排行榜    

查看: 25  |  回复: 0

Blue机器人

新虫 (初入文坛)

[交流] 论文解读|机器人如何“懂人心”?刀具削皮与人类偏好对齐研究

BlueRobots上海蓝色萝卜自动化科技有限公司是一家专注于机器人领域的技术型企业,致力于为客户提供高性能硬件和人工智能算法的全套机器人相关软硬件解决方案。公司核心团队成员来自哈尔滨工业大学、上海交通大学等知名院校,以及ABB、Universal Robots等国际机器人公司,拥有十余年的研发制造经验。  BlueRobots在kinova机器人应用领域深耕,提供包括机器人系统集成、机器视觉、灵巧手、六维力传感器等在内的成套解决方案。公司通过先进的控制技术和核心技术驱动,专注于协作机器人的应用开发与市场推广,帮助客户实现工业自动化和智能化转型。  

近日,来自加州大学伯克利分校的研究团队提出了一套系统性学习框架,以刀具削皮为典型场景,首次实现了将机器人细粒度操纵与人类偏好精准对齐,让机器人不仅能完成削皮任务,更能“削得符合人类预期”。本文将基于该团队的研究成果,详细拆解这套框架的核心逻辑、实验设计与关键结论,带大家深入了解机器人如何学会“懂人心”的削皮技能。

参考文献:https://arxiv.org/pdf/2603.03280

一、研究背景与核心痛点

刀具削皮作为典型的细粒度接触类操纵任务,其挑战性主要体现在两个方面,这也是当前机器人操纵领域的普遍瓶颈:

1. 数据收集的“量”与“质”难以平衡:削皮任务对力的感知和动作的精度要求极高,传统数据收集方法(如模型规划、VR遥操作、动觉教学)要么难以生成高质量数据,要么耗时耗力,无法实现规模化采集;

2. 任务质量的“客观”与“主观”难以统一:削皮的成功与否,除了“是否削去表皮”这一客观标准,更依赖人类对削皮厚度、流畅度、食材完整性的主观判断,这种模糊的“人类偏好”难以转化为机器人可学习的奖励信号,导致训练出的政策往往不符合人类预期。

现有研究要么只关注单一食材的削皮可行性,要么忽略人类偏好的影响,无法实现通用、精准且符合人类预期的削皮操作。为此,研究团队提出了“两阶段学习框架”,既解决数据效率问题,又实现与人类偏好的对齐。



二、核心框架:两阶段学习,兼顾通用性与偏好对齐

该框架的核心思路的是:先通过高效的数据收集与模仿学习,训练出一个具备泛化能力的基础削皮政策;再通过基于人类偏好的奖励模型,对基础政策进行微调,使其动作符合人类对“优质削皮”的判断。整个框架分为三个关键模块:系统设计、数据收集与政策训练、偏好对齐微调。

系统设计:为细粒度削皮提供硬件支撑

为实现精准的刀具削皮,研究团队搭建了专属硬件系统,核心组件包括:

1. 执行机构:7自由度Kinova Gen3机械臂,支持力矩控制,可实现柔性操纵,避免因力度过大损伤食材;

2. 感知组件:ATI mini45力-扭矩传感器(采样频率500Hz,实时捕捉刀具与食材的接触力)、两个RealSense D405腕部相机(分别拍摄削皮动作的“前视图”和“后视图”,捕捉刀具与食材的接触细节);

3. 控制策略:基于阻抗控制器的柔性控制,运行频率500Hz,可根据接触力的变化自适应调整动作,确保削皮过程的稳定性。

其中,腕部相机的设计尤为关键——由于削皮方向固定,“前视图”可捕捉刀具与食材接触前的未遮挡区域,“后视图”捕捉接触后的区域,两者结合提供了完整的动作反馈,为政策学习提供了充足的视觉信息。

数据收集与政策训练:高效获取通用削皮技能

数据收集的效率与质量,直接决定了基础政策的泛化能力。研究团队对比了四种数据收集方法,最终选择了“SpaceMouse遥操作”作为核心方式,具体流程如下:

1. 数据收集:人类通过SpaceMouse控制机械臂的6自由度末端姿态,实现削皮动作,同时记录机械臂关节角度、力-扭矩传感器数据、腕部相机的RGBD图像,采样频率10Hz;

2. 数据预处理:对力-扭矩数据进行标准化处理,对RGBD图像进行分割(通过SAM2模型提取刀具和食材的掩码),将彩色图像转换为灰度图(减少纹理干扰,聚焦几何特征);

3. 政策训练:采用扩散政策(Diffusion Policies),以视觉(灰度RGBD图像)、力感知(力-扭矩数据)、本体感知(末端姿态变化)为输入,预测机械臂的动作,实现模仿学习。

实验对比发现,SpaceMouse遥操作相比其他方法(模型规划、VR遥操作、动觉教学),能在保证数据质量的同时,降低收集难度——动觉教学虽快,但数据质量低且复现性差;VR遥操作受跟踪噪声影响,难以达到削皮所需的精度;模型规划则无法应对食材形状、硬度的变化,泛化性极差。

此外,研究团队还通过消融实验,确定了政策训练的关键设计:

① 同时使用两个腕部相机,且“前视图”对政策性能的贡献大于“后视图”(未遮挡的接触区域更具参考价值);

② 必须结合视觉和力感知数据,仅用单一模态会导致政策失效(如仅用力感知,成功率为0);

③ 灰度图输入能显著提升政策的泛化能力,避免被食材纹理干扰。

数据效率方面,研究表明:仅需50条轨迹(约8根黄瓜),黄瓜削皮政策即可达到100%成功率;200条轨迹(约33个土豆),土豆削皮政策可达到80%成功率,证明了该方法的高效性。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 Blue机器人 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 311求调剂 +4 冬十三 2026-03-18 4/200 2026-03-18 21:47 by 尽舜尧1
[考研] 321求调剂 +3 何润采123 2026-03-18 3/150 2026-03-18 21:27 by li123456789.
[考研] 344求调剂 +6 knight344 2026-03-16 7/350 2026-03-18 20:13 by walc
[教师之家] 焦虑 +8 水冰月月野兔 2026-03-13 12/600 2026-03-18 15:27 by 咪呜喵呜
[考研] 085601专硕,总分342求调剂,地区不限 +5 share_joy 2026-03-16 5/250 2026-03-18 14:48 by haxia
[考研] 0854,计算机类招收调剂 +3 胡辣汤放糖 2026-03-15 6/300 2026-03-18 12:09 by 上岸上岸……..
[考研] 265求调剂 +3 梁梁校校 2026-03-17 3/150 2026-03-18 09:12 by zhukairuo
[考研] 301求调剂 +9 yy要上岸呀 2026-03-17 9/450 2026-03-18 08:58 by 无际的草原
[考研] 277调剂 +5 自由煎饼果子 2026-03-16 6/300 2026-03-17 19:26 by 李leezz
[考研] 本人考085602 化学工程 专硕 +16 不知道叫什么! 2026-03-15 18/900 2026-03-17 17:05 by ruiyingmiao
[考研] 211本,11408一志愿中科院277分,曾在中科院自动化所实习 +6 Losir 2026-03-12 7/350 2026-03-17 12:09 by danranxie
[考研] 一志愿,福州大学材料专硕339分求调剂 +3 木子momo青争 2026-03-15 3/150 2026-03-17 07:52 by laoshidan
[考研] 304求调剂 +4 ahbd 2026-03-14 4/200 2026-03-16 16:48 by 我的船我的海
[考研] 285求调剂 +6 ytter 2026-03-12 6/300 2026-03-16 15:05 by njzyff
[考研] 一志愿华中师范071000,325求调剂 +6 RuitingC 2026-03-12 6/300 2026-03-16 14:50 by 可淡不可忘
[考研] 0703化学调剂 290分有科研经历,论文在投 +7 腻腻gk 2026-03-14 7/350 2026-03-16 10:12 by houyaoxu
[考研] 工科278分求调剂 +5 周慢热啊 2026-03-12 7/350 2026-03-13 15:49 by JourneyLucky
[考研] 308求调剂 +3 是Lupa啊 2026-03-12 3/150 2026-03-13 14:30 by 求调剂zz
[考研] 0817化学工程与技术考研312分调剂 +3 T123 tt 2026-03-12 3/150 2026-03-13 10:49 by houyaoxu
[考研] 290求调剂 +3 ADT 2026-03-13 3/150 2026-03-13 10:19 by peike
信息提示
请填处理意见