24小时热门版块排行榜    

Znn3bq.jpeg
查看: 763  |  回复: 0

Blue机器人

新虫 (小有名气)

[交流] 论文解读|机器人如何“懂人心”?刀具削皮与人类偏好对齐研究

BlueRobots上海蓝色萝卜自动化科技有限公司是一家专注于机器人领域的技术型企业,致力于为客户提供高性能硬件和人工智能算法的全套机器人相关软硬件解决方案。公司核心团队成员来自哈尔滨工业大学、上海交通大学等知名院校,以及ABB、Universal Robots等国际机器人公司,拥有十余年的研发制造经验。  BlueRobots在kinova机器人应用领域深耕,提供包括机器人系统集成、机器视觉、灵巧手、六维力传感器等在内的成套解决方案。公司通过先进的控制技术和核心技术驱动,专注于协作机器人的应用开发与市场推广,帮助客户实现工业自动化和智能化转型。  

近日,来自加州大学伯克利分校的研究团队提出了一套系统性学习框架,以刀具削皮为典型场景,首次实现了将机器人细粒度操纵与人类偏好精准对齐,让机器人不仅能完成削皮任务,更能“削得符合人类预期”。本文将基于该团队的研究成果,详细拆解这套框架的核心逻辑、实验设计与关键结论,带大家深入了解机器人如何学会“懂人心”的削皮技能。

参考文献:https://arxiv.org/pdf/2603.03280

一、研究背景与核心痛点

刀具削皮作为典型的细粒度接触类操纵任务,其挑战性主要体现在两个方面,这也是当前机器人操纵领域的普遍瓶颈:

1. 数据收集的“量”与“质”难以平衡:削皮任务对力的感知和动作的精度要求极高,传统数据收集方法(如模型规划、VR遥操作、动觉教学)要么难以生成高质量数据,要么耗时耗力,无法实现规模化采集;

2. 任务质量的“客观”与“主观”难以统一:削皮的成功与否,除了“是否削去表皮”这一客观标准,更依赖人类对削皮厚度、流畅度、食材完整性的主观判断,这种模糊的“人类偏好”难以转化为机器人可学习的奖励信号,导致训练出的政策往往不符合人类预期。

现有研究要么只关注单一食材的削皮可行性,要么忽略人类偏好的影响,无法实现通用、精准且符合人类预期的削皮操作。为此,研究团队提出了“两阶段学习框架”,既解决数据效率问题,又实现与人类偏好的对齐。



二、核心框架:两阶段学习,兼顾通用性与偏好对齐

该框架的核心思路的是:先通过高效的数据收集与模仿学习,训练出一个具备泛化能力的基础削皮政策;再通过基于人类偏好的奖励模型,对基础政策进行微调,使其动作符合人类对“优质削皮”的判断。整个框架分为三个关键模块:系统设计、数据收集与政策训练、偏好对齐微调。

系统设计:为细粒度削皮提供硬件支撑

为实现精准的刀具削皮,研究团队搭建了专属硬件系统,核心组件包括:

1. 执行机构:7自由度Kinova Gen3机械臂,支持力矩控制,可实现柔性操纵,避免因力度过大损伤食材;

2. 感知组件:ATI mini45力-扭矩传感器(采样频率500Hz,实时捕捉刀具与食材的接触力)、两个RealSense D405腕部相机(分别拍摄削皮动作的“前视图”和“后视图”,捕捉刀具与食材的接触细节);

3. 控制策略:基于阻抗控制器的柔性控制,运行频率500Hz,可根据接触力的变化自适应调整动作,确保削皮过程的稳定性。

其中,腕部相机的设计尤为关键——由于削皮方向固定,“前视图”可捕捉刀具与食材接触前的未遮挡区域,“后视图”捕捉接触后的区域,两者结合提供了完整的动作反馈,为政策学习提供了充足的视觉信息。

数据收集与政策训练:高效获取通用削皮技能

数据收集的效率与质量,直接决定了基础政策的泛化能力。研究团队对比了四种数据收集方法,最终选择了“SpaceMouse遥操作”作为核心方式,具体流程如下:

1. 数据收集:人类通过SpaceMouse控制机械臂的6自由度末端姿态,实现削皮动作,同时记录机械臂关节角度、力-扭矩传感器数据、腕部相机的RGBD图像,采样频率10Hz;

2. 数据预处理:对力-扭矩数据进行标准化处理,对RGBD图像进行分割(通过SAM2模型提取刀具和食材的掩码),将彩色图像转换为灰度图(减少纹理干扰,聚焦几何特征);

3. 政策训练:采用扩散政策(Diffusion Policies),以视觉(灰度RGBD图像)、力感知(力-扭矩数据)、本体感知(末端姿态变化)为输入,预测机械臂的动作,实现模仿学习。

实验对比发现,SpaceMouse遥操作相比其他方法(模型规划、VR遥操作、动觉教学),能在保证数据质量的同时,降低收集难度——动觉教学虽快,但数据质量低且复现性差;VR遥操作受跟踪噪声影响,难以达到削皮所需的精度;模型规划则无法应对食材形状、硬度的变化,泛化性极差。

此外,研究团队还通过消融实验,确定了政策训练的关键设计:

① 同时使用两个腕部相机,且“前视图”对政策性能的贡献大于“后视图”(未遮挡的接触区域更具参考价值);

② 必须结合视觉和力感知数据,仅用单一模态会导致政策失效(如仅用力感知,成功率为0);

③ 灰度图输入能显著提升政策的泛化能力,避免被食材纹理干扰。

数据效率方面,研究表明:仅需50条轨迹(约8根黄瓜),黄瓜削皮政策即可达到100%成功率;200条轨迹(约33个土豆),土豆削皮政策可达到80%成功率,证明了该方法的高效性。
回复此楼
Blue机器人前沿解读|官方提供灵巧手、Kinova机器人、遥操作方案、高速捕捉相机等,咨询Blue机器人 www.bluerobotics.cn
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 Blue机器人 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[论文投稿] 投MDPI的三个期刊都被桌拒 +4 木虫研究牲 2026-05-17 5/250 2026-05-23 14:44 by 期刊投稿求助
[考博] 26/27申博自荐 10+4 ZXW0202 2026-05-22 6/300 2026-05-23 14:32 by tfang
[基金申请] 河北省自然科学基金 +5 Peterchao 2026-05-18 6/300 2026-05-23 13:28 by Peterchao
[基金申请] 青B发送上会通知了吗 +5 chemBioBro 2026-05-22 7/350 2026-05-23 12:35 by zhuifengzhy
[考博] 博士申请 +3 焦晓明 2026-05-21 3/150 2026-05-23 11:26 by mlc840311
[教师之家] 某211大学教师把个人教师官方主页改成:我跑了我跑了我跑了!官宣跑路! +3 zju2000 2026-05-21 4/200 2026-05-23 08:33 by xli1984
[基金申请] 今年审到国自然15份,谈谈感受 +27 国自然国社科中 2026-05-17 28/1400 2026-05-22 16:25 by hunter无悔
[论文投稿] 投稿求助,期刊 +4 希冀,有书读 2026-05-20 8/400 2026-05-22 10:16 by 希冀,有书读
[文学芳草园] 献血感触 +7 呀呀好傻 2026-05-19 13/650 2026-05-21 20:15 by 呀呀好傻
[基金申请] 面上本子正文33页,违规吗?会被低分嘛? +14 1234567wang 2026-05-17 16/800 2026-05-21 17:58 by 脆脆的饼干
[基金申请] 国自然评分 +4 无名者登山 2026-05-20 5/250 2026-05-21 16:35 by swuq
[基金申请] 国自然上会要求 +7 无名者登山 2026-05-18 11/550 2026-05-21 15:50 by draco1987
[基金申请] 提交了我也来说说感想 +9 fummck 2026-05-20 10/500 2026-05-21 14:17 by draco1987
[基金申请] 评审有感 +15 popular289 2026-05-18 26/1300 2026-05-21 10:35 by 西葫芦炒鸡蛋
[论文投稿] Sci. Bull. 悲剧经验 +7 jyang1999 2026-05-16 8/400 2026-05-21 08:50 by 能丫
[考博] 云南大学材料与能源学院解琳课题组钙钛矿博士招生 +4 光伏爱好者 2026-05-17 6/300 2026-05-21 01:37 by 17520222914
[有机交流] 反应很差,大量原料没有反应 5+3 Mr.Zot 2026-05-19 8/400 2026-05-20 22:19 by Equinoxhua
[考博] 如果工作了想读博,可以边工作边读全日制嘛? 30+3 铁达火车 2026-05-18 5/250 2026-05-20 09:33 by tfang
[考博] 博士申请 +5 星…… 2026-05-18 6/300 2026-05-18 23:49 by 糊糊涂涂好
[硕博家园] 我在等一个没有答案的答案 +3 Love_MH 2026-05-17 3/150 2026-05-18 02:22 by 竹林孤影
信息提示
请填处理意见