24小时热门版块排行榜    

Znn3bq.jpeg
查看: 175  |  回复: 0

Blue机器人

新虫 (小有名气)

[交流] 论文解读|机器人如何“懂人心”?刀具削皮与人类偏好对齐研究

BlueRobots上海蓝色萝卜自动化科技有限公司是一家专注于机器人领域的技术型企业,致力于为客户提供高性能硬件和人工智能算法的全套机器人相关软硬件解决方案。公司核心团队成员来自哈尔滨工业大学、上海交通大学等知名院校,以及ABB、Universal Robots等国际机器人公司,拥有十余年的研发制造经验。  BlueRobots在kinova机器人应用领域深耕,提供包括机器人系统集成、机器视觉、灵巧手、六维力传感器等在内的成套解决方案。公司通过先进的控制技术和核心技术驱动,专注于协作机器人的应用开发与市场推广,帮助客户实现工业自动化和智能化转型。  

近日,来自加州大学伯克利分校的研究团队提出了一套系统性学习框架,以刀具削皮为典型场景,首次实现了将机器人细粒度操纵与人类偏好精准对齐,让机器人不仅能完成削皮任务,更能“削得符合人类预期”。本文将基于该团队的研究成果,详细拆解这套框架的核心逻辑、实验设计与关键结论,带大家深入了解机器人如何学会“懂人心”的削皮技能。

参考文献:https://arxiv.org/pdf/2603.03280

一、研究背景与核心痛点

刀具削皮作为典型的细粒度接触类操纵任务,其挑战性主要体现在两个方面,这也是当前机器人操纵领域的普遍瓶颈:

1. 数据收集的“量”与“质”难以平衡:削皮任务对力的感知和动作的精度要求极高,传统数据收集方法(如模型规划、VR遥操作、动觉教学)要么难以生成高质量数据,要么耗时耗力,无法实现规模化采集;

2. 任务质量的“客观”与“主观”难以统一:削皮的成功与否,除了“是否削去表皮”这一客观标准,更依赖人类对削皮厚度、流畅度、食材完整性的主观判断,这种模糊的“人类偏好”难以转化为机器人可学习的奖励信号,导致训练出的政策往往不符合人类预期。

现有研究要么只关注单一食材的削皮可行性,要么忽略人类偏好的影响,无法实现通用、精准且符合人类预期的削皮操作。为此,研究团队提出了“两阶段学习框架”,既解决数据效率问题,又实现与人类偏好的对齐。



二、核心框架:两阶段学习,兼顾通用性与偏好对齐

该框架的核心思路的是:先通过高效的数据收集与模仿学习,训练出一个具备泛化能力的基础削皮政策;再通过基于人类偏好的奖励模型,对基础政策进行微调,使其动作符合人类对“优质削皮”的判断。整个框架分为三个关键模块:系统设计、数据收集与政策训练、偏好对齐微调。

系统设计:为细粒度削皮提供硬件支撑

为实现精准的刀具削皮,研究团队搭建了专属硬件系统,核心组件包括:

1. 执行机构:7自由度Kinova Gen3机械臂,支持力矩控制,可实现柔性操纵,避免因力度过大损伤食材;

2. 感知组件:ATI mini45力-扭矩传感器(采样频率500Hz,实时捕捉刀具与食材的接触力)、两个RealSense D405腕部相机(分别拍摄削皮动作的“前视图”和“后视图”,捕捉刀具与食材的接触细节);

3. 控制策略:基于阻抗控制器的柔性控制,运行频率500Hz,可根据接触力的变化自适应调整动作,确保削皮过程的稳定性。

其中,腕部相机的设计尤为关键——由于削皮方向固定,“前视图”可捕捉刀具与食材接触前的未遮挡区域,“后视图”捕捉接触后的区域,两者结合提供了完整的动作反馈,为政策学习提供了充足的视觉信息。

数据收集与政策训练:高效获取通用削皮技能

数据收集的效率与质量,直接决定了基础政策的泛化能力。研究团队对比了四种数据收集方法,最终选择了“SpaceMouse遥操作”作为核心方式,具体流程如下:

1. 数据收集:人类通过SpaceMouse控制机械臂的6自由度末端姿态,实现削皮动作,同时记录机械臂关节角度、力-扭矩传感器数据、腕部相机的RGBD图像,采样频率10Hz;

2. 数据预处理:对力-扭矩数据进行标准化处理,对RGBD图像进行分割(通过SAM2模型提取刀具和食材的掩码),将彩色图像转换为灰度图(减少纹理干扰,聚焦几何特征);

3. 政策训练:采用扩散政策(Diffusion Policies),以视觉(灰度RGBD图像)、力感知(力-扭矩数据)、本体感知(末端姿态变化)为输入,预测机械臂的动作,实现模仿学习。

实验对比发现,SpaceMouse遥操作相比其他方法(模型规划、VR遥操作、动觉教学),能在保证数据质量的同时,降低收集难度——动觉教学虽快,但数据质量低且复现性差;VR遥操作受跟踪噪声影响,难以达到削皮所需的精度;模型规划则无法应对食材形状、硬度的变化,泛化性极差。

此外,研究团队还通过消融实验,确定了政策训练的关键设计:

① 同时使用两个腕部相机,且“前视图”对政策性能的贡献大于“后视图”(未遮挡的接触区域更具参考价值);

② 必须结合视觉和力感知数据,仅用单一模态会导致政策失效(如仅用力感知,成功率为0);

③ 灰度图输入能显著提升政策的泛化能力,避免被食材纹理干扰。

数据效率方面,研究表明:仅需50条轨迹(约8根黄瓜),黄瓜削皮政策即可达到100%成功率;200条轨迹(约33个土豆),土豆削皮政策可达到80%成功率,证明了该方法的高效性。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 Blue机器人 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[考研] 300分求调剂 (085501机械专硕,本科扬大) +8 xu@841019 2026-04-11 8/400 2026-04-11 10:46 by qingpingzhu
[考研] 342电子信息专硕求调剂 +9 你让我怎么荔枝 2026-04-10 10/500 2026-04-11 08:33 by zhq0425
[考研] 一志愿华南理工大学331分材料求调剂 +9 天下ww 2026-04-09 9/450 2026-04-10 22:58 by Ftglcn90
[考研] 287求调剂 +15 Fnhc 2026-04-07 21/1050 2026-04-10 19:09 by chemisry
[硕博家园] 0856材料化工求调剂,一志愿211,初试成绩349 +5 江淮北月 2026-04-05 5/250 2026-04-10 16:26 by 高维春
[考研] 一志愿211 0703化学 346分求调剂 +22 土豆er? 2026-04-09 23/1150 2026-04-10 10:58 by 高维春
[考研] 一志愿 江南大学 085602 化工专硕 338分求调剂 +16 路痴小琪 2026-04-05 16/800 2026-04-10 08:08 by kangsm
[考研] 一志愿2110,化学学硕310分,本科重点双非求调剂 +18 努力奋斗112 2026-04-08 18/900 2026-04-09 23:28 by wolf97
[考研] 一志愿武理车辆 281 求调剂 +5 上岸研究生. 2026-04-07 5/250 2026-04-09 15:56 by only周
[硕博家园] 有没有学校材料专业收跨调(一志愿085410) +5 momo(上岸版) 2026-04-06 8/400 2026-04-09 15:07 by only周
[考研] 化学工程与技术专业一志愿哈工程 291分B区 国家级大创负责人 有一作论文 +13 Emmy~ 2026-04-09 13/650 2026-04-09 14:47 by only周
[考研] 求调剂 +3 猪肉墩粉条cc 2026-04-08 4/200 2026-04-09 10:05 by 猪肉墩粉条cc
[考研] 材料考研求调剂总分280 +30 mkjlz1 2026-04-06 35/1750 2026-04-08 21:25 by cyh—315
[考研] 材料科学与工程320求调剂,080500 +12 黄瓜味薯片 2026-04-06 12/600 2026-04-08 16:26 by luoyongfeng
[考研] 307求调剂 +14 超级伊昂大王 2026-04-06 14/700 2026-04-08 07:03 by 无际的草原
[考研] 求调剂到材料 +5 程9915 2026-04-06 5/250 2026-04-06 15:21 by yulian1987
[考研] 复试调剂 +5 asdasdassda 2026-04-05 5/250 2026-04-06 09:32 by dongzh2009
[考研] 377求调剂 +6 by.ovo 2026-04-05 6/300 2026-04-05 22:18 by dongzh2009
[考研] 313求调剂 +5 海日海日 2026-04-04 7/350 2026-04-05 13:58 by imissbao
[考研] 男生,一志愿沪9生物学071000,初试308求调剂 +3 刘墨墨 2026-04-04 3/150 2026-04-05 08:26 by barlinike
信息提示
请填处理意见