24小时热门版块排行榜

返回列表

Blue机器人

新虫 (小有名气)

应助: 0 (幼儿园)
金币: 224.5
帖子: 85
在线: 6.9小时
虫号: 36446398
注册: 2025-05-22
专业: 人工智能与知识工程

[交流] 论文解读｜机器人如何“懂人心”？刀具削皮与人类偏好对齐研究

BlueRobots上海蓝色萝卜自动化科技有限公司是一家专注于机器人领域的技术型企业，致力于为客户提供高性能硬件和人工智能算法的全套机器人相关软硬件解决方案。公司核心团队成员来自哈尔滨工业大学、上海交通大学等知名院校，以及ABB、Universal Robots等国际机器人公司，拥有十余年的研发制造经验。 BlueRobots在kinova机器人应用领域深耕，提供包括机器人系统集成、机器视觉、灵巧手、六维力传感器等在内的成套解决方案。公司通过先进的控制技术和核心技术驱动，专注于协作机器人的应用开发与市场推广，帮助客户实现工业自动化和智能化转型。

近日，来自加州大学伯克利分校的研究团队提出了一套系统性学习框架，以刀具削皮为典型场景，首次实现了将机器人细粒度操纵与人类偏好精准对齐，让机器人不仅能完成削皮任务，更能“削得符合人类预期”。本文将基于该团队的研究成果，详细拆解这套框架的核心逻辑、实验设计与关键结论，带大家深入了解机器人如何学会“懂人心”的削皮技能。

参考文献：https://arxiv.org/pdf/2603.03280

一、研究背景与核心痛点

刀具削皮作为典型的细粒度接触类操纵任务，其挑战性主要体现在两个方面，这也是当前机器人操纵领域的普遍瓶颈：

1. 数据收集的“量”与“质”难以平衡：削皮任务对力的感知和动作的精度要求极高，传统数据收集方法（如模型规划、VR遥操作、动觉教学）要么难以生成高质量数据，要么耗时耗力，无法实现规模化采集；

2. 任务质量的“客观”与“主观”难以统一：削皮的成功与否，除了“是否削去表皮”这一客观标准，更依赖人类对削皮厚度、流畅度、食材完整性的主观判断，这种模糊的“人类偏好”难以转化为机器人可学习的奖励信号，导致训练出的政策往往不符合人类预期。

现有研究要么只关注单一食材的削皮可行性，要么忽略人类偏好的影响，无法实现通用、精准且符合人类预期的削皮操作。为此，研究团队提出了“两阶段学习框架”，既解决数据效率问题，又实现与人类偏好的对齐。

二、核心框架：两阶段学习，兼顾通用性与偏好对齐

该框架的核心思路的是：先通过高效的数据收集与模仿学习，训练出一个具备泛化能力的基础削皮政策；再通过基于人类偏好的奖励模型，对基础政策进行微调，使其动作符合人类对“优质削皮”的判断。整个框架分为三个关键模块：系统设计、数据收集与政策训练、偏好对齐微调。

系统设计：为细粒度削皮提供硬件支撑

为实现精准的刀具削皮，研究团队搭建了专属硬件系统，核心组件包括：

1. 执行机构：7自由度Kinova Gen3机械臂，支持力矩控制，可实现柔性操纵，避免因力度过大损伤食材；

2. 感知组件：ATI mini45力-扭矩传感器（采样频率500Hz，实时捕捉刀具与食材的接触力）、两个RealSense D405腕部相机（分别拍摄削皮动作的“前视图”和“后视图”，捕捉刀具与食材的接触细节）；

3. 控制策略：基于阻抗控制器的柔性控制，运行频率500Hz，可根据接触力的变化自适应调整动作，确保削皮过程的稳定性。

其中，腕部相机的设计尤为关键——由于削皮方向固定，“前视图”可捕捉刀具与食材接触前的未遮挡区域，“后视图”捕捉接触后的区域，两者结合提供了完整的动作反馈，为政策学习提供了充足的视觉信息。

数据收集与政策训练：高效获取通用削皮技能

数据收集的效率与质量，直接决定了基础政策的泛化能力。研究团队对比了四种数据收集方法，最终选择了“SpaceMouse遥操作”作为核心方式，具体流程如下：

1. 数据收集：人类通过SpaceMouse控制机械臂的6自由度末端姿态，实现削皮动作，同时记录机械臂关节角度、力-扭矩传感器数据、腕部相机的RGBD图像，采样频率10Hz；

2. 数据预处理：对力-扭矩数据进行标准化处理，对RGBD图像进行分割（通过SAM2模型提取刀具和食材的掩码），将彩色图像转换为灰度图（减少纹理干扰，聚焦几何特征）；

3. 政策训练：采用扩散政策（Diffusion Policies），以视觉（灰度RGBD图像）、力感知（力-扭矩数据）、本体感知（末端姿态变化）为输入，预测机械臂的动作，实现模仿学习。

实验对比发现，SpaceMouse遥操作相比其他方法（模型规划、VR遥操作、动觉教学），能在保证数据质量的同时，降低收集难度——动觉教学虽快，但数据质量低且复现性差；VR遥操作受跟踪噪声影响，难以达到削皮所需的精度；模型规划则无法应对食材形状、硬度的变化，泛化性极差。

此外，研究团队还通过消融实验，确定了政策训练的关键设计：

① 同时使用两个腕部相机，且“前视图”对政策性能的贡献大于“后视图”（未遮挡的接触区域更具参考价值）；

② 必须结合视觉和力感知数据，仅用单一模态会导致政策失效（如仅用力感知，成功率为0）；

③ 灰度图输入能显著提升政策的泛化能力，避免被食材纹理干扰。

数据效率方面，研究表明：仅需50条轨迹（约8根黄瓜），黄瓜削皮政策即可达到100%成功率；200条轨迹（约33个土豆），土豆削皮政策可达到80%成功率，证明了该方法的高效性。

回复此楼

» 猜你喜欢

金属热处理防腐蚀喷雾已经有0人回复
求助低温等离子渗氮已经有0人回复
机械工程论文润色/翻译怎么收费? 已经有162人回复
北京航空航天大学航空发动机研究院2026年暑期学校通知已经有2人回复
Progress in Materials Science 期刊投稿求助已经有2人回复
【征稿通知】2027 IPPTC 国际石油石化技术会议征稿启动已经有0人回复
小木虫没落了，除了祈祷帖子，几乎看不到有价值的帖子已经有19人回复

Blue机器人前沿解读｜官方提供灵巧手、Kinova机器人、遥操作方案、高速捕捉相机等，咨询Blue机器人 www.bluerobotics.cn

1楼 2026-03-18 16:27:06

已阅回复此楼关注TA 给TA发消息送TA红花 TA的回帖

相关版块跳转我要订阅楼主 Blue机器人的主题更新

返回列表