24小时热门版块排行榜    

Znn3bq.jpeg
查看: 41  |  回复: 0

Blue机器人

新虫 (小有名气)

[交流] 基于概率模型强化学习的多目标仿生灵巧手操控方法研究

灵巧手多目标精细操作过程中建模困难、学习效率低、实体硬件控制适配性差等问题,本文提出一种目标条件概率模型预测控制方法。该方法采用概率神经网络集成建模方式,刻画灵巧手复杂动力学特征,搭配异步控制架构适配实体硬件运行频率,并增加状态平滑约束优化操作稳定性。

本文分别在仿真Shadow灵巧手与国产DexHand 021绳驱灵巧手上完成对比实验。实验结果表明,该算法相比传统强化学习方法收敛速度更快、动作平稳性更高,能够在低成本实体灵巧手上快速完成骰子姿态调控任务。

灵巧手作为机器人末端执行核心部件,凭借多自由度冗余运动能力,可完成抓取、拨动、旋转等精细交互动作,是目前具身智能领域的重点研究方向。传统控制方法依赖人工动力学建模,对接触摩擦、机械间隙、外部扰动适应性较差,难以满足非结构化环境下的多目标操控需求。

强化学习无需精确数学模型,通过环境交互自主优化控制策略,现已广泛应用于灵巧手控制研究。无模型强化学习算法结构简单,但存在采样效率低、训练耗时久、稀疏奖励下难以收敛等问题;基于模型的强化学习能够拟合环境动力学,提升训练效率,却普遍存在模型偏差大、不确定性刻画不足、难以适配实体硬件等缺陷。概率模型预测控制可以量化系统不确定性,具备较强的鲁棒性,适合用于高自由度机械手的连续控制任务。

为解决现有算法在实体灵巧手上收敛慢、抖动明显、控制频率不匹配等问题,本文构建改进型概率模型预测强化学习算法。优化网络结构以适配多目标任务,采用异步线程机制解决硬件延时问题,同时加入平滑约束优化动作输出。本文采用仿真加实体双平台验证,其中实体平台选用国产DexHand 021绳驱灵巧手,该硬件结构精简、成本较低,更贴近工程实际工况,验证结果具备较强实用价值。

一 实验平台介绍
仿真灵巧手平台
本次仿真实验采用Shadow Dexterous Hand标准仿真灵巧手。该灵巧手拥有20个主动自由度,关节排布高度模仿人手结构,能够实现五指独立运动与多关节协同联动。仿真环境包含物体位姿调控、纯姿态旋转、指尖到达等四类操作任务,任务目标随机生成,用于模拟多目标作业场景。仿真观测数据包含关节角度、角速度、物体姿态四元数以及指尖位置,为算法训练提供完整的高维状态信息。该平台是灵巧手智能控制领域通用的算法测试基准。

实体灵巧手平台
实体实验采用国产DexHand 021绳驱仿生灵巧手,硬件整体采用五指仿生结构,包含12个主动自由度与7个被动柔顺自由度,手指运动规律贴合人手生理结构,可完成捏取、拨动、旋转等精细交互动作。灵巧手指尖搭载五路触觉传感器,能够实时采集接触力信息,用于判断接触状态与优化交互力度。外部视觉采用深度相机,结合6D姿态估计算法获取物体空间位置与姿态。

该灵巧手控制频率较低,无独立腕部关节,完全依靠手指协同运动完成姿态调节,同时存在电机误差、绳驱间隙、摩擦时变等工程问题。相较于高自由度仿真灵巧手,DexHand 021成本更低、实用性更强,适合用于验证算法在低成本硬件上的实际落地能力。本文实体任务以骰子为操作对象,完成不同点数朝上的姿态变换实验

二 任务建模与问题定义
强化学习基础模型
将灵巧手操控过程定义为马尔可夫决策过程,智能手根据当前状态输出动作,与环境交互后更新状态并获得奖励。本文采用多神经网络集成方式构建概率动力学模型,结合Dropout采样方式描述系统不确定性,降低单一网络带来的预测偏差。模型预测控制在有限时域内优化累积奖励,通过迭代算法求解最优动作序列,循环执行并不断更新网络参数,实现模型与策略同步优化。

任务与奖励设计
仿真任务包含物体位置姿态联合控制、纯姿态旋转、方块翻转、指尖定点到达四类任务,随机初始化目标参数,测试算法泛化能力。实体任务设定三种骰子姿态,依次训练模型完成不同点数朝上的操控。奖励函数综合位置误差与姿态误差,考虑实体灵巧手位置调节能力较弱,降低位置权重,重点优化物体姿态精度,保证训练过程快速收敛。

三 算法设计
概率神经网络集成优化
为改善多目标任务下数据分布不均、收敛缓慢的问题,本文在网络结构中加入批量归一化层,统一状态与动作的数据尺度。在原有预测损失基础上增加方差约束与正则化项,限制模型预测波动,降低模型不确定性带来的干扰。训练过程随机采样网络粒子,提升模型在未知状态空间中的泛化能力。

异步模型预测控制
概率网络集成计算量大,传统同步控制难以匹配实体硬件运行频率。本文采用异步多线程架构,将模型优化计算与硬件控制分离,提前生成动作序列存入缓冲区,解决算法延时与硬件频率不匹配问题。针对异步控制容易出现动作突变的问题,增设状态平滑约束,限制相邻动作变化幅度,减少手指抖动与物体滑移。

算法运行流程
算法流程分为模型预测、动作执行、数据采集、网络更新四个部分。首先通过概率网络预测系统状态,异步优化得到最优控制序列;灵巧手执行动作并采集关节、触觉、视觉状态数据;结合误差计算奖励并保存样本;批量抽取历史数据迭代更新神经网络,持续优化动力学模型与控制策略。


四 实验结果与分析
仿真实验分析
在四类仿真任务中,本文算法收敛速度明显优于SAC、TD7等无模型算法,同时优于DPETS、PETS等基于模型算法。简单到达任务可快速收敛,复杂姿态调控任务训练曲线平稳,无明显震荡。轨迹对比结果表明,本文算法动作流畅、冗余动作少,能够稳定控制物体完成姿态变换,对比算法普遍存在动作僵硬、物体滑落等问题。

实体实验分析
在DexHand 021实体平台实验中,本文算法可在短时间内完成骰子多姿态学习,奖励曲线稳定上升,具备良好的增量学习能力。基线算法在实体硬件中难以收敛,无法完成稳定操控。灵巧手依靠拇指、中指、环指协同拨动骰子,结合触觉反馈微调接触力度,补偿机械误差。同时实验发现,实体设备存在光照干扰、电机温漂、运动干涉等问题,对视觉检测与控制稳定性造成一定影响。


本文提出一种面向多目标操控的概率模型预测强化学习算法,以Shadow仿真灵巧手与国产DexHand 021绳驱灵巧手为实验平台,完成算法验证与性能分析。算法通过优化概率网络提升建模精度,利用异步结构适配实体硬件,结合平滑约束改善动作稳定性。

基于概率模型强化学习的多目标仿生灵巧手操控方法研究
回复此楼
Blue机器人前沿解读|官方提供灵巧手、Kinova机器人、遥操作方案、高速捕捉相机等,咨询Blue机器人 www.bluerobotics.cn
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 Blue机器人 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见