24小时热门版块排行榜    

查看: 31  |  回复: 0

Blue机器人

新虫 (初入文坛)

[交流] 从手势到动作精准映射,KINOVA机械臂解锁高斯混合模型交互新玩法

BlueRobots上海蓝色萝卜自动化科技有限公司是一家专注于机器人领域的技术型企业,致力于为客户提供高性能硬件和人工智能算法的全套机器人相关软硬件解决方案。公司核心团队成员来自哈尔滨工业大学、上海交通大学等知名院校,以及ABB、Universal Robots等国际机器人公司,拥有十余年的研发制造经验。  BlueRobots在kinova机器人应用领域深耕,提供包括机器人系统集成、机器视觉、灵巧手、六维力传感器等在内的成套解决方案。公司通过先进的控制技术和核心技术驱动,专注于协作机器人的应用开发与市场推广,帮助客户实现工业自动化和智能化转型。  

参考文献链接:https://arxiv.org/pdf/2601.12918v1

在现代工业、医疗、农业等众多领域,机器人的应用愈发广泛。这些场景往往需要高精度、重复性的劳动,而机器人凭借精准、不知疲倦的优势,成为人类的得力助手。在人机协作过程中,高效的交互方式至关重要,手势作为一种自然、直观的沟通手段,被广泛应用于机器人控制领域。本文提出了一种基于高斯混合模型(GMM)的动态手势识别方法,旨在实现人类与 KINOVA 机械臂的无缝交互,让机械臂能够精准响应手势指令,完成各类指定任务。

研究背景与挑战

手势识别技术通过传感器捕捉人体手部的动态动作,识别特定模式并推断意图,无需物理接触或传统输入设备,为人机交互提供了更自然的方式。然而,在机器人操作任务中,手势识别面临着诸多挑战:一是要精准捕捉复杂的手部动作,保证识别的精度和准确性;二是不同个体的手势存在差异,且手势受场景上下文影响较大,需解决这种变异性和上下文敏感性问题;三是动态环境下,必须具备高效的实时处理能力,确保手势能够被快速准确解读,从而让机器人及时响应。

现有部分手势识别方法采用深度学习模型,但这类方法往往需要大量的训练数据和较长的训练时间,极大地影响了识别效率。相比之下,传统机器学习算法具有计算成本适中的优势,若能合理运用,有望在保证识别精度的同时,提升实时处理性能。高斯混合模型作为一种经典的机器学习模型,假设数据由多个高斯分布组合生成,能够有效处理具有重叠类别的动态数据,非常适合用于手势识别任务。

系统设计与实现

硬件与软件配置

本研究选用 KINOVA Gen3 7 自由度机械臂作为核心执行设备,其顶部搭载了 Intel RealSense Depth Module D410 视觉传感器,可实时采集手势视频数据。计算方面,采用了配备 GeForce GT-710 GPU(时钟频率 954 MHz)和 32GB 内存的设备,以保障算法运行效率。软件上,基于机器人操作系统(ROS)实现机械臂的控制与交互,通过在主机上安装 Kortex 驱动,借助 Python 3.10 在 Visual Studio 中完成算法的编写与实现。

手势识别方法论

整个手势识别与任务执行流程主要分为三个部分:系统设置、手势录制与预处理、手势识别。

在系统设置阶段,除了完成硬件的组装与软件的部署,还定义了四种与机器人任务对应的动态手势,分别是挥手(wave)、拾取(pick)、堆叠(stack)和推动(push),每种手势对应一项特定的机械臂操作任务。

手势录制与预处理环节是后续识别的基础。首先,采集时长为 5 秒的手势视频,每段视频会被转换为150帧图像。由于图像帧中包含背景等无关信息,需通过基于区域的分割算法剔除手部以外的实体。随后,利用 3D 梯度直方图(HOG3D)算法对分割后的帧进行处理,提取手势特征并降低数据维度,去除噪声和光照影响,提升计算效率。该过程能够捕捉到手掌和手指上 21 个标志点在 x、y、z 三个方向的位置信息及运动轨迹。

手势识别是核心环节,基于高斯混合模型展开。首先,计算每个标志点在所有帧中的方差,从每段视频中得到一个 21×3 维度的特征矩阵(21 个标志点,每个点包含 x、y、z 三个方向的方差特征)。接着,将这些特征矩阵用于 GMM 模型的训练,模型的高斯分布数量根据任务对应的手势种类进行初始化。训练过程中,通过期望最大化(EM)算法不断更新模型参数(均值、协方差、混合权重系数),直至模型收敛。对于新的手势实例,根据其在责任矩阵中的最大概率进行分类,从而确定对应的手势类型。图片

为了评估模型性能,采用轮廓系数(Silhouette score)作为评价指标,该指标取值范围在 - 1 到 1 之间,数值越高表明手势聚类效果越好,即模型对不同手势的区分能力越强。


1.实验数据与过程

实验中,针对四种手势分别录制了 20 段视频,共 80 段(每段 5 秒),所有视频转换为图像帧后,提取的特征数据被整理为 CSV 文件用于模型训练。训练完成后,通过实时采集 50 名不同人员的手势视频进行测试,验证模型的识别效果和泛化能力。

2.实验结果

训练结果显示,该模型能够有效对不同手势的特征数据进行聚类,训练前特征数据杂乱无章、无法区分手势类型,训练后各手势数据被准确划分到对应的聚类中。测试阶段,机械臂能够根据识别出的手势准确执行相应任务:挥手手势对应机械臂的初始化动作,拾取手势控制机械臂抓取物体,堆叠手势指导机械臂将物体堆叠在箱子上,推动手势则让机械臂完成物体的推送操作。

数据统计表明,该模型的帧检测时间为 0.33 秒,实时处理性能良好。在对 50 名测试者的手势识别中,准确率达到了 94%-96%(50 次测试中准确识别 48 次)。轮廓系数测试结果显示,本模型的得分优于基于 K 均值聚类和支持向量机的手势识别方法,证明了该模型在手势聚类和识别方面的优越性。

结论与未来展望

本研究提出了一种基于高斯混合模型的动态手势识别方法,并成功应用于 KINOVA Gen3 机械臂的任务控制中。该方法采用传统机器学习算法,有效降低了计算成本和数据需求,同时保证了较高的识别精度和实时处理能力,实现了人类与机器人的自然、高效交互。实验结果验证了该方法论的可行性和优越性,为机器人手势控制领域提供了一种新的有效解决方案。
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 Blue机器人 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见