跳转到主要内容

原始研究的文章

前面。机器人。人工智能,2023年7月12日
秒。柔软的机器人
卷10 - 2023 | https://doi.org/10.3389/frobt.2023.1066518

课程强调学习的仿真平台tendon-driven高度自由的欠驱动机械手

  • 1明治大学科学与技术学院、日本川崎重工
  • 2研究生院信息科学与技术、东京大学、东京,日本
  • 3立命馆大学,信息科学与工程学院志贺,日本

高自由度(自由度)好处操纵者通过展示各种姿势,当达到一个目标。使用tendon-driven系统驱动结构可以提供灵活性和减肥这样的操纵者。这样一个综合系统的设计和控制具有挑战性由于其复杂的架构和建模的困难。在我们之前的研究中,我们开发了一个tendon-driven, high-DOF欠驱动机械手的启发从鸵鸟脖子称为Robostrich手臂。本研究特别关注的控制问题和仿真发展这样一个tendon-driven high-DOF欠驱动机械手。我们提出了一个课程式强化学习方法。灵感来自于人类的学习,发展从简单到复杂的任务,Robostrich臂可以获得操纵能力的逐步强化学习从简单的位置控制任务实际应用任务。此外,开发一种方法来模拟tendon-driven操纵复杂的结构。结果表明,Robostrich手臂可以同时不断达到各种目标和维持其提示在所需的方向安装在移动平台在扰动的存在。这些结果表明,我们的系统可以实现灵活的操纵能力,即使提出了振动运动。

1介绍

机械手与冗余自由度(自由度)有利于代表各种姿势的末端执行器达到一个特定的位置和姿态(Chirikjian和Burdick 1994;Tatlicioglu et al ., 2009;鲍尔et al ., 2012)。这个特性的特征是向更高的贡献额外的关节灵活性的室内工作区,障碍场景(通常被认为是一个解决方案龚et al ., 2016;徐et al ., 2019)。然而,致动器的数量的增加这种冗余关节沿手臂会导致体重的增加。这增加能源消耗、安全、和翻倒的问题时,机械手安装在移动平台。使用数学模型关节tendon-driven系统被认为是解决这些问题(钟et al ., 1998),好处,如(1)提供灵活的操作,(2)减少手臂的重量,和(3)将机械手的质心接近移动平台。在我们的以前的工作中,我们提出了一个tendon-driven high-DOF欠驱动机械手的脊柱鸵鸟的启发,称为Robostrich臂(Mochiyama et al ., 2022)。然而,这样一个复杂系统的逆运动学过于复杂被充分认识。这将导致难以控制Robostrich手臂使用传统的基于模型的控制方法,即使是简单的任务。

最近,研究人员强化学习应用于机械手的任务。强化学习是一种trial-and-error-based方法,允许一个代理来自动获取技能与环境互动,因此经常有效的操作任务。在这些任务中,达到的主体研究的结合冗余手臂和强化学习。森本晃司等人添加了一个负载手臂到达棒(森本晃司et al ., 2021),Satheeshankar等人研究了冗余机械手,可以实现多个目标点(Satheeshbabu et al ., 2020)。然而,tendon-driven机械手的运动常常是一个复杂的非线性时变系统,这是难以实现简单地使用强化学习方法。在这种复杂的场景,设计先进的强化学习技术是具有挑战性的复杂的操作任务。在这项研究中,我们旨在解决上述问题设计和控制问题。

灵感来自这样一个事实,人类和动物的学习过程通常遵循由易到难的顺序,我们专注于课程学习(的概念Bengio et al ., 2009)。与不加选择的机器学习的一般范式相比,课程学习模仿人类学习的过程中,提倡,简单的模型应该开始学习样本,逐步发展到复杂的样品和知识,进一步显示了两个学习的优势。首先,它可以加快训练机器学习模型;条件下,达到相同的模型性能,课程学习可以加快训练和减少训练迭代步骤。第二个优势是,模型可以获得更好的泛化性能,也就是说,模型可以训练一个更好的局部最优状态。

另一方面,构建模拟常常福利研究人员设计机器人,帮助确定机器人的运动和训练它。软件如露台,CoppeliaSim(以前V-Rep),关节动力学接触(MuJoCo),和Matlab被用来模拟一个机器人在许多研究(肖et al ., 2017;黄et al ., 2020;Shahid et al ., 2021;Rooban et al ., 2022)。然而,相比传统机械手直接电机驱动的关节,肌腱和关节之间的关系变化必须仔细考虑。

本研究特别关注控制和仿真问题tendon-driven high-DOF欠驱动机械手。课程强调学习框架提出了控制一个复杂的机械手来完成复杂的操作任务。此外,一种方法是写给模拟tendon-driven压缩系统的培训环境。我们首先确认tendon-driven操纵者利用发达的运动模拟器。接下来,工作区Robostrich手臂的调查。同时控制位置和姿态是一项具有挑战性的任务这么high-DOF欠驱动机械手,特别是当机械手tendon-driven系统组成。我们比较建议的学习方法与传统软Actor-Critic (SAC)学习达到任务使用Robostrich手臂。因此,两个应用程序的任务进行了调查方法的鲁棒性的存在噪声,这是由运动引起的移动基地,提供与环境的交互:(1)稳定技巧运动在走;(2)跟踪一组sub-target位置通过一条狭窄的差距,达到最终的目标位置。

本研究的贡献如下。

•课程强调学习方法提出了学习一课的定义取决于复杂性。这些经验使机械手与复杂结构逐步过程从简单到更复杂的任务。

•模拟器开发利用MuJoCo tendon-driven欠研究,可用于tendon-driven系统的结构过于复杂,无法精确建模。

•我们将演示通过模拟复杂的机械手可以完成复杂的任务,即使在扰动时,机械手安装在移动平台。

本文的其余部分组织如下。在第二节、相关作品。第三节介绍了拟议的框架课程强调学习的定义和相应的教训。第四节描述了模拟环境、实验设置和调查Robostrich手臂运动的属性。第五节介绍了该学习方法的仿真结果。第六节给出了结论和未来的工作。

2相关的工作

2.1与强化学习课程

课程学习是广泛应用于机器学习框架,特别是在处理图像或自然语言处理任务,那里的研究人员经常训练和简单的样品开始发展到复杂的。例如,(穆萨维et al ., 2022),设计了一种深刻的课程学习方法的偏振合成孔径雷达图像的分类的顺序容易硬,补丁复杂性评价的标准,并取得更好的准确性比方法,考虑在一个随机样本在训练。(徐et al ., 2020),提出了一种方法能够区分简单的例子和困难的,和安排课程的语言模型,通过回顾训练集交叉。在机器人的应用,研究人员更专注于应用课程学习的生成子目标对传统僵化的操纵者。例如,(Kilinc和蒙大纳州,2020年),训练有素的7自由度获取机器人的位置与中介想象的课程目标定位任务导致学习成功率很高。周et al。(2021)克服障碍也训练一个工业机器人,一般大小的增加障碍。门多萨调查6自由度机械手与q学习的课程,如移动关节,关节速度,或者最初的机器人配置(迭戈门多萨,2017)。这些研究了机械手的关节直接驱动相应的执行器没有任何驱动,和相关的研究往往局限于简单的任务,如不考虑方向。相比之下,本研究特别关注更复杂的机械手的结构和复杂的任务,对位置和方向控制的tendon-driven high-DOF欠驱动机械手。

2.2模拟tendon-driven操纵者

模拟tendon-driven机器人系统,传统方法通常关注构造一个数学模型来模拟肌腱力量/长度映射到关节转矩/角,并应用这些模型生成机器人的运动。例如,g . Borghesan等人报道的发展tendon-driven仿真机器人手指,手指的关节力矩模型由映射肌腱力量(Borghesan et al ., 2010);Okoli等人开发了一个cable-driven并联机器人仿真、机器人的研究通过移动一个对象使用肌腱。肌腱长度变化和对象变化映射使用雅可比矩阵(Okoli et al ., 2019)。Ko tendon-driven爪,构造手模型使用肌腱张力和关节力矩之间的关系(Ko, 2020)。这些mathematical-based方法通常不适合复杂的机械手结构,(1)当一些自由度欠驱动或关节和肌腱之间的关系不是一一对应,通常很难找到这样的数学关系;(2)肌腱和链接之间的联系往往是变化的根据不同的姿势,这些接触影响机械手驱动。因此,一个数学模范自由方法有利于模拟tendon-driven欠驱动机械手。

2.3之前的作品Robostrich手臂

Robostrich臂设计重点是鸵鸟的颈背腹侧的运动来表示在矢状面颈部运动(甜点et al ., 2022)。Robostrich臂包括18刚性与被动旋转关节,这类似于真正的鸵鸟椎骨的数量。的平均长度的链接设计根据早先的解剖报告真正的鸵鸟和链接的大小比例到75% (Dzemski和基督教,2007年)。此外,关节的活动范围是根据实际测量的灵活性决定鸵鸟在早期的研究中。表1列表的参数Robostrich的胳膊,图1一个显示了Robostrich手臂原型。链接Robostrich手臂被数的C2 C18,为了从颅尾相对应的鸵鸟脊椎的一部分。C2表示链接是最接近阿特拉斯(头)。中的链接的长度表1被定义为相邻的转动关节轴之间的距离在相应的链接。群众在表1群众的骨头,阿特拉斯质量包括嘴部分的质量。

表1
www.雷竞技rebatfrontiersin.org

表1。参数Robostrich手臂。C2 C18和编号的链接数从颅侧尾侧(见图1 b)。C2表示链接是最接近阿特拉斯(头)。长度是指相邻的转动关节轴之间的距离在相应的链接。

图1
www.雷竞技rebatfrontiersin.org

图1。装配式Robostrich臂和腱配置在模拟。(一)装配式Robostrich臂。(B)腱配置Roborstich臂的仿真。

在我们之前的研究中,两个直流电机是用于连接四个肌腱开动Robostrich臂,和一个简单的前馈策略被用来控制机械手。初步结果表明,抬头运动成功只有当整个手臂在酒吧形状保持旋转。然而,运动使用此策略限制high-DOF机械手的灵活性。我们认为上述问题引起的丢失的模型来测试它的运动和控制。然而,构建这样一个复杂系统的数学模型是费力而其参数不灵活多变,如惯性力矩和肌腱附件位置。因此,我们使用一个课程强调学习旨在解决上述问题的方法。

3 Curriculum-SAC学习

介绍一种新颖的基于强化学习的方法操作复杂的机械手,可以学习的任务。我们采用了一个架构基于囊强化学习(Haarnoja et al ., 2018)和课程学习(Bengio et al ., 2009)。在我们的任务,囊之间实现最佳性能一般的强化学习方法,如图所示补充材料。神经网络策略使用强化学习训练仿真环境中获得更高的回报。

3.1软Actor-Critic

传统强化学习算法的学习目标是学习的奖励政策,最大化的轨迹。

π * = 参数 马克斯 t E 年代 t , 一个 t ρ π r 年代 t , 一个 t ( 1 )

在哪里ρπ(年代t|一个t)表示政府行动不着边际的轨迹分布引起的政策π(一个t|年代t)。在囊,最大熵强化学习算法的目标是学习政策考虑最大化不仅轨迹的回报,而且每个状态的熵值,即:

π * = 参数 马克斯 t E 年代 t , 一个 t ρ π r 年代 t , 一个 t + α H π * | 年代 t ( 2 )

在哪里 H 表示熵的项α表示温度参数,确定奖励和熵之间的相对重要性。一般来说,熵的V函数被称为软V函数。

V π 年代 t = E 一个 t ρ π 年代 t , 一个 t 日志 π 一个 t | 年代 t ( 3 )

和Q函数被定义为运算符Tπ:

T π 年代 t | 一个 t = r 年代 t , 一个 t + γ E 年代 t + 1 p V 年代 t + 1 ( 4 )

然后,我们使用软政策评估,k+ 1=Tπk,0=年代×一个R、|一个| <,在那里k,k收敛于一个软Q值。因为收敛的k、政策π也收敛于最优政策π∗当|一个| <

囊接近上述公式和使用三个参数φ,θ,ϕ参数化V Qπ和更新φ,θ,ϕ分别在每一步。这个技巧后,我们定义以下目的:

J V φ = E 年代 t D 1 2 V φ 年代 t E 一个 t π ϕ θ 年代 t , 一个 t 日志 π ϕ 一个 t | 年代 t 2 ( 5 )

软Q-function用于最小化软传达员剩余如下:

J θ = E 年代 t , 一个 t D 1 2 θ 年代 t , 一个 t r 年代 t , 一个 t + γ E 年代 t + 1 p V φ ̄ 年代 t + 1 2 ( 6 )

D表示重播缓冲区,γ表示贴现因子。在实践中,(藤本et al ., 2018)使用2 Q函数θ1θ2。的目标函数,通过最小化策略更新如下:

J π ϕ = E 年代 t D , ε t N α 日志 π ϕ 一个 t | 年代 t θ 年代 t | 一个 t ( 7 )

在哪里ɛ表示输入高斯分布的噪声采样N。

温度参数α影响政策的探索能力。我们的目标是实现一个灵活的策略的探索通过动态自动调整使用以下优化功能:

J α = E 一个 t π t α 日志 π t 一个 t | 年代 t α H ( 8 )

3.2课程学习

我们设计了一个课程课程通过调整奖励功能,初始状态,强化学习和环境设置,这样代理终于可以学习操作任务和从传统囊方法提高性能。

在第一课,奖励函数定义如下:

r 1 = p p 欲望 > d ( 9 )

在那里,pp欲望表示当前和预期的头部位置,分别d表示错误的宽容头的位置。在这节课中,代理将学习策略达到所需的位置没有考虑头部的姿态角。

在接下来的课程,所有的奖励功能都是一样的但有不同的初始状态或环境设置。

r 2 = λ 1 p p 欲望 > d λ 2 θ θ 欲望 > α r 一个 2 = λ 3 p p 欲望 | λ 4 θ θ 欲望 r 2 = r 2 + r 一个 2 ( 10 )

在哪里θθ欲望表示当前和预期的态度头部的角度,分别。重量λ确定的位置和姿态的重要性在奖励功能。在这节课中,我们有意代理学习更困难的政策,这样就可以达到所需的某些姿态角的位置。特别是,在第二节课中,代理开始学习在每集一个固定的初始状态,预计将学习更困难的政策与设置位置和姿态。在第三节课中,我们让代理开始学习使用最后一集的最后的状态作为初始状态,这样代理能够继续在州。

在前三课,我们打算代理获取基本的操作能力,不断跟踪一组目标位置与特定的方向。在实际使用场景,操纵者往往结合移动平台的广泛应用程序(奥斯曼et al ., 2020)。与静止的情况下,在这样的场景中,应该学习环境的影响,如扰动。因此,我们引入了一个后续课旨在允许代理获得先进的对环境的反应能力。换句话说,训练环境修改一个机械手,安装在一个移动平台。

3.3课程强化学习框架

最终的算法所示算法1。之间的交替方法收集经验与当前的政策环境和更新函数近似者在课程设置的顺序使用随机梯度从批次抽样重演池。在我们的课程设置,每个任务的下一个任务是一个次优的解决方案;因此,它可以帮助代理产生的作用最大化最终任务的性能。

算法1。软Actor-Critic课程。

输入:θ1,θ2,ϕ

1:θ1θ1,θ2θ2

2: D

3:每一堂课

4:每一次迭代

5:每个环境的步骤

6: 一个 t π ϕ 一个 t | 年代 t

7: 年代 t + 1 p 年代 t + 1 | 年代 t , 一个 t

8: D D 年代 t , 一个 t , r 年代 t , 一个 t , 年代 t + 1

9:结束

10:每个梯度步骤

11: θ θ λ ̂ θ J θ ∈{1,2}

12: ϕ ϕ λ π ̂ ϕ J π ( ϕ )

13: α α λ ̂ α J ( α )

14: θ ̄ τ θ + ( 1 τ ) θ ̄ ∈{1,2}

15:结束

16:结束

17日结束

输出:θ1,θ2,ϕ

在哪里θ1,θ2,ϕ参数进行优化,D表示重播缓冲区,λ是一个参数的随机梯度方法,π,一个,年代介绍了3.1节

4仿真平台

本节描述Robostrich臂的仿真环境。在此基础上,两个设置准备培训。此外,Robostrich手臂的运动测试通过手动控制肌腱在模拟输入。之后,工作区Robostrich手臂的调查。

4.1模拟环境的Robostrich手臂

我们使用MuJoCo (托多罗夫et al ., 2012)OpenAI健身房工具包(布鲁克曼et al ., 2016)模拟Robostrich手臂。创建的组装模型Robostrich手臂在MuJoCo使用CAD软件和渲染。Robostrich臂的参数,如联合限制和质量的链接,是手动编辑根据表1。附件的肌腱被定义网站和被分配通过预定义的线贯通孔(见链接图1)。我们定义了通用驱动器属性和分配他们行动的肌腱。因此,对执行机构的控制可以产生相应的肌腱收缩,从而导致机械手的驱动。在这项研究中,我们将鸵鸟的腹侧的肌肉(Cobley et al ., 2013)和修改肌腱安排从我们以前的工作(见图1 b)。

4.2实验装置

Robostrich臂的性能评价与课程强调学习,两种情况被认为是:(1)Robostrich是安装在一个固定的框架;(2)Robostrich是安装在一个商用四足机器人(A1;Unitree机器人技术,中国)。

在第一个情况,我们专注于一个固定的情况下,Robostrich手臂的位置基本没有改变,和Robostrich臂和课程强调学习的性质进行调查而不受干扰影响的基础。在第二的情况下,产生的振动是走四足机器人作为噪声的机械手,我们调查了影响性能。在这两种情况下,步伐是设置为0.008秒。图2显示这两个设置,表2列出相应的操作和观察空间。总结如表2总规模的行动空间在这两种环境中都是相同的,然而,他们总观察空间维度不同。额外的维度是由于四足机器人的运动。特别是,有四足的机器人的行走模式是由一组电机数据获得真正的A1行走任务的机器人。

图2
www.雷竞技rebatfrontiersin.org

图2。环境设置。(一)Robostrich手臂固定框架上。(B)Robostrich手臂移动平台上。

表2
www.雷竞技rebatfrontiersin.org

表2。行动和观察空间的仿真环境。

在训练阶段,目标职位被随机取样的工作区Robotstrich手臂。代理是此后训练遵循描述课程学习过程。在这些政策中,位置和定向误差公差为±0.05±5°,分别。培训后,所有实验使用学习策略进行评估。测试目标是根据操作任务的要求,选择和期望姿态角的Robostrich头被设置为90°的全球坐标系统。这意味着Robostrich头被维护的方向平行于地面实验中(见图2 b)。

4.3运动Robostrich臂仿真测试

滚动和杠杆模式是两个代表性鸟类颈部系统的运动模式,可以发现在喂养或啄。滚动模式大致可以描述为过渡椎骨的喙的循环,导致改变颅颈部区域的长度,可以在一定程度上保持“酒吧”形状(van der Leeuw et al ., 2001)。这导致头部的方向可以保持在其位置运动。连续旋转,而是杠杆模式特点是同步旋转的喙的循环,和酒吧的尾循环变化之间的角度在颈部运动,导致尾循环期间扩大头伸长(概念说明图3)。指的是(Nakano et al ., 2022)轧制和杠杆模式被用来测试tendon-driven机械手的运动;因此,我们选择这两个动作来测试我们的仿真环境。我们以前提出的控制方法(Nakano et al ., 2023)手动控制的收缩腹侧肌腱时保持背腱长度。实验是使用固定Robostrich手臂环境进行的。图4,5显示肌腱的输入,方向,和相应的轨迹样本。可以观察到的运动模式是合理的仿真。

图3
www.雷竞技rebatfrontiersin.org

图3。鸵鸟的运动模式。(一)鸵鸟的滚动模式。(B)杆的鸵鸟模式。

图4
www.雷竞技rebatfrontiersin.org

图4。滚动模式Robostrich手臂的运动在一个固定框架。(一)腱滚动投入模式。(B)姿态角的滚动模式。

图5
www.雷竞技rebatfrontiersin.org

图5。杆运动Robostrich手臂在一个固定的框架模式。(一)跟腱杠杆投入模式。(B)姿态角的杠杆模式。(C)轨迹Robostrich手臂在杠杆模式。

4.4工作区Robostrich手臂

证实了运动后,我们决定Robostrich手臂的可行区域,以确保目标位置选择的工作区Robostrich手臂。我们随机抽样的关节角的共同限制Robostrich手臂并绘制相应的主管职位。图6显示的理论工作空间Robostrich手臂。黑色的点表示C18链之间的关节位置和框架,和红色的范围显示了Robostrich头的面积可以达到不考虑方向。蓝色的范围显示的位置头部姿态角头可以达到90°±5°。这意味着如果目标位置被选中蓝色的距离,Robostrich的手臂可以维持大约在头部运动与地面平行。

图6
www.雷竞技rebatfrontiersin.org

图6。工作区Robostrich手臂的抽样关节角。

5实验curriculum-SAC学习

在最后一节,简单的动作是由手动控制肌腱进行测试。为了实现更复杂的操作任务,Robostrich手臂被训练使用Curriculum-SAC学习方法。在第一个实验中,本节中,我们评估的性能在静止的情况下学习方法。此外,我们进一步研究了学习方法与应用场景噪声的存在补充材料)。

5.1实验固定框架

在这个实验中,我们的目标任务Robostrich头部跟踪一组所需的位置,同时保持与地面水平。Robostrich手臂被训练使用课程强化学习在前一节中提到的,和目标职位是任意选择蓝色的距离图6;因此,机械手理论上能够实现所需的位置和姿态(头部的姿态角的定义图2 b)。我们比较建议的学习方法与前囊强化学习方法(Haarnoja et al ., 2018),算法的性能评估在140 e6步骤,因为他们逼近渐近性能在我们的环境中。实验的任务是按顺序达到三个目标职位所需的方向。图7显示了头轨迹Robostrich手臂使用Curriculum-SAC学习模型。图7罪犯表明这两个算法的比较关于学习曲线,头部的位置误差,分别和头部方向。

图7
www.雷竞技rebatfrontiersin.org

图7。与curriculum-SAC达成任务学习的结果。(一)头轨迹Curriculum-SAC学习学习。(B)学习曲线。(C)位置错误。(D)态度的角度。

根据强化学习的奖励功能,代理在运动优化角和位置精度。结果表明,no-curriculum囊,代理展品更好的角精度,但糟糕的位置精度。学习的课程囊允许代理的政策优化通过pre-course位置精度,并在此基础上,下一个课程是学习,这样的位置和角度精度都是在一个合理的范围内。

5.2实验移动框架

5.2.1头稳定任务

产生的振动通常是移动平台的运动,导致一定程度的噪音控制的移动机械手。在这个实验中,四足机器人用于生成振动通过控制它,向前走;因此Robostrich臂振实取决于四足机器人的步态。使用head-stabilizing Curriculum-SAC学习表现评估任务在散步。此外,各种树干高度设置在行走调查在这个任务控制器的鲁棒性。在这个场景中,行走步态和各种树干高度协作导致Robostrich臂的振动。在这种情况下,Robostrich臂必须同时控制头的位置和姿态。因此,控制这样一个high-DOF tendon-driven欠驱动机械手是具有挑战性的。头部稳定任务,同时代理被分配到:(1)以恒定的高度保持头在地上;(2)保持头的姿态角接近期望的方向; and (3) maintain constant distance between the A1 trunk and the head of the Robostrich in the walking direction (Pd图2 b)。pre-trained代理在训练阶段,使用相同的前三课的训练步骤与前面的实验时,站在四足动物平台。随后,一个额外的400 e6培训步骤进行行走的四足动物平台。

图8显示的移动代理在实验期间,和相应的结果所示图9。比较的位置Robostrich前往A1树干,很显然,A1干振实在走路,但可以找到一个稳定的位置在Robostrich头即使A1树干的高度变化(第500和750之间的步伐,第1000和1250之间的步伐,图9)。此外,Robostrich头的速度降低。这意味着该方法是健壮的反对对移动通信基站产生的噪声振动。虽然图9 c显示一定程度的振荡之间的距离Robostrich头和A1主干方向行走,波峰和波谷的平均值近似理想的距离。此外,的结果图9 d证实Robostrich臂学会控制它的头方向接近理想的姿态角,尽管运动期间A1树干高度的变化。

图8
www.雷竞技rebatfrontiersin.org

图8。“头稳定任务”序列。

图9
www.雷竞技rebatfrontiersin.org

图9。头稳定任务的仿真结果。(一)头部和躯干的位置z方向。(B)头部和躯干速度z方向。(C)距离的躯干和头部的方向走。(D)头部的姿态角。

5.2.2达到任务在狭窄的空间

避免障碍而达成目标冗余机械手的位置是一个有用的特性。一个实验是在一个场景,进行移动Robostrich手臂穿过一个狭窄的差距,达到一个目标位置顶部的差距。为传统的操纵者,这是一个艰巨的任务,但额外的自由度帮助Robostrich臂完成这样一个具有挑战性的任务。

这个场景的设置了图10。在此达成任务,四足动物平台被分配到走向狭窄的差距,和被分配到达到目标6(中定义图10)。因为差距阻碍Robostrich手臂直接到达目标点,手臂必须将它的头底部的差距。随后,手臂必须抬起它的头垂直穿过缺口。这个动作可以实现连续控制机械手跟踪一组预定义的subtargets。与前面的实验中,代理被训练使用前三个教训和140 e第四课6+ 400 e6培训步骤,这与站立和行走的情况。

图10
www.雷竞技rebatfrontiersin.org

图10。实验设置“达到任务在狭窄的空间”。

图11在实验中显示了机器人的运动,和相应的轨迹所示图12。结果表明,Robostrich头大约可以追踪的目标所需的顺序(从目标1 - 6),和Robostrich手臂垂直能提高它的头穿过狭窄的差距,最后达到目标6顶部的差距。位置误差和姿态角在实验中所示图12 b、C,分别。我们发现位置误差增加当目标位置改变,因为位置不同的目标增加了。我们还发现这样的一个错误可以立即恢复。虽然我们获得高定位错误几分钟后,系统迅速恢复,和取向是保持在90°±5°,满足我们的错误容忍设置在强化学习策略。这些结果验证该代理可以操作在一个狭窄的空间,这对于实际的机器人非常有用的应用程序。

图11
www.雷竞技rebatfrontiersin.org

图11。“达到任务序列在狭窄的空间”。

图12
www.雷竞技rebatfrontiersin.org

图12。仿真结果达到任务在狭窄的空间。(一)轨迹Robostrich头。(B)头部的位置误差。(C)头部的姿态角。

6结论和未来的工作

我们旨在开发ostrich-inspired机械手实现灵巧操作和灵活性。一个tendon-driven high-DOF欠驱动机械手之前介绍了脊柱的启发,一个真正的鸵鸟的脖子,称为Robostrich手臂。在这项研究中,我们提出了一个课程强化学习框架,逐步使Robostrich臂过程从简单到更复杂的任务。四个强化学习课程是根据其定义的复杂性。这些课程也可以解释为课程学习基本操作能力,为特定任务获得先进的知识。手动控制实验进行确认Robostrich手臂的运动可以在仿真环境中合理代表。培训在实验中,我们比较Curriculum-SAC学习与传统囊学习和发现学习方法提出有效提高位置控制的准确性和轻微下降,定向控制的性能。然而,建议的方法的总回报高于传统的囊学习。最后,我们研究了Curriculum-SAC学习存在噪声的性能Robostrich臂,安装在一个四足动物平台。仿真结果表明Robostrich臂可以在步行和稳定其头部动作灵活地通过窄隙达到目标位置,尽管提出了扰动运动。 These results demonstrated the feasibility of curriculum-reinforcement learning for extended applications. Although the Robostrich arm was the focus of this study, our proposed learning method is also suitable for other complicated manipulator systems. In particular, more complex manipulation tasks can be trained by adding additional lessons.

在这项研究中,早期的演示这种方法仅限于仿真环境,不是现实世界的真实展现。一些参数应该进一步调整根据实际机器人属性,如摩擦系数、致动器增益,或传感器的选择。现实世界的桥梁和转移学习政策模拟,一些Sim2Real技术可能有助于实现我们的方法在实际Robostrich手臂,如:域随机随机摩擦和阻尼参数在仿真或添加噪声联合测量(托宾et al ., 2017);领域适应传输特性从源到目标领域鼓励代理采取类似的行为在实际环境中(global et al ., 2016);模仿学习的政策鼓励代理学习真正的机器人利用模拟的专家政策的结果,而不是直接应用(燕et al ., 2017)。此外,只有一个腱配置测试实验;之间的比较各种腱配置,模拟和真实的机器人在未来应该系统地调查。对于学习方法,虽然在这项研究中,提出了两个应用程序任务的数量仍然有限的任务;因此,验证与广泛的任务是必要的。此外,有必要澄清网络属性,如(1)控制精度分布的影响因素,如职位在工作区中,和(2)控制精度和各种因素之间的关系,如各种机械手的姿势,不同类型的噪声,或观察。

数据可用性声明

原始数据支持了本文的结论将由作者提供,没有过度的预订。

作者的贡献

KO开发环境平台,进行了实验,导致文稿写作。千瓦发展学习框架,进行了实验和写作了手稿。KN、MI和马提供专家建议和协助。YK RN和监督和管理该项目。所有作者的文章和批准提交的版本。

资金

这项工作是支持的jsp KAKENHI格兰特JP18H05466和JP20K19890数量。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frobt.2023.1066518/full补充材料

引用

鲍尔,J。,Pfaff, J., Ulbrich, H., and Villgrattner, T. (2012). “Design and development of a redundant modular multipurpose agricultural manipulator,” in2012年IEEE / ASME国际会议上先进的智能机电一体化(AIM),高雄,台湾,2012年7月11 - 14号(IEEE),823 - 830。doi: 10.1109 / AIM.2012.6265928

CrossRef全文|谷歌学术搜索

Bengio Y。,Louradour, J., Collobert, R., and Weston, J. (2009). “Curriculum learning,” in学报》第26届国际会议上机器学习(纽约,纽约,美国:计算机协会),41-48。doi: 10.1145/1553374.1553380

CrossRef全文|谷歌学术搜索

Borghesan G。Palli, G。,Melchiorri, C. (2010). “Design of tendon-driven robotic fingers: Modeling and control issues,” in2010年IEEE机器人与自动化国际会议上,美国安克雷奇,正义与发展党,2010年5月03-07(IEEE),793 - 798。doi: 10.1109 / ROBOT.2010.5509899

CrossRef全文|谷歌学术搜索

布鲁克曼G。张,V。,Pettersson, L., Schneider, J., Schulman, J., Tang, J., et al. (2016).开放的健身房arXiv预印本arXiv: 1606.01540

谷歌学术搜索

Chirikjian G。,Burdick, J. (1994). A hyper-redundant manipulator.IEEE机器人自动化杂志。1月22。doi: 10.1109/100.388263

CrossRef全文|谷歌学术搜索

global, P。沙,Z。,Mordatch, I., Schneider, J., Blackwell, T., Tobin, J., et al. (2016). Transfer from simulation to real world through learning deep inverse dynamics model.arXiv预印本。doi: 10.48550 / arXiv.1610.03518

CrossRef全文|谷歌学术搜索

钟,j . H。,Velinsky, S. A., and Hess, R. A. (1998). Interaction control of a redundant mobile manipulator.Int。j .机器人Res。17日,1302 - 1309。doi: 10.1177 / 027836499801701203

CrossRef全文|谷歌学术搜索

Cobley, m . J。,R一个yfield, E. J., and Barrett, P. M. (2013). Inter-vertebral flexibility of the ostrich neck: Implications for estimating sauropod neck flexibility.《公共科学图书馆•综合》8,721877 - e72210。doi: 10.1371 / journal.pone.0072187

CrossRef全文|谷歌学术搜索

迭戈·门多萨(2017)。课程学习机器人操纵利用强化学习。硕士论文。伦敦:伦敦帝国学院的人工智能

谷歌学术搜索

Dzemski G。,Christian, A. (2007). Flexibility along the neck of the ostrich (struthio camelus) and consequences for the reconstruction of dinosaurs with extreme neck length.j . Morphol。268年,701 - 714。doi: 10.1002 / jmor.10542

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

藤本,S。,van Hoof, H., and Meger, D. (2018). Addressing function approximation error in actor-critic methods.arXiv

谷歌学术搜索

锣,M。,Chen, K., Zhao, K., and Chang, P. (2016). “Trajectory planning based on multi-objective optimization for redundant robots,” in2016第三国际会议系统和信息(ICSAI),中国上海,2016年11月19日—21日(IEEE),133 - 138。doi: 10.1109 / ICSAI.2016.7810943

CrossRef全文|谷歌学术搜索

Haarnoja, T。周,。,一个bbeel, P., and Levine, S. (2018). Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor.arXiv预印本。doi: 10.48550 / ARXIV.1801.01290

CrossRef全文|谷歌学术搜索

黄,Z。李,F。,Xu, L. (2020). “Modeling and simulation of 6 dof robotic arm based on gazebo,” in2020年第六届国际会议控制、自动化和机器人(ICCAR),新加坡,2020年4月20 - 23日(IEEE),319 - 323。doi: 10.1109 / ICCAR49639.2020.9107989

CrossRef全文|谷歌学术搜索

Kilinc, O。,Montana, G. (2020). Follow the object: Curriculum learning for manipulation tasks with imagined goals.arXiv预印本arXiv: 2008.02066

谷歌学术搜索

Ko, t (2020)。tendon-driven机器人抓手与被动驱动切换面及其基于物理模拟的参数优化。IEEE机器人自动化。5,5002 - 5009。doi: 10.1109 / LRA.2020.3005131

CrossRef全文|谷歌学术搜索

甜点,K。,Ikeda, M., Or, K., Ando, M., Gunji, M., Mochiyama, H., et al. (2022). Robostrich arm: Wire-driven high-dof underactuated manipulator.j .机器人机电一体化34岁,328 - 338。doi: 10.20965 / jrm.2022.p0328

CrossRef全文|谷歌学术搜索

Mochiyama, H。称,M。,N我我yama, R. (2022). Ostrich-inspired soft robotics: A flexible bipedal manipulator for aggressive physical interaction.j .机器人机电一体化34岁,212 - 218。doi: 10.20965 / jrm.2022.p0212

CrossRef全文|谷歌学术搜索

森本晃司,R。,N我年代hikawa, S., Niiyama, R., and Kuniyoshi, Y. (2021). “Model-free reinforcement learning with ensemble for a soft continuum robot arm,” in2021年IEEE 4日国际会议上软机器人(RoboSoft),康涅狄格州纽黑文,美国,2021年4月12日至16日(IEEE),141 - 148。doi: 10.1109 / RoboSoft51838.2021.9479340

CrossRef全文|谷歌学术搜索

穆萨维,H。,Imani M。,Ghassemian, H. (2022). “Deep curriculum learning for polar image classification,” in2022年国际会议上机器视觉和图像处理(MVIP),吉隆坡,马来西亚,2022年7月17-22(IEEE)。

谷歌学术搜索

Nakano, K。,Gunji, M., Ikeda, M., Or, K., Ando, M., Inoue, K., et al. (2023). Robostrich manipulator: A novel mechanical design and control based on the anatomy and behavior of an ostrich neck.IEEE机器人自动化。8,3062 - 3069。doi: 10.1109 / LRA.2023.3265301

CrossRef全文|谷歌学术搜索

Nakano, K。,Ikeda, M., Or, K., Gunji, M., Mochiyama, H., Niiyama, R., et al. (2022). “A study of sagittal motions with a flexible manipulator based on the anatomy of the ostrich neck,” in机器人技术和机电一体化会议2022(日本:施普林格)。

CrossRef全文|谷歌学术搜索

Okoli F。,Lang, Y., Kermorgant, O., and Caro, S. (2019). “Cable-driven parallel robot simulation using gazebo and ros,” inRomansy 22 -机器人设计、动力学和控制。编辑Arakelian诉,p .温格(Cham:施普林格国际出版),288 - 295。

CrossRef全文|谷歌学术搜索

奥斯曼,M。,Mehrez, M. W., Yang, S., Jeon, S., and Melek, W. (2020). End-effector stabilization of a 10-dof mobile manipulator using nonlinear model predictive control.IFAC-PapersOnLine53岁,9772 - 9777。doi: 10.1016 / j.ifacol.2020.12.2658

CrossRef全文|谷歌学术搜索

Rooban, S。S, i J。,Manimegalai, R., Eshwar, I. V. S., and Mageswari, R. U. (2022). “Simulation of pick and place robotic arm using coppeliasim,” in2022年第六届国际会议上计算方法和通信(ICCMC),侵蚀、印度,2022年3月29-31(IEEE),600 - 606。doi: 10.1109 / ICCMC53470.2022.9754013

CrossRef全文|谷歌学术搜索

Satheeshbabu, S。,Uppalapati, N. K., Fu, T., and Krishnan, G. (2020). “Continuous control of a soft continuum arm using deep reinforcement learning,” in2020年3日IEEE国际会议上软机器人(RoboSoft),康涅狄格州纽黑文,美国,2020年5月15日——2020年7月15日(IEEE),497 - 503。

CrossRef全文|谷歌学术搜索

舍希德,A。,年代esin, J. S. V., Pecioski, D., Braghin, F., Piga, D., and Roveda, L. (2021). Decentralized multi-agent control of a manipulator in continuous task learning.达成。科学。11日,10227年。doi: 10.3390 / app112110227

CrossRef全文|谷歌学术搜索

Tatlicioglu E。布拉加莎,D。村,t . C。,D一个wson, D. M. (2009). Adaptive control of redundant robot manipulators with sub-task objectives.Robotica27日,873 - 881。doi: 10.1017 / S0263574708005274

CrossRef全文|谷歌学术搜索

托宾,J。,Fong, R., Ray, A., Schneider, J., Zaremba, W., and Abbeel, P. (2017). “Domain randomization for transferring deep neural networks from simulation to the real world,” in2017年IEEE / RSJ智能机器人和系统国际会议(——),加拿大的温哥华BC,2017年9月28(IEEE)。doi: 10.1109 / IROS.2017.8202133

CrossRef全文|谷歌学术搜索

托多罗夫,E。Erez, T。,T一个年代年代一个,Y. (2012). “Moco: A physics engine for model-based control,” in2012年IEEE / RSJ智能机器人和系统国际会议,Vilamoura-Algarve、葡萄牙,2012年10月07-12(IEEE),5026 - 5033。doi: 10.1109 / IROS.2012.6386109

CrossRef全文|谷歌学术搜索

van der Leeuw, a . H。布特,r G。,Zweers, G. A. (2001). Control of the cranio-cervical system during feeding in birds.点。动物学家41岁,1352 - 1363。doi: 10.1093 /学院/ 41.6.1352

CrossRef全文|谷歌学术搜索

肖,J。,H一个n, W., and Wang, A. (2017). “Simulation research of a six degrees of freedom manipulator kinematics based on Matlab toolbox,” in2017年国际会议上先进的机电整合系统(ICAMechS),厦门,中国,2017年12月06-09(IEEE),376 - 380。doi: 10.1109 / ICAMechS.2017.8316502

CrossRef全文|谷歌学术搜索

徐,B。,Zhang, L., Mao, Z., Wang, Q., Xie, H., and Zhang, Y. (2020). “Curriculum learning for natural language understanding,” in学报》第五十八届计算语言学协会的年度会议(斯特劳斯堡,宾夕法尼亚州:计算语言学协会),6095 - 6104。doi: 10.18653 / v1/2020.acl-main.542

CrossRef全文|谷歌学术搜索

徐,Z。,Gan, Y., and Dai, X. (2019). “Obstacle avoidance of 7-dof redundant manipulators,” in2019中国控制与决策会议(CCDC),南昌,中国,2019年6月03-05(IEEE),4184 - 4189。doi: 10.1109 / CCDC.2019.8832418

CrossRef全文|谷歌学术搜索

燕,M。,Frosio, I., Tyree, S., and Jan, K. (2017). “Sim-to-real transfer of accurate grasping with eye-in-hand observations and continuous control,” in31日会议上的神经信息处理系统(少量的2017),CA长滩()。

谷歌学术搜索

周,D。,J我一个,R。,姚明,h (2021)。“机械臂运动计划基于课程强化学习,”2021年第六届国际会议上控制和机器人技术工程学(ICCRE),中国,北京,2021年4月16日- 18日(IEEE),44-49。

CrossRef全文|谷歌学术搜索

关键词:强化学习、课程学习、模拟tendon-driven系统,欠驱动机械手,柔软的机器人,仿生机器人

引用:吴或K, K, Nakano K, Ikeda M,安藤M, Kuniyoshi Y和Niiyama R(2023)课程强调学习的仿真平台tendon-driven高度自由的欠驱动机械手。前面。机器人。人工智能10:1066518。doi: 10.3389 / frobt.2023.1066518

收到:2022年10月10日;接受:2023年6月22日;
发表:2023年7月12日。

编辑:

Egidio Falotico,圣安娜高级研究学院的意大利

审核:

Murat Kirtay荷兰蒂尔堡大学
哈里Kalidindi大学,Catholique de鲁汶,比利时

版权©2023,吴Nakano Ikeda,安藤,Kuniyoshi Niiyama。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:亚强,或者or@meiji.ac.jp

__这些作者的贡献同样这项工作和分享第一作者

这些作者分享最后的作者

下载