跳转到主要内容gydF4y2Ba

原始研究的文章gydF4y2Ba

前面。机器人。人工智能,2023年1月12日gydF4y2Ba
秒。机器人学习与进化gydF4y2Ba
卷9 - 2022 |gydF4y2Ba https://doi.org/10.3389/frobt.2022.1067502gydF4y2Ba

Sim-to-realgydF4y2Ba通过gydF4y2Ba潜在的预测:转移视觉non-prehensile操纵政策gydF4y2Ba

www.雷竞技rebatfrontiersin.orggydF4y2Ba卡洛RizzardogydF4y2Ba 1gydF4y2Ba*,gydF4y2Bawww.雷竞技rebatfrontiersin.orggydF4y2Ba范陈gydF4y2Ba 1、2gydF4y2Ba和gydF4y2Bawww.雷竞技rebatfrontiersin.orggydF4y2Ba达尔文考德威尔gydF4y2Ba 1gydF4y2Ba
  • 1gydF4y2Ba主动感知和机器人互动学习实验室,先进的机器人,史犬di Tecnologia意大利热那亚gydF4y2Ba
  • 2gydF4y2Ba机械与自动化工程学系T-Stone机器人研究所,香港中文大学,香港,中国gydF4y2Ba

强化学习可以有一个机器人潜力巨大。它证明了能力来解决复杂的操作和运动任务,甚至通过学习端到端运营直接在视觉输入的政策,消除需要定制的感知系统。然而,对于实际的机器人应用程序,其稀缺的抽样效率,需要大量的资源、数据和计算时间可以是一个不可逾越的障碍。一个潜在的解决这个示例效率问题是使用模拟环境。然而,现实和之间的差异在视觉和物理特性模拟,即sim-to-real差距,常常可以显著减少政策内训练模拟器的实际性能。在这个工作我们提出一个sim-to-real方法训练Soft-Actor评论家代理一起解耦特性提取器和latent-space动力学模型。的解耦方法允许独立执行sim-to-real转移特征提取器和控制政策,和潜在的动力学模型作为约束表示当threshold真实数据的特征提取器。我们展示这个架构如何允许转让一个训练有素的代理从模拟现实没有再培训或整合控制政策,但是使用真实的数据只是为了适应特征提取器。通过避免训练控制策略在现实领域我们克服需要强化学习适用于现实世界的数据,相反,我们只专注于无监督训练器的功能,大大减少了现实世界的经验收集需求。我们评估方法sim-to-sim和sim-to-real转移的政策推动桌面机器人对象。 We demonstrate how the method is capable of adapting to considerable variations in the task observations, such as changes in point-of-view, colors, and lighting, all while substantially reducing the training time with respect to policies trained directly in the real.

1介绍gydF4y2Ba

这一天,操纵机器人保持开放问题和物理交互任务。建模的困难环境,识别其特征,检测和跟踪元素的利益使这些任务特别具有挑战性的经典控制方法。强化学习方法而不是可以隐式地解决这些问题,甚至已经被证明能够解决最复杂的操作问题gydF4y2BaOpenAI et al。(2019)gydF4y2Ba。然而,利用强化学习(RL)方法也构成了重大挑战。大多数RL技术是相当低效的样本,它们需要大量的资源,数据和计算时间。同时,培训政策的实际硬件没有适当的预防措施可能损害硬件本身或其环境。这些问题可以从不同的角度解决,一边与算法的改进,提高抽样效率和较低的数据需求,另一方面与技术有效地获取大量数据,例如利用模拟[gydF4y2BaOpenAI et al。(2019)gydF4y2Ba;gydF4y2Ba鲁丁et al。(2021)gydF4y2Ba]。gydF4y2Ba

标准RL DQN等算法gydF4y2BaMnih et al。(2015)gydF4y2Ba,PPOgydF4y2Ba舒尔曼et al。(2017)gydF4y2Ba或囊(gydF4y2BaHaarnoja et al。(2018)gydF4y2Ba;gydF4y2BaHaarnoja et al。(2018 b)gydF4y2Ba)有巨大的数据需求,特别是应用任务。这样的任务一直是通过直接利用图像观察在一个端到端的解决方式,一样的任务处理低维观测。最近的一些工作然而逐步提高抽样效率对于视觉任务,离开这个简单的方法。gydF4y2Ba

SAC-AE [gydF4y2BaYarats et al。(2021 b)gydF4y2Ba,线性gydF4y2Ba李et al。(2020)gydF4y2Ba]或卷曲gydF4y2Ba斯et al。(2020)gydF4y2Ba解决这个问题通过结合强化学习学习方法和表示。表示学习是用于辅助训练的视觉特征提取器部分代理。在纯粹的RL方法,培训执行单独从奖励的信号,甚至关心视觉的理解。这里其他的信息来源使用图像重建或对比等损失,大大提高抽样效率。gydF4y2Ba

其他方法,如RAD [gydF4y2BaLaskin et al。(2020)gydF4y2Ba]和DrQ [gydF4y2BaKostrikov et al。(2020)gydF4y2Ba;gydF4y2BaYarats et al。(2022)gydF4y2Ba]显示如何使用简单的图像增强技术可以大大提高抽样效率,达到的性能水平的方法,获得知识。gydF4y2Ba

另一个方向,一直的想法使用经验数据收集网络在训练学习环境的模型,能够预测整个轨迹。这类模型可以用来解决的任务gydF4y2Ba通过gydF4y2Ba计划,例如在地球gydF4y2BaHafner et al。(2019)gydF4y2Ba),或者产生额外的训练数据,在观察空间或学习潜在的空间,如在做梦gydF4y2BaHafner et al。(2020)gydF4y2Ba;gydF4y2BaHafner et al。(2021)gydF4y2Ba]。gydF4y2Ba

在这个工作我们探索学习和利用的想法表示环境建模有效执行sim-to-real转移。我们定义一个RL剂,完全将特征提取器和控制政策培训。特征提取器是后天习得的环境作为一个完整的模型基于变分Autoencoders (VAE) [gydF4y2BaKingma和威林(2014)gydF4y2Ba;gydF4y2BaRezende et al。(2014)gydF4y2Ba),能够预测观察和回报。控制策略是一种软Actor-Critic代理作用于上述定义的潜在的表示模型。我们展示这个架构允许传输控制策略训练在模拟现实世界只有threshold VAE的编码器和解码器部分模型。这完全消除了需要进行强化学习训练在现实环境中,强烈减少现实世界的数据需求,同时保持较高的样本模拟的效率。gydF4y2Ba

我们评估方法在桌面non-prehensile操作任务,一个Franka-Emika熊猫机械手臂的目的是推动一个对象到一个预先确定的目标。我们选择这个任务相当简单,易于管理,但同时带来了困难,使其合适的地面模范自由评价强化学习方法,如我们的。讨论了在gydF4y2Ba鲁杰罗et al。(2018)gydF4y2Ba推,non-prehensile操纵,特别是对象,是一个特别具有挑战性的任务为经典控制方法由于摩擦力量带来的不确定性,操纵对象和地面和物体之间和机器人。建模这种互动正是极具挑战性,确定摩擦特性本身就是一个复杂的问题,建模中的错误有很大的影响在操纵物体的运动。相反,模范自由机器人学习方法我们这样处理这些有问题的隐式不需要小心显式建模系统,因此解决这一任务的有效和可靠的。gydF4y2Ba1gydF4y2Ba同时,对象将已经提出了勘探困难不存在简单的任务,如例如姿势达到。代理必须首先学习到对象,然后它必须学会把它到正确的位置。我们执行sim-to-sim实验不同的场景中,从简单的改变颜色的场景彻底改变相机的观点。我们然后用sim-to-real实验验证的方法。gydF4y2Ba

2相关的工作gydF4y2Ba

我们的工作建立在十字路口的两个研究领域:使用sim-to-real克服现实世界数据匮乏和分离的强化学习方法的发展。第一个重点是利用仿真数据训练实际模型通过弥合现实差距,第二在强化学习提高抽样效率,通过解耦特征提取和政策培训。gydF4y2Ba

RL结构我们提出利用其解耦特性有效地克服现实差距,减少现实世界的数据需求,同时保持良好的示例仿真领域的效率。gydF4y2Ba

2.1 Sim-to-realgydF4y2Ba

强化学习方法需要大量的数据有效地训练。更多的任务是复杂的,在观察和行动维度方面,或勘探困难,需要更多的经验。复杂的任务可以很容易地需要几天或几周的经验数据来得到解决。获取这样的经验实际机器人系统是不切实际的,保持这样的复杂机器人系统运行的时间长度是复杂的,需要额外的基础设施来管理环境设置,机器人和未经训练的政策可能损害或环境。所有这些问题在研究环境变得更加复杂,在众多培训必须进行实验的原因。因此,使用合成的经验自然呼吁强化学习方法。gydF4y2Ba

Sim-to-real RL方法利用仿真软件来有效地培训政策目标环境的虚拟复制品,然后转移政策的现实领域克服现实差距,模拟与现实之间的差异。gydF4y2Ba

仿真的优点是首先生成大量的可能性的经验更迅速比在现实世界中是可能的。这可以通过模拟速度比实时并行多个模拟环境。而是gydF4y2BaNair et al。(2015)gydF4y2Ba,A2C和A3CgydF4y2BaMnih et al。(2016)gydF4y2Ba经验表明,并行集合会导致训练时间明显改善。最近,gydF4y2Ba鲁丁et al。(2021)gydF4y2Ba利用现代的硬件和仿真软件为四足动物运动训练大规模并行处理环境,实现在短短20分钟PPO步态政策能够真正成功地控制机器人在复杂地形。gydF4y2Ba

此外,除了生成大量的数据,仿真软件还可以支持培训策略,在现实世界中是不可能的。gydF4y2Ba平托et al。(2018)gydF4y2Ba显示可以大大加速训练用模拟器国家知识培训期间,以及如何转移策略训练在这样一个现实世界的方式,这个知识是不可用的。gydF4y2Ba

正如我们提到的,模拟训练的核心问题是现实差距,之间的差异的特点,模拟环境和真实的。这些差异可以在动态的环境中,由于不准确的物理仿真,观察的代理,由于视觉呈现的不精确或感官输入,或者只是机器人行为的组件,可以实现不同的模拟和现实。进步在现实的仿真软件gydF4y2Ba英伟达(2020)gydF4y2Ba;gydF4y2Ba统一(2020)gydF4y2Ba是现实差距逐步缩小,但sim-to-real转移仍然是重要的构造模拟,密切与现实世界仍然是一个挑战性的任务,需要相当大的工程。gydF4y2Ba

许多策略克服现实差距已经实现。一般来说,我们可以区分两个家庭的技术:那些旨在获得政策能够在真实和模拟不使用真实世界的数据,和那些使用真实数据模型在模拟适应真正的域。我们称这些后者的gydF4y2Ba领域适应气候变化gydF4y2Ba方法。其中最简单的方法是执行政策整合在现实,以同样的方式通常是在监督学习环境中完成的。政策是第一个训练模拟,那么代理转移到真正的训练仍在现实,直到满意的性能。然而,这样的策略通常仍需要相当的现实世界的经验收集,并不能保证机器人正常行为和安全当首先转移到真正的域。gydF4y2Ba

其他方法明确目标之间的匹配问题特征提取器的输出模拟域和真正的领域,创建不变特征提取器,模拟和实际投入之间切换。这可以实现gydF4y2Ba通过gydF4y2Ba不同的方法。一些方法试图训练特征提取器的两个领域,同时保持分布相似,两个生成的特征表示和基于损失分布的距离度量,如最大平均差异(MMD) (gydF4y2BaTzeng et al。(2014)gydF4y2Ba],MK-MMD [gydF4y2Ba长et al。(2015)gydF4y2Ba)或其他(gydF4y2Ba太阳和Saenko (2016)gydF4y2Ba]。别人尽量保持样本的特性表征两个域关闭gydF4y2Ba通过gydF4y2Ba对抗的方法。鉴别器网络是训练两个域之间的特征向量进行分类,然后优化特征提取器来生成难以表征(gydF4y2BaTzeng et al。(2015)gydF4y2Ba;gydF4y2BaTzeng et al。(2017)gydF4y2Ba;gydF4y2BaGanin和Lempitsky (2015)gydF4y2Ba]。或者,其他技术从风格灵感转移方法和直接目标域样本转化为源领域的样品或样本第三个“规范化”域(gydF4y2BaBousmalis et al。(2017)gydF4y2Ba;gydF4y2BaBousmalis et al。(2018)gydF4y2Ba;gydF4y2Ba霍夫曼et al。(2018)gydF4y2Ba;gydF4y2Ba詹姆斯et al。(2019)gydF4y2Ba]。尝试其他方法来确定相应的样本源和目标域,然后迫使这些相应样品的表征是相似的。gydF4y2BaGupta et al。(2017)gydF4y2Ba通过假设样本对应的步伐在RL集应该是类似的,gydF4y2BaTzeng et al。(2016)gydF4y2Ba首先识别弱配对样本,提高在这个对抗的方法。gydF4y2Ba

然而,即使其中有些方法适合视觉任务,他们可能不会有效地适应勘探难题。上述方法要么需要可用目标数据在执行原始域培训或训练与离线数据编码器。这是有问题的,因为在艰难探索的问题收集数据之前完全训练政策完全代表可能是不切实际或不可能的。等任务的对象将有可能收集人为的示威游行,但在更复杂的任务,例如运动,收集示威不是微不足道的。gydF4y2Ba

sim-to-real方法不存在这个问题gydF4y2Ba域随机化gydF4y2Ba。该方法的核心思想是随机化的视觉(gydF4y2Ba托宾et al。(2017)gydF4y2Ba)和物理(gydF4y2Ba彭et al。(2017)gydF4y2Ba)模拟环境的特点,所以一旦代理传输在现实世界中它可以解释新域随机变化。这些方法可以应用于视觉和基于状态的任务,并已非常成功,能够解决甚至是极其复杂的visuomotor控制问题,同时保持强有力的健壮性occulusions和扰动gydF4y2BaOpenAI et al。(2019)gydF4y2Ba]。然而,随着任务越来越复杂,他们需要大量的模拟数据和长时间的培训。为了减少这些问题,提出了各种方法来约束的随机化是必要的。gydF4y2Ba拉莫斯et al。(2019)gydF4y2Ba,gydF4y2BaPossas et al。(2020)gydF4y2Ba和gydF4y2BaMuratore et al。(2021)gydF4y2Ba实现这一目标通过识别模拟器参数分布gydF4y2Ba通过gydF4y2BaLikelihood-free推理。gydF4y2BaHeiden et al。(2021)gydF4y2Ba而不是显示可以使用可微的模拟器从真实数据来识别可能的模拟器参数。gydF4y2Ba

2.2解耦RLgydF4y2Ba

视觉任务的强化学习策略培训历来是昂贵得多比基于状态的任务,sample-complexity和计算时间。观察空间维数的增加自然复杂问题,因为代理需要学会理解视觉信息和提取必要的特性。然而,多个近期作品表明基于图像和基于状态的任务之间的性能差距可以大大减少。gydF4y2Ba

一个非常简单而有效的技术是使用数据期间增加培训。RAD [gydF4y2BaLaskin et al。(2020)gydF4y2Ba],DrQ [gydF4y2BaKostrikov et al。(2020)gydF4y2Ba]和DrQv2 [gydF4y2BaYarats et al。(2022)gydF4y2Ba]表明即使只是简单的图像对应像素的转变可以大大提高样本效率等模型自由RL方法,达到性能与实现等价的基于状态的任务。gydF4y2Ba

其他作品而不是利用非监督学习方法来援助视觉特征的提取。线性(gydF4y2Ba李et al。(2020)gydF4y2Ba)列车预测随机潜变量模型和使用产生的潜在空间训练软Actor-Critic政策。囊+ AE (gydF4y2BaYarats et al。(2021 b)gydF4y2Ba)而不是使用一个正规化autoencoder [gydF4y2BaGhosh et al。(2020)gydF4y2Ba)提取潜在的空间gydF4y2Ba通过gydF4y2Ba观察重建。然后使用所产生的潜在的向量作为输入软Actor-Critic政策。gydF4y2Ba

行星(gydF4y2BaHafner et al。(2019)gydF4y2Ba)带来的这些想法,学习环境的完整的潜在模型,然后使用该模型计划轨迹gydF4y2Ba通过gydF4y2Ba模型预测控制。梦想家(gydF4y2BaHafner et al。(2020)gydF4y2Ba)和DreamerV2 [gydF4y2BaHafner et al。(2021)gydF4y2Ba)然后使用潜在的模式从地球到火车Actor-Critic政策的潜在空间,产生大量的经验gydF4y2Ba通过gydF4y2Ba想象力和利用可微性质的神经网络模型。gydF4y2Ba

3的方法gydF4y2Ba

我们提出的方法在这个工作雇佣思想研究解耦的强化学习方法执行sim-to-real visuomotor控制策略的转移gydF4y2Ba通过gydF4y2Ba领域适应气候变化。更具体地说,我们定义一个RL结构组成的一个预测潜变量模型和软Actor-Critic代理,我们提出一个sim-to-real培训过程,利用解耦的预测模型能够有效地整合的存在潜在的编码器的实际环境。下面这个方法可以转移培训代理从模拟现实的整合特征提取器,独立的学习控制策略。gydF4y2Ba

从第二节中讨论的方法不同,我们建议的方法是在同一时间不受监督,有效样本在源和目标领域,解决困难的探索问题的能力,不需要目标域数据之前执行转移。gydF4y2Ba

3.1问题公式化gydF4y2Ba

我们设置的形式化gydF4y2Ba部分可观测马尔可夫决策过程gydF4y2Ba(POMDP),由7-tuple定义(gydF4y2Ba年代gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba,gydF4y2BapgydF4y2Ba,gydF4y2BargydF4y2Ba,gydF4y2BaγgydF4y2Ba,gydF4y2BaOgydF4y2Ba,gydF4y2BavgydF4y2Ba)。前五个方面分别代表状态空间,操作空间,状态转换概率密度gydF4y2BapgydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba+ 1gydF4y2Ba|gydF4y2Ba年代gydF4y2BatgydF4y2Ba,gydF4y2Ba一个gydF4y2BatgydF4y2Ba),奖励函数gydF4y2BargydF4y2Ba(gydF4y2Ba年代gydF4y2BatgydF4y2Ba,gydF4y2Ba一个gydF4y2BatgydF4y2Ba)和折现系数。最后两项代表观测空间和观测密度gydF4y2BavgydF4y2Ba(gydF4y2BaogydF4y2BatgydF4y2Ba|gydF4y2Ba年代gydF4y2BatgydF4y2Ba)=gydF4y2BapgydF4y2Ba(gydF4y2BaogydF4y2BatgydF4y2Ba=gydF4y2BaogydF4y2Ba|gydF4y2Ba年代gydF4y2BatgydF4y2Ba=gydF4y2Ba年代gydF4y2Ba它定义了我们的感官通道。该系统是在表示gydF4y2Ba图1gydF4y2Ba。gydF4y2Ba

图1gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图1gydF4y2Ba。POMDP问题的配方。橙色我们实施的政策,在黑蓝色的感觉通道,底层的马尔可夫决策过程。gydF4y2Ba

的目的是学习策略的方法gydF4y2BaπgydF4y2Ba(gydF4y2Ba一个gydF4y2BatgydF4y2Ba|gydF4y2BaogydF4y2BatgydF4y2Ba),最大化的预期折现总金额奖励gydF4y2Ba RgydF4y2Ba (gydF4y2Ba πgydF4y2Ba )gydF4y2Ba =gydF4y2Ba EgydF4y2Ba 年代gydF4y2Ba 0gydF4y2Ba :gydF4y2Ba TgydF4y2Ba (gydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 0gydF4y2Ba TgydF4y2Ba γgydF4y2Ba tgydF4y2Ba rgydF4y2Ba (gydF4y2Ba 年代gydF4y2Ba tgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba )gydF4y2Ba )gydF4y2Ba 。gydF4y2Ba

从历史上看,标准的端到端RL方法通常使用MDP制定而不是POMDP,意味着国家直接观察或高维观测是等同于状态。相反,POMDP配方的状态不能直接观察到,但只有通过随机感官通道,形式化的gydF4y2BavgydF4y2Ba(gydF4y2BaogydF4y2BatgydF4y2Ba|gydF4y2Ba年代gydF4y2BatgydF4y2Ba密度函数。gydF4y2Ba

根据这个公式,我们使用一个学习方法近似表示gydF4y2BaegydF4y2Ba(gydF4y2BazgydF4y2BatgydF4y2Ba|gydF4y2BaogydF4y2BatgydF4y2Ba)密度估计状态表示gydF4y2BazgydF4y2BatgydF4y2Ba从传感器的观测gydF4y2BaogydF4y2BatgydF4y2Ba。一旦学会表示,我们手头一个方法来近似低维状态向量在高维传感器输入和我们可以使用标准的RL方法学习控制策略的潜在空间。gydF4y2Ba

3.2代理架构gydF4y2Ba

3.2.1变分autoencodergydF4y2Ba

自然选择是使用学习状态表示gydF4y2BaautoencodersgydF4y2Ba的,尤其是gydF4y2Ba变分autoencodersgydF4y2Ba(VAE)gydF4y2BaKingma和威林(2014)gydF4y2Ba。弗吉尼亚州是一个固体和证明方法学习的低维表示状态,给我们一个方法可靠地从高维观测产生低维的向量。我们定义我们的VAE架构作为一个随机编码器gydF4y2BaegydF4y2BaθgydF4y2Ba(gydF4y2BazgydF4y2BatgydF4y2Ba|gydF4y2BaogydF4y2BatgydF4y2Ba),地图观察gydF4y2Ba ogydF4y2Ba tgydF4y2Ba ∈gydF4y2Ba RgydF4y2Ba ngydF4y2Ba ×gydF4y2Ba ngydF4y2Ba 潜在的表示gydF4y2Ba zgydF4y2Ba tgydF4y2Ba ∈gydF4y2Ba RgydF4y2Ba kgydF4y2Ba 和一个确定的解码器gydF4y2BadgydF4y2BaθgydF4y2Ba(gydF4y2BazgydF4y2BatgydF4y2Ba)执行相反的转换。编码器被定义为有条件的多元高斯密度与对角协方差。的维数gydF4y2BakgydF4y2Ba的潜在空间剩下hyperparameter,可以调整根据手头的任务。gydF4y2Ba

在我们的实验中我们使用了一个编码器架构基于MobileNet V3的后端gydF4y2Ba霍华德et al。(2019)gydF4y2Bapretrained权重,初始化的输出端是匹配的与两个独立的高斯密度均值和log-variance线性层。使用转置卷积译码器被定义对称层。gydF4y2Ba

在实践中,在政策只确定性推理我们使用编码器利用分布的均值来产生潜在的向量。gydF4y2Ba

3.2.2动力学建模gydF4y2Ba

内的潜在空间变分Autoencoder我们引入一个一步动态预测,从潜在的向量和一个动作预测潜在的表示下一个状态。形式上,动态预测被定义为一个函数gydF4y2Ba fgydF4y2Ba (gydF4y2Ba zgydF4y2Ba tgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba )gydF4y2Ba ↦gydF4y2Ba zgydF4y2Ba ̂gydF4y2Ba tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,在那里gydF4y2BazgydF4y2BatgydF4y2Ba是潜伏状态的表示吗gydF4y2Ba年代gydF4y2BatgydF4y2Ba,gydF4y2Ba一个gydF4y2BatgydF4y2Ba是行动的时间吗gydF4y2BatgydF4y2Ba和gydF4y2Ba zgydF4y2Ba ̂gydF4y2Ba tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba 表示gydF4y2Ba年代gydF4y2BatgydF4y2Ba+ 1gydF4y2Ba。在实践中被实现为一个完全连接的动力学模型神经网络gydF4y2Ba fgydF4y2Ba θgydF4y2Ba :gydF4y2Ba RgydF4y2Ba kgydF4y2Ba +gydF4y2Ba 米gydF4y2Ba →gydF4y2Ba RgydF4y2Ba kgydF4y2Ba 与gydF4y2Ba米gydF4y2Ba是空间维度和行动gydF4y2BakgydF4y2Ba被潜伏表示大小。我们做出的选择引入后的预测两个直觉:一是动态预测的存在更适合控制实施正规化向特性,另一个是预测的存在可以用来限制潜在的代表在执行政策时转移。我们将此架构作为国内增加值出口额总体表示。gydF4y2Ba

必须指出,我们的动力学模型是有用的在塑造和约束的表示,它不能被用来制造实际latent-space轨迹预测。这是因为网络的输入和输出潜在空间不受限表示相同的特性以同样的方式,或具有相同的分布。gydF4y2Ba

作为一个整体,建筑使用通常的训练变分损失,由各向同性的多元高斯KL-divergence和MSE重建误差:gydF4y2Ba

lgydF4y2Ba DV AEgydF4y2Ba θgydF4y2Ba ;gydF4y2Ba ogydF4y2Ba tgydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba ,gydF4y2Ba rgydF4y2Ba tgydF4y2Ba ,gydF4y2Ba ogydF4y2Ba tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba =gydF4y2Ba DgydF4y2Ba KgydF4y2Ba lgydF4y2Ba egydF4y2Ba θgydF4y2Ba zgydF4y2Ba tgydF4y2Ba |gydF4y2Ba ogydF4y2Ba tgydF4y2Ba 为gydF4y2Ba NgydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba kgydF4y2Ba +gydF4y2Ba αgydF4y2Ba 米gydF4y2Ba 年代gydF4y2Ba EgydF4y2Ba ogydF4y2Ba ̂gydF4y2Ba tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba rgydF4y2Ba ̂gydF4y2Ba tgydF4y2Ba ;gydF4y2Ba ogydF4y2Ba tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba rgydF4y2Ba tgydF4y2Ba (gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba

与gydF4y2Ba (gydF4y2Ba zgydF4y2Ba ̂gydF4y2Ba tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba rgydF4y2Ba ̂gydF4y2Ba tgydF4y2Ba )gydF4y2Ba =gydF4y2Ba fgydF4y2Ba θgydF4y2Ba (gydF4y2Ba egydF4y2Ba θgydF4y2Ba (gydF4y2Ba ogydF4y2Ba tgydF4y2Ba )gydF4y2Ba ,gydF4y2Ba 一个gydF4y2Ba tgydF4y2Ba )gydF4y2Ba 和gydF4y2Ba ogydF4y2Ba ̂gydF4y2Ba tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba =gydF4y2Ba dgydF4y2Ba θgydF4y2Ba (gydF4y2Ba zgydF4y2Ba ̂gydF4y2Ba tgydF4y2Ba +gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba ,gydF4y2BaDgydF4y2Ba吉隆坡gydF4y2BaKL-divergence,gydF4y2Ba均方误差gydF4y2Ba均方误差,gydF4y2Ba我gydF4y2BakgydF4y2Ba的gydF4y2BakgydF4y2Ba×gydF4y2BakgydF4y2Ba单位矩阵,gydF4y2Ba NgydF4y2Ba (gydF4y2Ba 0gydF4y2Ba ,gydF4y2Ba 我gydF4y2Ba kgydF4y2Ba )gydF4y2Ba 集中各向同性高斯分布。gydF4y2Ba

3.2.3包括低维传感器数据gydF4y2Ba

正如我们提到的,架构的编码器和解码器部分分别实现MobileNet网络和一系列的转置运算。这些架构适合图像输入,然而,在机器人应用中是很常见的非齐次感官输入,有些特征是高维度,如相机、和其他低维,如电机编码器或力扭矩传感器。我们建议的体系结构为我们提供了一种自然的方式将这些异构的输入,我们能把所有的这些观测环境进入潜伏状态表示。gydF4y2Ba

在简单情况下的视觉输入结合mono-dimensional传感器读数,我们就可以直接把编码器结构不变,将编码器输出的低维观测。为简单起见,我们选择遵循这个简单的方法在我们的实验。gydF4y2Ba

整体建筑为代表gydF4y2Ba图2gydF4y2Ba。gydF4y2Ba

图2gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图2gydF4y2Ba。建议的体系结构的概述。gydF4y2BaOgydF4y2Ba高清gydF4y2Ba,gydF4y2BatgydF4y2Ba表示高维观测步骤gydF4y2BatgydF4y2Ba,gydF4y2BaOgydF4y2BaldgydF4y2Ba,gydF4y2BatgydF4y2Ba是各自的低维观测,gydF4y2Ba一个gydF4y2BatgydF4y2Ba一步的行动吗gydF4y2BatgydF4y2Ba,gydF4y2BazgydF4y2BatgydF4y2Ba的潜伏状态向量的时间吗gydF4y2BatgydF4y2Ba,gydF4y2BazgydF4y2BatgydF4y2Ba+ 1gydF4y2Ba预测潜在的状态向量,gydF4y2BaOgydF4y2Ba高清gydF4y2Ba,gydF4y2BatgydF4y2Ba+ 1gydF4y2Ba和gydF4y2BaOgydF4y2BaldgydF4y2Ba,gydF4y2BatgydF4y2Ba+ 1gydF4y2Ba预测的观察。gydF4y2Ba

3.2.4政策学习gydF4y2Ba

最后,控制策略gydF4y2BaπgydF4y2Ba(gydF4y2Ba一个gydF4y2BatgydF4y2Ba|gydF4y2BaogydF4y2BatgydF4y2Ba与任何标准RL法)是可以习得的。RL算法只接收输入的状态表示gydF4y2BazgydF4y2Ba,由编码器输出信号,可选地,低维观测。在实践中我们选择使用gydF4y2Ba软演员评论家gydF4y2Ba(囊)在我们的实验中,因为该方法的灵活性和通用性。我们从提供的一个派生我们的实现gydF4y2Bastable_baselines3gydF4y2BaRaffin et al。(2021)gydF4y2Ba。gydF4y2Ba

3.2.5引导集合体gydF4y2Ba

提高可靠性和可重复性的方法,和证据gydF4y2Ba蔡美儿et al。(2018)gydF4y2Ba和gydF4y2BaNagabandi et al。(2019)gydF4y2Ba我们利用gydF4y2Ba引导集合体gydF4y2Ba在动力学模型,在编码器和囊演员网络。单一的输出网络聚合执行一个简单的平均水平。这在实践中导致一个更可靠的训练性能,收敛更快的一个正确的解决方案和减少变化引入的网络初始化和环境的随机性。gydF4y2Ba

3.3培训代理gydF4y2Ba

我们训练DVAE-SAC代理网络,通过收集经验gydF4y2Ba通过gydF4y2Ba当前的政策和国内增加值出口额潜器交替训练和囊控制政策。经验是收集的形式(gydF4y2BaogydF4y2BatgydF4y2Ba,gydF4y2Ba一个gydF4y2BatgydF4y2Ba,gydF4y2BargydF4y2BatgydF4y2Ba,gydF4y2BaogydF4y2BatgydF4y2Ba+ 1gydF4y2Ba)转换和存储在一个单一的重播缓冲区,它用作训练集的政策和潜器。算法1gydF4y2Ba图3gydF4y2Ba显示了整个训练过程。gydF4y2Ba

图3gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图3gydF4y2Ba。DVAE-SAC训练过程。指标权重更新与亚当gydF4y2BaKingma和Ba (2015)gydF4y2Ba和政策是训练SAC_UPDATE中定义gydF4y2BaHaarnoja et al。(2018 b)gydF4y2Ba。gydF4y2Ba

3.4传输代理gydF4y2Ba

在执行域转移目标是代理适应新环境,同时避免失去的知识来源域调教出来的。这种转移可能会试图通过整合整个代理目标域数据,但是在实践中由于灾难性的忘记这个不执行。尤其有问题的政策培训可能从头重新启动,作为后期成功的事件没有经验可以直到环境探索。gydF4y2Ba

为了防止这些问题,我们利用的解耦特性DVAE-SAC架构:按原样我们冻结囊剂和转移,而只有整合国内增加值出口额。至关重要的是,为了防止潜在的表示漂流,成为与囊不兼容政策我们也冻结国内增加值出口额的动力学预测部分。在实践中这意味着只有编码器和译码器部分的架构适应目标域。gydF4y2Ba

通过保持动态预测冻结国内增加值出口额是约束保持兼容动力学预测本身潜在的表示。我们实验显示,这是足够的政策保持操作正确,政策也保持兼容。gydF4y2Ba

4实验gydF4y2Ba

为了证明我们方法的有效性评价其性能对机器人桌面对象推进任务。在我们的场景中一个7自由度Franka Emika熊猫机械手臂是肩负着推动6厘米立方体到目标位置。在笛卡儿空间机械臂控制,末端执行器的动作只有水平在一个45平方厘米的工作区位于机器人本身的前面。每集与随机数据集初始化位置和一个随机的末端执行器的位置。在集目标多维数据集的位置保持不变。代理指定位移控制机器人末端执行器的二维的空间,导致连续2 d行动空间。环境是通过一个相机观察放在桌子的对面的机器人手臂,生产128×128像素分辨率的RGB图像。除了图片代理也有访问从机器人本体感受的信息形式的末端执行器的二维位置提示。gydF4y2Ba表1gydF4y2Ba总结了观察和行动空间。gydF4y2Ba图4gydF4y2Ba显示了模拟和真实的场景,gydF4y2Ba图5gydF4y2Ba显示一个成功的例子。gydF4y2Ba

表1gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

表1gydF4y2Ba。对象推动环境的观察和行动空间。操作空间归一化(−1,1),但对应位移最大的2.5厘米gydF4y2BaxgydF4y2Ba和gydF4y2BaygydF4y2Ba。gydF4y2Ba

图4gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图4gydF4y2Ba。模拟gydF4y2Ba(一)gydF4y2Ba和真正的gydF4y2Ba(B)gydF4y2Ba对象设置。相机用于收集输入图像中可见在图片左上角。gydF4y2Ba

图5gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图5gydF4y2Ba。一个成功的例子集模拟设置。观察图像的图像显示步骤0,4、8、12、16、20、24。gydF4y2Ba

每一期持续40步骤。一旦立方体到达目标位置,在一个5厘米宽容,这一事件被认为是成功的,但它不是中断直到到达40步骤超时。gydF4y2Ba

我们定义的奖励作为构成三个方面,一个鼓励末端执行器的尖端靠近立方体,立方体的接近目标,一个多维数据集在任何方向移动。在那里,我们定义如下gydF4y2BargydF4y2Ba(gydF4y2BapgydF4y2BacgydF4y2Ba,gydF4y2BapgydF4y2BatgydF4y2Ba)整体奖励,gydF4y2BargydF4y2BacgydF4y2Ba(gydF4y2BapgydF4y2BacgydF4y2Ba,gydF4y2BapgydF4y2BaggydF4y2Ba)是cube-goal术语,gydF4y2BargydF4y2BatgydF4y2Ba(gydF4y2BapgydF4y2BatgydF4y2Ba,gydF4y2BapgydF4y2BacgydF4y2Ba)tip-cube术语,gydF4y2Ba rgydF4y2Ba dgydF4y2Ba (gydF4y2Ba pgydF4y2Ba cgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba cgydF4y2Ba ′gydF4y2Ba )gydF4y2Ba 立方体位移项,gydF4y2BargydF4y2BabgydF4y2Ba(gydF4y2BapgydF4y2BacgydF4y2Ba,gydF4y2BapgydF4y2BaggydF4y2Ba)是一个进一步的奖金在多维数据集时gydF4y2BadgydF4y2Ba从目标。常数gydF4y2BaαgydF4y2Ba是一个比例因子,我们一直固定在。1。的gydF4y2BargydF4y2BacgydF4y2Ba和gydF4y2BargydF4y2BatgydF4y2Ba函数被定义为线性斜坡,值0分别为40厘米的目标和100和50个目标。gydF4y2Ba

rgydF4y2Ba pgydF4y2Ba cgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba tgydF4y2Ba =gydF4y2Ba αgydF4y2Ba *gydF4y2Ba rgydF4y2Ba cgydF4y2Ba pgydF4y2Ba cgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba tgydF4y2Ba +gydF4y2Ba rgydF4y2Ba tgydF4y2Ba pgydF4y2Ba tgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba cgydF4y2Ba +gydF4y2Ba rgydF4y2Ba dgydF4y2Ba pgydF4y2Ba cgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba cgydF4y2Ba ′gydF4y2Ba :gydF4y2Ba rgydF4y2Ba cgydF4y2Ba pgydF4y2Ba cgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba ggydF4y2Ba =gydF4y2Ba One hundred.gydF4y2Ba 0.4gydF4y2Ba *gydF4y2Ba 0.4gydF4y2Ba −gydF4y2Ba 为gydF4y2Ba pgydF4y2Ba cgydF4y2Ba −gydF4y2Ba pgydF4y2Ba ggydF4y2Ba 为gydF4y2Ba +gydF4y2Ba rgydF4y2Ba bgydF4y2Ba pgydF4y2Ba cgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba ggydF4y2Ba rgydF4y2Ba tgydF4y2Ba pgydF4y2Ba tgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba cgydF4y2Ba =gydF4y2Ba 50gydF4y2Ba 0.4gydF4y2Ba *gydF4y2Ba 0.4gydF4y2Ba −gydF4y2Ba 为gydF4y2Ba pgydF4y2Ba tgydF4y2Ba −gydF4y2Ba pgydF4y2Ba cgydF4y2Ba 为gydF4y2Ba rgydF4y2Ba dgydF4y2Ba pgydF4y2Ba cgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba cgydF4y2Ba ′gydF4y2Ba =gydF4y2Ba 为gydF4y2Ba pgydF4y2Ba cgydF4y2Ba −gydF4y2Ba pgydF4y2Ba cgydF4y2Ba ′gydF4y2Ba 为gydF4y2Ba *gydF4y2Ba One hundred.gydF4y2Ba *gydF4y2Ba 20.gydF4y2Ba rgydF4y2Ba bgydF4y2Ba pgydF4y2Ba cgydF4y2Ba ,gydF4y2Ba pgydF4y2Ba ggydF4y2Ba =gydF4y2Ba 200年gydF4y2Ba dgydF4y2Ba *gydF4y2Ba dgydF4y2Ba −gydF4y2Ba 为gydF4y2Ba pgydF4y2Ba cgydF4y2Ba −gydF4y2Ba pgydF4y2Ba ggydF4y2Ba 为gydF4y2Ba 如果gydF4y2Ba 为gydF4y2Ba pgydF4y2Ba cgydF4y2Ba −gydF4y2Ba pgydF4y2Ba ggydF4y2Ba 为gydF4y2Ba ≤gydF4y2Ba dgydF4y2Ba 0gydF4y2Ba 否则gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba

我们实现这个场景在现实世界gydF4y2Ba露台gydF4y2Ba模拟(gydF4y2BaKoenig和霍华德(2004)gydF4y2Ba]。评估转移能力我们执行sim-to-sim和sim-to-real实验,模拟不同的特征来放大或缩小源和目标域之间的差距。gydF4y2Ba表2gydF4y2Ba总结了每个场景的特点。gydF4y2Ba

表2gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

表2gydF4y2Ba。从源域变化在不同的实验场景。gydF4y2Ba

4.1 Sim-to-simgydF4y2Ba

我们评估我们的方法在四个sim-to-sim转移场景增加困难。我们这样做通过保持一个固定的来源域和目标域,定义四套我们不同的宽度转移差距通过改变特征如立方体颜色、照明和相机姿势。gydF4y2Ba

在本节中,我们讨论不同的设置和相应的结果。结果也报道gydF4y2Ba表3gydF4y2Ba和gydF4y2Ba图6gydF4y2Ba。gydF4y2Ba图7gydF4y2Ba显示了性能实现从头训练仿真。gydF4y2Ba

表3gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

表3gydF4y2Ba。四个sim-to-sim DVAE-SAC结果(s2)和sim-to-real (S2R)场景。列分别表示:最好的成功率,实现最初的成功率在目标域(即zero-shot传输性能),集的数量必须达到80%的成功率,集的数量必须达到90%的成功率。gydF4y2Ba

图6gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图6gydF4y2Ba。成功率sim-to-sim实验进展。图gydF4y2Ba(一)gydF4y2Ba显示了minimal-gap场景:可以看到性能差异根据多维数据集的颜色。图gydF4y2Ba(B)gydF4y2Ba显示结果为所有的场景在一个聚合形式,故事情节显示平均表现在种子在100事件窗口。最小,小、中、大场景我们分别使用8,12日,16日和4种子。阴影区域代表95%置信区间。gydF4y2Ba

图7gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图7gydF4y2Ba。在模拟输入图像和预测图像gydF4y2Ba(一)gydF4y2Ba和真正的gydF4y2Ba(B)gydF4y2Ba设置。gydF4y2Ba

以下4.4.1最小的差距gydF4y2Ba

在这种情况下我们只改变操纵数据集的颜色。在源域立方体是黑色的,我们定义了八个目标场景有八个不同的颜色:红色,绿色,蓝色,黄色,青色,品红和2等级的灰色。gydF4y2Ba

根据所选颜色的政策有一个初始性能变化10至95%,然而在110年的整合方法始终达到90%的成功率,然后继续维持振荡性能在95%到92之间。gydF4y2Ba

4.1.2小缺口gydF4y2Ba

在此设置中我们引入变化也相机姿势和光线的方向。我们改变姿势通过翻译左,右,向上或向下5厘米。我们改变光的方向从源域的纵轴与一个30°倾角四种可能的轴向左边,正确的前面或后面。我们设置了立方体的颜色是红色。gydF4y2Ba

这些变化代理性能是最初的约5%,这是与一个随机的政策。在我们的实验代理始终达到80%的成功率大约210集和一个在950年大约90%的成功率。然而,已经在一集500年代理始终达到88%的成功率。gydF4y2Ba

4.1.3介质差距gydF4y2Ba

进一步扩大转移差距在这个场景中我们增加摄像机构成的大小改变。我们移动相机20厘米而不是5,我们改变它的方向保持操作区域的视野。我们解决多维数据集的颜色是红色和不同光方向相同的方式在前面的场景。gydF4y2Ba

训练性能相当的小间隙的情况下,达到80%的成功率320年事件和1250年的90%。也在这种情况下性能略低于90%达到相当早,在集750年达到85%。gydF4y2Ba

4.1.4巨大的差距gydF4y2Ba

最难的sim-to-sim场景中我们完全改变相机的观点,同时还改变方块的颜色和光线的方向。相机移动,以便它面临着操纵区域从侧面而不是前面,90°的角度变化。gydF4y2Ba

在这个场景中,这不仅仅只是一个sim-to-real转移问题,代理培训大约需要尽可能多的时间需要从头开始培训代理。大约需要1200集来达成80%的成功率,达到86%的最大性能,集2000年执行比源培训。gydF4y2Ba

我们hypotesize,这可以解释的事实,在这种情况下,代理再次遇到一个探索的问题,尽管不使用任何类型的强化学习方法。代理必须再次发现目标所在,并从培训只能理解这个信号的奖励预测出现在动力学模型。gydF4y2Ba

4.2 Sim-to-sim VAE-SACgydF4y2Ba

探索动态预测的重要性存在域转移我们的性能评估VAE-SAC代理sim-to-sim场景。VAE-SAC代理是我们建筑的修改版本的动态预测被移除。gydF4y2Ba图8gydF4y2Ba显示了实现传输性能。如预期域转移失败,因为没有约束保持兼容控制策略的潜在表示。即使在minimal-gap场景,zero-shot性能不为零,成功率迅速下降的性能与randmo政策。在小间隙的情况下我们可以看到最初的性能上升,但随后也腐烂。gydF4y2Ba

图8gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图8gydF4y2Ba。成功率的进步sim-to-sim VAE-SAC实验。图显示的平均表现在种子在100事件窗口。阴影区域代表95%置信区间。gydF4y2Ba

4.3 Sim-to-realgydF4y2Ba

除了sim-to-sim评价我们也评估方法的性能sim-to-real转会的场景。我们只执行我们称之为minimal-gap sim-to-real转移,我们尽量减少差异不是故意引入变化和试图复制的模拟场景是可能的。然而,转让仍然提出了小型摄像机构成的差异,照明和环境的结构是相当不同的。gydF4y2Ba图9gydF4y2Ba显示了训练性能在实际设置。gydF4y2Ba图10gydF4y2Ba显示了相机视图和解码器重建的模拟和真实的场景。gydF4y2Ba

图9gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图9gydF4y2Ba。成功率sim-to-real实验进展在4.3节讨论。实线代表成功率100 -集窗口前,现阶段,背景乐队代表相应的95%置信区间。gydF4y2Ba

图10gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图10gydF4y2Ba。成功率从头培训进展进行模拟。两个随机种子被显示。实线代表成功率100 -集窗口前,现阶段,背景乐队代表相应的95%置信区间。gydF4y2Ba

最初的成功率通过政策大约是10%,但国内增加值出口额快速的整合带来了80%,只有550集,对应5 h(经验,90%的性能达到在990集,10 h的经验数据。gydF4y2Ba

从头开始培训在模拟相比,该sim-to-real threshold大大快在第一阶段的学习,实现80%的成功率大约一半的时间,然而达到90%需要一样的时间源培训。但是必须指出的是,从头开始训练在现实比模拟需要相当多的时间,由于更高的感官输入的复杂性。此外,sim-to-real threshold通过解冻就可以完成控制策略一旦国内增加值出口额已达到足够好的性能,允许代理进一步适应失踪的区别在目标域。gydF4y2Ba

5的结论gydF4y2Ba

在这个工作我们提出了一种有效的方法学习视觉操作政策和转移训练有素的特工从模拟现实。代理体系结构使用学习方法解耦表示基于预测变分Autoencoder,命名为指标,能够完全代表一个系统建模为一个马尔可夫决策过程。这个配方允许学习样本效率高的视觉任务,要求的数据远低于传统的端到端强化学习方法。这让我们在模拟列车操纵政策少于12 h。gydF4y2Ba

此外,解耦方法的性质和动力学因素的存在使我们能够转移剂有效地模拟与现实之间。不同于其他sim-to-real改编作品的方法提出了完全无监督工作,是训练有素的在线和不需要任何目标领域知识在执行源域训练。因此,它不需要任何外部的数据收集RL代理收集的经验,同时,它可以应用于勘探难题和手工数据采集的任务是不切实际的。gydF4y2Ba

我们演示了转移能力的方法gydF4y2Ba通过gydF4y2Basim-to-sim object-pushing机器人设置和sim-to-real实验。结果表明该方法可以克服相当大的差距源和目标域的特点。当源-目标域差距很小的方法能够适应非常快,减少培训时间由三至四倍。如果现实差距是宽,适应自然的方法需要更多的时间和数据,但仍然带来了相当大的sample-efficiency改进。gydF4y2Ba

sim-to-real传输实验显示该方法提供了相当大的效率改进尤其是看着第一阶段的训练。代理达到80%的成功率500集,从零开始的一半所需的是一个模拟培训。它还必须注意如何从头开始培训一个政策在现实不会像在模拟一样简单,真实环境的复杂性会影响代理的性能也在这种情况下。实际培训效率的提高,因此可能大于显示什么。gydF4y2Ba

当看着渐近性能滞后的方法相比,从头训练。然而这剩余的差距在性能可以用的更复杂的性质来解释真实世界的观察,可以弥合,执行进一步的整合,整合后解冻控制政策网络。gydF4y2Ba

总之,我们的方法显示了它是如何可能的培训有效地操纵机器人对象等政策推动任务的例子很少的真实数据。只有6小时的实际经验,代理学会解决我们的对象将任务,直接从视觉输入。gydF4y2Ba

数据可用性声明gydF4y2Ba

在这项研究中提出的数据集可以在网上找到存储库。库的名称/存储库和加入数量(s)可以找到如下:代码将可用gydF4y2Bahttps://gitlab.com/crzz/dvae_s2r_pushinggydF4y2Ba。gydF4y2Ba

作者的贡献gydF4y2Ba

克雷格:主要贡献者、设计方法和实验装置,实现了方法并进行了实验FC:监督和支持的概念研究,组织支持直流:监督和支持的概念研究,组织支持、资金支持。gydF4y2Ba

的利益冲突gydF4y2Ba

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2Ba

出版商的注意gydF4y2Ba

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。gydF4y2Ba

脚注gydF4y2Ba

1gydF4y2Ba我们认为我们的方法是模范自由不使用学到的动力学模型计划轨迹或生成数据,但只有作为正则化的工具。这遵循相同的会议中使用gydF4y2Ba李et al。(2020)gydF4y2Ba。gydF4y2Ba

引用gydF4y2Ba

Bousmalis, K。Irpan,。,Wohlhart, P., Bai, Y., Kelcey, M., Kalakrishnan, M., et al. (2018). “Using simulation and domain adaptation to improve efficiency of deep robotic grasping,” in2018年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”gydF4y2Ba(澳大利亚布里斯班:gydF4y2BaIEEEgydF4y2Ba),4243 - 4250。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Bousmalis, K。,年代ilberman, N., Dohan, D., Erhan, D., and Krishnan, D. (2017). “Unsupervised pixel-level domain adaptation with generative adversarial networks,” in《IEEE计算机视觉与模式识别会议gydF4y2Ba(檀香山,嗨,美国:gydF4y2BaIEEEgydF4y2Ba),3722 - 3731。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

蔡,K。,Calandra, R., McAllister, R., and Levine, S. (2018). “Deep reinforcement learning in a handful of trials using probabilistic dynamics models,” in神经信息处理系统的进步,NeurIPS 2018gydF4y2Ba。编辑s Bengio h .瓦拉赫h . Larochelle k .好莱坞n . Cesa-Bianchi和r·加内特(加拿大蒙特利尔:gydF4y2BaCurran Associates Inc .)gydF4y2Ba)31。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Ganin Y。,和le米pitsky, V. (2015). “Unsupervised domain adaptation by backpropagation,” in国际会议上机器学习gydF4y2Ba(法国里尔:gydF4y2BaPMLRgydF4y2Ba)。1180 - 1189。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Ghosh, P。,年代一个jjadi, M. S. M., Vergari, A., Black, M. J., and Schölkopf, B. (2020). “From variational to deterministic autoencoders,” in第八届国际会议上学习表示,ICLR 2020gydF4y2Ba(埃塞俄比亚的亚的斯亚贝巴:gydF4y2BaOpenReview.netgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

古普塔,。,Devin, C., Liu, Y., Abbeel, P., and Levine, S. (2017). “Learning invariant feature spaces to transfer skills with reinforcement learning,” in学习国际会议上表示,ICLR 2017gydF4y2Ba(法国土伦:gydF4y2BaICLRgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Haarnoja, T。周,。,一个bbeel, P., and Levine, S. (2018a). “Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor,” in机器学习国际会议上,ICML 2018gydF4y2Ba(瑞典斯德哥尔摩:gydF4y2BaPMLRgydF4y2Ba),1861 - 1870。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Haarnoja, T。周,。,Hartikainen, K., Tucker, G., Ha, S., Tan, J., et al. (2018b).软actor-critic算法和应用程序gydF4y2Ba。gydF4y2BaarXiv预印本arXiv: 1812.05905gydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Hafner, D。,lillicrap, T., Fischer, I., Villegas, R., Ha, D., Lee, H., et al. (2019). “Learning latent dynamics for planning from pixels,” in机器学习国际会议上,ICML 2019gydF4y2Ba(美国加利福尼亚州长滩:gydF4y2BaPMLRgydF4y2Ba),2555 - 2565。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Hafner, D。,lillicrap, T., Ba, J., and Norouzi, M. (2020). “Dream to control: Learning behaviors by latent imagination,” in第八届国际会议上学习表示,ICLR 2020gydF4y2Ba(埃塞俄比亚的亚的斯亚贝巴:gydF4y2BaOpenReview.netgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Hafner, D。,lillicrap, T., Norouzi, M., and Ba, J. (2021). “Mastering atari with discrete world models,” in9日学习国际会议上表示,ICLR 2021gydF4y2Ba奥地利(虚拟事件:gydF4y2BaOpenReview.netgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Heiden E。,米illard, D., Coumans, E., Sheng, Y., and Sukhatme, G. S. (2021). “Neuralsim: Augmenting differentiable simulators with neural networks,” in2021年IEEE机器人与自动化国际会议上,ICRA 2021gydF4y2Ba中国(西安:gydF4y2BaIEEEgydF4y2Ba),9474 - 9481。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

霍夫曼,J。Tzeng E。、公园、T。,Zhu, J.-Y., Isola, P., Saenko, K., et al. (2018). “Cycada: Cycle-consistent adversarial domain adaptation,” in机器学习国际会议上,ICML 2018gydF4y2Ba(瑞典斯德哥尔摩:gydF4y2BaPMLRgydF4y2Ba),1989 - 1998。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

霍华德。,年代一个ndler, M., Chu, G., Chen, L.-C., Chen, B., Tan, M., et al. (2019). “Searching for mobilenetv3,” in《IEEE / CVF计算机视觉国际会议上,ICCV 2019gydF4y2Ba(gydF4y2Ba韩国首尔gydF4y2Ba),1314 - 1324。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

詹姆斯,年代。,Wohlhart, P., Kalakrishnan, M., Kalashnikov, D., Irpan, A., Ibarz, J., et al. (2019). “Sim-to-real via sim-to-sim: Data-efficient robotic grasping via randomized-to-canonical adaptation networks,” in《IEEE CVF计算机视觉与模式识别会议,CVPR 2019gydF4y2Ba,12627 - 12637。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Kingma, d . P。,和Ba, J. (2015). “Adam: A method for stochastic optimization,” in第三学习国际会议上表示,ICLR 2015gydF4y2Ba。编辑y Bengio和勒存y (gydF4y2Ba圣地亚哥,加州,美国gydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Kingma, d . P。,和Welling, M. (2014). “Auto-encoding variational bayes,” in2学习国际会议上表示,ICLR 2014gydF4y2Ba。编辑y Bengio和勒存y (gydF4y2Ba加拿大的班芙,ABgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Koenig, N。,和霍华德。(2004). “Design and use paradigms for gazebo, an open-source multi-robot simulator,” in2004年IEEE / RSJ智能机器人和系统国际会议(——)(IEEE猫。没有。04 ch37566)gydF4y2Ba(日本仙台,:gydF4y2BaIEEEgydF4y2Ba)2149 - 2154。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Kostrikov,我。Yarats D。,和Fergus, R. (2020).图像增强是你所需要的:起居从像素深度强化学习gydF4y2Ba。gydF4y2BaarXiv预印本arXiv: 2004.13649gydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Laskin, M。李,K。,年代tooke,一个。平托,L。, Abbeel, P., and Srinivas, A. (2020a). Reinforcement learning with augmented data.放置神经Inf。过程。系统。gydF4y2Ba33岁,19884 - 19895。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Laskin, M。,斯,一个。,和一个bbeel, P. (2020b). “CURL: contrastive unsupervised representations for reinforcement learning,” in美国第37机器学习国际会议上,ICML 2020gydF4y2Ba(gydF4y2Ba虚拟事件:PMLRgydF4y2Ba)。gydF4y2Ba继续。机器学习Res。gydF4y2Ba119年,5639 - 5650。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

李,a . X。,Nagabandi,。Abbeel, P。,和levine, S. (2020). “Stochastic latent actor-critic: Deep reinforcement learning with a latent variable model,” in神经信息处理系统的进步,NeurIPS 2020gydF4y2Ba。编辑h . Larochelle m . Ranzato r·哈德·m·Balcan和h·林(gydF4y2BaVirtual-only: Curran Associates Inc .)gydF4y2Ba33,741 - 752。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

长,M。,Cao, Y., Wang, J., and Jordan, M. (2015). “Learning transferable features with deep adaptation networks,” in机器学习国际会议上,ICML 2015gydF4y2Ba(法国里尔:gydF4y2BaPMLRgydF4y2Ba),97 - 105。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Mnih, V。,Badia, A. P., Mirza, M., Graves, A., Lillicrap, T., Harley, T., et al. (2016). “Asynchronous methods for deep reinforcement learning,” in机器学习国际会议上,ICML 2016gydF4y2Ba(gydF4y2BaPMLRgydF4y2Ba),1928 - 1937。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Mnih, V。,K一个vukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., et al. (2015). Human-level control through deep reinforcement learning.自然gydF4y2Ba518年,529 - 533。gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Muratore F。古纳,T。威斯,F。,Belousov, B., Gienger, M., and Peters, J. (2021). “Neural posterior domain randomization,” in会议上机器人学习,考2021gydF4y2Ba(英国伦敦:gydF4y2BaPMLRgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Nagabandi,。,Konolige, K., Levine, S., and Kumar, V. (2019). “Deep dynamics models for learning dexterous manipulation,” in2019年第三届会议上机器人学习,考程序gydF4y2Ba(日本大阪:gydF4y2BaPMLRgydF4y2Ba),100年,1101 - 1112。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Nair,。,年代rinivasan, P., Blackwell, S., Alcicek, C., Fearon, R., De Maria, A., et al. (2015).大规模并行深度强化学习的方法gydF4y2Ba。gydF4y2BaarXiv预印本arXiv: 1507.04296gydF4y2Ba。ICML 2015深度学习研讨会。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

英伟达,(2020)。英伟达艾萨克sim卡。可以在:gydF4y2Bahttps://developer.nvidia.com/isaac-simgydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Akkaya OpenAI,,我。Andrychowicz, M。Chociej, M。Litwin, M。,B·麦格罗。,et一个l. (2019).解魔方机器人的手gydF4y2Ba。gydF4y2BaArXivgydF4y2Baabs / 1910.07113。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

彭,x B。,一个ndrychowicz, M., Zaremba, W., and Abbeel, P. (2017). “Sim-to-real transfer of robotic control with dynamics randomization,” in2018年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”gydF4y2Ba,1 - 8。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

平托,L。,一个ndrychowicz, M., Welinder, P., Zaremba, W., and Abbeel, P. (2018). “Asymmetric actor critic for image-based robot learning,” in程序的机器人:科学和系统,R: 2018不锈钢gydF4y2Ba(gydF4y2Ba宾夕法尼亚州匹兹堡gydF4y2Ba)。10.15607 / RSS.2018.XIV.008gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Possas, R。,Barcelos, L., Oliveira, R., Fox, D., and Ramos, F. (2020). Online bayessim for combined simulator parameter inference and policy improvement,” in2020年IEEE / RSJ智能机器人和系统国际会议——2020年(IEEE)gydF4y2Ba。gydF4y2BaIEEEgydF4y2Ba,5445 - 5452。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Raffin,。山,。,Gleave, A., Kanervisto, A., Ernestus, M., and Dormann, N. (2021). Stable-baselines3: Reliable reinforcement learning implementations.j·马赫。学习。Res。gydF4y2Ba22日,1 - 8。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

拉莫斯,F。,Possas, R。,和Fox, D. (2019). “Bayessim: Adaptive domain randomization via probabilistic inference for robotics simulators,” in>机器人:科学和系统十五,R: 2019不锈钢gydF4y2Ba。编辑a . Bicchi h . Kress-Gazit和s·哈钦森(gydF4y2Ba德国弗莱堡im BreisgaugydF4y2Ba)。doi: 10.15607 / RSS.2019.XV.029gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Rezende d J。默罕默德·S。,和Wierstra, D. (2014). “Stochastic backpropagation and approximate inference in deep generative models,” in31日学报》国际会议上机器学习gydF4y2Ba。邢编辑e p、t . Jebara(中国北京:gydF4y2Ba机器学习研究的程序gydF4y2Ba)1278 - 1286。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

鲁丁,N。,Hoeller, D., Reist, P., and Hutter, M. (2021). “Learning to walk in minutes using massively parallel deep reinforcement learning,” in5年会机器人学习,考2021gydF4y2Ba(英国伦敦:gydF4y2Ba机器学习研究的程序gydF4y2Ba),91年。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

鲁杰罗,F。,lippiello, V., and Siciliano, B. (2018). Nonprehensile dynamic manipulation: A survey.IEEE机器人自动化。gydF4y2Ba3,1711 - 1718。doi: 10.1109 / lra.2018.2801939gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

舒尔曼,J。Wolski F。,Dhariwal, P., Radford, A., and Klimov, O. (2017).近端政策优化算法gydF4y2Ba。gydF4y2BaarXiv预印本arXiv: 1707.06347gydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

斯,一个。Laskin, M。,和一个bbeel, P. (2020).Curl:对比无监督表示强化学习gydF4y2Ba。gydF4y2BaarXiv预印本arXiv: 2004.04136gydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

太阳,B。,和年代一个enko,K。(2016). “Deep coral: Correlation alignment for deep domain adaptation,” in电脑Vision-ECCV 2016车间gydF4y2Ba。编辑g .华和h . Jegou(荷兰阿姆斯特丹:gydF4y2Ba施普林格国际出版gydF4y2Ba),443 - 450。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

托宾,J。,Fong, R., Ray, A., Schneider, J., Zaremba, W., and Abbeel, P. (2017). “Domain randomization for transferring deep neural networks from simulation to the real world,” in2017年IEEE / RSJ智能机器人和系统国际会议(——)gydF4y2Ba,23-30。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Tzeng, E。,Devin, C., Hoffman, J., Finn, C., Abbeel, P., Levine, S., et al. (2016).适应深visuomotor交涉弱成对约束gydF4y2Ba(旧金山、钙、美国:gydF4y2Ba施普林格国际出版gydF4y2Ba),688 - 703。doi: 10.1007 / 978 - 3 - 030 - 43089 - 4 - _44gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Tzeng, E。,Devin, C., Hoffman, J., Finn, C., Peng, X., Levine, S., et al. (2015).对适应深visuomotor表示从模拟到真实的环境gydF4y2Ba。gydF4y2Ba相关系数gydF4y2BaarXiv预印本arXiv: 1511.07111。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Tzeng, E。,霍夫曼,J。,年代一个enko,K。,和D一个rrell, T. (2017). “Adversarial discriminative domain adaptation,” in《IEEE计算机视觉与模式识别会议,CVPR 2017gydF4y2Ba(gydF4y2Ba火奴鲁鲁,嗨,美国gydF4y2Ba)。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Tzeng, E。,霍夫曼,J。张,N。,年代一个enko,K。,和D一个rrell, T. (2014).深度域困惑:最大化域不变性gydF4y2Ba。gydF4y2Ba相关系数gydF4y2BaarXiv预印本arXiv: 1412.3474。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

统一(2020)。gydF4y2Ba团结gydF4y2Ba。可以在:gydF4y2Bahttps://unity.com/solutions/automotive-transportation-manufacturing/roboticsgydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Yarats D。,Fergus, R., Lazaric, A., and Pinto, L. (2022). “Mastering visual continuous control: Improved data-augmented reinforcement learning,” in第十届国际会议上学习表示,ICLR 2022gydF4y2Ba(gydF4y2Ba虚拟事件:OpenReview.netgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Yarats D。,Kostrikov,我。,和Fergus, R. (2021a). “Image augmentation is all you need: Regularizing deep reinforcement learning from pixels,” in9日学习国际会议上表示,ICLR 2021gydF4y2Ba,gydF4y2Ba虚拟事件,奥地利gydF4y2Ba,gydF4y2Ba2021年5月3 - 7,gydF4y2Ba(gydF4y2BaOpenReview.netgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Yarats D。,Zhang, A., Kostrikov, I., Amos, B., Pineau, J., and Fergus, R. (2021b). “Improving sample efficiency in model-free reinforcement learning from images,” in《三十五AAAI会议上人工智能,AAAI 2021gydF4y2Ba(实际上举行:gydF4y2BaAAAI新闻gydF4y2Ba),10674 - 10681。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

关键词:gydF4y2Ba强化学习(RL),机器人技术,操纵,变分技术,动态,推动gydF4y2Ba

引用:gydF4y2Ba陈Rizzardo C, D F和考德威尔(2023)Sim-to-realgydF4y2Ba通过gydF4y2Ba潜在的预测:转移视觉non-prehensile操纵政策。gydF4y2Ba前面。机器人。人工智能gydF4y2Ba9:1067502。doi: 10.3389 / frobt.2022.1067502gydF4y2Ba

收到:gydF4y2Ba2022年10月11日;gydF4y2Ba接受:gydF4y2Ba2022年12月21日;gydF4y2Ba
发表:gydF4y2Ba2023年1月12日。gydF4y2Ba

编辑:gydF4y2Ba

曹国伟曾gydF4y2Ba德国汉堡大学gydF4y2Ba

审核:gydF4y2Ba

盐田咋gydF4y2Ba美国马里兰大学gydF4y2Ba
文凯陈gydF4y2Ba德国汉堡大学gydF4y2Ba

版权gydF4y2Ba©2023 Rizzardo,陈和考德威尔。这是一个开放分布式根据文章gydF4y2Ba知识共享归属许可(CC)。gydF4y2Ba使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。gydF4y2Ba

*通信:gydF4y2Ba卡洛•RizzardogydF4y2Bacarlo.rizzardo@iit.itgydF4y2Ba

下载gydF4y2Ba