交互式学习行为树的不完美的人类示威
- 1交互式人工智能和认知模型Human-AI交互(IKIDA),达姆施塔特科技大学、达姆施塔特,德国
- 2科技大学认知科学中心,达姆施塔特,德国达姆施塔特
- 3心灵遥感,智能自治系统集团,计算机科学系,达姆施塔特科技大学、达姆施塔特,德国
作品简介:在交互任务学习(ITL),代理学习新任务通过自然与人类互动的讲师。行为树(BTs)提供无功,模块化,可翻译的编码任务描述但尚未被应用在机器人ITL设置。大多数现有的方法学习BT从人类示威要求用户指定每个操作一步一步或不允许调整一个学会了BT无需从头开始重复整个教学过程。
方法:我们提出一个新的框架直接从只有少数人工任务学习BT示威活动记录为RGB-D视频流。我们自动提取连续BT动作节点的先决条件和后置条件的视觉特性和使用Backchaining方法来建立一个反应BT。在用户研究非专家如何提供不同示威,我们确定了三种常见的故障情况下的BT从潜在的不完美的人类最初的示威活动。我们提供一种交互式地解决这些故障情况下,通过改进现有的BT在web界面与用户交互。具体来说,失败的情况下检测到或未知状态自动执行期间学会了BT,最初的BT或延长调整根据提供的用户输入。
评估和结果:我们评估我们的方法与人类参与者20机器人垃圾处置任务,证明我们的方法是能够学习反应BTs只有少数人类示威和交互式地解决可能的情况下在运行时失败。
1介绍
多种可能的任务和用户首选项在日常场景呈现纯提前设计未来机器人的不足。学习新任务的能力从非专业用户因此成为一个关键组件的发展智能机器人系统(<一个href="#B20">Laird et al ., 2017)。
行为树(BTs)提供无功,模块化,可翻译的的任务描述和编码方法在机器人共同体(最近得到了越来越多的关注<一个href="#B22">Marzinotto et al ., 2014;<一个href="#B26">帕克斯顿et al ., 2017;<一个href="#B4">Colledanchise Ogren, 2018;<一个href="#B10">Fusaro et al ., 2021)。
然而,只有几个现有的方法学习BTs直接从人工任务演示(<一个href="#B29">罗伯逊和华生,2015年;<一个href="#B31">Sagredo-Olivenza et al ., 2017;<一个href="#B9">法国et al ., 2019;<一个href="#B13">Gustavsson et al ., 2021)或允许调整或改进学习BT无需重复整个教学过程(<一个href="#B15">Helenon et al ., 2021;<一个href="#B16">Iovino et al ., 2022 a)。特别是,当处理不完整或不完善任务演示结果令人沮丧的教学程序,在执行时间失败的风险更高。
在本文中,我们提出ILBERT(交互式学习行为树),一个新的学习框架BT只有少数人类示威和交互式地细化了解BT在运行时。我们使用视觉特征提取高层行动分割和backchaining方法学习一个初始BT直接从视频演示。在执行时,我们解决故障情况下通过精炼或延长学习BT根据交互式用户输入了一个图形用户界面。
确定不同的州采取行动执行BT,我们提取人工任务的先决条件和后置条件示威。与相关方法(<一个href="#B6">Colledanchise et al ., 2019;<一个href="#B13">Gustavsson et al ., 2021;<一个href="#B18">Iovino et al ., 2021),我们使用连续的条件,而不是二进制的和从人类的视频演示,而不是手动提取这些条件根据每个操作。然而,最初的示威活动和产生的先决条件和后置条件可能无法涵盖所有情况,在执行时可能发生的学会了BT。因此,在任务执行过程中,我们的方法自动检测状态未见在示威和请求额外的来自用户的输入来改进或扩展最初了解BT。<一个href="#F1">图1总结了我们建议的方法。
图1。该方法的概述。首先,用户提供了一些示威活动的任务。任务相关特征提取和示威活动划分为高层行动序列。基于标签的特性和行动,为所有操作先决条件和后置条件计算。Backchaining方法用于建立一个初始行为树的条件可以直接执行的机器人。在执行期间,失败情况下会自动检测并解决使用用户提供的输入通过一个web界面和最初的行为树和迭代条件从而适应相应的行动。
我们研究两个主要研究问题在实验评估在垃圾处理机器人任务Franka Erika熊猫机器人。首先,我们分析在试点研究,以评估人类示威游行非专业用户提供什么样的任务对我们的机器人,以及何时和为什么BTs,学会了我们建议的方法从这个初始的示威活动失败。其次,我们提出一个交互式方法改进和扩展学习BT在运行时解决失败病例观察和评估我们的方法在随后的用户研究。示范试点研究的数据用于训练动作分类器预测高层行动序列提取视频特征的第二项研究。实验评价表明,我们建议的方法导致成功的改进和解决潜在的故障情况下初始BT后学习。此外,我们分析用户满意度方面产生的任务与整个系统性能和交互。
总的来说,我们的论文的主要贡献如下。首先,我们提出一个方法来直接从人类学习英国电信视频演示,包括自动动作分割和提取行动的先决条件和后置条件执行使用视觉特性。第二,我们分析可能情况不完美的非专业人类示威活动可能导致失败情况下的最初生成的BT。第三,我们实施和评估一个交互式方法解决这些故障情况下执行期间通过精炼或扩展BT与用户输入一个图形用户界面和额外的示威活动。
剩下的论文结构如下。在<一个href="#h3">第二节BTs,我们提供一个总结并讨论相关的方法。后来<一个href="#h4">第三节介绍我们的小说框架的交互式学习BT从几人的视频演示。在<一个href="#h5">第四节,我们分析可能导致的失败案例不完美的人类的示威活动,评估我们的方法在机器人与人类用户任务,并讨论结果。最后,<一个href="#h6">第五节总结了纸和展望了未来的研究方向。
2背景和相关工作
在本节中,我们首先提供一个总结行为树的概念,然后讨论相关工作学习行为树。
2.1行为树
行为树控制结构被用于不同的任务在一个自治代理之间切换。他们最初出现在游戏行业替代有限状态机(<一个href="#B23">Mateas和斯特恩,2002年;<一个href="#B24">米林顿Funge, 2018)。在过去的几年,他们表现出他们的潜力巨大构建机器人的行为(<一个href="#B4">Colledanchise Ogren, 2018;<一个href="#B17">Iovino et al ., 2022 b)。
有限状态机相比,BTs提供非耦合模块化的优点和更直接的可重用性(子)的行为,以及内置的反应性和改善人类可读性(<一个href="#B3">Colledanchise Ogren, 2016;<一个href="#B4">Colledanchise Ogren, 2018;<一个href="#B14">汉et al ., 2021)。
英国电信是一个有向根树由内部节点和叶节点。叶节点(子)执行任务,例如,behaviors, whereas all internal nodes are control flow nodes. An example BT can be seen on the top right in<一个href="#F1">图1,控制节点中描述矩形形状和执行节点椭圆体。在英国电信的执行过程中,根节点
它可以指出,BTs,根据定义,接近决策树(<一个href="#B3">Colledanchise Ogren, 2016;<一个href="#B9">法国et al ., 2019)。然而,BTs提供内置反应自节点可以执行超过一个使用的蜱虫
有不同的现有代码框架实现BTs (<一个href="#B12">Ghzouli et al ., 2020)。在本文实验中,我们使用BehaviorTree。CPP库(<一个href="#B8">Faconti 2018与ROS)由于其兼容性。树是这里定义使用基于xml的格式,可以使用图形用户界面可视化
为进一步的细节在机器人和人工智能的BTs,我们指的是(<一个href="#B4">Colledanchise Ogren, 2018)。
2.2学习行为树
有几种方法来设计为特定的任务(BTs<一个href="#B17">Iovino et al ., 2022 b)。BTs可以手工或使用支持手动构造设计工具,如大的GUI编辑器。配角(<一个href="#B26">帕克斯顿et al ., 2017)使非专业用户创建健壮的机器人任务计划使用BT-based任务编辑器集成感知。这个简化实现但手工设计树循序渐进的仍然是必要的,具有挑战性的更复杂的任务。BTs也被用作控制结构手动结合原语在一个图形用户界面引导机器人运动技能学习(<一个href="#B19">酒店和Koert, 2021)。除了手工施工,BTs可以构建使用规划算法来计算一个计划来解决一个任务,然后将这个计划转换为BT。遗传规划,例如,用于自动构建一个BT从一组动作和条件和奖励或适应度函数(<一个href="#B32">Scheper et al ., 2016;<一个href="#B5">Colledanchise et al ., 2018;<一个href="#B18">Iovino et al ., 2021)。然而,定义这样一个函数可以是困难的,特别是对于用户的日常生活。同样的,<一个href="#B2">巴纳吉(2018)提出先自主学习强化学习控制策略,然后将这一政策转化为基于规范的BT BTs,这是一个降低BTs的代表。
学习示范(最晚完成日期)提供了一个不错的选择,尤其是还使非专业用户教机器人新任务(<一个href="#B28">Ravichandar et al ., 2020)。然而,我们所知,到目前为止,只有很少工作,学会了从示威行为树(<一个href="#B29">罗伯逊和华生,2015年;<一个href="#B31">Sagredo-Olivenza et al ., 2017;<一个href="#B9">法国et al ., 2019;<一个href="#B13">Gustavsson et al ., 2021)。
其中一个方法是学习决策树(DT)展示了政府行动对后来学习DT转化为一个等价的行为树(<一个href="#B31">Sagredo-Olivenza et al ., 2017;<一个href="#B9">法国et al ., 2019)。这是提出第一次协助游戏设计者编程的npc (<一个href="#B31">Sagredo-Olivenza et al ., 2017),后来扩展和应用学习机器人打扫屋子任务(<一个href="#B9">法国et al ., 2019)。具体地说,<一个href="#B9">法国et al。(2019)生成一个决策树(DT)从用户演示的形式通过一个用户界面选择的行动。
Gustavsson et al。(2021)提出一个方法来学习的BT动觉示威。此外,他们提出一个聚类方法确定每个操作的适当参考帧。英国电信是建立使用预定义的Backchaining二进制先决条件和后置条件。Backchaining算法首次提出的<一个href="#B6">Colledanchise et al。(2019)和提供了一个规划师自动种植BT。该算法迭代生长树代替失败的先决条件与子树代表一个动作一个适当的后置条件满足失败条件。<一个href="#B35">Styrud et al。(2022)将遗传规划与Backchaining平衡这两种方法的缺点,使学习更有效率。我们的方法还使用Backchaining构建一个BT。然而,我们为每个操作自动抽取,前置或后置条件从人类示威游行,而不是事先手动定义它们,而不是方法<一个href="#B13">Gustavsson et al。(2021);<一个href="#B6">Colledanchise et al。(2019)。此外,我们使用连续的先决条件和后置条件而不是二进制特征(<一个href="#B6">Colledanchise et al ., 2019;<一个href="#B13">Gustavsson et al ., 2021)。
另一种方法学习BT从人类示威活动是直接映射所有演示序列组成的子树节点的操作和显示地方BT的后备节点下的子树。<一个href="#B29">罗伯逊和华生(2015)应用这种方法学习BT战略游戏《星际争霸》之类的游戏。然而,这导致大型高难度BTs(> 50.000节点)的结构限制了反应性。
一些作品交互学习或提炼BTs通过与人类用户交互。<一个href="#B36">Suddrey et al。(2022)建立一个基于自然语言指令和BT使用交互式对话与用户请求更多信息和解决歧义。同样的,<一个href="#B16">Iovino et al。(2022)结合的方法<一个href="#B13">Gustavsson et al。(2021)与一个交互式的消歧框架(<一个href="#B7">Doğan et al ., 2022)在一个场景来解决歧义BT执行通过语言与用户的交互。然而,他们只关注失败病例从模糊的对象出现在现场。在<一个href="#B15">Helenon et al。(2021)结合手势、语音命令为了学习BT。方法允许增量学习任务与日益增长的复杂性与用户进行交互。然而,用户必须指定每个操作一步一步,可以麻烦复杂的任务。与大多数交互式方法学习BT (<一个href="#B15">Helenon et al ., 2021;<一个href="#B7">Doğan et al ., 2022;<一个href="#B36">Suddrey et al ., 2022),我们直接从录像学习BT的人工任务示威。
总的来说我们发现缺乏评估拟议的系统对机器人任务(BT与非专业用户学习<一个href="#B15">Helenon et al ., 2021;<一个href="#B18">Iovino et al ., 2021)和缺乏用户研究的关注物理演示完成任务序列(<一个href="#B5">Colledanchise et al ., 2018;<一个href="#B13">Gustavsson et al ., 2021;<一个href="#B36">Suddrey et al ., 2022)。
3交互式学习行为树从示威
本节介绍我们的小说框架交互学习行为树从几人示威(ILBERT)。与相关方法、任务示威RGB-D数据直接记录。我们自动提取任务相关特性和部分示威进入高层行动序列(<一个href="#h4-1">3.1节)。基于特征和行动序列,每个行动学习(先决条件和后置条件<一个href="#h4-2-1">3.2.1节),一个初始BT是建立使用Backchaining (<一个href="#B6">Colledanchise et al ., 2019)(<一个href="#h4-2-2">3.2.2节)。这个初始BT不可能涵盖所有可能的情况下,因为有限的潜在的不完美的示威活动。因此,失败的情况下,可能发生在学会了BT的执行会自动检测到,可以通过用户输入的交互解决通过web接口(<一个href="#h4-3">3.3节)。最初的BT和相应条件相应更新。<一个href="#F1">图1显示了管道的概述。在下面,我们更详细地解释每一个步骤。
3.1特征提取和分割
与其他相关方法(<一个href="#B9">法国et al ., 2019;<一个href="#B15">Helenon et al ., 2021),我们想直接从录音学习BT完成人工任务的执行,而不是要求用户解释每一步一步的行动。
因此,我们记录人工任务示威RGB-D相机和段这些录音到高层行动序列<我nline-formula id="inf1">
为每一个演示<我nline-formula id="inf2">
使用pre-trained地图一个滑动窗口的标识符
在哪里θ表示模型的参数。灵感来自于<一个href="#B34">摘要et al。(2020),我们使用面向对象和hand-object距离特性<我nline-formula id="inf5"> 行动的分割。为了提取这些特性,我们使用MediaPipe (<一个href="#B37">Zhang et al ., 2020(即)来推断相关3 d地标。,wrist, thumb, and index-fingertip) of the user’s hand for each video frame. Using ArUco markers, we additionally obtain a 3D pose estimation of task-relevant objects (i.e., trash, trashcan, and lid). Since the ArUco detection fails to detect the marker during fast movements of the object due to motion blur, we are using the CMT tracking algorithm (<一个href="#B25">Nebehay Pflugfelder, 2015),除了。这是一个长期模范自由对象keypoint-based方法跟踪。跟踪器每次都重新初始化ArUco检测成功检测到一个标记。如果没有检测到,标记位置的跟踪预测。通过使用要点检测标记,该方法在对象的规模和占旋转和可以检测出标记,尽管运动模糊。我们使用移动平均滤波器来降低噪音功能。
我们训练的分类器手动标记记录人类的示威活动。因为有些行为可能发生频率较低比其他对于一个给定的任务,提前数据集是平衡的。我们比较不同标准的机器学习模型在本文实验和报告的结果<一个href="#h5-3-1">4.3.1节。
应该注意,动作分割不是本文的重点,但整体开发系统的一小部分。具体的分类模型是可互换的,可能会被替换为在未来的工作中更高级的方法。
3.2 Backchaining连续前置和后置条件
Backchaining提出了<一个href="#B6">Colledanchise et al。(2019)作为一个规划算法来建立一个BT基于每个行动的先决条件和后置条件。它已经被用于学习的BT动觉演示基于手动定义的操作条件(<一个href="#B13">Gustavsson et al ., 2021)。集成到一个框架,用于交互式基于用户的语言输入(消歧<一个href="#B16">Iovino et al ., 2022 a)表明Backchaining适合交互式学习任务设置。使用的先决条件和后置条件允许我们探测到看不见的状态和原因对正确的行为。
相比其他方法,借鉴人类示威(<一个href="#B6">Colledanchise et al ., 2019;<一个href="#B30">Safronov et al ., 2020),我们只使用连续的先决条件和后置条件而不是二进制特征。此外,我们直接学习对于每一个先决条件和后置条件从人类示威行动而不是事先手动定义它们,如<一个href="#B13">Gustavsson et al。(2021);<一个href="#B16">Iovino et al。(2022)。
3.2.1前置和后置条件提取从人类示威
在本节中,我们解释我们的方法自动提取,前置或后置条件从人类示威RGB-D视频数据的形式。类似于行动的分类(<一个href="#h4-1">3.1节)我们首先从示威游行中提取对象和手的位置,然后计算前置和后置条件
从动作分类器,我们获得高级动作场面<我nline-formula id="inf26"> 为所有人类示威<我nline-formula id="inf27"> 和定义<我nline-formula id="inf28"> 所示的所有行动。
为每一个动作<我nline-formula id="inf29">
,我们定义的先决条件和后置条件值范围最小值之间<我nline-formula id="inf30">
和最大值<我nline-formula id="inf31">
对于一个功能
在哪里<我nline-formula id="inf32">
和<我nline-formula id="inf33">
特征子集作为先决条件和后置条件的行动
为了决定哪些特性
首先,我们计算的开始和结束的平均差值序列的特性Ψ一个,
在哪里<我nline-formula id="inf39">
和<我nline-formula id="inf40">
开始和结束值特性吗
第二,我们计算的平均帧特征值变化的数量超过一个阈值基于该特性的最小和最大价值所有动作发生
第三,我们计算的方差值对所有示威
基于这三个指标,我们决定行动的一个特性是相关的后置条件,应该包含在<我nline-formula id="inf41"> 根据
在哪里<我nline-formula id="inf42"> ,<我nline-formula id="inf43"> ,<我nline-formula id="inf44"> 和<我nline-formula id="inf45"> 是手写的阈值。对于本文中的实验,我们集<我nline-formula id="inf46"> ,<我nline-formula id="inf47"> ,<我nline-formula id="inf48"> ,<我nline-formula id="inf49"> 。
为每一个行动和功能<我nline-formula id="inf50"> 和<我nline-formula id="inf51"> ,我们现在想定义最小和最大的价值<我nline-formula id="inf52"> 的条件范围<我nline-formula id="inf53"> ,<我nline-formula id="inf54"> 。
为一个后置条件特征
我们这些范围后处理<我nline-formula id="inf56">
,所以动作的先决条件和后置条件对于一个给定的特性不重叠,所有初始范围不小于一个预定义的阈值
最后,必须适应条件的先决条件和后置条件相邻操作组合在一起。<一个href="#Algorithm_1">算法1总结了整个条件计算的细节。
算法1。条件计算。
要求:
为
为
删除离群值
计算指标m1(
确定相关的后置条件<我nline-formula id="inf13">
为每一个动作
结束了
适应条件,这样,前置或后置条件不重叠
扩大范围小的条件低于价值的差异
结束了
为d∈
为nd∈(0,
为
如果
其他的
如果
结束了
结束了
结束了
为d∈
结束了
3.2.2 Backchaining
提取的先决条件和后置条件为每一个行动,一起行动序列的示威游行,都是用来构造初始使用Backchaining BT算法(<一个href="#B6">Colledanchise et al ., 2019)。首先,我们定义一个目标状态<我nline-formula id="inf57">
的后置条件范围的最后显示行动示威,假设所有演示的目标状态是相同的为一个特定的任务。这一目标的条件放在树的根序列。然后迭代搜索树提出利用自模拟失败条件<一个href="#B30">Safronov et al。(2020)开始,从所有开始迭代条件范围<我nline-formula id="inf58">
所有的示威活动。在这里,开始条件<我nline-formula id="inf59">
是一组前提范围的第一个行动示范吗
算法2。(改编自Backchaining算法<一个href="#B30">Safronov et al。(2020))
而
为
根据自模拟搜索失败条件入手<我nline-formula id="inf62">
搜索行动,满足失败条件
用子树代替失败的条件
搜索和解决潜在的冲突
结束了
结束时
删除不必要的节点
我们学习反应行为树能够解决给定的任务,尽管外部影响。因此,定期了解BT是赊销与给定频率。通用BT行动必须返回
3.3交互处理失败的情况下
我们建议的方法学习BT只有少数人类示威。结果,用户努力保持低,只有一个简短的培训阶段后,机器人已经能够执行最初的BT。然而,一些示威活动不可能涵盖所有可能的场景或失败的病例,并处理这些不完整的示威活动是一个挑战(<一个href="#B13">Gustavsson et al ., 2021)。
在一项研究中有22个参与者如何非专业用户展示机器人任务(<一个href="#h5-2">4.2节),我们确定了三个主要的问题在执行BTs从这样的不完美的人类的示威活动。不久之后,我们描述这些潜在的失败场景和自动解释我们提出如何解决它们的互动方式。所有失败病例的概述以及他们如何解决基于用户输入所示<一个href="#F8">图8。
3.3.1解决前提失败
我们发现失败病例作为前置条件之前和期间操作失败或失败后置条件后执行一个动作(黄色的<一个href="#F8">图8)。条件失败如果相应的功能不躺在定义值范围内。
前提可能失败的原因有两种:要么机器人正试图执行正确的行动,但这个动作的先决条件不包括当前形势下,或后置条件不佳导致错误地标记行动BT。如果一个动作,例如,已经成功执行后置条件是次优的,因此不满足,机器人可以执行此操作。为了决定如何解决这种情况,该系统解释了什么行动它试图执行检查是否正确的子树旁边的BT是自责。用户问机器人确实是追求正确的行动。如果用户不证实,机器人要求必须执行的操作。在这种情况下,一个后置条件一定是学习不正确(蓝色<一个href="#F8">图8)。鉴于目前的特征值<我nline-formula id="inf63">
和正确的行动,有可能放弃BT和识别后置条件不佳。这种后置条件改变的建议行动的蜱虫会最终根据当前的特征值。后置条件,每个特性范围是与当前的特征值。如果该值超过最大值的后置条件范围<我nline-formula id="inf64">
,它被设置为当前的特征值增加了参数
算法3。前置条件和后置条件的适应
要求:ϵ:参数增加的数量变化
如果
其他的如果
结束如果
如果用户证实了机器人的下一个行动计划,现有的前提必须扩展到包括当前状态(红色<一个href="#F8">图8)。这个场景可能发生如果人类当前的示范正确的行动不包括当前功能状态。如果一个用户了
3.3.2解决失败后置条件
后一个动作成功并返回
3.3.3解决看不见的情况下额外的示威活动
前提条件失败,它可能发生,机器人不能解决的情况与任何示威行动到目前为止(绿色<一个href="#F8">图8)。这可能发生如果用户演示了一个拾起并定位任务的对象则是名正言顺的把握但在机器人执行另一个对象放置在这个对象和第一必须放在一边完成任务。学会了BT会失败,因为这种情况和所需的行动是没有显示在人类示威。在这种情况下,用户可以显示其他示威活动所需的行动或行为序列,直到最初了解BT以前失败的前提是满足。这些示威活动是用于计算条件中描述的新举措<一个href="#h4-2-1">3.2.1节。失败的前提就取代了迭代的新证明行动使用Backchaining方法(<一个href="#h4-2-2">3.2.2节),直到失败的前提是满足。
改编后学会了BT和相应的条件如前一节所描述的,它是必要的,以确保所有相邻的先决条件和后置条件操作仍组合在一起,如果有必要,调整相应的(<一个href="#Algorithm_1">算法1)。
应该注意的是,重建整个树没有必要解决描述失败病例。相反,失败的条件是改编或子树所取代。结果,英国电信的发展,和条件精制的机器人处理新情况,但最初的BT结构保持不变。在这里,我们的方法可以避免多次重复类似的示威活动,因为只有当地改变是必需的,和之前学的BT是剥削。
4实验评价机器人垃圾处理的任务
我们评估我们的方法在垃圾处理机器人任务Franka Erika熊猫机器人手臂。在试点研究与22个参与者,我们分析什么样的任务示威非专业用户提供和失败病例发生在执行一个BT从这些潜在的不完美和不完整的示威活动。在另一项研究中,我们评估产生的整个系统,包括互动解决失败的情况下的执行时间BT 20人的参与者。我们使用示范试点研究的数据来训练一个动作分类器预测高层行动序列从RGB-D人类示威活动的录像。在下面,我们首先描述实验详细设置<一个href="#h5-1">4.1节。后来,在<一个href="#h5-2">4.2节,我们从试点研究分析人类的示威活动。最后,我们评估整体互动的方法,分析对整个系统的用户满意度<一个href="#h5-3">4.3节。
4.1垃圾处理任务的设置
图2显示了垃圾处理的实验设置的任务。机器人应该学习如何捡垃圾(空tetra-pack)放置在区域标记为绿色<一个href="#F2">图2一个和倾倒垃圾桶。如果盖子放在垃圾桶,机器人应该先学习如何把盖子放在一边。对象的垃圾,垃圾桶,盖子用黄色突出显示<一个href="#F2">图2 b。Azure RGB-D Kinect摄像头(红色<一个href="#F2">图2一个)是用来记录所有人类示威和获得RGB和深度的信息。在ordertolearn a task representation in the form of a BT, we map the human’s high-level actions to the robot’s pre-defined high-level actions. The set of actions consists of
图2。(一)一个参与者演示任务。示范录音可以开始使用web界面的平板(蓝色)。演示由Kinect Azure相机记录(红色)。开始之前的演示中,参与者被要求把垃圾在区域标记为绿色。(B)执行任务的机器人,通过平板电脑用户提供输入(蓝色)。任务相关对象(盖子、垃圾桶、垃圾)用黄色突出显示。
4.2初步研究确定缺陷在人类示威
相关方法学习BTs从人类示威,缺乏实验分析非专家如何证明任务和可能潜在的缺陷,当学习BTs从这样的示威活动。实验是进行用户熟悉系统(<一个href="#B15">Helenon et al ., 2021;<一个href="#B17">Iovino et al ., 2022 b)或只考虑自然语言指令(<一个href="#B36">Suddrey et al ., 2022)或动觉教学(<一个href="#B13">Gustavsson et al ., 2021),但没有人完成任务序列的示威活动。然而,我们认为它重要的见解关于人们如何使用演示任务处理不完美的示威活动。为了研究什么样的任务示威非专业用户提供我们的机器人和分析可能的失败病例的BTs从这样的示威游行,我们问22参与者(9男,13女性)来演示垃圾处置任务,所述<一个href="#h5-1">4.1节。一开始,我们对参与者进行了书面指示解释一般实验设置和程序。我们要求他们演示任务和运动迟缓,只用右手。每个参与者都要求三次,演示任务
不仅对学习BTs从示威活动还为其他最晚完成日期的临近,变化是必不可少的学习有意义的任务表示,推广不同的情况(<一个href="#B1">阿卜杜et al ., 2013;<一个href="#B19">酒店和Koert, 2021)。与我们的实验中,我们贡献分析,提供见解如何非专业用户改变他们的示威和讨论潜在故障情况下可能发生当学习BT使用描述的方法从这些示威活动<一个href="#h4-2">3.2节。
每个演示之前,我们让参与者把垃圾在区域标记为绿色,所示<一个href="#F2">图2一个,然后开始演示使用web界面(<一个href="#F8">图8)。示威活动记录30帧的帧速率由Azure Kinect RGB-D以红色突出显示<一个href="#F2">图2。
4.2.1分析准备人类示威活动的变化
我们分析变异在人类示威活动基于记录对象位置和一个问卷,参与者回答后提供示范。
报告根据问卷所示变化<一个href="#F3">图3一。五的20个参与者说他们没有故意改变他们的示威游行,因为他们忘记了这个请求或不知道如何改变。报告的其他参与者不同的方式不同的示威活动,可分为七大类。七个参与者展示了不同的轨迹,当他们登上了垃圾,然后把垃圾到垃圾桶。六个参与者报告垃圾速度和位置的变化。九个参与者改变了他们抓住并发布垃圾示威。只有四个参与者说他们不同的示威活动将垃圾桶的盖子在他们的一些示威,要么把盖子放在垃圾桶在演示或将其放置在垃圾桶后他们把垃圾放进垃圾桶。一些变化只是一个参与者所示,如不同的垃圾当释放它的高度或故意打垃圾的垃圾桶前正确地释放它在垃圾桶显示机器人垃圾桶的位置。
定位的所有参与者的垃圾
我们确定了三个著名的失败案例,可以直接从记录发生当执行一个BT得知人类示威,所述<一个href="#h4-2">3.2节。首先,只显示微小的变化,在演示可以导致失败或未知情况下当机器人执行最初的BT从一些示威活动。例如,假设用户略微改变了垃圾放置所有的示威活动。在这种情况下,条件范围只会介绍这一具体案例,导致失败的前提,如果垃圾放置稍微到左边或者右边。同样适用于变化的运动和使用盖子。
能够处理这些前提条件在执行时间失败的情况下,仍然能够从只有少数人示威,我们提出交互式地精炼失败的前置条件中描述<一个href="#h4-3-1">3.3.1节。
第二个失败案例可能出现的差异造成的行为和相应的机械行为。如果的示威行动
因为只有四个所有20个参与者包括垃圾桶的盖子在他们示威,所有其他参与者的学习了BT会失败的情况下被盖子放在垃圾桶。在这种情况下,所需的行动序列先把盖子放到一边不显示在示威。在这种情况下,需要行动是用来学习的示威活动中没有显示最初的BT,我们建议根据额外扩展BT人类示威的行动(<一个href="#h4-3-3">3.3.3节)。
在飞行员的测试中,我们发现有些用户只沿着一个轴进行运动导致直角的运动,大概是为了模仿机器人和支持学习任务的机器人。我们怀疑用户故意适应他们的示威活动如果他们意识到这些示威活动被用来教机器人的任务。获得深入理解这一现象,在实验中,我们特别要求参与者在一个问卷是否证明了任务通常他们将如何执行它或如果他们证明了任务预期机器人执行任务。所有22个参与者,12个用户表示,他们执行任务时通常会执行它。另一方面,十个主题报道他们的示威活动适应机器人的行为。
4.3评价互动BT学习机器人垃圾处理的任务
我们机器人进行实验与20个参与者(8男,12女性)来评估整个系统,包括学习一个初始的管道直接从几人的视频BT示威活动和互动细化的最初了解BT在机器人执行。在这里,我们使用一个分类器训练中描述的示范试点研究中收集的数据<一个href="#h4-1">3.1节行动的分割。
所有20个参与者,15人在18到25岁之间和五26到35岁之间。研究对象主要是低水平的报道经验与机器人。特别是,十一个人之前从来没有直接接触机器人,五人报道不到十遇到机器人,和只有五人接触机器人十倍以上。
实验分为两个部分。首先,参与者显示三个任务示威,最初的BT建于中描述<一个href="#h4-2">3.2节。后来,机器人执行BT,参与者应该交互式地解决最终失败的情况下发生。在下面,我们首先呈现的结果行动分割训练数据集收集试点研究(<一个href="#h5-3-1">4.3.1节)。然后,我们分析的结果行动分割,前置和后置条件计算,英国电信大楼<一个href="#h5-3-2">4.3.2节。<一个href="#h5-3-3">4.3.3节评估所有失败的情况下执行期间,这些失败是如何解决的。有关交互的用户满意度与整体系统根据用户体验调查问卷(UEQ)进行了分析<一个href="#h5-3-4">4.3.4节。学会BTs展示在的反应<一个href="#h5-4-5">4.3.5节,如何使用额外的示威活动的一个例子来扩展一个初始BT的垃圾处理任务中描述<一个href="#h5-3-6">4.3.6节。
4.3.1行动训练分类器分类
记录的数据集,我们比较不同的监管行动标准的机器学习模型分割提取证明行动序列是一个必要的组成部分发达的管道。此外,我们报告分段拾起并定位操作从人类示威活动时遇到的挑战。
中描述的<一个href="#h5-2">4.2节在试点研究受试者第一次展示了三次任务没有进一步说明如何完成任务的准确。他们完成了这三个试验后,我们另外收集示威活动有更多的详细说明,以便有一个结构良好的数据集来训练分类器对垃圾处理任务。在这里,我们首先要求他们演示任务三次从预定义的不同起始位置的垃圾不动垃圾桶盖子。后来,我们特别要求他们首先垃圾桶的盖子再次展示任务前三次。
作为分类器的特性,我们使用手之间的距离垃圾,垃圾桶,垃圾到垃圾桶,拇指食指输入,盖子,盖子垃圾,垃圾桶盖子,垃圾的速度。所有的距离和速度计算基于提取的对象位置和手功能,所述<一个href="#h4-1">3.1节。
滚动窗口的前五帧和5帧在每一帧被使用。我们手动标记人类示威活动获取地面实况的视频标签。所有的行动分类结果模型所示<一个href="#T1">表1。我们k-fold交叉验证的方式训练模型的平衡数据集21参与者和剩下的参与者用于验证。我们报告模型的均值得分22折叠。最好的结果是通过使用多项式核的支持向量机学位3中强调<一个href="#T1">表1。实现精度加权得分0.849,F1-score 0.856,精度0.843,0.897召回。使用一个随机森林模型的精度与0.856略高。然而,随机森林模型只能达到0.725验证数据的准确性。
试点研究中,我们观察到两个通用学习机器人拾起并定位任务时可能出现的问题,从人类示威。首先,人们倾向于只略微打开和关闭他们的手指当展示或释放行动。这很难可靠地检测这些行为和学习有意义的条件下基于拇指和食指输入之间的距离。第二,没有一个固定的起始和结束位置用户的手,用户可能无意中跳过行动机器人执行任务是必要的。一些参与者已经把他们的手在垃圾示范,这样行动的开始
因为这些指令的变化可能会导致不同的示威,我们延长了训练数据集与额外的示威活动任务的一个固定的开始和结束位置的手,一个更广泛的生路。总的来说,我们添加了20示威没有使用盖子和22示威活动的任务与垃圾桶的盖子放在开始。
动作分割结果发表在这个扩展训练数据集<一个href="#T2">表2。再一次,一个多项式核的支持向量机度3达到最好的结果精度加权得分为0.853,F1-score 0.863,精度0.850,0.901召回。再次训练随机森林模型的精度与0.861略高,和一个多层感知器(MLP)达到类似F1-score。以来,总的来说,支持向量机优于其他分类器,我们使用这个模型的扩展数据集训练机器人实验下面描述。
4.3.2实验评价BT建设从人类示威
初的实验中,参与者被给予书面说明解释的任务以及如何开始录音示范使用web界面所示<一个href="#F8">图8。相比第一项研究中,他们被要求保持他们的手张开,除非他们掌握垃圾和开始和结束示威用手放置接近机器人抓手,如图所示<一个href="#F4">图4一。
阅读说明书后,参与者记录三个示威游行,从一个BT建于根据描述的管道<一个href="#h4">第三节。对于给定的任务,我们使用条件中描述的特性<一个href="#T3">表3。
图4说明了这些提取的功能在一个完整的任务示范一个参与者。这里,盖子之间的距离和垃圾桶不是可视化中使用的盖子不是示威以来,价值是,因此,常数。我们使用移动平均滤波器在5帧来减少噪声的特性。可以看到,在
英国电信从给定的人类示威所示<一个href="#F6">图6。为了提高可读性,操作的子树
图6。(一)英国电信的例子使用的三个示威参与者之一。更好的可读性的子树
在<一个href="#F7">图7,我们分析成功的完成每一步的管道,包括特征提取和动作分割,计算和BT建设条件,以及机器人的执行学习BT和交互式消散的失败案例。以防BT是成功由人类的示威活动,在执行期间所有失败病例可以得到解决,基于用户输入,和机器人可以成功地完成这项任务对于那些BTs学习。然而,特征提取和动作分割结果失败10参与者,这阻碍了条件计算和BT建设在这些情况下。使用正确的标签从人工注释,条件计算和BT建设成功14参与者。为了能够测试互动细化为所有参与者通过用户沟通,我们使用后备BT在实验的情况下没有BT能建成。学会了BT和互动的机器人执行分解的故障情况下对所有20个参与者是成功的。在下面,在管道的不同步骤和相应的故障原因详细分析。
图7。(一)许多成功的完成每一步的管道包括特征提取和动作分割,计算和BT建设条件,并与用户输入假设机器人任务执行前一步成功完成。成功的完成所有20个参与者的数量报告。(B)动作分割失败和对应的所有60所示示威的理由。(C)失败在条件计算和BT建设假设正确操作标签。报告的行动造成问题。
10个参与者,动作分类器没有提取正确的动作序列在至少三个示威活动之一。行动的混淆矩阵分割所有示威所示<一个href="#F9">图9。相邻等操作
为了能够测试所有参与者的互动机器人执行期间,使用回退BT的BT不能建造。<一个href="#F7">图7 c说明了BT多长时间可以建立成功的情况下,我们使用手动标注操作标签。在这种情况下,可以提取有意义的条件,和一个BT建于14的20个参与者。五参与者,手指的距离不是公认的相关行动的后置条件
4.3.3互动失败案例处理的实验评价
的第二部分研究的目的是评估如果机器人可以成功地执行了BT在执行期间如果失败病例可以通过精炼解决这个初始BT的帮助用户。
机器人执行,我们替换的手腕位置用户与机器人的末端执行器-一个小的位置偏移量。拇指和食指输入位置都替换为抓手的机器人。由于人手可以打开更广泛的比机器人抓手,我们两夹头之间的距离映射到一个范围在0到14厘米之间。
在书面指示,参与者被要求观看机器人虽然执行学习任务和提供指导,如果机器人通过web界面要求帮助。基于这些输入,初始BT和学习条件中描述的更新<一个href="#h4-3">3.3节。在机器人的帮助下成功解决了任务一旦用户,机器人执行更新后的第二次BT。由于BT更新使用用户的输入,我们期望更少的失败案例,因此,减少第二次请求帮助。不同故障情况下的web界面对话示意图所示<一个href="#F8">图8 b。
图8。(一)概述web界面的展示和记录一个新的任务。首先,用户选择按钮“演示技巧”。然后开始和停止记录按“启动”和“停止”按钮。(B)Webinterface对话对不同故障情况下(黄色)和相应的答案的可能性。如果一个后置条件失败,用户可以确认适应失败条件(蓝色)。在前提条件的情况下失败,用户提供了更多的信息对当前所需的行动以适应其先决条件(红色)。如果机器人正在试图实现已经执行一个动作,它的后置条件必须适应(蓝色)。以防当前所需的行动是示威游行中没有显示,但需要额外的示威游行(绿色)。
在<一个href="#T4">表4,所有调整的先决条件和后置条件总结了第一次和第二次任务执行所有十成功建立BTs从人类示威。对于这一分析,我们排除的情况下,参与者继续撤退BT自相同的结构和条件范围的后备BT导致类似的故障情况下机器人执行期间。平均1.89 4.67先决条件和后置条件改变时的第一个机器人执行每个参与者。要求用户输入的执行已经调整BT是少,平均0.11 1.78先决条件和后置条件调整根据用户输入。需要调整的数量可以有所不同,除此之外,基于BT的学习结构。失败的原因在执行最初的BT的机器人执行运行主要是实现机器人的行为之间的差别,以及用户证明。在第一个实验中运行,操作的前提
4.3.4用户体验
用户体验调查问卷的结果(UEQ) (<一个href="#B33">Schrepp et al ., 2017)所示<一个href="#F9">图9。我们排除了三个参与者的回答,因为他们的回答显示出很大的区别不同商品的评价相同的规模。这被认为是一个有问题的数据模式UEQ和随机提示或不严重的答案。剩下的17个参与者,所有六个构造UEQ问卷显示值高于0.8(橙色),这被认为是一个积极的评价。这里,天平的范围之间−3(可怕的)和+ 3(极好的)。特别是,构造“吸引力”(意思是:1.70,中数:2.0),“简明”(意思是:1.61,中数:2.0),“可靠性”(意思是:1.40,中数:1.5),“刺激”(意思是:1.88,中数:2.0),和“新颖”(意思是:1.50,中数:2.0)被评为积极。唯一一项评估值低于0.8平均是一项“慢/快”的价值−0.6,或多或少代表一个中性的评价。这将导致更低的值对应的构造“效率”(意思是:0.83,中数:1.0)。其中一个原因可能是web界面的设计,要求用户再次按“垃圾处理”后的web接口的每一个互动和相应的细化BT继续机器人执行。三个参与者建议自动继续他们的评论和删除这个步骤的任务被认为是不必要的。
图9。(一)混淆矩阵显示预测高层行动相比,手动贴上地面实况的行动。绝对的帧数,以及归一化值报告下面的括号里。(B)结果六个构造的用户体验调查问卷(UEQ) / 17参与者。中位数是橙色和绿色的三角形显示所示的意思。值高于0.8(绿线)被认为是一个积极的评价。
4.3.5习得行为树的反应性
反应性是行为树的主要优势之一。我们的方法的交互式学习行为与连续树从人类示威先决条件和后置条件保存这个反应。这需要实现为所有操作反应动作节点,这样机器人可以执行期间应对外部变化。所示的一个例子<一个href="#F10">图10。机器人移动到垃圾,掌握它,并开始走向垃圾桶。在之间的行动
图10。例子展示的反应了解BT。机器人捡起垃圾和走向垃圾桶。中间的行动
4.3.6包括额外的人类示威
除了行动的交互式优化条件,我们的方法可以包括其他示威游行在最初学习了BT,中描述<一个href="#h4-3-3">3.3.3节。这样,它可能包括新的动作或行动序列如果一个看不见的形势需要。在我们的研究中对非专业用户演示任务(<一个href="#h5-2">4.2节)我们看到大多数用户只演示如何处理垃圾如果垃圾桶的盖子已经拨出。BT从这种不完美的示威活动,不能解决任务成功如果盖子放在垃圾桶。如果用户想要教会机器人如何第一次预留盖子,有必要显示额外的示威活动所需的动作,并将它们包括在最初的BT。有可能从头开始教机器人新BT通过展示整个任务从垃圾桶的盖子上三次。然而,通过展示任务的一部分不知道机器人和利用已经学习了英国电信用户努力就可以保持在较低水平。首先,最初的BT是由三个人类示威活动从盖子已经预留,如所示<一个href="#F11">图11。如果机器人执行这个BT和盖子的垃圾桶,操作的前提
5的结论
在这篇文章中,我们介绍了ILBERT,新的框架交互学习BT从人类示威。在相关的方法相比,我们直接从只有少数学习BT RGB-D录像的人工任务示威和自动提取一组连续的动作执行的先决条件和后置条件的视觉特性。在非专业用户演示任务如何研究一个机器人,我们确定了三个主要原因失败当学习BT从几个人的示威游行。我们在运行时自动检测并解决这些故障情况下要求交互式用户通过一个web界面的帮助和调整BT和基于用户输入相应的条件。我们评估结果系统与20机器人垃圾处置任务主题。而自动条件计算,英国电信大楼,和交互式优化显示效果良好,动作分类器在本文用于实验应该被一种更健壮的方法在未来。评估UEQ显示整体高水平的用户满意度与发达系统。
5.1限制
我们相信我们的方法的交互式学习机器人行为行为树的形式从潜在的不完美的人类示威活动提供了一个用户友好的方式教机器人新技能。然而,仍然有一些局限性提出的工作。相当简单的方法评估拾起并定位任务,这将是有趣的,看看这个方法可以扩展到更复杂的任务的场景。BT-based框架允许将任意行动作为动作节点实现。然而,需要一个可靠的对象跟踪和行为识别为了能够计算有意义的条件和构建一个可执行的行为树。此外,必须预先定义的任务相关特性。当我们提出一个新的方法来提取连续直接从人类示威,先决条件和后置条件的方法需要大量task-dependent hyper-parameters。
5.2未来的工作
对于未来的工作,我们认为它有趣的扩展提出框架向多通道人类示威活动和学习等也提供多通道交互渠道演讲和手势。此外,我们想要探索替代方法自动前置和后置条件提取从人类示威活动在不同任务的设置。<一个href="#B1">Abdo et al。(2013)集群特性值在一个动作的开始和结束每个集群代表一个不同的方式操作了。他们引入方差测量基于这些集群以识别相关的操作条件。类似的方法可以用来改善当前状况计算,以及确定相关操作条件的一组更大的特性的集合任务相关的特性。我们也想进行进一步研究如何更好的引导非专家提供有意义的额外的示威活动的失败由于看不见的情况下,是否随着时间的推移,他们可以学习如何提供一个更完整的机器人学习一些最初的示威活动。另一个有趣的未来方向是使用交互式人工输入拟议的框架内不仅解决BT在执行时失败,另外包括用户反馈改进动作分类器在半监督的方式(<一个href="#B11">Gassen et al ., 2023;<一个href="#B27">Rangnekar et al ., 2023)或交互式对象检测(<一个href="#B21">Lombardi et al ., 2022)。
数据可用性声明
原始数据支持了本文的结论将由作者提供,没有过度的预订。
道德声明
综述了研究涉及人类参与者,达姆施塔特科技大学伦理委员会批准。患者/参与者提供了他们的书面知情同意参与这项研究。书面知情同意了个人(s)的出版的任何潜在的可识别的图像或数据包含在本文中。
作者的贡献
LS由写作手稿,开发建议的方法,编码、计划、准备和执行实验。导致了开发和编码的建议的方法和写作手稿。SP方法的发展。DK导致了计划的实验和写作手稿。所有作者的文章和批准提交的版本。
资金
这项工作是由德国联邦教育和研究(项目01 is20045)。
确认
作者要感谢尼克•丹嫩贝格Johannes Heeg,艾德里安替他们的烦恼有价值的输入和富有成果的讨论这个项目的开始。此外,我们要感谢所有的人参加了我们的实验时间和有价值的反馈。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
引用
阿卜杜,N。,Kretzschmar, H., Spinello, L., and Stachniss, C. (2013). “Learning manipulation actions from a few demonstrations,” in2013年IEEE机器人与自动化国际会议上,德国卡尔斯鲁厄,2013年5月06-10(IEEE),1268 - 1275。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+manipulation+actions+from+a+few+demonstrations&btnG=">谷歌学术搜索
巴纳吉,b (2018)。“自主机器人控制收购行为树”2018年IEEE / RSJ智能机器人和系统国际会议(——),马德里,西班牙,2018年10月01-05(IEEE),3460 - 3467。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Autonomous+acquisition+of+behavior+trees+for+robot+control&btnG=">谷歌学术搜索
Colledanchise, M。,Ögren, P. (2016). How behavior trees modularize hybrid control systems and generalize sequential behavior compositions, the subsumption architecture, and decision trees.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=How+behavior+trees+modularize+hybrid+control+systems+and+generalize+sequential+behavior+compositions,+the+subsumption+architecture,+and+decision+trees&btnG=">谷歌学术搜索
Colledanchise, M。Parasuraman, R。,Ögren, P. (2018). Learning of behavior trees for autonomous agents.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+of+behavior+trees+for+autonomous+agents&btnG=">谷歌学术搜索
Colledanchise, M。阿尔梅达,D。,Ögren, P. (2019). “Towards blended reactive planning and acting using behavior trees,” in)举行2019机器人与自动化国际会议上(“国际机器人与自动化会议”,加拿大的蒙特利尔,QC,至2019年5月(IEEE),8839 - 8845。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Towards+blended+reactive+planning+and+acting+using+behavior+trees&btnG=">谷歌学术搜索
Doğan, f I。老爹,我。,le我te,I. (2022). “Asking follow-up clarifications to resolve ambiguities in human-robot conversation,” in2022年17 ACM和IEEE国际会议上人机交互(HRI),日本札幌,2022年3月07-10(IEEE),461 - 469。
Faconti, d . (2018)。BehaviorTree.CPP。可以在:<一个href="https://www.behaviortree.dev/">https://www.behaviortree.dev/(2023年1月18日通过)。
法语,K。吴,S。,P一个n,T。周,Z。,Jenkins, O. C. (2019). “Learning behavior trees from demonstration,” in)举行2019机器人与自动化国际会议上(“国际机器人与自动化会议”,加拿大的蒙特利尔,QC,至2019年5月(IEEE),7791 - 7797。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+behavior+trees+from+demonstration&btnG=">谷歌学术搜索
Fusaro F。,l一个米on,E., De Momi, E., and Ajoudani, A. (2021). “A human-aware method to plan complex cooperative and autonomous tasks using behavior trees,” in2020年IEEE-RAS 20人形机器人国际会议(机器人),德国慕尼黑,2021年7月19日—21日(IEEE),522 - 529。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=A+human-aware+method+to+plan+complex+cooperative+and+autonomous+tasks+using+behavior+trees&btnG=">谷歌学术搜索
Gassen, M。,Metzler, F., Prescher, E., Prasad, V., Scherf, L., Kaiser, F., et al. (2023). “I3few-shot行动:交互迭代改进分割”2023年第32 IEEE国际会议上机器人和人类互动交流(RO-MAN),韩国釜山,2023年8月28日—2023年8月31日。
Ghzouli, R。,Berger, T., Johnsen, E. B., Dragule, S., and Wa̧sowski, A. (2020). “Behavior trees in action: A study of robotics applications,” in
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Behavior+trees+in+action:+A+study+of+robotics+applications&btnG=">谷歌学术搜索
Gustavsson, O。Iovino, M。Styrud, J。,年代米我th, C. (2021). Combining context awareness and planning to learn behavior trees from demonstration.
汉族,Z。,G我ger, D., Allspaw, J., Lee, M. S., Admoni, H., and Yanco, H. A. (2021). Building the foundation of robot explanation generation using behavior trees.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Building+the+foundation+of+robot+explanation+generation+using+behavior+trees&btnG=">谷歌学术搜索
Helenon F。,Thiery, S., Nyiri, E., and Gibaru, O. (2021). “Cognitive architecture for intuitive and interactive task learning in industrial collaborative robotics,” in
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Cognitive+architecture+for+intuitive+and+interactive+task+learning+in+industrial+collaborative+robotics&btnG=">谷歌学术搜索
Iovino, M。,Doğan, f I。雷特,我。,年代米我th, C. (2022a). Interactive disambiguation for behavior tree execution.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Interactive+disambiguation+for+behavior+tree+execution&btnG=">谷歌学术搜索
Iovino, M。,年代cukins, E., Styrud, J., Ögren, P., and Smith, C. (2022b). A survey of behavior trees in robotics and ai.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=A+survey+of+behavior+trees+in+robotics+and+ai&btnG=">谷歌学术搜索
Iovino, M。,Styrud, J。,F一个lco, P., and Smith, C. (2021). “Learning behavior trees with genetic programming in unpredictable environments,” in2021年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,西安,中国,2021年6月2021年5月30日- 05(IEEE),4591 - 4597。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+behavior+trees+with+genetic+programming+in+unpredictable+environments&btnG=">谷歌学术搜索
酒店,M。,Koert,D。(2021)。 “Guided robot skill learning: A user-study on learning probabilistic movement primitives with non-experts,” in2020年IEEE-RAS 20人形机器人国际会议(机器人),德国慕尼黑,2021年7月19日—21日(IEEE),514 - 521。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Guided+robot+skill+learning:+A+user-study+on+learning+probabilistic+movement+primitives+with+non-experts&btnG=">谷歌学术搜索
Laird, j·E。好运,K。,一个nderson, J., Forbus, K. D., Jenkins, O. C., Lebiere, C., et al. (2017). Interactive task learning.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Interactive+task+learning&btnG=">谷歌学术搜索
Lombardi, M。,Maiettini, E., Tikhanoff, V., and Natale, L. (2022). “Icub knows where you look: Exploiting social cues for interactive object detection learning,” in21国际会议2022年IEEE-RAS人形机器人(机器人),宜,日本,2022年11月28 - 30(IEEE),480 - 487。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Icub+knows+where+you+look:+Exploiting+social+cues+for+interactive+object+detection+learning&btnG=">谷歌学术搜索
Marzinotto,。,Colledanchise, M。史密斯,C。,Ögren, P. (2014). “Towards a unified behavior trees framework for robot control,” in2014年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,中国香港,2014年6月2014年5月31日- 07(IEEE),5420 - 5427。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Towards+a+unified+behavior+trees+framework+for+robot+control&btnG=">谷歌学术搜索
Mateas, M。,年代tern,一个。(2002). A behavior language for story-based believable agents.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=A+behavior+language+for+story-based+believable+agents&btnG=">谷歌学术搜索
Nebehay G。,Pflugfelder, R. (2015). “Clustering of Static-Adaptive correspondences for deformable object tracking,” in2015年IEEE计算机视觉与模式识别会议(CVPR),波士顿,美国,2015年6月07-12(IEEE)。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Clustering+of+Static-Adaptive+correspondences+for+deformable+object+tracking&btnG=">谷歌学术搜索
帕克斯顿,C。,Hundt, A., Jonathan, F., Guerin, K., and Hager, G. D. (2017). “Costar: Instructing collaborative robots with behavior trees and vision,” in2017年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”,新加坡,2017年6月29日2017年5月- 03(IEEE),564 - 571。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Costar:+Instructing+collaborative+robots+with+behavior+trees+and+vision&btnG=">谷歌学术搜索
Rangnekar,。Kanan C。,Hoffman, M. (2023). “Semantic segmentation with active semi-supervised learning,” in《IEEE / CVF冬季会议在计算机视觉的应用,Waikoloa,嗨,美国,2023年1月02-07,5966 - 5977。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Semantic+segmentation+with+active+semi-supervised+learning&btnG=">谷歌学术搜索
Ravichandar, H。,Polydoros, A. S., Chernova, S., and Billard, A. (2020). Recent advances in robot learning from demonstration.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Recent+advances+in+robot+learning+from+demonstration&btnG=">谷歌学术搜索
Robertson G。,Watson, I. (2015). Building behavior trees from observations in real-time strategy games. In2015年国际研讨会上创新智能系统和应用程序(INISTA),马德里,西班牙,2015年9月02-04(IEEE),1 - 7。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Building+behavior+trees+from+observations+in+real-time+strategy+games&btnG=">谷歌学术搜索
Safronov E。,Colledanchise, M。,N一个t一个le, L. (2020). “Task planning with belief behavior trees,” in2020年IEEE / RSJ智能机器人和系统国际会议(——),美国内华达州拉斯维加斯,2020年10月24日- 2021年1月24日(IEEE),6870 - 6877。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Task+planning+with+belief+behavior+trees&btnG=">谷歌学术搜索
Sagredo-Olivenza,我。,Gómez-Martín, P. P., Gómez-Martín, M. A., and González-Calero, P. A. (2017). Trained behavior trees: Programming by demonstration to support ai game designers.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Trained+behavior+trees:+Programming+by+demonstration+to+support+ai+game+designers&btnG=">谷歌学术搜索
Scheper, k . Y。、Tijmons年代。,deVisser, C. C., and de Croon, G. C. (2016). Behavior trees for evolutionary robotics.
《公共医学图书馆摘要》|<一个href="https://doi.org/10.1162/artl_a_00192">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Behavior+trees+for+evolutionary+robotics&btnG=">谷歌学术搜索
Schrepp, M。,Hinderks, A., and Thomaschewski, J. (2017). Construction of a benchmark for the user experience questionnaire (ueq).
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Construction+of+a+benchmark+for+the+user+experience+questionnaire+(ueq)&btnG=">谷歌学术搜索
摘要,M。,X我一个n,Z., Huang, A., Kroemer, O., and Fragkiadaki, K. (2020). “Graph-structured visual imitation,” in机器人学习会议(PMLR),美国剑桥,马,2020年11月16日- 18日,979 - 989。
Styrud, J。,Iovino, M。,Norrlöf, M., Björkman, M., and Smith, C. (2022). “Combining planning and learning of behavior trees for robotic assembly,” in)举行2022机器人与自动化国际会议上(“国际机器人与自动化会议”,美国费城,宾夕法尼亚州,2022年5月汽车出行(IEEE),11511 - 11517。
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Combining+planning+and+learning+of+behavior+trees+for+robotic+assembly&btnG=">谷歌学术搜索
Suddrey G。,T一个lbot, B., and Maire, F. (2022). Learning and executing re-useable behaviour trees from natural language instruction.
CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Learning+and+executing+re-useable+behaviour+trees+from+natural+language+instruction&btnG=">谷歌学术搜索
关键词:人机交互,交互的任务学习,行为树,从示范,学习机器人的任务,用户研究,故障检测,故障恢复
引用:Scherf L,施密特,Pal和Koert D(2023)交互式学习行为树的不完美的人类示威。
收到:2023年1月28日;接受:2023年6月14日;
发表:2023年7月12日。
编辑:
曼努埃尔·朱利亚尼英国西英格兰大学版权©2023 Scherf,施密特、Pal和Koert。这是一个开放分布式根据文章<一个rel="license" href="http://creativecommons.org/licenses/by/4.0/" target="_blank">知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:丽莎Scherf,<一个href="mailto:lisa_katharina.scherf@tu-darmstadt.de">lisa_katharina.scherf@tu-darmstadt.de