接地人造物在多通道数据交互功能可见性行为
- 1文本技术实验室、学院计算机科学和数学,计算机科学研究所、德国法兰克福,法兰克福歌德大学,
- 2位于接地和自然语言实验室,计算机科学系,科罗拉多州立大学,柯林斯堡,美国公司
- 3实验室对语言学和计算,计算机科学系,布兰代斯大学,沃尔瑟姆,妈,美国
虽然功能可见性检测和人造物交互(海)检测任务相关,确定相应的理论基础明确表示,这两个是不同的。尤其值得一提的是,研究人员确定相应区分j·j·吉布森的给养的传统定义,“行动可能性”对象的内部环境,和的定义有目的的给养,或者定义为约定俗成的目的或使用。我们增加HICO-DET数据集注释Gibsonian和有目的的功能和数据集的一个子集注释为人类的方向和对象。然后我们训练一个适应人造物的交互(海)模型和评估pre-trained观点评估系统增广数据集。AffordanceUPT,我们的模型是基于一个两阶段的适应Unary-Pairwise变压器(UPT),我们模块化功能可见性检测对象的独立检测。我们的方法展示推广新对象和动作,可以有效地使Gibsonian /有目的的区别,表明这种区别与特征的数据不被海HICO-DET数据集的注释。
1。介绍
引入的吉布森在1970年代,“功能可见性”的概念描述了功能和生态生物和环境之间的关系(吉布森1977年)。吉布森的概念作为衡量环境制定“提供动物”的行动对象的可能性。在现代人工智能,特别是因为它属于机器人的感知问题(霍顿et al ., 2012)和接地视觉语言(麦克勒兰德et al ., 2020),说一个对象”提供“一个行动是说对象促进正在采取的行动。Gibsonian您提供这些行为是由于物理对象的结构,和可以直接被动物。例如,如果一个杯子有一个句柄,它提供掌握和提高处理。Pustejovsky,从他的衍生词汇理论(Pustejovsky 1995随后介绍的概念有目的的给养,或约定俗成的行为由于对象的典型使用或目的(Pustejovsky 2013)。例如,一个杯子的传统目的是喝的和一本书阅读。提供这些约定俗成的行为是与人类和对象之间的特定配置;例如,椅子必须直立的坐在座位上明确。这些条件(或栖息地)形成一个先决条件的满足对象的预期用途;如果满足这些条件,坐在椅子上的行为将导致预期的结果的椅子上支持人类(即。,它有目的的感受性角色根据生成词汇理论)。如果不是(例如,椅子是颠倒),人类不会适当的支持。
多通道接地的问题,计算机视觉和自然语言处理(NLP)社区都拉得更近,这样数据源自计算机视觉(例如,Goyal et al ., 2017;之后et al ., 2018;Boggust et al ., 2019)现在已经证明效用作为基准NLP接地任务(例如,Gella凯勒,2017;黄et al ., 2020;徐et al ., 2020)。这样一个流行的挑战是接地的话在图像和视频的行为(例如,雷德福et al ., 2021)。这种行为通常涉及人类与对象交互、数据集专业不仅动作(跑、跳、走等)。但是人造物的交互(海)近年来,也开始激增(cf。古普塔和马利克,2015;克里希纳et al ., 2016;曹国伟et al ., 2018;金正日et al ., 2021;邹et al ., 2021;Zhang et al ., 2022)。
人类如何与物体相互作用的知识,然而,并不总是显示通过一个单一的形态(语言或图像),甚至经常多通道的校准注释(如边界框和语言标题)不充分编码实际海的情况下。对于很多荔枝,传统的用于描述标题经常无法画出相互作用的重要方面,是重要的视觉映射进行创建。例如,可以预见,一个图像的标题“人驾驶汽车”将与图片分享某些视觉相关性拿在手里的工具,但通常没有语言表达出现在标题明确证据表明司机拿着方向盘,等等。
人类经常了解相应的(例如,“杯包含的东西,”“勺子是用来搅拌”)通过使用对象或看着他们在使用(托马塞洛,2004);因此之间有一个自然对齐功能可见性推理和各种各样的海下的任务。
然而,必须指出相应和海下不相同。回到吉布森的原始配方的概念,他扩展了它声称一个功能可见性”意味着动物的互补性和环境。”也就是说,Gibsonian给养,提供一个对象的结构,不仅是与一个对象,可以采取任何行动,但动作有些特定对象和代理的环境。例如,一瓶的空心几何提供含有液体,而开放提供释放他们。人类的形象从一个瓶子喝,用它的嘴,意味着结构和瓶子的目的,尽管没有明确的搭配对象瓶和行动drink_from。这种类型的意向信息,或识别对象和人类之间的关系在很大程度上是缺少接地海下的数据集。
在本文中,我们解决的问题是否海模型可以从Gibsonian功能区分有目的的背后的意图剥削的一个对象。
我们的小说的贡献如下:
1。我们提出的增加HICO-DET (曹国伟et al ., 2018)数据集注释功能区分Gibsonian与有目的的在视觉和语言水平。
2。我们开发了AffordanceUPT, UPT的改编和模块化的版本(张a . et al ., 2021),这部小说是训练数据和可以概括某些小说对象和动作。
3所示。我们评估PoseContrast SOTA面向对象模型,在增强数据集,发现PoseContrast往往表现出一种强烈的倾向最频繁的或默认的取向,而不是适当的方向行动。
AffordanceUPT1在增强HICO-DET训练数据集能够准确区分积极有意的使用从简单Gibsonian剥削,集群时,我们发现对象模型训练Gibsonian /暴露了额外的相关性有目的的区别具体图像的视觉特征。
2。相关工作
已经有相当大的兴趣如何用于提高编码相应海识别的准确性和场景理解模型(Hassanin et al ., 2021),以及下游的推理任务的认知模型海或HRI计算模型。心理学研究表明,人类迅速做出反应,当对象在标准配置(或观察栖息地Pustejovsky 2013为他们的典型的功能()Yoon et al ., 2010;Borghi et al ., 2012;Natraj et al ., 2015)。机器人专家您特别感兴趣的与对象模型类似人类的相互作用,从社会和工作证明,为了成功与对象交互,机器人不需要知道对象的名字,但只有感知它的功能(迈尔斯et al ., 2015)或功能目标(金姆和Sukhatme, 2014年;Saponaro et al ., 2017)。您也被认为是暗示整体规划和推理决策(霍顿et al ., 2012;安图内斯et al ., 2016;Beßler et al ., 2020)。
NLP社区做出了重大贡献在提取面向对象知识从语言数据。副语言多通道数据集被用来描述从动作图像视觉信息,例如,IMAGACT (Russo et al ., 2013;Moneglia et al ., 2018)。其他研究已经探讨了集成不同的给养的描述信息来自语言和视觉数据集(曹国伟et al ., 2015;Saponaro et al ., 2017)。几种方法已经确定对象的功能角色和因素参与他们之间创建使用标准分配技术反映PPMI动作动词和对象类型(Cimiano Wenderoth, 2007;山田et al ., 2007)。这些与有目的的(函数),施事的la Pustejovsky感受性(创建)。
最近变得清楚,并不是所有的方式与对象交互涉及给养,虽然不是所有相关功能目标实际上是参与交互显示了人类从事图像(Beßler et al ., 2020;Hassanin et al ., 2021)。为了解决这个问题,Pustejovsky (2013)定义了一个栖息地作为一个动作发生的先决条件。即栖息地是空调环境和背景下,促进所制定的行为,如必须举行一个瓶子是喝醉了。栖息地的主要组件是面向对象的,因此可能有用的多通道方法检测是栖息地造成检测。
造成检测应用程序从自主驾驶(凯撒et al ., 2020),机器人(Tremblay et al ., 2018),和语言基础(。托马森et al ., 2022)。因此,可用数据集也多样化和专业化(3.3.2节的更多细节)。直到最近引入了面向对象到海下检测(如。D3D-HOI (徐et al ., 2021)或行为(博et al ., 2022)]。到目前为止,一直主要关注人类姿势(例如,姚明和菲菲,2010)或对象的大小和位置(例如,李et al ., 2020)。
3所示。向您检测的一种方法
3.1。理论
当人类识别和标签对象,我们不仅执行分类类型赋值(例如,杯),但往往,我们理解整个组对象属性以及关系网络有关对象如何参与情况讨论。其中许多涉及人造物的交互(海),和我们所知的事情是建立在理解我们如何与它们进行交互。Osiurak et al。(2017)提供一个清晰的操作化的机械知识域的相应工具的使用。在这个领域,诺曼(2002)吉布森配方的分成物理和学会了意,年轻(2006)指定的概念功能功能可见性。这些规范将相应分成hand-centered和tool-centered,部门相对直接映射到吉布森确定相应的功能和Pustejovsky的有目的的,但不要本身人类解决面向对象的问题。
举个例子,有一个传统的预设的方向杯暴露内部的凹度,使杯子的功能(Freksa 1992)。假设物体如杯,类型的容器,在飞机旁边水平是不对称的,否则一个对称的圆柱形的,看起来定位信息是至关重要的支持对象的使用或功能作为容器。事实上,只有当杯的方向促进控制函数可以“激活”。这两个概念,是推理的关键对象的引用和海一般:我们编码什么与对象关联的函数(其给养)(吉布森1977年),但同样至关重要的是,我们也确定当它是活动的(它的栖息地)(Pustejovsky 2013)。因此,作为由Pustejovsky给出的原始定义的有目的的给养,在这项研究中,我们考虑的有目的的作为一个适当的子集Gibsonian给养,覆盖它;一个有目的的给养一定利用对象的结构属性,但这样做的方式选择一个约定俗成的配置激活一个约定俗成的函数。
捕捉对象类型和人造物交互的潜力,我们采用约定使用的建模语言VoxML (Pustejovsky Krishnaswamy, 2016),栖息地,包括定位、确定相应建模为前提条件,即情境信息何时/如何使用一个对象。这允许建模上下文和常识性的对象和事件信息,否则很难捕获在单峰全集,例如,球滚,因为他们是圆的。
因此提取对象的栖息地之间的依赖关系的任务和功能可见性是重要的任务自动注释VoxML或Text-to-3D场景应用程序(Chang et al ., 2015)。目前的研究重点是适应海模型给养类型分类使用Gibsonian /有目的的和面向对象的区别。
3.2。注释
3.2.1之上。图像背景注释
数据集由从HICO-DET拍摄的图像,海检测的基准(曹国伟et al ., 2018)。每个海instance-bounding每个图像都包含注释框为人类和标签的对象交互。我们注释120拍照对象类别总共1200张图片。10对象类别苹果、自行车、瓶子、汽车、椅子、杯,狗,马,刀,伞,选择代表性的全套HICO-DET对象类别,包括动物、汽车、家居用品。通过工具(使用一个修改Dutta et al ., 2016;Dutta Zisserman, 2019)所示图1,每张图片都是注释行动,给养类(Gibsonian /有目的的),和方向前面和向上取向的对象。行动和功能可见性标注了所有相关的人的形象,和定位领域向上和前面被注释为对象和人类。此外,字段is_part_of和变化?被用来跟踪一个项目是否带注释的是另一个带注释的一部分项目和任何改变是否在注释(新对象或动作)HICO-DET中指定的数据集,分别。
可能的选项功能可见性是没有,Gibsonian(G)和有目的的(T)的给养被标记为G执行操作时由于对象的结构和T如果由于对象的约定俗成的使用或目的(见3.1节)。的字段行动和obj的名字从列表中选择的行为和对象名称分别HICO-DET提供的数据集。前面,向上方向选择来自世界正交轴(x, y, z]。当查看一个正面形象,+x是右边的屏幕,−x是左边,+y是向上和−y是向下的,而+z扩展的屏幕向注释器和−z指向远离屏幕。这假定一个标准的右手坐标系如图所示图1。轴可以组合。如果前面的人或对象的脸左和向前(图片),然后前面取向是−x+z,+x+z如果中途转向右边。如果没有明确的前面或上面是明显的(例如,一个球),这是标注为(0,0,0)。在本文中,我们使用符号表示方向前面_向上与每个向量表示为x, y, z)。那匹马在图1将表示[−1,0,1]_(0,1,0),因为它的向量是面向左边(−吗x(+)的形象z),而其内在向量指向(+y)。
这些注释后来被用来评估对象构成检测(见3.3.2节)和评估整个栖息地提取方法(4.4节)。
3.2.2。文本注释
每个600 object-verb双HICO-DET数据集也自解释性的注释(有目的的G Gibsonian或T)。表1给出了一些例子。在HICO-DET,人们还有对象常与多个动词(举例来说,一个人坐、骑和种族摩托车)。如果一个操作的一组被定义为有目的的,我们定义的行动作为一种有目的的给养;这是因为有目的的功能可见性在任何现有的功能Gibsonian所伴随产生的,因此他们可以正式说优先于任何附带涉及Gibsonian给养。因为有目的的功能必然是更具体的功能和信息比Gibsonian,他们被认为包含,因此定义相同的给养都有目的的和Gibsonian redundant-see 3.1节以获取更多信息。
这些文本注释的优势快速生成数据训练海模型,而缺乏一些额外的上下文信息可能提供的一个图像,如3.2.1节。这些注释后来被用来训练和评估AffordanceUPT模型(见3.3.1节)。
图像和文本注释都由不同的人来完成。计算IAA中列出补充材料。
3.3。模型
3.3.1。人造物的交互
我们适应了UPT (Unary-Pairwise变压器;Zhang et al ., 2021 a)模型为基础Gibsonian /有目的的功能可见性分类。UPT比起两步的基于变压器(Vaswani et al ., 2017)分类器和它的作者证明它是相对性能和内存效率相对于其他先进的海下模型(例如,田村et al ., 2021;Zhang et al ., 2021 b)。在第一步中,它决定了所有相关实体和第二步的关系(相对于单一任务模型,实体和关系被认为是在多任务学习;张a . et al ., 2021)。UPT因此由两部分组成:一个合作的变压器运营上一元标记生成一个实体的代表,有竞争力的变压器随后,该操作成对的令牌代表他们的关系。
此外,两步方法使两个表征的分析对象(一元标记)和他们的交互(成对的令牌)(见第4节)。
利用UPT给养检测,我们改变了从数量可变的动词分类two-label Gibsonian /有目的的分类。我们还模块化UPT的给养检测对象的独立检测基于DETR (检测变压器;Carion et al ., 2020),它使用ResNet (他et al ., 2016年)作为骨干。我们取代了pre-trained,执拗地实现DETR变体(支持80对象类型)Huggingface模块化的变体2(支持90对象类型),冻结了所有DETR / ResNet权重。然而,没有根本改变了底层架构。这使得我们UPT变体对象检测模块的独立,这样就可以将取而代之的是模型,支持其他对象类型。我们将参考模型AffordanceUPT在本文的其余部分。AffordanceUPT未知对象的性能和操作也是我们的评估的一部分(见4.1节)。我们的给养检测方法显示了UPT等方法可以应用在多通道语义和相关任务。
3.3.2。对象构成的评估
估计面向对象,我们使用PoseContrast (肖et al ., 2021)。这种模式的优点是不需要附加信息,如CAD或类的引用信息,同时还提供强劲业绩(cf。肖et al ., 2019;达尼et al ., 2021;阮et al ., 2022)。我们在ObjectNet3D重新训练模型的数据集(湘et al ., 2016),它仍然是一个最大的数据与100年这个任务对象类别和超过90000的图像。其他常见的数据集仍然是非常有限的领域或对象类别(见也补充材料)。
3.3.3。培训
AffordanceUPT训练了20世纪8000年2月GeForce RTX设备的批量大小8每GPU-an有效批大小16。使用W&B Hyperparameter执行优化(Biewald 2020)。结果中列出的参数补充材料。各自的HICO-DET数据集,注释Gibsonian /有目的的标签3.2.2节中描述,作为训练和测试数据。图片没有Gibsonian /有目的的文本注释删除,导致数据集大小为33593 8527训练图像和测试图像。除了训练和常规HICO-DET分裂,我们也训练有素的变异评价泛化未知对象和动作(见4.1节)。
PoseContrast是训练有素的GeForce 8000 RTX缺省参数。不同hyperparameters和额外的方法增加训练数据进行了测试,但并没有显著改善。
4所示。评估和分析
4.1。评价AffordanceUPT
AffordanceUPT评估表2和图2。结果表明,海下模型还可以用于给养检测一些调整,如UPT的例子所示。映射值内~ 1 - 5地图)海下检测常规HICO-DET数据集(cf。侯et al ., 2021 b;田村et al ., 2021;Zhang et al ., 2021 a)。差异的几个原因:
1。我们的目标类的分布更为复杂,将多个不同的行为;
2。HICO-DET将边界框每个操作,这些可以相差很大,导致多个盒子相同的物体或人;
3所示。不是每个HICO-DET给养总是注释但AffordanceUPT检测;
4所示。我们的目标检测模型不是HICO-DET训练,所以可以有重大偏差的边界框不能合并。
图2。AffordanceUPT评估关于对象类型和训练数据的大小。底部轴列表对象标签。左轴和相关酒吧图表显示的数量Gibsonian(蓝色),有目的的(橙色)和通用对象出现HICO-DET训练子集(绿色)。正确的轴和相应的线图显示每个对象的映射。虚线表示两个总体平均值给养类型。的对象是按G和T训练样本之间的比率。
几个例子可以发现的补充材料。这些不明显影响培训和推理,但反映在评价得分,因为问题主要涉及边界框而不是自解释性标签本身。我们故意决定反对V-COCO等其他数据集(林et al ., 2014;古普塔和马利克,2015)或VisualGenome (克里希纳et al ., 2016),如V-COCO有一组非常有限的动词(26)和VisualGenome太非结构化。
评估AffordanceUPT小说对象上,我们选择一些特定的例子,具体来说:名词自行车和车,动词行使和开车,海书+读和车+开车(见表2)。在表2,HICO-DET合并w / o自行车(第一列)代表一个数据集的创建从结合训练和测试图像没有自行车(用于培训),而HICO-DET合并自行车(第二列)结合训练和测试图像(用于测试)和自行车呢HICO-DET合并测试自行车(第二列)表示图像从测试集自行车(用于测试)。HICO-DET火车和HICO-DET测试分别表示常规训练和测试集。我们re-split HICO-DET每个例子中,测试集包含所有图片包含的示例中,当训练数据组成(即所有剩余的图像。,因为车+开车,船的图片或汽车被省略了从培训和评估)。这些结果相比对的结果正常AffordanceUPT模型对象/动词在常规HICO-DET测试数据集。
我们的结果表明,AffordanceUPT可以检测功能可见性小说对象上,虽然地图的显著下降(如~ 10 - 13%)。效果不强等未知的行为开车(仅下降5%左右)。AffordanceUPT甚至可以在一定程度上推广新对象和动作(例如,检测,开车是一种有目的的给养,尽管从来没有看到一辆车或驾驶行为)。同时,常规海只在未知模型概括海下组合(例如,沈et al ., 2018;侯et al ., 2021 b)或未知的对象(例如,王et al ., 2020;侯et al ., 2021 a),而不是两个。
因为每个re-split需要再培训,所有组合的评价不能进行由于运行时的原因。然而,倾向显然是明显的。
展出的泛化这只是我们抽象成为可能,两种功能可见性指向特定类型的操作类可以包含相同的标签。这意味着给养检测支持更高级别的由于更高的抽象概括。此外,给养区分两种类型的能力,有目的的和Gibsonian意味着模型也可以确定当一个对象被积极使用,因为有目的的给养表示积极使用和Gibsonian表示仅与对象交互。这使得给养检测有趣的应用程序,不需要检测的具体行动,但区别故意或者活跃的使用就足够了。
这种情况可能是,例如:
1)监控对象的有效使用时间。例如,一把刀可以在几种不同的方式举行。但是,用刀切东西,刀的刀片需要指向的对象。使用这些标准,我们可以估计当刀可能是无聊的继续使用,需要磨练。
(二)自主驾驶。例如,行人是否被积极使用对象,因此需要更多的谨慎(帕皮尼et al ., 2021)。
iii)语言基础应用程序,如机器人技术基础(安et al ., 2022)。例如,帮助机器人在区分互动和交互的手势(Matuszek et al ., 2014)。机器人可以学会识别,为了抓住一个物体,上面的拟人化的手/触手应该定位对象之前掌握。掌握将取决于特定的任务一是试图执行,以及该任务是否利用Gibsonian给养还是有目的的。对象的定位在某些cases-e.g也很重要。,to hold a cup for the purpose of pouring (telic) something from the cup to a bowl—in this case, the top of the cup should be tilted toward the bowl, and orientation is one of the object attributes we annotated (Section 3.2.1).
(四)视觉问答(Antol et al ., 2015)。例如,生成更好的答案“是什么人在做什么?”的问题。考虑一个人造物的图像交互,一个人撑着一把雨伞。基于交互的意向性,答案可能是“拿着雨伞正直的人保护自己免受雨”与“人是带着雨伞,以防下雨。”
v)图像字幕(阮et al ., 2021的情况下)中的动词意味着一种给养,但图像显示。例如,如果“骑”给养的图像显示了一个乘客乘坐一辆车在司机旁边,双手放在方向盘上,我们仍能检测到汽车模型被用于一个故意“驾驶”行动。在图5,我们将展示不同的集群的汽车“骑”动作图片,司机的手,他们不可见。
4.2。评价PoseContrast
我们使用1200年的形象从3.2.1节评估PoseContrast HICO-DET的注释。自从PoseContrast输出对象欧拉角旋转,但注释显示主要的轴取向,PoseContrast输出映射到这些轴。评价分数这样描述对象的准确性与正确的中轴线。我们比较PoseContrast和两个基线:1,预测的对象总是朝前,直立([0,0,1]_(0,1,0)),和一个第二,总是预测最频繁的取向HICO-DET注释(最频繁的)。结果中列出表3。PoseContrast似乎概括HICO-DET数据集很差。值得注意的是,默认取向[0,0,1]_(0,1,0)预计几乎所有对象(见图3),包括对象类的训练集,检查ObjectNet3D数据集,我们发现它几乎只包含对象在这个方向(例如,正直的瓶子,前置电视),而不是在他们被人操纵的方向(即。(见Gibsonian或有目的的功能)图4)。旋转图像作为增强方法在训练,但有限的使用。例如,如果只有一边的看法武器可用,是不可能从正面或背面生成视图。我们也尝试过额外的扩充方法如模糊过滤器和dpi变化,但是他们并没有产生更好的结果。进一步分析可以发现补充材料。
图4。ObjectNet3D数据集映射到主要的方向。分数加权为每个对象。(红色框)一个有趣的例子是“瓶子”,几乎只发生在一个直立的位置的数据集。其他有趣的例子包括“灭火器”和“步枪”,也存在于数据集的姿势(cf。不停et al ., 2019这些对象的),但是这意味着前面的对象指向的图像。
4.3。分析AffordanceUPT令牌
向您展示AffordanceUPT区分Gibsonian和有目的的,图5我们想象的token-pair表示10测试类别使用t-SNE和PaCMAP (王et al ., 2021)。我们看到,以类似的方式与之交互的对象和功能有类似的出现更加紧密地联系在一起。例如,出现瓶和杯(即。,containers to drink liquids from) are strongly overlapping. Also,自行车和马都可以行驶的,放置在考虑功能有目的的接近对方。Gibsonian相互作用马另一方面,接近那些狗(和不发生在大型Gibsonian自行车集群)。此外,所有对象(例如,苹果、瓶子、杯子,刀),意味着交互主要是用手在同一个地区,其中包括一些汽车的图片(蓝色标记集群),一个开始,而直观的观察。但是一看不同的图像“骑”在这两个汽车集群,解释了这一点。在蓝色的集群(接近手持对象),与汽车的交互(例如,方向盘)更清晰可见,而在红色的集群(因此手)的人不太明显,图像更关注整个车身和实际的“驾驶”。同样明显的海下操作类(在本例中,“骑”),作为HICO-DET由原来的标签,实际上分为不同的集群仅仅基于模型是如何训练的代表双向给养类型区别(Gibsonian和有目的的)。这直接反映的潜在应用领域之一,这项工作4.1节中提到的。这些信息对于准确地接地视觉人造物的相互作用是至关重要的语言,从而使我们回到了动机的简介:这样语言冗余信息(例如,“男人开车手在方向盘”欠是因为在present-presupposes转向)。只有图片的例子做这些特性的语义意义。这项工作为系统铺平了道路提取视觉信息和链接等语言。可视化的一元标记可以找到的吗补充材料。
图5。使用t-SNE AffordanceUPT token-pair可视化(左)和PaCMAP(右)。车辆图像上方和下方是“骑”HICO-DET数据集的图像和被归类为有目的的模型。的图片上面一行在红色集群和图片底下一行在蓝色的集群。
4.4。自动化的栖息地的注释
作为面向对象的自动测定仍然是有限的,我们分析栖息地基于HICO-DET图像注释。我们转换对象定位在世界空间是相对于交互的人(例如,现在人的面前+z)。在图1,马方向[0,0,1]_(0,1,0),因为它是面向同一方向的人。图6描述了生成的统计数据,显示了给养和面向对象为居住条件之间的关系。对象的定位自行车、汽车、椅子、马,狗是相对独立的功能,但这些对象往往是对齐的一样的人的有目的的场景。瓶子和杯子,另一方面,显示出强烈的取向相对增加的(0,0,0)_(0,0,−1),表明对象的向上的对面人的面前喝酒时(典型的方向)。刀,另一方面,可以在任何方向,然而大多数的方向(绿色部分加上橙色部分)表明,刀具通常与刀刃朝下,远离的人。
图6显示了相互依存的给养和方向(作为栖息地的子条件):确定相应假定某些方向,反之,某些对象方向确定相应可能在第一个地方。因此,这两个变量应该考虑彼此的关系(与海作为一个整体),而不是作为独立的现象。
5。讨论和结论
我们提出AffordanceUPT,改编自UPT区分Gibsonian和有目的的功能。一些对应UPT HICO-DET和模块化,我们可以改变一个强大的海下检测模型检测在相应具体的区别。这个更大的抽象层次有助于推广之前,是不可能从一个强迫选择海下检测模型,并在此过程中我们发现了属性数据的基础图像语言有着重要的意义。
我们的模型执行功能可见性检测对象即使在小说。我们强调栖息地的局限性(方向)使用PoseContrast建模在现有数据集。进一步,我们还可视化Gibsonian /有目的的区别,突出了有趣的海下属性。
我们发现AffordanceUPT集群对象如何显示什么可以被自动检测到实体和意图检测。这种区别是很有用的(半)自动填充VoxML(多通道表示Pustejovsky Krishnaswamy, 2016)通过推断可能的相应对象和他们的先决条件。AffordanceUPT还显示承诺在概括小说对象和操作,这意味着它可以推断出部分小说对象或事件信息如此表示。
5.1。未来的工作
在未来的工作中,我们计划AffordanceUPT性能的综合分析小说实体对培训条件必须满足模型对哪些属性进行分类。
像的结果和解释图5进行一个可控的子集的数据。进一步分析可以确定我们的尺度方法在处理大数据时,使用自动分析技术。此外,由于注释只是HICO-DET数据集的一个子集上执行,未来的工作是一项扩大数据集,包括利用众包技术。
既然我们已经建立的有效性AffordanceUPT Gibsonian /有目的的歧视方法,下一步还包括做cross-dataset验证,如培训HICO-DET V-COCO和评估,进一步建立普遍性或要求可概括的Gibsonian /有目的的歧视。
划分成Gibsonian和有目的的功能还可以进一步细化。例如,“修理一辆车”的行为并不是一个有目的的给养,但行为维护有目的的功能。
成功的栖息地检测取决于提高性能的面向对象检测剩余的挑战。在未来,我们打算测试我们的方法在更大的规模和扩大这一目的的数据集。这可能涉及到AffordanceUPT结合建立语言模型如夹(雷德福et al ., 2021)。
数据可用性声明
下的数据可用:https://github.com/VoxML/affordance-annotation。
作者的贡献
啊,AG)、NK、我和摩根大通的概念、设计的工作,写的手稿。啊,训练,和分析模型。AG开发注释工具,文本和图像注释。摩根大通给文本注释。NK和JP给了您所需的理论背景和荔枝。NK、我和JP给予定期的反馈和改进的建议。所有作者导致修订手稿、阅读和批准提交的版本。
资金
啊部分是由法兰克福的理工基础主校区的一部分奖学金。啊,我被德意志Forschungsgemeinschaft部分资金(脱硫、德国研究基金会)脱硫优先项目2329 (ViCom GeMDiS)。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
补充材料
本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frai.2023.1084740/full补充材料
脚注
1。^所有模型和相应的注释下可以找到工作https://github.com/VoxML/affordance-annotation。
引用
安,M。,Brohan, A., Brown, N., Chebotar, Y., Cortes, O., David, B., et al. (2022). Do as i can and not as i say: grounding language in robotic affordances.arXiv预印本arXiv: 2204.01691。doi: 10.48550 / ARXIV.2204.01691
Antol, S。,Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., et al. (2015). “Vqa: visual question answering,” in《IEEE计算机视觉国际会议(圣地亚哥:IEEE), 2425 - 2433。doi: 10.1109 / ICCV.2015.279
安图内斯,一个。,Jamone, L., Saponaro, G., Bernardino, A., and Ventura, R. (2016). “From human instructions to robot actions: formulation of goals, affordances and probabilistic planning,” in2016年IEEE机器人与自动化国际会议上(斯德哥尔摩:IEEE), 5449 - 5454。doi: 10.1109 / ICRA.2016.7487757
一个不停。,Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., et al. (2019). Objectnet: a large-scale bias-controlled dataset for pushing the limits of object recognition models.放置神经通知。的过程。系统。32岁,9453 - 9463。
Beßler D。,Porzel, R., Pomarlan, M., Beetz, M., Malaka, R., and Bateman, J. (2020). “A formalmodel of affordances for flexible robotic task execution,” in ECAI 2020 (Santiago de Compostela: IOS Press), 2425–2432. doi: 10.3233/FAIA200374
博,b . L。谢,X。,Petrov, I., Sminchisescu, C., Theobalt, C., and Pons-Moll, G. (2022). “Behave: dataset and method for tracking human object interactions,” inIEEE计算机视觉与模式识别会议(CVPR)(新奥尔良,LA: IEEE)。doi: 10.1109 / CVPR52688.2022.01547
Boggust, a·W。,Audhkhasi, K., Joshi, D., Harwath, D., Thomas, S., Feris, R. S., et al. (2019). “Grounding spoken words in unlabeled video,” inCVPR工作坊,卷2(长滩,CA)。
Borghi, a . M。Flumini,。Natraj, N。,Wheaton, L. A. (2012). One hand, two objects: emergence of affordance in contexts.大脑Cogn。80年,64 - 73。doi: 10.1016 / j.bandc.2012.04.007
凯撒,H。,Bankiti, V., Lang, A. H., Vora, S., Liong, V. E., Xu, Q., et al. (2020). “Nuscenes: a multimodal dataset for autonomous driving,” in《IEEE / CVF计算机视觉与模式识别会议(西雅图,华盛顿州:IEEE), 11621 - 11631。doi: 10.1109 / CVPR42600.2020.01164
Carion, N。,Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., and Zagoruyko, S. (2020). End-to-end object detection with transformers.相关系数、abs/ 2005.12872。doi: 10.1007 / 978 - 3 - 030 - 58452 - 8 - _13
常,a . X。,梦露,W。萨瓦,M。Potts C。,Manning, C. D. (2015). “Text to 3d scene generation with rich lexical grounding,” in计算语言学协会和国际联合会议上自然语言处理(北京)。doi: 10.3115 / v1 / p15 - 1006
曹国伟,Y.-W。刘,Y。刘,X。,Zeng, H., and Deng, J. (2018). “Learning to detect human object interactions,” in2018年IEEE冬季会议上的应用计算机视觉(WACV)(太浩湖:IEEE), 381 - 389。doi: 10.1109 / WACV.2018.00048
曹国伟,Y.-W。王,Z。,Mihalcea, R., and Deng, J. (2015). “Mining semantic affordances of visual object categories,” in《IEEE计算机视觉与模式识别会议(波士顿,MA: IEEE), 4259 - 4267。doi: 10.1109 / CVPR.2015.7299054
Cimiano, P。,Wenderoth, J. (2007). “Automatic acquisition of ranked qualia structures from the web,” in《45计算语言学协会的年度会议(布拉格),888 - 895。
之后,D。,Doughty, H., Farinella, G. M., Fidler, S., Furnari, A., Kazakos, E., et al. (2018). “Scaling egocentric vision: the epic-kitchens dataset,” in欧洲计算机视觉的诉讼(慕尼黑),720 - 736。doi: 10.1007 / 978 - 3 - 030 - 01225 - 0 - _44
达尼,M。,Narain, K., and Hebbalaguppe, R. (2021). “3dposelite: a compact 3d pose estimation using node embeddings,” in《IEEE / CVF冬季会议在计算机视觉的应用(Waikoloa: IEEE), 1878 - 1887。doi: 10.1109 / WACV48630.2021.00192
杜塔,一个。,Gupta, A., and Zissermann, A. (2016).VGG图像注释器(通过)。版本:)。网上:http://www.robots.ox.ac.uk/vgg/software/via/(2022年4月24日通过)。
杜塔,一个。,Zisserman, A. (2019). “The VIA annotation software for images, audio and video,” in美国27日ACM国际会议多媒体,19毫米”(纽约:ACM)。doi: 10.1145/3343031.3350535
Gella, S。,Keller, F. (2017). “An analysis of action recognition datasets for language and vision tasks,” in学报55的计算语言学协会年度会议(卷2:短论文)(温哥华BC:计算语言学协会),64 - 71。doi: 10.18653 / v1 / p17 - 2011
Goyal, R。,Ebrahimi Kahou, S., Michalski, V., Materzynska, J., Westphal, S., Kim, H., et al. (2017). “The “something something” video database for learning and evaluating visual common sense,” in《IEEE计算机视觉国际会议(威尼斯:IEEE), 5842 - 5850。doi: 10.1109 / ICCV.2017.622
古普塔,S。,Malik, J. (2015). Visual semantic role labeling.arXiv预印本arXiv: 1505.04474。doi: 10.48550 / arXiv.1505.04474
Hassanin, M。汗,S。,Tahtali, M. (2021). Visual affordance and function understanding: a survey.ACM第一版。Surv。54岁,1-35。doi: 10.1145 / 3446370
他,K。,Zhang, X., Ren, S., and Sun, J. (2016). “Deep residual learning for image recognition,” in2016年IEEE计算机视觉与模式识别会议(拉斯维加斯,NV: IEEE), 770 - 778。doi: 10.1109 / CVPR.2016.90
霍顿,t·E。,Chakraborty, A., and Amant, R. S. (2012). Affordances for robots: a brief survey. AVANT.Pismo Awangardy Filozoficzno Naukowej2,70 - 84。
侯,Z。,Yu, B., Qiao, Y., Peng, X., and Tao, D. (2021a). “Affordance transfer learning for human-object interaction detection,” in《IEEE / CVF计算机视觉与模式识别会议(TN纳什维尔:IEEE), 495 - 504。doi: 10.1109 / CVPR46437.2021.00056
侯,Z。,Yu, B., Qiao, Y., Peng, X., and Tao, D. (2021b). “Detecting human-object interaction via fabricated compositional learning,” inCVPR(TN纳什维尔)。doi: 10.1109 / CVPR46437.2021.01441
黄G。,Pang, B., Zhu, Z., Rivera, C., and Soricut, R. (2020). “Multimodal pretraining for dense video captioning,” in学报第一会议亚太章计算语言学和第十届国际协会的联合会议上自然语言处理(苏州),470 - 490。
金,B。,Lee, J., Kang, J., Kim, E.-S., and Kim, H. J. (2021). “Hotr: endto-end human-object interaction detection with transformers,” in《IEEE / CVF计算机视觉与模式识别会议(TN纳什维尔:IEEE), 74 - 83。doi: 10.1109 / CVPR46437.2021.00014
金,我d。,Sukhatme, G. S. (2014). “Semantic labeling of 3d point clouds with object affordance for robot manipulation,” in2014年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”(香港:IEEE), 5578 - 5584。doi: 10.1109 / ICRA.2014.6907679
克里希纳,R。、朱、Y。,Groth, O., Johnson, J., Hata, K., Kravitz, J., et al. (2016). Visual genome: connecting language and vision using crowdsourced dense image annotations.Int。j .第一版。愿景123年,32 - 73。doi: 10.1007 / s11263 - 016 - 0981 - 7
李,杨绍明。关铭刘,X。陆,H。,王的年代。,Liu, J., Li, J., et al. (2020). “Detailed 2d-3d joint representation for human-object interaction,” in《IEEE / CVF计算机视觉与模式识别会议(西雅图,华盛顿州:IEEE), 10166 - 10175。doi: 10.1109 / CVPR42600.2020.01018
林,T.-Y。,Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., et al. (2014). “Microsoft coco: common objects in context,” in欧洲计算机视觉(苏黎世:Springer), 740 - 755。doi: 10.1007 / 978 - 3 - 319 - 10602 - 1 - _48
Matuszek C。博,L。,Zettlemoyer, L., and Fox, D. (2014). “Learning from unscripted deictic gesture and language for human-robot interactions,” in人工智能学报AAAI会议卷28(魁北克市,QC: AAAI)。doi: 10.1609 / aaai.v28i1.9051
麦克勒兰德,j·L。山,F。,Rudolph, M., Baldridge, J., and Schütze, H. (2020). Placing language in an integrated understanding system: next steps toward human-level performance in neural language models.Proc。国家的。学会科学。美国。117年,25966 - 25974。doi: 10.1073 / pnas.1910416117
Moneglia, M。,Panunzi, A., and Gregori, L. (2018). “Action identification and local equivalence of action verbs: the annotation framework of the imagact ontology,” in《LREC 2018车间面积。注释、识别和评价的行为(宫崎骏)23-30。
迈尔斯。,Teo, C. L., Fermuller, C., and Aloimonos, Y. (2015). “Affordance detection of tool parts from geometric features,” in2015年IEEE机器人与自动化国际会议上)举行(“国际机器人与自动化会议”(西雅图,华盛顿州:IEEE), 1374 - 1381。doi: 10.1109 / ICRA.2015.7139369
Natraj, N。,Pella, Y. M., Borghi, A. M., and Wheaton, L. (2015). The visual encoding of tool-object affordances.神经科学310年,512 - 527。doi: 10.1016 / j.neuroscience.2015.09.060
阮,K。,Tripathi, S., Du, B., Guha, T., and Nguyen, T. Q. (2021). “In defense of scene graphs for image captioning,” in《IEEE / CVF计算机视觉国际会议(蒙特利尔,QC: IEEE), 1407 - 1416。doi: 10.1109 / ICCV48922.2021.00144
阮,v . N。,胡锦涛,Y。,肖,Y。,Salzmann, M., and Lepetit, V. (2022). “Templates for 3d object pose estimation revisited: generalization to new objects and robustness to occlusions,” in诉讼IEEE Conf.在计算机视觉和模式识别(新奥尔良,LA: IEEE)。doi: 10.1109 / CVPR52688.2022.00665
Osiurak F。,Rossetti, Y., and Badets, A. (2017). What is an affordance? 40 years later.>。Biobehav。牧师。77年,403 - 417。doi: 10.1016 / j.neubiorev.2017.04.014
帕皮尼,g·p·R。平民,。,Da Lio, M., and Donà, R. (2021). “A reinforcement learning approach for enacting cautious behaviours in autonomous driving system: safe speed choice in the interaction with distracted pedestrians,” inIEEE智能交通系统(IEEE)。doi: 10.1109 / TITS.2021.3086397
Pustejovsky, J。,Krishnaswamy, N. (2016). “VoxML: a visualization modeling language,” in学报第十届国际会议上语言资源和评价(LREC 16)[Portoroˇz:欧洲语言资源协会(ELRA)], 4606 - 4613。
雷德福,。,Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., et al. (2021).“Learning transferable visual models from natural language supervision,” in国际会议上机器学习(PMLR), 8748 - 8763。
罗威。,Frontini, F., De Felice, I., Khan, F., and Monachini, M. (2013). “Disambiguation of basic action types through nouns' telic qualia,” in学报第六届国际会议上词典生成方法(Pisa), 70 - 75。
Saponaro G。Jamone, L。,Bernardino, A., and Salvi, G. (2017). Interactive robot learning of gestures, language and affordances.arXiv预印本arXiv: 1711.09055。doi: 10.21437 / GLU.2017-17
沈,L。,Yeung, S., Hoffman, J., Mori, G., and Fei-Fei, L. (2018). “Scaling human-object interaction recognition through zero-shot learning,” in2018年IEEE冬季会议上的应用计算机视觉(WACV)(太浩湖,NV: IEEE), 1568 - 1576。doi: 10.1109 / WACV.2018.00181
(M。,Ohashi, H., and Yoshinaga, T. (2021). “QPIC: Query-based pairwise human-object interaction detection with image-wide contextual information,” inCVPR(TN纳什维尔)。doi: 10.1109 / CVPR46437.2021.01027
。托马森,J。,Shridhar, M., Bisk, Y., Paxton, C., and Zettlemoyer, L. (2022). “Language grounding with 3d objects,” in机器人学习会议上(伦敦),1691 - 1701。
加拿大,J。,,T。,Sundaralingam, B., Xiang, Y., Fox, D., and Birchfield, S. (2018). Deep object pose estimation for semantic robotic grasping of household objects.arXiv预印本arXiv: 1809.10790。doi: 10.48550 / arXiv.1809.10790
Vaswani)。,Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). “Attention is all you need,” in神经信息处理系统的进步,卷30eds。第二,美国诉Luxburg s Bengio h .瓦拉赫,r·费格斯s Vishwanathan和r·加内特(CA:长滩Curran Associates Inc), 6000 - 6010。
王的年代。,Yap, K. -H., Yuan, J., and Tan, Y. -P. (2020). “Discovering1 human interactions with novel objects via zero-shot learning,” in《IEEE / CVF计算机视觉与模式识别会议(西雅图,华盛顿州:IEEE), 11652 - 11661。doi: 10.1109 / CVPR42600.2020.01167
王,Y。,Huang, H., Rudin, C., and Shaposhnik, Y. (2021). Understanding how dimension reduction tools work: an empirical approach to deciphering t-sne, umap, trimap, and pacmap for data visualization.j·马赫。学习。Res。22日,1 - 73。doi: 10.48550 / arXiv.2012.04456
香,Y。金,W。,Chen, W., Ji, J., Choy, C., Su, H., et al. (2016). “Objectnet3d: A large scale database for 3d object recognition,” in欧洲会议计算机视觉(阿姆斯特丹)。doi: 10.1007 / 978 - 3 - 319 - 46484 - 8 - _10
肖,Y。杜,Y。,Marlet, R. (2021). “Posecontrast: Class-agnostic object viewpoint estimation in the wild with pose-aware contrastive learning,” in国际会议在3 d视觉(伦敦)。doi: 10.1109 / 3 dv53792.2021.00018
肖,Y。,Qiu, X., Langlois, P., Aubry, M, and Marlet, R. (2019). “Pose fromshape: Deep pose estimation for arbitrary 3D objects,” in英国机器视觉会议(卡迪夫)。
徐,F F。霁,L。,Shi, B., Du, J., Neubig, G., Bisk, Y., et al. (2020). “A benchmark for structured procedural knowledge extraction from cooking videos,” in第一届国际研讨会论文集在文本之外的自然语言处理,30 - 40。doi: 10.18653 / v1/2020.nlpbt - 1.4
徐,X。,Joo, H., Mori, G., and Savva, M. (2021). D3d-hoi: dynamic 3d human-object interactions from videos.arXiv预印本arXiv: 2108.08420。doi: 10.48550 / arXiv.2108.08420
山田,我。,Baldwin, T., Sumiyoshi, H., Shibata, M., and Yagi, N. (2007). Automatic acquisition of qualia structure from corpus data.IEICE反式。通知。系统。90年,1534 - 1541。doi: 10.1093 / ietisy / e90-d.10.1534
姚明,B。,Fei-Fei, L. (2010). “Modeling mutual context of object and human pose in human-object interaction activities,” in2010年IEEE计算机协会会议在计算机视觉和模式识别(旧金山,CA: IEEE), 17-24。doi: 10.1109 / CVPR.2010.5540235
尹,e . Y。,Humphreys, G. W., and Riddoch, M. J. (2010). The paired-object affordance effect.j . Exp Psychol。嗡嗡声。感知。执行。36岁,812年。doi: 10.1037 / a0017175
张。,Liao, Y., Liu, S., Lu, M, Wang, Y., Gao, C., et al. (2021). “Mining the benefits of two-stage and one-stage hoi detection,” in先进的神经信息处理系统34卷。
张,f . Z。,Campbell, D., and Gould, S. (2021a). Efficient two-stage detection of human-object interactions with a novel unary-pairwise transformer.arXiv预印本arXiv: 2112.01838。doi: 10.1109 / CVPR52688.2022.01947
张,f . Z。,Campbell, D., and Gould, S. (2021b). “Spatially conditioned graphs for detecting human-object interactions,” in《IEEE / CVF计算机视觉国际会议(蒙特利尔,QC: IEEE), 13319 - 13327。doi: 10.1109 / ICCV48922.2021.01307
张,Y。锅,Y。,姚明,T。,Huang, R., Mei, T., and Chen, C.-W. (2022). “Exploring structure-aware transformer over interaction proposals for human-object interaction detection,” in《IEEE / CVF计算机视觉与模式识别会议(新奥尔良,LA: IEEE), 19548 - 19557。doi: 10.1109 / CVPR52688.2022.01894
关键词:多通道接地、给养检测、人造物交互,栖息地检测、多通道数据集,神经模型,变形金刚
引用:Henlein, Gopinath, Krishnaswamy N,梅勒和Pustejovsky J(2023)接地人造物在多通道数据交互功能可见性行为。前面。Artif。智能。6:1084740。doi: 10.3389 / frai.2023.1084740
收到:2022年10月30日;接受:2023年1月3日;
发表:2023年1月30日。
编辑:
Yezhou杨美国亚利桑那州立大学版权©2023 Henlein Gopinath Krishnaswamy,梅勒和Pustejovsky。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:亚历山大•Henleinhenlein@em.uni-frankfurt.de