Zero-shot风格转移使用敌对的姿态动画由文本和语音解开纠结的多通道编码风格gydF4y2Ba
- 1gydF4y2Ba智能系统和机器人研究所(样品检验),科学等技术de la音乐节等杜儿子(STMS)、巴黎索邦大学,巴黎,法国gydF4y2Ba
- 2gydF4y2Ba中心国家de la任职(CNRS),智能系统和机器人研究所(ISIR)、巴黎索邦大学,巴黎,法国gydF4y2Ba
- 3gydF4y2Ba科学等技术de la音乐节等杜儿子(STMS)、巴黎索邦大学,巴黎,法国gydF4y2Ba
虚拟代理行为建模人类主体互动更个性化的风格是一个因素。我们提出一个有效的有效的机器学习方法合成手势由韵律特征和文本风格的不同的发言者包括那些看不见的训练中。我们的模型执行zero-shot multimodal风格由多通道数据传输从拍数据库包含各种扬声器的视频。我们认为风格是普遍的;虽然说,但颜色交际行为表达能力,演讲内容是由多通道信号和文本。这个解开纠结方案的内容和风格让我们直接推断风格甚至嵌入的演讲者的数据没有训练阶段的一部分,而不需要任何进一步的培训或调整。我们的模型的首要目标是生成议长根据来源的手势gydF4y2Ba内容gydF4y2Ba两个输入modalities-Mel谱图和文本的语义。第二个目标是条件源演讲者的姿态预测多通道的行为gydF4y2Ba风格gydF4y2Ba嵌入一个目标的演说家。第三个目标是允许zero-shot风格转移演讲者看不见的训练中没有重新训练模型。我们的系统由两个主要组件:(1)gydF4y2Ba演讲风格编码器网络gydF4y2Ba学会产生fixed-dimensional扬声器嵌入gydF4y2Ba风格gydF4y2Ba从目标演讲者多通道数据(mel-spectrogram、构成和文本)和(2)一个gydF4y2Basequence-to-sequence合成网络gydF4y2Ba,基于综合手势gydF4y2Ba内容gydF4y2Ba输入modalities-text和mel-spectrogram-of源发言者和条件样式嵌入。我们评估我们的模型能够合成源扬声器的手势给两个输入模式和转移目标说话人的风格变化的知识学的演讲风格编码器在zero-shot手势一代的任务设置,表明该模型已经学会了高质量的发言人表示。我们进行客观和主观评价来验证我们的方法和比较基线。gydF4y2Ba
1。介绍gydF4y2Ba
体现会话代理gydF4y2Ba几乎是体现代理人有类似人类的外表能够自主的社会智能的方式与人交流使用多通道的行为(gydF4y2BaLugrin 2021gydF4y2Ba)。研究的领域gydF4y2Ba出口信贷机构gydF4y2Ba已成为人类和机器之间的一个新的接口。eca行为往往建模从人类交际行为。他们被赋予能力识别和生成语言和非语言线索(gydF4y2BaLugrin 2021gydF4y2Ba)和设想来支持人类在日常生活中。我们的研究围绕建模多通道数据之间的复杂的相互关系和学习不同的方法用于人类交流。更具体地说,目标是多通道出口信贷机构的行为与他们的模型gydF4y2Ba行为风格gydF4y2Ba。gydF4y2Ba
人类gydF4y2Ba行为风格gydF4y2Ba是一个对社会有意义的聚类特性发现内和跨多个模式,特别是在吗gydF4y2Ba语言学gydF4y2Ba(gydF4y2BaCampbell-Kibler et al ., 2006gydF4y2Ba),gydF4y2Ba口语行为gydF4y2Ba如语音韵律的说话方式转达了(gydF4y2BaObin 2011gydF4y2Ba;gydF4y2Ba月亮et al ., 2022gydF4y2Ba),gydF4y2Ba非语言行为gydF4y2Ba手势、身体姿势等(gydF4y2Ba瓦格纳et al ., 2014gydF4y2Ba;gydF4y2BaObermeier et al ., 2015gydF4y2Ba)。gydF4y2Ba
行为风格gydF4y2Ba涉及的人说话的方式在不同的情况下。同一个人可能有不同的讲话风格根据情况(例如,在家里,在办公室或与朋友)。这些情况可以携带不同的社会意义(gydF4y2Ba贝尔,1984gydF4y2Ba)。不同的人也会有不同的行为风格虽然在类似的情况下交流。gydF4y2Ba行为风格gydF4y2Ba是组合。它展开过程中随着时间的推移,一个交互和在一个人的生命历程(gydF4y2BaCampbell-Kibler et al ., 2006gydF4y2Ba)。它不会出现改变与谈话者的关系。不断协调,完成,与观众共同制作(gydF4y2BaMendoza-Denton 1999gydF4y2Ba)。它可以非常自觉,同时可以非常的常规化的在某种程度上,它拒绝尝试改变(gydF4y2BaMendoza-Denton 1999gydF4y2Ba)。与用户相关的动作和手势gydF4y2Ba特殊的gydF4y2Ba在《自然》(gydF4y2Ba麦克尼尔et al ., 2005gydF4y2Ba),每个演讲者都有他或她自己的非语言行为风格与他/她的性格,角色,文化,等等。gydF4y2Ba
大量的生成模型提出了在过去的几年中eca的合成的手势。风格的建模和控制姿态正受到人们的关注为了提出更多表达eca行为可能适应特定的观众(gydF4y2Ba内夫et al ., 2008gydF4y2Ba;gydF4y2Ba。卡拉et al ., 2017gydF4y2Ba;gydF4y2BaCudeiro et al ., 2019gydF4y2Ba;gydF4y2BaGinosar et al ., 2019 agydF4y2Ba;gydF4y2BaAhuja et al ., 2020gydF4y2Ba;gydF4y2BaAlexanderson et al ., 2020gydF4y2Ba;gydF4y2BaAhuja et al ., 2022gydF4y2Ba)。他们认为gydF4y2Ba行为风格gydF4y2Ba编码的gydF4y2Ba身体的手势gydF4y2Ba。其中的一些作品产生全身姿态动画由文本风格的一个特定的发言人(gydF4y2Ba内夫et al ., 2008gydF4y2Ba)。其他方法(gydF4y2Ba。卡拉et al ., 2017gydF4y2Ba;gydF4y2BaCudeiro et al ., 2019gydF4y2Ba;gydF4y2BaGinosar et al ., 2019 agydF4y2Ba;gydF4y2BaAlexanderson et al ., 2020gydF4y2Ba)的语音驱动。对其中的一些方法,合成手势的行为风格改变了施加直接控制合成动作的速度和力量(gydF4y2BaAlexanderson et al ., 2020gydF4y2Ba)。对其他人来说(gydF4y2Ba。卡拉et al ., 2017gydF4y2Ba;gydF4y2BaCudeiro et al ., 2019gydF4y2Ba;gydF4y2BaGinosar et al ., 2019 agydF4y2Ba),他们产生了动作的风格gydF4y2Ba单一的演讲者gydF4y2Ba通过培训他们的生成模型gydF4y2Ba单一的演讲者gydF4y2Ba的数据和合成手势对应于这个特定的扬声器的音频。此外,语言和非语言行为在人与人之间的互动交流中扮演着重要的角色gydF4y2Ba诺里斯,2004gydF4y2Ba)。生成模型,以预测交际手势的eca必须产生表达semantically-aware手势与演讲(gydF4y2Ba卡塞尔,2000gydF4y2Ba)。gydF4y2Ba
我们提出一个模型的新方法gydF4y2Ba行为风格gydF4y2Ba出口信贷机构和解决不同gydF4y2Ba行为风格gydF4y2Ba建模的挑战。我们认为gydF4y2Ba行为风格gydF4y2Ba是无处不在的,而说;这颜色交际行为表达能力,演讲内容是由多通道信号和文本。设计我们的方法,我们提出以下假设分离的风格和内容信息:gydF4y2Ba风格gydF4y2Ba可能是编码在所有形式(文本、语音和姿势)和随时间变化很少或没有;gydF4y2Ba内容gydF4y2Ba只有文本和语音编码的模式,随着时间的变化。我们的方法旨在(1)合成自然和富有表现力的上半身议长手势的来源,通过编码gydF4y2Ba内容gydF4y2Ba的两个输入modalities-text语义和梅尔·光谱图(2)调节源扬声器在多通道的姿态预测gydF4y2Ba风格gydF4y2Ba目标议长的代表,因此呈现模型能够执行风格转移在扬声器,最后(3)允许zero-shot风格转移的新扬声器所未见的模型在训练。解开纠结的gydF4y2Ba内容gydF4y2Ba和gydF4y2Ba风格gydF4y2Ba允许我们直接推断样式嵌入甚至发言者的数据没有训练阶段的一部分,而不需要任何进一步的培训或调整。gydF4y2Ba
我们的模型由两个主要组件组成:第一(1)议长风格编码器模型网络的目标是一个具体的目标说话风格从三个输入modalities-Mel谱图中提取,上身姿态和文本语义和第二(2)sequence-to-sequence合成网络产生一系列上身姿态基于两个输入modalities-Mel谱图的内容和文本的语义来源发言者和条件在目标样式嵌入。我们的模型是训练有素的gydF4y2Bamulti-speakergydF4y2Ba提出了数据库拍gydF4y2BaAhuja et al。(2020)gydF4y2Ba旨在研究姿态生成和传输方式。它包括三个主要模式,我们正在考虑在我们的方法:由伯特嵌入文本语义,梅尔·光谱图和2 d上身姿势。gydF4y2Ba
我们的贡献可以列出如下:gydF4y2Ba
1。我们建议第一种方法zero-shot multimodal风格传输方法2 d构成合成。在推理,一个嵌入样式向量可以直接从多通道数据推断(文本、语音和姿势)的发言人通过简单投影到嵌入空间(类似于一个用于风格gydF4y2Ba贾庆林et al。(2018)gydF4y2Ba]。风格转移由我们的模型允许转让的风格从任何看不见的人,没有进一步的培训或微调我们的训练模式。因此,它并不局限于给定数据库的使用者的风格。gydF4y2Ba
2。不同的工作gydF4y2BaAhuja et al。(2020)gydF4y2Ba和以前的作品,风格的编码考虑三种形式:身体姿势,文本语义,手势和speech-Mel色,它们是重要的一代(gydF4y2BaGinosar et al ., 2019 agydF4y2Ba;gydF4y2BaKucherenko et al ., 2019gydF4y2Ba),与风格。我们编码和解决gydF4y2Ba内容gydF4y2Ba和gydF4y2Ba风格gydF4y2Ba来自多个模式的信息。一方面,一个内容使用编码器编码矩阵从文本和语音信号;另一方面,一个风格编码器用于编码风格从所有文本向量,演讲,和构成形式。介绍了渐变的损失有效解决内容和样式编码(gydF4y2BaLample et al ., 2017gydF4y2Ba)。gydF4y2Ba
在下面几节中,我们首先讨论相关的工作,更特别的是现有的行为风格的建模方法以及其局限性。接下来,在第三节,我们深入的细节我们的模型的体系结构,描述了其训练和我们进行了客观和主观评估。然后我们在第四节讨论的客观和主观评价结果。接下来,在第五节中,我们检查我们的研究的重要发现,相比以前的研究,讨论其主要限制。最后,我们讨论我们的研究未来的发展方向。gydF4y2Ba
2。相关工作gydF4y2Ba
几年以来,大量的手势生成模型已经提出,主要是基于顺序生成参数模型如隐马尔可夫模型(HMM)和逐步走向深层神经网络使惊人的进步在过去的几年里。隐马尔可夫模型以前用来预测头运动由韵律(gydF4y2BaSargin et al ., 2008gydF4y2Ba)和身体运动(gydF4y2Ba莱文et al ., 2009gydF4y2Ba;gydF4y2BaMarsella et al ., 2013gydF4y2Ba)。gydF4y2Ba
赵和Marsella (2014)gydF4y2Ba提出一种方法预测从演讲手势标签使用条件随机域(crf)和基于这些标签生成的姿态运动,使用高斯过程潜变量模型(GPLVMs)。这些研究关注手势一代任务由任何一种形态,即语音或两个modalities-speech和文本。他们的研究集中在生产自然和与语音和文本的连贯动作,使平滑的与出口信贷机构,利用声音和视觉韵律。因此,非语言行为与言语行为生成的。LSTM网络由言论最近被用来预测序列的手势(gydF4y2Ba长谷川et al ., 2018gydF4y2Ba)和身体动作(gydF4y2BaShlizerman et al ., 2018gydF4y2Ba;gydF4y2BaAhuja et al ., 2019gydF4y2Ba)。LSTMs是另外用于合成序列的面部动作由文本和语音,即基本频率(F0) (gydF4y2Ba票价2020gydF4y2Ba;gydF4y2Ba票价et al ., 2021 agydF4y2Ba)。生成对抗网络(甘斯)提出了生成现实的头部运动(gydF4y2BaSadoughi Busso, 2018gydF4y2Ba)和身体动作(gydF4y2BaFerstl et al ., 2019gydF4y2Ba)。此外,变压器网络和注意力机制最近被用于面部上方手势合成基于多通道数据电文和演讲(gydF4y2Ba票价et al ., 2021 bgydF4y2Ba)。面部(gydF4y2Ba票价2020gydF4y2Ba;gydF4y2Ba票价et al ., 2021 bgydF4y2Ba)和(gydF4y2BaKucherenko et al ., 2020gydF4y2Ba)手势由声和语义信息都是最接近我们的手势方法生成任务;然而,他们不能用于风格传输任务。gydF4y2Ba
超越现实的一代的人类非语言行为,风格手势建模和控制接收更多的关注以提出更具表达性行为可能适应特定的观众(gydF4y2Ba内夫et al ., 2008gydF4y2Ba;gydF4y2Ba。卡拉et al ., 2017gydF4y2Ba;gydF4y2BaCudeiro et al ., 2019gydF4y2Ba;gydF4y2BaGinosar et al ., 2019 agydF4y2Ba;gydF4y2BaAhuja et al ., 2020gydF4y2Ba;gydF4y2BaAlexanderson et al ., 2020gydF4y2Ba;gydF4y2BaAhuja et al ., 2022gydF4y2Ba)。gydF4y2Ba内夫et al。(2008)gydF4y2Ba提出了一个系统,产生全身姿态动画由文本、风格的具体表现。gydF4y2BaAlexanderson et al。(2020)gydF4y2Ba提出了一种生成模型合成的语音驱动手势,他们施加导演控制输出样式如姿势水平和速度。gydF4y2Ba。卡拉et al。(2017)gydF4y2Ba提出了模型驱动三维面部动画从音频。他们的主要目标是模型的风格一个演员通过使用深层神经网络输出3 d的网格顶点位置对应于一个特定的音频。gydF4y2BaCudeiro et al。(2019)gydF4y2Ba还提出了一个模型,该模型综合三维面部动画由语音信号。学模型,VOCA(语音操作角色动画),以任何语音信号为input-even语音除英语之外的其他语言和现实的各种成人的面孔。空调在主题标签培训允许模型学习各种现实的讲话风格。VOCA还提供了动画控制改变说话方式,identity-dependent面部形状,构成(即。头,下巴,在动画和眼球转动)。gydF4y2Ba
Ginosar et al。(2019)gydF4y2Ba提出一种方法来生成手势音频讲话;然而,他们的方法使用模型训练单扬声器。上述研究都集中在生成非语言行为(特别是面部表情、头部动作和手势)与演讲(gydF4y2Ba内夫et al ., 2008gydF4y2Ba;gydF4y2Ba。卡拉et al ., 2017gydF4y2Ba;gydF4y2BaCudeiro et al ., 2019gydF4y2Ba;gydF4y2BaAhuja et al ., 2020gydF4y2Ba)。他们没有考虑多通道数据建模风格以及合成时的姿态。gydF4y2Ba
我们所知,只有试图从multi-speakers数据库模型和传输的风格已经被提出的gydF4y2BaAhuja et al . (2020gydF4y2Ba,gydF4y2Ba2022)gydF4y2Ba。gydF4y2BaAhuja et al。(2020)gydF4y2Ba语音驱动的方法,提出Mix-StAGE火车模型从多个扬声器在学习独特的风格为每个扬声器嵌入。他们创造了拍,一个数据集设计学习各种风格的手势在不同环境下大量的扬声器。在他们提出的神经结构,内容和风格编码器用于提取从言论和构成内容和样式信息。解开风格从内容信息,他们只认为风格是通过构成形态编码,和内容是跨语言和构成形式共享。样式嵌入矩阵的每个向量代表的风格从训练集关联到一个特定的演讲者。训练期间,他们进一步提出了一种多通道GAN策略生成带来的演讲或构成形态。在推理过程中,造成使用语言形态和推断只有所需的风格令牌。gydF4y2Ba
然而,它们的生成模型条件在姿态风格和由音频驱动的。它不包括口头信息。它不能执行zero-shot风格转移在扬声器没有被他们的模型训练。此外,风格与每一个独特的议长,这使得每个扬声器的特定style-idiosyncrasy之间的区分不清楚,一组扬声器之间共享的风格类似的设置(即。、电视节目主持人、记者等),风格是独一无二的每个扬声器的原型产生有意识和无意识的手势。此外,风格转移仅限于拍扬声器的风格,从而防止风格的转移从一个看不见的演说家。此外,该建议的体系结构是基于内容和拍风格的理清信息,基于假设风格只是编码的手势。然而,文本和语音还传达样式信息,和编码风格必须考虑所有的人类行为的模式。为了解决这些问题,gydF4y2BaAhuja et al。(2022)gydF4y2Ba提出few-shot风格转移策略基于神经领域适应占源扬声器和目标之间的跨通道接地转变风格。这种适应仍然需要2分钟的风格被转移。我们所知,我们的方法是第一个合成手势从源议长semantically-aware,语音驱动的,条件的多模式表示的目标扬声器zero-shot配置即风格。,不需要任何进一步的培训或调整。gydF4y2Ba
3所示。材料和方法gydF4y2Ba
3.1。模型架构gydF4y2Ba
我们建议gydF4y2BaZS-MSTMgydF4y2Ba(gydF4y2BaZgydF4y2Baero -gydF4y2Ba年代gydF4y2Ba热gydF4y2Ba米gydF4y2BaultimodalgydF4y2Ba年代gydF4y2Ba胼胝gydF4y2BaTgydF4y2BaransfergydF4y2Ba米gydF4y2Ba比起基础上)的基于变压器架构程式化的上身动作合成,由源扬声器的文言文的内容语义由伯特嵌入和音频梅尔spectrogram-and条件目标说话人的多通道嵌入方式。生成的程式化的手势对应目标使用者的风格已经看见和看不见的培训。gydF4y2Ba
中所描绘的一样gydF4y2Ba图1gydF4y2Ba,该系统由三个主要组件:gydF4y2Ba
1。一个gydF4y2Ba演讲风格编码器gydF4y2Ba网络学习生成fixed-dimensional扬声器嵌入样式的gydF4y2Ba目标说话人gydF4y2BaBERT嵌入多通道数据:2 d的姿势,和梅尔·声谱图,所有从视频中提取在数据库中。gydF4y2Ba
2。一个gydF4y2Basequence-to-sequence手势合成gydF4y2Ba网络综合上身行为(包括手势和身体姿势)基于两个输入modalities-text嵌入的内容和梅尔·spectrogram-ofgydF4y2Ba源扬声器gydF4y2Ba和条件gydF4y2Ba目标说话人gydF4y2Ba嵌入方式。一个gydF4y2Ba内容编码器gydF4y2Ba提出了编码的内容随着伯特嵌入梅尔声谱图。gydF4y2Ba
3所示。一个gydF4y2Ba敌对的组件gydF4y2Ba在渐变的形式网络(gydF4y2BaLample et al ., 2017gydF4y2Ba)用于从多通道数据理风格和内容。gydF4y2Ba
图1gydF4y2Ba。gydF4y2BaZS-MSTMgydF4y2Ba(gydF4y2BaZgydF4y2Baero -gydF4y2Ba年代gydF4y2Ba热gydF4y2Ba米gydF4y2BaultimodalgydF4y2Ba年代gydF4y2Ba胼胝gydF4y2BaTgydF4y2BaransfergydF4y2Ba米gydF4y2Ba基础上)的体系结构。编码器(进一步称为内容gydF4y2BaEgydF4y2Ba内容gydF4y2Ba)是用于编码内容嵌入gydF4y2BahgydF4y2Ba内容gydF4y2Ba从伯特文本嵌入gydF4y2BaXgydF4y2Ba文本gydF4y2Ba和语音Mel-spectrogramsgydF4y2BaXgydF4y2Ba演讲gydF4y2Ba使用语音编码器gydF4y2Ba。编码器(进一步称为风格gydF4y2BaEgydF4y2Ba风格gydF4y2Ba)用于嵌入编码风格gydF4y2BahgydF4y2Ba风格gydF4y2Ba从多通道文本gydF4y2BaXgydF4y2Ba文本gydF4y2Ba、语音gydF4y2BaXgydF4y2Ba演讲gydF4y2Ba,构成gydF4y2BaXgydF4y2Ba构成gydF4y2Ba使用语音编码器gydF4y2Ba和造成编码器gydF4y2Ba。发电机gydF4y2BaGgydF4y2Ba是一个变压器网络,生成的序列构成gydF4y2Ba从内容中嵌入的序列gydF4y2BahgydF4y2Ba内容gydF4y2Ba和样式嵌入向量gydF4y2BahgydF4y2Ba风格gydF4y2Ba。敌对的模块依赖于鉴别器gydF4y2Ba说gydF4y2Ba用于解决嵌入的内容和风格gydF4y2BahgydF4y2Ba内容gydF4y2Ba和gydF4y2BahgydF4y2Ba风格gydF4y2Ba。gydF4y2Ba
在推理时,敌对的组件被丢弃,和模型可以生成不同版本的姿势,当美联储与不同风格的嵌入。手势风格相同的输入语言可以直接控制的切换样式嵌入向量的值gydF4y2BahgydF4y2Ba风格gydF4y2Ba或通过计算嵌入目标说话人的多通道数据作为输入提供给gydF4y2Ba风格编码器gydF4y2Ba。gydF4y2Ba
ZS-MSTM示gydF4y2Ba图1gydF4y2Ba旨在将多通道语音和文本特征序列映射到连续上身姿态,说话风格嵌入条件。64年的网络操作segment-level步伐:网络的输入和输出为每个部分包含一个特征向量gydF4y2Ba年代gydF4y2Ba输入文本的序列。的长度segment-level(文本和音频)对应于输入特性gydF4y2BatgydF4y2Ba= 64步伐(如提供的gydF4y2Ba拍语料库gydF4y2Ba)。模型生成一个手势序列对应于同一segment-level特征作为输入。手势是2 d姿势代表的序列gydF4y2BaxgydF4y2Ba和gydF4y2BaygydF4y2Ba骨骼关节的位置。网络嵌入维数gydF4y2BadgydF4y2Ba模型gydF4y2Ba等于768。gydF4y2Ba
3.1.1。内容编码器gydF4y2Ba
编码器的内容gydF4y2BaEgydF4y2Ba内容gydF4y2Ba所示gydF4y2Ba图1gydF4y2Ba作为输入伯特嵌入gydF4y2BaXgydF4y2Ba文本gydF4y2Ba和音频梅尔谱图gydF4y2BaXgydF4y2Ba演讲gydF4y2Ba对应于每一个gydF4y2Ba年代gydF4y2Ba。gydF4y2BaXgydF4y2Ba文本gydF4y2Ba由向量的长度表示768 -伯特嵌入尺寸中使用吗gydF4y2Ba拍语料库gydF4y2Ba。gydF4y2BaXgydF4y2Ba演讲gydF4y2Ba编码使用gydF4y2Ba梅尔·声谱图变压器(AST)gydF4y2Bapre-trainedgydF4y2Babase384gydF4y2Ba模型(gydF4y2Ba龚et al ., 2021gydF4y2Ba)。gydF4y2Ba
ASTgydF4y2Ba操作如下:输入梅尔声谱图128频率垃圾箱分为16×16块序列与重叠,然后是线性投射到一个一维序列块向量,即添加位置嵌入。我们添加一个gydF4y2BaCLSgydF4y2Ba令牌生成的序列,然后输入gydF4y2Ba变压器编码器gydF4y2Ba。gydF4y2BaASTgydF4y2Ba最初提出了音频分类。因为我们不打算用它来一个分类任务,我们把线性层与乙状结肠激活函数的输出gydF4y2Ba变压器编码器gydF4y2Ba。我们使用gydF4y2Ba变压器编码器gydF4y2Ba的输出(gydF4y2BaCLSgydF4y2Ba)令牌的梅尔·声谱图表示。的gydF4y2Ba变压器编码器gydF4y2Ba嵌入维数等于gydF4y2BadgydF4y2Ba模型gydF4y2Ba,gydF4y2BaNgydF4y2Ba内附gydF4y2Ba等于12编码层,gydF4y2BaNgydF4y2BahgydF4y2Ba等于12头的关注。gydF4y2Ba
编码的segment-level梅尔声谱图然后连接segment-level伯特嵌入。然后self-attention机制应用于生成的向量。多头注意层gydF4y2BaNgydF4y2BahgydF4y2Ba等于四注意头和一个嵌入的大小gydF4y2BadgydF4y2Ba丙氨酸gydF4y2Ba等于gydF4y2BadgydF4y2Ba丙氨酸gydF4y2Ba=gydF4y2BadgydF4y2Ba模型gydF4y2Ba+ 768。注意层的输出向量gydF4y2BahgydF4y2Ba内容gydF4y2Ba,演讲者的内容表示来源segment-level梅尔光谱图和文本嵌入,而且它可以编写如下:gydF4y2Ba
sa()表示self-attention。gydF4y2Ba
3.1.2。风格编码器gydF4y2Ba
正如前面所讨论的,gydF4y2Ba行为风格gydF4y2Ba是一个集群内部和之间的特性发现模式,包括语言和非语言行为。它不仅限于手势信息。我们考虑到gydF4y2Ba行为风格gydF4y2Ba是编码在扬声器的多通道——文本、演讲和pose-behavior。见gydF4y2Ba图1gydF4y2Ba,风格编码器gydF4y2BaEgydF4y2Ba风格gydF4y2Ba需要作为输入,segment-level,梅尔·声谱图gydF4y2BaXgydF4y2Ba演讲gydF4y2Ba伯特,嵌入gydF4y2BaXgydF4y2Ba文本gydF4y2Ba和序列(X, Y)关节位置对应于目标说话人的2 d的姿势gydF4y2BaXgydF4y2Ba构成gydF4y2Ba。gydF4y2BaASTgydF4y2Ba用于编码音频输入谱图。gydF4y2BaNgydF4y2Ba躺gydF4y2Ba等于三层LSTMs hidden-size等于gydF4y2BadgydF4y2Ba模型gydF4y2Ba用于编码向量表示2 d的姿势。最后一个隐层然后用音频连接表示。接下来,多头注意机制应用于生成的向量。这种关注层gydF4y2BaNgydF4y2BahgydF4y2Ba等于四头和一个嵌入大小等于关注gydF4y2BadgydF4y2Ba丙氨酸gydF4y2Ba。最后,输出向量与2 d构成连接向量表示。由此产生的向量gydF4y2BahgydF4y2Ba风格gydF4y2Ba是输出扬声器样式嵌入服务条件的网络发言人的风格。最后的样式嵌入gydF4y2BahgydF4y2Ba风格gydF4y2Ba因此可以写成如下:gydF4y2Ba
sa()表示self-attention。gydF4y2Ba
3.1.3。手势合成测序序列gydF4y2Ba
给出的程式化的2 d提出了生成内容的顺序表示gydF4y2BahgydF4y2Ba内容gydF4y2Ba源扬声器的梅尔·光谱图和文本嵌入在获得gydF4y2Ba年代gydF4y2Ba向量嵌入程度和条件的风格gydF4y2BahgydF4y2Ba风格gydF4y2Ba从目标说话人的多通道数据生成。解码的程式化2 d-poses的序列gydF4y2BahgydF4y2Ba内容gydF4y2Ba和向量gydF4y2BahgydF4y2Ba风格gydF4y2Ba连接(通过重复gydF4y2BahgydF4y2Ba风格gydF4y2Ba向量的每一段序列)和通过gydF4y2Ba密集的gydF4y2Ba层的大小gydF4y2BadgydF4y2Ba模型gydF4y2Ba。然后,我们给一个结果向量作为输入gydF4y2Ba变压器译码器gydF4y2Ba。的gydF4y2Ba变压器译码器gydF4y2Ba是由gydF4y2BaNgydF4y2Ba12月gydF4y2Ba= 1gydF4y2Ba解码层,gydF4y2BaNgydF4y2BahgydF4y2Ba= 2注意头和一个嵌入大小等于gydF4y2BadgydF4y2Ba模型gydF4y2Ba。类似于一个提议gydF4y2BaVaswani et al。(2017)gydF4y2Ba,它是由残留的连接应用在每个子层,其次是层正常化。此外,解码器self-attention子层的堆栈是改变阻止职位参加随后的职位。输出的预测是一个位置所抵消。这个屏蔽确保预测位置索引gydF4y2BajgydF4y2Ba只取决于已知输出在不到的位置gydF4y2BajgydF4y2Ba。最后一步,我们执行一个排列的第一和第二维的向量生成的变压器解码器。结果向量2 d-poses对应的序列gydF4y2Ba
G是变压器生成器条件在潜在内容嵌入gydF4y2BahgydF4y2Ba内容gydF4y2Ba和样式嵌入gydF4y2BahgydF4y2Ba风格gydF4y2Ba。发电机变压器的损失手势合成可以写成gydF4y2Ba
3.1.4。敌对的组件gydF4y2Ba
我们的方法理清风格从内容依赖于音量控制器网络理方法(gydF4y2BaLample et al ., 2017gydF4y2Ba),介绍了渐变的损失有效编码不同的内容和风格,描绘gydF4y2Ba图2gydF4y2Ba。理方案的基本特点是限制的潜在空间gydF4y2BahgydF4y2Ba内容gydF4y2Ba嵌入的独立的风格gydF4y2BahgydF4y2Ba风格gydF4y2Ba。具体地说,它意味着分布gydF4y2BahgydF4y2Ba内容gydF4y2Ba潜在的表示不应该包含样式信息。一个音量控制器网络由一个编码器,编码输入信息gydF4y2BaXgydF4y2Ba成的代码gydF4y2BahgydF4y2Ba内容gydF4y2Ba,解码器解码从潜在的原始数据,和一个额外的变量gydF4y2BahgydF4y2Ba风格gydF4y2Ba用于条件的译码器所需的信息(原始论文中的一张脸属性)。音量控制器网络的目的是学习一个潜在的编码gydF4y2BahgydF4y2Ba内容gydF4y2Ba输入数据,是独立的调节变量gydF4y2BahgydF4y2Ba风格gydF4y2Ba虽然这两个变量是互补的重建潜变量的原始输入数据gydF4y2BahgydF4y2Ba内容gydF4y2Ba和调节变量gydF4y2BahgydF4y2Ba风格gydF4y2Ba。为此,一个鉴别器gydF4y2Ba说gydF4y2Ba优化预测变量gydF4y2BahgydF4y2Ba风格gydF4y2Ba从潜在的代码gydF4y2BahgydF4y2Ba内容gydF4y2Ba;相反,auto-encoder优化使用额外敌对的损失,使分类器gydF4y2Ba说gydF4y2Ba无法预测的变量gydF4y2BahgydF4y2Ba风格gydF4y2Ba。与原来的音量控制器网络的条件变量在一个有限的离散二进制设置为是否存在属性(0或1),在这项研究中,条件变量gydF4y2BahgydF4y2Ba风格gydF4y2Ba是连续的。然后,我们制定这个鉴别器作为一个条件变量的回归gydF4y2BahgydF4y2Ba风格gydF4y2Ba:鉴别器学会预测样式嵌入gydF4y2BahgydF4y2Ba风格gydF4y2Ba从内容中嵌入gydF4y2BahgydF4y2Ba内容gydF4y2Ba作为gydF4y2Ba
同时优化鉴别器,鉴频器的损失gydF4y2Ba必须尽可能低,如gydF4y2Ba
反过来,优化发电机损失包括渐变的损失gydF4y2Ba,鉴别器必须无法预测正确嵌入风格gydF4y2BahgydF4y2Ba风格gydF4y2Ba从内容中嵌入gydF4y2BahgydF4y2Ba内容gydF4y2Ba进行高鉴别器错误,因此低音量控制器的损失。敌对的损失可以写成gydF4y2Ba
保持一致,风格预测误差是0和1范围内初步规范化。gydF4y2Ba
最后,发电机损失因此可以写成如下:gydF4y2Ba
其中λ是敌对的重量,开始在0和由每一步训练后0.01线性递增。gydF4y2Ba
鉴频器的gydF4y2Ba说gydF4y2Ba和发电机gydF4y2BaGgydF4y2Ba然后优化或者描述gydF4y2BaLample et al。(2017)gydF4y2Ba。gydF4y2Ba
所有gydF4y2BaZS-MSTMgydF4y2Bahyperparameters选择经验进行了总结gydF4y2Ba表1gydF4y2Ba。gydF4y2Ba
3.2。训练gydF4y2Ba
本节描述的训练我们遵循培训gydF4y2BaZS-MSTMgydF4y2Ba。我们训练我们的网络使用gydF4y2Ba拍语料库gydF4y2Ba(gydF4y2BaAhuja et al ., 2020gydF4y2Ba)。拍了学习各种风格的手势。数据集包含上身2 d构成序列与相应的梅尔·谱图和伯特嵌入。它提供251小时的数据,均值为10.7,标准差为13.5年代每间隔。拍从25人收集数据从各种不同的行为方式的设置(例如,讲师和电视节目主持人)。它还包含了一些注释。口语文本转录在拍,与演讲。2 d身体姿势与OpenPose提取。gydF4y2Ba
每个演讲者是由词汇多样性和空间扩展他们的武器。在拍的时候,手臂和手指已经提取,我们不考虑手指数据在我们的研究中;我们没有模型和预测2 d的手指关节。这个选择时手指的分析数据非常吵,不是很准确。我们的模型11代表上半身和手臂关节的关节。gydF4y2Ba
我们考虑两个测试条件:gydF4y2Ba看到演讲者gydF4y2Ba和gydF4y2Ba看不见的演讲者gydF4y2Ba。的gydF4y2Ba看到演讲者gydF4y2Ba条件旨在评估方式传输的正确性,我们的模型可以实现当面对扬声器,在训练视为目标的风格。另一方面,gydF4y2Ba看不见的演讲者gydF4y2Ba条件的目的是评估我们的模型的性能当面对看不见的目标使用者执行zero-shot风格转移。看见和看不见的人是专门从拍封面风格的多样性的行为选择对词汇的多样性和空间所报道的程度gydF4y2BaAhuja et al。(2020)gydF4y2Ba。gydF4y2Ba
对于每个拍扬声器,有一列火车,验证和测试集已经在数据库中定义的。用于测试的gydF4y2Ba看到演讲者gydF4y2Ba条件,我们的测试集包括火车16集拍扬声器。其他6个扬声器的选择gydF4y2Ba看不见的演讲者gydF4y2Ba条件,他们的测试集也用于我们的实验。这六个喇叭有不同的行为风格和词汇多样性。gydF4y2Ba见过gydF4y2Ba和gydF4y2Ba看不见的gydF4y2Ba扬声器中列出gydF4y2Ba表2gydF4y2Ba。gydF4y2Ba
我们开发了我们的模型使用Pytorch训练在一个NVIDIA公司GP102 (GeForce GTX 1080 Ti)机器。每个培训一批包含gydF4y2Ba废话gydF4y2Ba= 24双字嵌入,梅尔声谱图,及其对应的序列(X, Y)关节的骨骼(上身的姿势)。我们用亚当与β优化器gydF4y2Ba1gydF4y2Ba= 0.95,βgydF4y2Ba2gydF4y2Ba= 0.999。平衡的学习中,我们使用一个调度程序初始学习速率gydF4y2BaLrgydF4y2Ba等于1 e-5,gydF4y2BaWgydF4y2Ba步骤gydF4y2Ba等于20000。我们训练网络gydF4y2BaNgydF4y2BaepgydF4y2Ba= 200。所有特征值归一化的数据平均值和标准偏差为0和0.5,分别。gydF4y2Ba表3gydF4y2Ba总结了所有hyperparameters用于培训。gydF4y2Ba
3.3。客观的评价gydF4y2Ba
来验证我们的方法和评估产生的程式化的手势,我们进行了一个客观评价的两个条件gydF4y2Ba看到人gydF4y2Ba和gydF4y2Ba看不见的人gydF4y2Ba。gydF4y2Ba
3.3.1。客观指标gydF4y2Ba
在我们的研究中,我们定义了gydF4y2Ba行为风格gydF4y2Ba由gydF4y2Ba行为表现度gydF4y2Ba的演说家。客观地评价我们的研究,我们定义指标比较gydF4y2Ba行为表现度gydF4y2Ba由我们的模型,生成目标说话人的gydF4y2Ba行为表现度gydF4y2Ba和源的gydF4y2Ba行为表现度gydF4y2Ba。gydF4y2Ba
之后的研究gydF4y2Ba行为表现度gydF4y2Ba通过gydF4y2BaWallbott (1998)gydF4y2Ba和gydF4y2BaPelachaud (2009)gydF4y2Ba,我们定义四个目标gydF4y2Ba动力学行为gydF4y2Ba指标来评估不同的风格转移目标使用者:gydF4y2Ba加速度,混蛋gydF4y2Ba,gydF4y2Ba速度gydF4y2Ba平均值的值的上身关节,以及说话者的平均水平gydF4y2Ba边界框周长gydF4y2Ba(BB周长)他/她的身体动作扩展。gydF4y2Ba
此外,我们计算gydF4y2Ba加速度,混蛋gydF4y2Ba,gydF4y2Ba速度gydF4y2Ba的只有gydF4y2Ba左gydF4y2Ba和gydF4y2Ba右手腕gydF4y2Ba获得的信息gydF4y2Ba手臂动作表达能力gydF4y2Ba(gydF4y2BaWallbott 1998gydF4y2Ba;gydF4y2BaKucherenko et al ., 2019gydF4y2Ba)。gydF4y2Ba
两个条件gydF4y2BaSDgydF4y2Ba和gydF4y2Ba如果gydF4y2Ba距离,我们定义两组:gydF4y2Ba
1。gydF4y2BaDist。(gydF4y2Ba源、目标gydF4y2Ba)gydF4y2Ba:代表源风格和目标之间的平均距离的风格。gydF4y2Ba
2。gydF4y2BaDist。(gydF4y2BaZS-MSTM、目标gydF4y2Ba)gydF4y2Ba:代表之间的平均距离模型的手势风格和目标的风格。gydF4y2Ba
更具体地说,在计算gydF4y2Ba行为表现度gydF4y2Ba和gydF4y2BaBB周长gydF4y2Ba我们的模型生成的手势,源的扬声器和目标的演讲者,我们计算的平均距离如下:gydF4y2Ba
x表示gydF4y2Ba源gydF4y2Ba计算gydF4y2Ba经销gydF4y2BaavggydF4y2Ba(gydF4y2Ba源、目标gydF4y2Ba),gydF4y2BaZS-MSTMgydF4y2Ba计算gydF4y2Ba经销gydF4y2BaavggydF4y2Ba(gydF4y2BaZS-MSTM、目标gydF4y2Ba)。gydF4y2Ba
调查每个输入通道的影响在我们的风格编码器,我们进行了烧蚀研究不同版本的模型。具体来说,我们表现的消融gydF4y2Ba构成形态、文本形态gydF4y2Ba,gydF4y2Ba音频模式gydF4y2Ba。我们也比较完整的模型的性能与基准gydF4y2BaDiffGANgydF4y2BaAhuja et al。(2022)gydF4y2Ba。我们使用两个指标评价手势和口语之间的相关性和时间:gydF4y2Ba正确的概率要点(PCK)gydF4y2Ba和gydF4y2BaL1距离gydF4y2Ba。PCK,我们平均的值/α= 0.1和0.2,书中建议的那样gydF4y2BaGinosar et al。(2019 b)gydF4y2Ba。L1之间的距离计算生成的手势和相应的目标地面实况的手势。gydF4y2Ba
3.4。人类感知研究gydF4y2Ba
我们进行三个人类知觉研究。gydF4y2Ba
1。gydF4y2Ba研究1gydF4y2Ba——研究人类感知的程式化的上身动作由我们的模型,我们进行人类知觉的研究,旨在评估演讲者的风格传递gydF4y2Ba见过gydF4y2Ba培训期间,gydF4y2Ba看到演讲者gydF4y2Ba条件。gydF4y2Ba
2。gydF4y2Ba研究2gydF4y2Ba我们进行另一个人的知觉的研究,旨在评估演讲者的风格传递gydF4y2Ba看不见的gydF4y2Ba培训期间,gydF4y2Ba看不见的演讲者gydF4y2Ba条件。gydF4y2Ba
3所示。gydF4y2Ba研究3gydF4y2Ba我们另外进行第三人类知觉研究比较gydF4y2BaZS-MSTMgydF4y2Ba产生了程式化的手势gydF4y2Ba看到演讲者gydF4y2Ba和gydF4y2Ba看不见的演讲者gydF4y2Ba条件gydF4y2BaMix-StAGEgydF4y2Ba我们考虑我们的基线。gydF4y2Ba
评价研究进行35是通过网络招募的参与者,众包网站多产。参与者选择这样的英语流利。注意检查添加开始和中间的每个研究过滤掉粗心的参与者。所有这些研究中提供的动画形式的2 d棒。gydF4y2Ba
研究1和2gydF4y2Ba。研究1和2,我们提出了60刺激的2 d动画。每个研究包括30刺激。刺激是三个一组的2 d动画组成如下:gydF4y2Ba
•2 d动画的gydF4y2Ba源的风格gydF4y2Ba
•2 d动画的gydF4y2Ba目标的风格gydF4y2Ba
•2 d动画的gydF4y2BaZS-MSTMgydF4y2Ba表演风格转移后的预测。gydF4y2Ba
图3gydF4y2Ba说明了三个动画我们现在每个组的问题。目标的动画风格gydF4y2Ba参考gydF4y2Ba。的动画模型的预测,和源风格gydF4y2Ba一个动画gydF4y2Ba或gydF4y2Ba动画BgydF4y2Ba(随机选择)。gydF4y2Ba
图3gydF4y2Ba。三个2 d贴动画:gydF4y2Ba动画,引用gydF4y2Ba,gydF4y2Ba动画BgydF4y2Ba。风格是由目标gydF4y2Ba参考gydF4y2Ba。gydF4y2BaZS-MSTMgydF4y2Ba和预测gydF4y2Ba源的风格gydF4y2Ba在动画A或B。gydF4y2Ba
对于每一个动画的三驾马车,我们要求六个问题评估六个相关因素gydF4y2Ba相似之处gydF4y2Ba生产的手势w.r。t的gydF4y2Ba源的风格gydF4y2Ba和gydF4y2Ba目标的风格gydF4y2Ba:gydF4y2Ba
1。请速度gydF4y2Ba整体相似的参考gydF4y2Baw.r。t一个和B (因子1gydF4y2Ba-总体相似之处)。gydF4y2Ba
2。请速度gydF4y2Ba相似的左(左)和右(R)的武器手势参考gydF4y2Baw.r。tthe左和r我ght一个rm gesturing of A and B (因子2gydF4y2Ba-武器手势)。gydF4y2Ba
3所示。请速度gydF4y2Ba相似的身体方向的参考gydF4y2Baw.r。tthe身体的方向of A and B (因子3gydF4y2Ba-身体的方向)。gydF4y2Ba
4所示。请速度gydF4y2Ba相似的动作幅度的参考gydF4y2Baw.r。tthe动作幅度of A and B (因子4gydF4y2Ba-动作幅度)。gydF4y2Ba
5。请速度gydF4y2Ba相似的动作频率参考gydF4y2Baw.r。tthe动作频率of A and B (因素5gydF4y2Ba-动作频率)。gydF4y2Ba
6。请速度gydF4y2Ba相似的动作速度的参考gydF4y2Baw.r。tthe动作速度of A and B (因子6gydF4y2Ba-动作速度)。gydF4y2Ba
每个因素是一个评价gydF4y2Ba李克特5gydF4y2Ba规模,如下:gydF4y2Ba
1。非常类似于参考。gydF4y2Ba
2。主要是类似于一个参考。gydF4y2Ba
3所示。在A和B之间的引用。gydF4y2Ba
4所示。参考主要是类似于B。gydF4y2Ba
5。参考非常类似于B。gydF4y2Ba
培训gydF4y2Ba。每项研究包括一个培训的开始。培训概述2 d上身骨架的虚拟代理,其成分,和手势。培训的目的是让参与者熟悉2 d骨架在开始研究之前。更具体地说,培训包括一个描述运动的发言人的视频提取通过检测他/她的面部和身体运动和提取他/她的2 d骨骼关节和声明,以类似的方式,虚拟代理的眼睛和上身运动由一个2 d骨骼的关节,描绘gydF4y2Ba图4gydF4y2Ba。gydF4y2Ba
此外,我们现在和描述不同镜头的2 d骨架手势gydF4y2Ba左/右手臂gydF4y2Ba和不同的gydF4y2Ba身体的方向gydF4y2Ba,它被描述为取向的肩膀和脖子。gydF4y2Ba
检测前gydF4y2Ba。我们进行检测前确保2 d动画是由参与者以及理解的问题。参与者报告,培训、刺激和问题是一致的和可理解的;然而,每个研究太长了,因为它持续了30分钟。出于这个原因,我们划分每个研究三个,这样,每个研究只包含10个刺激,是由不同的参与者。因此,六研究包括训练和10个刺激的评估由35个不同的参与者。gydF4y2Ba
研究3gydF4y2Ba。研究3,我们现在20刺激组成的三胞胎的2 d动画。类似于gydF4y2Ba研究1gydF4y2Ba和gydF4y2Ba研究2gydF4y2Ba,对于每一个三个一组,我们提出:gydF4y2Ba动画,引用gydF4y2Ba,gydF4y2Ba动画BgydF4y2Ba。目标的动画风格gydF4y2Ba参考gydF4y2Ba。Mix-StAGE动画的预测,和源风格是动画或动画B(随机选择)。我们注意到,这些刺激包括相同的gydF4y2Ba源gydF4y2Ba和gydF4y2Ba目标gydF4y2Ba中使用的样式gydF4y2Ba研究1gydF4y2Ba和gydF4y2Ba研究2gydF4y2Ba和随机选择。研究3还包括训练的开始,这是与前面描述的相同。gydF4y2Ba
4所示。结果gydF4y2Ba
4.1。客观评价结果gydF4y2Ba
客观评价实验是进行评估的模型的性能gydF4y2Ba看到演讲者gydF4y2Ba和gydF4y2Ba看不见的演讲者gydF4y2Ba条件。为gydF4y2Ba看到演讲者gydF4y2Ba条件下,测试集上进行的实验,其中包括16人被我们的模型在训练。为gydF4y2Ba看不见的演讲者gydF4y2Ba条件,实验也进行了在另一个测试集,其中包括6个扬声器,培训期间未见。gydF4y2Ba
图5gydF4y2Ba报告上的实验结果gydF4y2Ba看到演讲者gydF4y2Ba测试集,它说明了的结果gydF4y2BaDist。(gydF4y2Ba源、目标gydF4y2Ba)gydF4y2Ba而言,gydF4y2Ba动力学行为gydF4y2Ba和演讲者gydF4y2Ba边界框周长gydF4y2Ba目标发言者风格和源之间的风格。gydF4y2Ba
为gydF4y2Ba看到演讲者gydF4y2Ba条件(gydF4y2Ba图5gydF4y2Ba),gydF4y2BaDist。(gydF4y2Ba源、目标gydF4y2Ba)gydF4y2Ba高于70%的总距离为所有行为动力学指标。因此,gydF4y2BaDist。(gydF4y2BaZS-MSTM、目标gydF4y2Ba)gydF4y2Ba小于30%的总距离为所有行为动力学指标。手腕速度,混蛋,和加速度结果表明,虚拟代理的手臂动作显示相同的表现性动力学作为目标样式(gydF4y2BaDist。(gydF4y2BaZS-MSTM、目标gydF4y2Ba)gydF4y2Ba< 22%)。gydF4y2Ba
风格从目标“雪莱”源议长因,当归是“当归”gydF4y2Ba看到演讲者gydF4y2Ba形式,手势的行为动态指标预测的距离很近(< 20%)的距离“雪莱”(gydF4y2Ba目标的风格gydF4y2Ba),而“当归”和“雪莱”之间的远(距离> 80%)。gydF4y2Ba
预测的边界框的周长(BB)是近距离(< 30%)目标说话人的BB周长比源。动力学行为的预测指标之间的亲密值显示所有扬声器gydF4y2Ba看到演讲者gydF4y2Ba转移条件,专门为下列图层样式-gydF4y2Ba目标gydF4y2Ba来gydF4y2Ba源gydF4y2Ba:“法伦”到“雪莱”、“蜜蜂”,“雪莉,”“柯南”“当归”和“奥利弗”“lec_cosmic”被认为是有不同的词汇多样性,以及空间平均程度上,报道的作者拍(gydF4y2BaAhuja et al ., 2020gydF4y2Ba)。gydF4y2Ba
实验结果为gydF4y2Ba看不见的演讲者gydF4y2Ba测试集进行描述gydF4y2Ba图6gydF4y2Ba。结果表明,我们的模型能够再现的风格六个看不见的人。中所描绘的一样gydF4y2Ba图6gydF4y2Ba行为动力学指标,以及边界框周长,gydF4y2BaDist。(gydF4y2Ba源、目标gydF4y2Ba)gydF4y2Ba高于50%的总距离度量。结果表明,对手腕速度,混蛋,加速度,gydF4y2BaDist。(gydF4y2BaZS-MSTM、目标gydF4y2Ba)gydF4y2Ba还不到33%。因此,手臂运动的产生的表现性gydF4y2BaZS-MSTMgydF4y2Ba接近目标的一个扬声器的风格。此外,周长预测边界框的距离很近(< 30%)目标说话人的,而BB周长之间的距离的源和目标远(距离> 70%)。虽然我们的模型未见“Lec_evol”年代多通道数据训练,期间还能转移他的行为表现性风格源扬声器”奥利弗。也能够执行zero-shot风格转移从目标说话人”Minhaj柯南“源扬声器”。“事实上,结果表明,手腕加速度和混蛋值生成模型的手势很接近目标说话人的“Minhaj。“我们观察到的相同的结果为6人gydF4y2Ba看不见的演讲者gydF4y2Ba条件。gydF4y2Ba
我们另外LSD概率法进行成对比较指标,两组的距离gydF4y2BaDist。(gydF4y2Ba源、目标gydF4y2Ba)gydF4y2Ba,gydF4y2BaDist。(gydF4y2BaZS-MSTM、目标gydF4y2Ba)gydF4y2Ba——这两个条件。我们发现显著的结果(gydF4y2BapgydF4y2Ba< 0.003)为所有的距离在两个条件。gydF4y2Ba
我们的烧蚀研究的结果进行了总结gydF4y2Ba表4gydF4y2Ba。具体来说,我们培训了三个版本的gydF4y2BaZS-MSTMgydF4y2Ba模型中,每一个形态(文本、音频、或构成)从风格编码器中删除。我们使用的每个模型的性能进行了评价gydF4y2BaL1距离gydF4y2Ba和gydF4y2BaPCKgydF4y2Ba指标,比较预测目标在所有条件下地面实况。我们的结果(见gydF4y2Ba表4gydF4y2Ba)表明,gydF4y2BaL1距离gydF4y2Ba烧灼的预测模型和地面之间的事实是高于全模型条件下,见过(gydF4y2Ba奥利弗gydF4y2Ba和看不见的gydF4y2Ba化学,马赫gydF4y2Ba)目标的风格。观察这一趋势在所有三个烧蚀条件。此外,我们比较我们的结果的基线gydF4y2BaDiffGANgydF4y2Ba(gydF4y2BaAhuja et al ., 2022gydF4y2Ba),发现我们gydF4y2BaZS-MSTMgydF4y2Ba模型始终优于gydF4y2BaDiffGANgydF4y2Ba而言,gydF4y2BaL1距离gydF4y2Ba置信区间较高的报道,所有源-目标对标准偏差。此外,我们评估了gydF4y2BaPCKgydF4y2Ba所有源-目标对,发现我们的指标gydF4y2BaZS-MSTMgydF4y2Ba模型精度达到高于所有风格的切除模型的转移,与更高的置信区间。这表明,我们的模型产生关节位置准确、符合地面真理。当比较gydF4y2BaZS-MSTMgydF4y2Ba与gydF4y2BaDiffGANgydF4y2Ba,我们的模型优于gydF4y2BaDiffGANgydF4y2Ba而言,gydF4y2BaPCKgydF4y2Ba,更高的置信区间。gydF4y2Ba
表4gydF4y2Ba。比较与DiffGAN ZS-MSTM模型(gydF4y2BaAhuja et al ., 2022gydF4y2Ba)作为基线,以及不同版本的模型,我们删除了文本、音频、编码器和构成形式的风格。gydF4y2Ba
以下4.4.1。额外t-SNE分析gydF4y2Ba
在这项研究中,编码器是不可知论者风格:关注权重,可以利用不同的方式作为风格编码器的输入。gydF4y2Ba
我们进行了一项t-SNEgydF4y2Ba因果gydF4y2Ba分析风格的分布在每个通道的输出向量。gydF4y2Ba图7gydF4y2Ba说明了2 d t-SNE块gydF4y2Ba梅尔·嵌入gydF4y2Ba,gydF4y2Ba构成gydF4y2Ba嵌入的gydF4y2Ba,gydF4y2Ba文本嵌入gydF4y2Ba,最终gydF4y2Ba嵌入的风格gydF4y2Ba由我们的模型gydF4y2BaZS-MSTMgydF4y2Ba。我们发现大部分取决于运动风格gydF4y2Ba构成形态gydF4y2Ba,紧随其后的是gydF4y2Ba演讲gydF4y2Ba,那么gydF4y2Ba文本语义gydF4y2Ba。gydF4y2Ba
图7gydF4y2Ba。2 d TSNE分析生成的gydF4y2Ba梅尔·嵌入gydF4y2Ba,gydF4y2Ba构成嵌入gydF4y2Ba,gydF4y2Ba文本gydF4y2Ba嵌入的gydF4y2Ba,最终gydF4y2Ba嵌入的风格gydF4y2Ba。gydF4y2Ba
4.2。人类知觉研究结果gydF4y2Ba
研究1 -gydF4y2Ba看到人gydF4y2Ba。gydF4y2Ba
我们第一次感知研究(研究1)旨在评估演讲者的风格传递gydF4y2Ba见过gydF4y2Ba在培训。gydF4y2Ba图8gydF4y2Ba显示了平均分数获得六个因素条件gydF4y2Ba“喇叭”gydF4y2Ba。在一个gydF4y2Ba5点李克特量表gydF4y2Ba,gydF4y2Ba总体相似之处gydF4y2Ba因素获得了4.32分,这意味着gydF4y2BaZS-MSTMgydF4y2Ba的2 d动画相似的2 d动画gydF4y2Ba看到目标的风格gydF4y2Ba。相似之处也反映的平均成绩gydF4y2Ba武器的手势gydF4y2Ba,gydF4y2Ba在3.28 andbody取向gydF4y2Ba,gydF4y2Ba动作幅度gydF4y2Ba,gydF4y2Ba动作频率gydF4y2Ba,以及gydF4y2Ba动作速度gydF4y2Ba,这是在3.99和4.2之间。我们观察到所有的因素,大多数参与者得分3.8和5之间,描绘gydF4y2Ba图9gydF4y2Ba。gydF4y2Ba
图9gydF4y2Ba。密度块gydF4y2Ba总体相似之处gydF4y2Ba,gydF4y2Ba武器的手势gydF4y2Ba,gydF4y2Ba身体的方向gydF4y2Ba,gydF4y2Ba动作幅度gydF4y2Ba,gydF4y2Ba动作频率gydF4y2Ba,gydF4y2Ba动作速度gydF4y2Ba为gydF4y2Ba看到人gydF4y2Ba条件。gydF4y2Ba
我们另外执行gydF4y2Ba因果gydF4y2Ba配对样本gydF4y2Bat -gydF4y2Ba测试之间的所有因素,发现之间的重要成果gydF4y2Ba总体相似之处gydF4y2Ba和所有其他因素(gydF4y2BapgydF4y2Ba≤0.008)。gydF4y2Ba
研究2 -gydF4y2Ba看不见的人gydF4y2Ba。gydF4y2Ba
第二个感知研究(研究2)旨在评估演讲者的风格传递gydF4y2Ba看不见的gydF4y2Ba在培训。gydF4y2Ba图10gydF4y2Ba说明获得的平均分数的六个因素条件gydF4y2Ba“看不见的人”。gydF4y2Ba在一个gydF4y2Ba5点李克特量表gydF4y2Ba,gydF4y2Ba总体相似之处gydF4y2Ba因素获得了3.45分,这意味着有一个整体的相似之处gydF4y2BaZS-MSTMgydF4y2Ba2 d动画和gydF4y2Ba看不见的目标风格gydF4y2Ba。相似之处也反映的平均成绩gydF4y2Ba武器的手势gydF4y2Ba,gydF4y2Ba身体的方向gydF4y2Ba,gydF4y2Ba动作幅度gydF4y2Ba,gydF4y2Ba动作频率gydF4y2Ba,以及gydF4y2Ba动作速度gydF4y2Ba,这是在3.28和3.41之间。我们观察到所有的因素,大多数参与者得分在3和4之间,描绘gydF4y2Ba图11gydF4y2Ba。gydF4y2Ba
图11gydF4y2Ba。gydF4y2Ba身体的方向gydF4y2Ba,gydF4y2Ba动作幅度gydF4y2Ba,gydF4y2Ba动作频率gydF4y2Ba,gydF4y2Ba动作速度gydF4y2Ba为gydF4y2Ba看不见的人gydF4y2Ba条件。gydF4y2Ba
我们另外执行gydF4y2Ba因果gydF4y2Ba配对样本gydF4y2Bat -gydF4y2Ba测试之间的所有因素,发现之间的重要成果gydF4y2Ba总体相似之处gydF4y2Ba和所有其他因素(gydF4y2BapgydF4y2Ba≤0.014)。gydF4y2Ba
研究3-Comparing Mix-StAGEgydF4y2Ba。第三个感知研究旨在比较我们的模型的性能对艺术的状态gydF4y2BaMix-StAGEgydF4y2Ba。gydF4y2Ba图12gydF4y2Ba说明了两个条件意味着获得的分数gydF4y2BaMix-StAGEgydF4y2Ba和gydF4y2BaZS-MSTMgydF4y2Ba,w.r。t的年代我xfactors.
所示gydF4y2Ba图12gydF4y2Ba,所有的因素,我们的模型获得的平均成绩高于gydF4y2BaMix-StAGEgydF4y2Ba。我们的模型执行比gydF4y2BaMix-StAGEgydF4y2Ba的gydF4y2Ba总体相似之处gydF4y2Ba生成的手势w.r。t的一个n我mations produced with the目标的风格gydF4y2Ba(平均分数gydF4y2BaZS-MSTMgydF4y2Ba(4.2)≥意味着分数gydF4y2BaMix-StAGEgydF4y2Ba(3.6))。更具体地说,合成2 d手势之间的相似之处gydF4y2BaZS-MSTMgydF4y2Ba和目标大于之间的一个风格gydF4y2BaMix-StAGEgydF4y2Ba和目标的风格。这个结果也反映的相似之处gydF4y2Ba武器的手势gydF4y2Ba,gydF4y2Ba身体gydF4y2Ba取向gydF4y2Ba,gydF4y2Ba动作幅度gydF4y2Ba,gydF4y2Ba动作频率gydF4y2Ba,gydF4y2Ba动作速度gydF4y2Ba我们的模型的手势w.r。t的gydF4y2Ba目标的风格gydF4y2Ba。更具体地说,我们的模型获得了平均评分4和4.2之间的所有因素gydF4y2BaMix-StAGEgydF4y2Ba获得了平均评分在3.8和3.6之间的所有因素。我们另外进行gydF4y2Ba因果gydF4y2Ba配对gydF4y2Bat -gydF4y2Ba测试条件之间的因素gydF4y2BaMix-StAGEgydF4y2Ba和gydF4y2BaZS-MSTMgydF4y2Ba。我们发现所有的因素条件之间显著的结果gydF4y2BaMix-StAGEgydF4y2Ba和gydF4y2BaZS-MSTMgydF4y2Ba(gydF4y2BapgydF4y2Ba< 0.001)。这些结果表明,平均分数为所有条件的因素gydF4y2BaZS-MSTMgydF4y2Ba远远大于那些gydF4y2BaMix-StAGEgydF4y2Ba。因此,我们可以得出结论,我们的模型gydF4y2BaZS-MSTMgydF4y2Ba可以成功地渲染动画的另一个人的说话风格,艺术超越的状态gydF4y2BaMix-StAGEgydF4y2Ba。gydF4y2Ba
5。讨论和结论gydF4y2Ba
我们已经提出了gydF4y2BaZS-MSTMgydF4y2Ba,第一种方法zero-shot multimodal风格转移2 d构成合成,允许转让的风格从任何扬声器gydF4y2Ba见过gydF4y2Ba或gydF4y2Ba看不见的gydF4y2Ba在训练阶段。我们所知,我们的方法gydF4y2BaZS-MSTMgydF4y2Ba是第一个合成手势从源议长semantically-aware,语音驱动,和条件的多通道表示目标使用者的风格,即在zero-shot配置。,不需要任何进一步的培训或调整。gydF4y2BaZS-MSTMgydF4y2Ba可以学习演讲者的风格的潜在空间,考虑到他们的多通道数据,独立于自己的身份。它可以合成源说话人的肢体语言,鉴于源扬声器梅尔的谱图和文本语义,与另一个目标的风格发言者给定目标的多通道行为风格编码梅尔声谱图,文本语义和形式。此外,我们的方法是gydF4y2Bazero-shotgydF4y2Ba,从而能够转移的风格看不见的扬声器。它不仅限于gydF4y2Ba拍gydF4y2Ba扬声器和能产生动作风格的任何新议长没有进一步的培训或微调,呈现我们的方法gydF4y2Bazero-shotgydF4y2Ba。gydF4y2Ba行为风格gydF4y2Ba基于多通道扬声器的数据建模,是吗gydF4y2Ba独立的gydF4y2Ba从gydF4y2Ba演讲者的身份gydF4y2Ba(" ID "),我们的模型可以推广到新的风格gydF4y2Ba看不见的gydF4y2Ba扬声器。我们验证了我们的方法进行客观和主观评价。这些研究的结果表明gydF4y2BaZS-MSTMgydF4y2Ba生成的动画,已经接近目标使用者的目标风格gydF4y2Ba见过gydF4y2Ba和gydF4y2Ba看不见的gydF4y2Ba我们的模型。我们的烧蚀研究的结果(见gydF4y2Ba表4gydF4y2Ba)表明,这三个模式(文本、音频和姿势)的性能很重要gydF4y2BaZS-MSTMgydF4y2Ba模型在风格上转移的任务。当其中任何一个方法从风格编码器,删除gydF4y2BaL1距离gydF4y2Ba模型预测的结果与地面真值的增加,表明较低的性能。这表明的重要性将多个模式更好的风格在我们的模型中转移。此外,我们比较的性能gydF4y2BaZS-MSTMgydF4y2Baw.r。tthe年代t一个teof the artMix-StAGEgydF4y2Ba,结果表明,gydF4y2BaZS-MSTMgydF4y2Ba执行的更好gydF4y2Ba总体相似之处gydF4y2Ba生成的手势w.r。t的一个n我mations produced with the目标的风格gydF4y2Ba。gydF4y2BaZS-MSTMgydF4y2Ba可以概括的风格没有任何微调或额外的培训与新喇叭gydF4y2BaMix-StAGEgydF4y2Ba。它独立于演讲者的身份“ID”允许泛化没有约束和有限的扬声器用于训练模型。DiffGAN后来提出的gydF4y2BaAhuja et al。(2022)gydF4y2Ba作为一个扩展gydF4y2BaMix-StAGEgydF4y2Ba和一个方法执行gydF4y2Bafew-shotgydF4y2Ba风格转换策略基于神经领域适应占跨通道接地源扬声器和目标之间的转变风格。然而,这种适应仍然需要2分钟的风格由我们的模型不需要转移。我们与基线进行比较gydF4y2BaDiffGANgydF4y2Ba模型显示,我们的gydF4y2BaZS-MSTMgydF4y2Ba方面的模型优于它gydF4y2BaL1距离gydF4y2Ba和gydF4y2BaPCKgydF4y2Ba指标。这表明,我们的模型是人类带来更好地生成准确,特别是转移方式,培训期间未见。总的来说,我们的研究结果表明,我们的gydF4y2BaZS-MSTMgydF4y2Ba模型是一种很有前途的方法风格转移任务在人体姿态估计可以利用多种形式生成准确的姿势。gydF4y2Ba
我们的方法允许转让风格从任何扬声器gydF4y2Ba见过gydF4y2Ba或gydF4y2Ba看不见的gydF4y2Ba在训练阶段。gydF4y2Ba行为风格gydF4y2Ba从未被看作是吗gydF4y2Ba多通道gydF4y2Ba;之前的工作限制行为风格只手臂动作。然而,这两个gydF4y2Ba文本gydF4y2Ba和gydF4y2Ba演讲gydF4y2Ba传达gydF4y2Ba风格gydF4y2Ba信息和嵌入向量gydF4y2Ba风格gydF4y2Ba必须考虑这三个模式。我们证实了我们的假设gydF4y2Ba因果gydF4y2Bat-SNE分析风格的分布在每个通道的输出向量。我们发现主要取决于人体运动风格gydF4y2Ba构成形态gydF4y2Ba,紧随其后的是gydF4y2Ba言语形态gydF4y2Ba,那么gydF4y2Ba文本语义形态gydF4y2Ba。我们进行了一个客观的评价和三个感知的研究。这些研究的结果表明,我们的模型产生程式化的动画,甚至接近目标扬声器风格gydF4y2Ba看不见的gydF4y2Ba扬声器。gydF4y2Ba
虽然我们取得了一些进展,仍有一些局限性。的主要限制gydF4y2BaZS-MSTMgydF4y2Ba是它不是评估出口信贷机构。最主要的原因是它是训练有素的gydF4y2Ba拍语料库gydF4y2Ba(包括2 d的姿势。数据的图形表示如图并不总是可读的2 d坚持即使被投射在人类说话的视频。这个问题背后的主要原因是动画信息缺失对身体姿势在Z方向(轴深度)。一个有趣的未来工作方向是扩展我们的模型来捕获不同手势的形状和运动。手势形状表达不同的含义。例如,一个指向索引可以指示方向。手的形状和手臂运动可以描述一个物体,一个动作,等。几次看了建模隐喻手势(gydF4y2BaRavenet et al ., 2018gydF4y2Ba)或标志性手势(gydF4y2Ba伯格曼和科普,2009gydF4y2Ba)。大多数生成模型的手势不计算这些特定的手势的形状和运动姿态类型。扩展我们的模型来捕捉手势的形状和运动需要扩展全集拍包括手势的形状和更好地识别的具体相关注释表示(如图像模式(gydF4y2BaGrady, 2005gydF4y2Ba)隐喻手势)。gydF4y2Ba
数据可用性声明gydF4y2Ba
公开的数据集进行分析。这些数据可以在这里找到:gydF4y2Bahttps://chahuja.com/pats/gydF4y2Ba。gydF4y2Ba
道德声明gydF4y2Ba
伦理批准没有所需的研究涉及人类参与者按照地方立法和制度的要求。书面知情同意参加本研究从参与者不需要按照国家法律和制度需求。gydF4y2Ba
作者的贡献gydF4y2Ba
曼氏金融的主要贡献者是工作和论文的撰写。CP和没有监督工作和论文的撰写。所有作者的文章和批准提交的版本。gydF4y2Ba
资金gydF4y2Ba
执行这项工作在Labex智能(ANR - 11 - labx - 65)法国政府支持的基金管理中的ANR Investissements d的未来计划参考ANR - 11 -国际防务展- 0004 - 02。这项工作也是部分支持IA ANR-DFG-JST全景。gydF4y2Ba
的利益冲突gydF4y2Ba
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2Ba
出版商的注意gydF4y2Ba
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。gydF4y2Ba
补充材料gydF4y2Ba
本文的补充材料在网上可以找到:gydF4y2Bahttps://www.雷竞技rebatfrontiersin.org/articles/10.3389/frai.2023.1142997/full补充材料gydF4y2Ba
引用gydF4y2Ba
Ahuja C。,Lee, D. W., and Morency, L.-P. (2022). “Low-resource adaptation for personalized co-speech gesture generation,” in《IEEE / CVF计算机视觉与模式识别会议(CVPR)gydF4y2Ba。doi: 10.1109 / CVPR52688.2022.01991gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Ahuja C。,Lee, D. W., Nakano, Y. I., and Morency, L.-P. (2020). “Style transfer for co-speech gesture animation: A multi-speaker conditional-mixture approach,” in欧洲计算机视觉gydF4y2Ba(Springer) 248 - 265。doi: 10.1007 / 978 - 3 - 030 - 58523 - 5 - _15gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Ahuja C。妈,S。,米or内附y,L.-P., and Sheikh, Y. (2019). To react or not to react: End-to-end visual pose forecasting for personalized avatar during dyadic conversations,” in2019年国际会议上多通道交互gydF4y2Ba,74 - 84。doi: 10.1145/3340555.3353725gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Alexanderson, S。抓,g . E。,Kucherenko, T。,Beskow, J. (2020). “Style-controllable speech-driven gesture synthesis using normalising flows,” in计算机图形学论坛gydF4y2Ba(威利在线图书馆)39岁,487 - 496。doi: 10.1111 / cgf.13946gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
贝尔,a (1984)。的语言风格为观众设计。gydF4y2Ba并出口。SocgydF4y2Ba。13日,145 - 204。doi: 10.1017 / S004740450001037XgydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
伯格曼,K。,Kopp, S. (2009). “Gnetic-using bayesian decision networks for iconic gesture generation,” in国际研讨会在智能虚拟代理gydF4y2Ba(Springer) 76 - 89。doi: 10.1007 / 978 - 3 - 642 - 04380 - 2 - _12gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Campbell-Kibler, K。埃克特,P。,米endoza-Denton, N., and Moore, E. (2006). “The elements of style,” in海报在分析变化的新方法gydF4y2Ba,35岁。gydF4y2Ba
卡塞尔,j . (2000)。“推动推动wink眨眼:元素体现会话代理的面对面的谈话,”gydF4y2Ba体现对话人物gydF4y2Ba,eds。j·卡塞尔,s P。,年代ull我v一个n,E。, Churchill (Cambridge, MA: MIT press). doi: 10.7551/mitpress/2697.001.0001
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
赵,c c。,Marsella, S。(2014). “Gesture generation with low-dimensional embeddings,” in2014年国际会议上自治代理诉讼和多主体系统gydF4y2Ba,781 - 788。gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Cudeiro D。,Bolkart, T., Laidlaw, C., Ranjan, A., and Black, M. J. (2019). “Capture, learning, and synthesis of 3d speaking styles,” in《IEEE / CVF计算机视觉与模式识别会议gydF4y2Ba,10101 - 10111。doi: 10.1109 / CVPR.2019.01034gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
票价,m (2020)。”对多通道类人特征和富有表现力的视觉韵律在虚拟代理,”gydF4y2Ba《2020年国际会议上多通道交互gydF4y2Ba,743 - 747。doi: 10.1145/3382507.3421155gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
票价,M。,Pelachaud, C., and Obin, N. (2021a). “Multimodal-based upper facial gestures synthesis for engaging virtual agents,” inWACAIgydF4y2Ba2021年。gydF4y2Ba
票价,M。,Pelachaud, C., and Obin, N. (2021b). “Multimodal generation of upper-facial and head gestures with a transformer network using speech and text.arXiv预印本arXiv: 2110.04527gydF4y2Ba。doi: 10.48550 / arXiv.2110.04527gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Ferstl Y。对外,M。,米cDonnell,R. (2019). “Multi-objective adversarial gesture generation,” in运动,互动和游戏gydF4y2Ba,1 - 10。doi: 10.1145/3359566.3360053gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Ginosar, S。酒吧,。,Kohavi, G., Chan, C., Owens, A., and Malik, J. (2019). “Learning individual styles of conversational gesture,” in《IEEE / CVF计算机视觉与模式识别会议(CVPR)gydF4y2Ba。doi: 10.1109 / CVPR.2019.00361gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Ginosar, S。酒吧,。,Kohavi, G., Chan, C., Owens, A., and Malik, J. (2019). “Learning individual styles of conversational gesture,” in《IEEE计算机视觉与模式识别会议gydF4y2Ba,3497 - 3506。doi: 10.1109 / CVPR.2019.00361gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
锣,Y。,Chung, Y.-A., and Glass, J. (2021). Ast: Audio spectrogram transformer.arXiv预印本arXiv: 2104.01778gydF4y2Ba。doi: 10.21437 / interspeech.2021 - 698gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Grady, j . e . (2005)。图像模式和知觉:精炼一个定义。gydF4y2Ba从认知意义gydF4y2Ba29日,35。doi: 10.1515 / 9783110197532.1.35gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
长谷川,D。金子,N。,年代h我r一个kawa, S., Sakuta, H., and Sumi, K. (2018). “Evaluation of speech-to-gesture generation using bi-directional lstm network,” in18学报》国际会议上智能虚拟代理gydF4y2Ba79 - 86。doi: 10.1145/3267851.3267878gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
贾,Y。,Zh一个ng,Y., Weiss, R., Wang, Q., Shen, J., Ren, F., et al. (2018). “Transfer learning from speaker verification to multispeaker text-to-speech synthesis,” in先进的神经信息处理系统gydF4y2Ba31日。gydF4y2Ba
Jonell, P。,Kucherenko, T。,Henter, G. E., and Beskow, J. (2020). “Let's face it: Probabilistic multi-modal interlocutor-aware generation of facial gestures in dyadic settings,” in20 ACM国际会议的程序智能虚拟代理gydF4y2Ba1 - 8。doi: 10.1145/3383652.3423911gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
。卡拉,T。艾拉,T。,Laine, S., Herva, A., and Lehtinen, J. (2017). Audio-driven facial animation by joint end-to-end learning of pose and emotion.ACM反式。图gydF4y2Ba36岁,1 - 12。doi: 10.1145/3072959.3073658gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Kucherenko, T。长谷川D。,Henter, G. E., Kaneko, N., and Kjellström, H. (2019). “Analyzing input and output representations for speech-driven gesture generation,” in19 ACM国际会议的程序智能虚拟代理gydF4y2Ba97 - 104。doi: 10.1145/3308532.3329472gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Kucherenko, T。Jonell, P。,v一个nW一个veren,年代。抓,g . E。, Alexanderson, S., Leite, I., et al. (2020). “Gesticulator: A framework for semantically-aware speech-driven gesture generation,” inACM国际会议的程序多通道交互gydF4y2Ba。doi: 10.1145/3382507.3418815gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Lample G。,Zegh我dour,N。Usunier, N。誉为,。,Denoyer, L., and Ranzato, M. (2017). “Fader networks: Manipulating images by sliding attributes,” in先进的神经信息处理系统gydF4y2Ba30.gydF4y2Ba
莱文,S。,的obalt, C., and Koltun, V. (2009). “Real-time prosody-driven synthesis of body language,” inACM SIGGRAPH亚洲gydF4y2Ba1 - 10。doi: 10.1145/1618452.1618518gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Lugrin, b (2021)。在介绍社会互动代理。gydF4y2Ba在社会互动代理手册:20年的研究体现会话代理,智能虚拟代理,和社会机器人体积1:方法、行为、认知gydF4y2Ba,1 - 20。doi: 10.1145/3477322.3477324gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Marsella, S。,年代h一个p我ro,一个。冯,。徐,Y。,Lhommet, M., and Scherer, S. (2013). “Towards higher quality character performance in previz,” in《数字生产研讨会gydF4y2Ba,31-35。doi: 10.1145/2491832.2491835gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
麦克尼尔D。,Bertenthal, B., Cole, J., and Gallagher, S. (2005). Gesture-first, but no gestures?Behav。大脑科学gydF4y2Ba。28日,138 - 139。doi: 10.1017 / S0140525X05360031gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Mendoza-Denton: (1999)。风格。gydF4y2Baj .语言学家。AnthropolgydF4y2Ba。9日,238 - 240。doi: 10.1525 / jlin.1999.9.1 - 2.238gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
月亮,S。,Kim, S., and Choi, Y.-H. (2022). Mist-tacotron: End-to-end emotional speech synthesis using mel-spectrogram image style transfer.IEEE访问gydF4y2Ba10日,25455 - 25463。doi: 10.1109 / ACCESS.2022.3156093gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
内夫,M。,Kipp, M., Albrecht, I., and Seidel, H.-P. (2008). Gesture modeling and animation based on a probabilistic re-creation of speaker style.ACM反式。图gydF4y2Ba。27日- 24。doi: 10.1145/1330511.1330516gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
诺里斯,美国(2004年)。gydF4y2Ba分析多通道交互:一个方法论的框架gydF4y2Ba。伦敦:劳特利奇。doi: 10.4324 / 9780203379493gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Obermeier C。,Kelly, S. D., and Gunter, T. C. (2015). A speaker's gesture style can affect language comprehension: Erp evidence from gesture-speech integration.Soc。Cogn。影响。>gydF4y2Ba。10日,1236 - 1243。doi: 10.1093 /扫描/ nsv011gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Pelachaud, c (2009)。研究姿态表现性为虚拟代理。gydF4y2Ba演讲CommungydF4y2Ba。51岁,630 - 639。doi: 10.1016 / j.specom.2008.04.009gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Ravenet B。,Pelachaud, C., Clavel, C., and Marsella, S. (2018). Automating the production of communicative gestures in embodied characters.前面。PsycholgydF4y2Ba。9日,1144年。doi: 10.3389 / fpsyg.2018.01144gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Sadoughi, N。,Busso, C. (2018). “Novel realizations of speech-driven head movements with generative adversarial networks,” in2018年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2Ba(IEEE) 6169 - 6173。doi: 10.1109 / ICASSP.2018.8461967gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Sargin m E。Yemez, Y。Erzin E。,Tekalp, A. M. (2008). Analysis of head gesture and prosody patterns for prosody-driven head-gesture animation.IEEE反式。型。分析。马赫。智能gydF4y2Ba。1330 - 1345年。doi: 10.1109 / TPAMI.2007.70797gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Shlizerman E。Dery, L。,年代choen,H., and Kemelmacher-Shlizerman, I. (2018). “Audio to body dynamics,” in《IEEE计算机视觉与模式识别会议gydF4y2Ba,7574 - 7583。doi: 10.1109 / CVPR.2018.00790gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Vaswani)。,年代h一个zeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). Attention is all you need.arXiv预印本arXiv: 1706.03762gydF4y2Ba。doi: 10.48550 / arXiv.1706.03762gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
瓦格纳,P。,米一个l我年代z, Z., and Kopp, S. (2014). Gesture and speech in interaction: An overview.演讲CommungydF4y2Ba。57岁,209 - 232。doi: 10.1016 / j.specom.2013.09.008gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Wallbott, h (1998)。身体的情绪表达。gydF4y2Ba欧元。j . Soc。PsycholgydF4y2Ba。28日,879 - 896。doi: 10.1002 / (SICI) 1099 - 0992 (1998110) 6 < 879:: AID-EJSP901 > 3.0.CO; 2 wgydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
关键词:gydF4y2Ba多通道手势合成、zero-shot风格转移,体现会话代理、变压器、多通道的行为风格gydF4y2Ba
引用:gydF4y2Ba票价M, Pelachaud C和Obin N (2023) Zero-shot风格转移使用敌对的姿态动画由文本和语音解开纠结的多通道编码风格。gydF4y2Ba前面。Artif。智能。gydF4y2Ba6:1142997。doi: 10.3389 / frai.2023.1142997gydF4y2Ba
收到:gydF4y2Ba2023年1月12日;gydF4y2Ba接受:gydF4y2Ba2023年5月18日;gydF4y2Ba
发表:gydF4y2Ba2023年6月12日。gydF4y2Ba
编辑:gydF4y2Ba
Sreyasee Das保护好gydF4y2Ba美国纽约州立大学布法罗分校gydF4y2Ba版权gydF4y2Ba©2023票价,Pelachaud Obin。这是一个开放分布式根据文章gydF4y2Ba知识共享归属许可(CC)gydF4y2Ba。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。gydF4y2Ba
*通信:gydF4y2Ba麦勒票价,gydF4y2Bafares@isir.upmc.frgydF4y2Ba;gydF4y2Bafares@ircam.frgydF4y2Ba