象征性的,分布式的,和分布表示为自然语言处理深度学习的时代:一项调查gydF4y2Ba
- 罗马大学企业工程系Tor Vergata,罗马,意大利gydF4y2Ba
自然语言本质上是一个离散的人类知识的符号表示。最新进展在机器学习(毫升)和自然语言处理(NLP)似乎反驳上面的直觉:离散符号消失,被矢量或张量gydF4y2Ba分布式gydF4y2Ba和gydF4y2Ba分布表示gydF4y2Ba。然而,有一个严格的分布式/分布表征和离散符号之间的联系,成为第一个第二的一个近似。更清晰的理解严格分布式/分布表征和符号之间的联系可能的确会导致全新的深度学习网络。在本文中,我们做一个调查,旨在更新符号表征之间的联系和分布式/分布表示。这是正确的时间来振兴的面积解释如何在神经网络离散符号表示。gydF4y2Ba
1。介绍gydF4y2Ba
自然语言本质上是一个离散的人类知识的符号表示。声音转变为字母或表意文字,这些离散符号是由获得单词。单词形式的句子和句子形式文本、话语、对话框、最终传达知识,情感,等等。这篇作文单词和符号的单词在句子遵循规则,听众和演讲者知道(gydF4y2Ba乔姆斯基,1957gydF4y2Ba)。因此,它似乎非常奇怪的思维的自然语言理解系统不是基于离散符号。gydF4y2Ba
在机器学习最新进展(ML)应用于自然语言处理(NLP)似乎反驳上面的直觉:离散符号消失,被矢量或张量gydF4y2Ba分布式gydF4y2Ba和gydF4y2Ba分布表示gydF4y2Ba。在NLP毫升应用,gydF4y2Ba分布式表示gydF4y2Ba正在推动深度学习模型(gydF4y2Ba勒存et al ., 2015gydF4y2Ba;gydF4y2BaSchmidhuber 2015gydF4y2Ba)向惊人的结果在许多高级任务,如图像生成(gydF4y2Ba格拉汉姆·古德费勒et al ., 2014gydF4y2Ba),图像字幕(gydF4y2BaVinyals et al ., 2015 bgydF4y2Ba;gydF4y2Ba徐et al ., 2015gydF4y2Ba),机器翻译(gydF4y2Ba邹et al ., 2013gydF4y2Ba;gydF4y2BaBahdanau et al ., 2015gydF4y2Ba),语法解析(gydF4y2BaVinyals et al ., 2015 agydF4y2Ba;gydF4y2Ba维斯et al ., 2015gydF4y2Ba)和各种其他NLP任务(gydF4y2BaDevlin et al ., 2019gydF4y2Ba)。在一个更传统的NLP,gydF4y2Ba分布表示gydF4y2Ba追求的是更加灵活的方式来表示自然语言的语义,所谓的gydF4y2Ba分布语义gydF4y2Ba(见gydF4y2Ba特尼和Pantel, 2010gydF4y2Ba)。单词以及句子表示为矢量或张量的实数。向量的单词得到观察这些词与其他词共现的文档集合。此外,在传统的组合表示,向量短语(gydF4y2Ba克拉克et al ., 2008gydF4y2Ba;gydF4y2Ba米切尔和Lapata, 2008年gydF4y2Ba;gydF4y2Ba布洛尼和Zamparelli, 2010gydF4y2Ba;gydF4y2BaZanzotto et al ., 2010gydF4y2Ba;gydF4y2BaGrefenstette Sadrzadeh, 2011gydF4y2Ba)和句子(gydF4y2BaSocher et al ., 2011gydF4y2Ba,gydF4y2Ba2012年gydF4y2Ba;gydF4y2BaKalchbrenner Blunsom, 2013gydF4y2Ba)获得通过组合词向量。gydF4y2Ba
分布和分布表征符号方法的成功主要是由于新的并行模式的出现,将神经网络(gydF4y2BaRosenblatt 1958gydF4y2Ba;gydF4y2BaWerbos 1974gydF4y2Ba)向深度学习(gydF4y2Ba勒存et al ., 2015gydF4y2Ba;gydF4y2BaSchmidhuber 2015gydF4y2Ba)。大规模并行算法运行在图形处理单元(gpu) (gydF4y2BaChetlur et al ., 2014gydF4y2Ba;gydF4y2Ba崔et al ., 2015gydF4y2Ba)紧缩向量、矩阵和张量比几十年前要快。现在利用bp算法可以计算复杂和庞大的神经网络。期间不需要任何更多的象征”的原因。”因此,d我年代crete年代y米bols only survive as inputs and outputs of these wonderful learning machines.
然而,有一个严格的分布式/分布表征和符号之间的联系,成为第一个第二个近似值(gydF4y2BaFodor Pylyshyn, 1988gydF4y2Ba;gydF4y2Ba板,1994gydF4y2Ba,gydF4y2Ba1995年gydF4y2Ba;gydF4y2BaFerrone et al ., 2015gydF4y2Ba)。的表示这些网络的输入和输出不是远离他们的内部表示。相似性和内部表示更清晰的解释在图像处理(gydF4y2BaZeiler费格斯,2014 agydF4y2Ba)。事实上,网络通常是解释如何可视化部分代表突出部分的目标图像。输入图像和部分是实数的张量。因此,这些网络可以检查和理解。相同的并不适用于自然语言处理的离散符号。gydF4y2Ba
更清晰的理解严格分布式/分布表征和离散符号之间的联系是必要的(gydF4y2BaJacovi et al ., 2018gydF4y2Ba;gydF4y2Ba张成泽et al ., 2018gydF4y2Ba)了解神经网络处理信息和提出新颖的深度学习架构。机器学习的模型解释能力正成为一个重要的话题(gydF4y2Ba立顿,2018gydF4y2Ba)。这个清晰的理解是那么的一系列新的可能性:了解当前符号的一部分自然语言处理技术有足够的代表在深层神经网络;,最终理解是否更类人脑模型神经网络兼容语法解析或语义处理方法被定义在这几十年的研究在计算语言学和自然语言处理。因此有一个巨大的机会来理解是否以及如何使用符号表示大脑和排放模型。gydF4y2Ba
在本文中,我们做一个调查,旨在绘制符号表征之间的联系和分布式/分布表示。这是正确的时间来振兴解释如何将符号的面积内神经网络表示。在我们看来,这个调查将有助于设计新的深层神经网络,可以利用现有的和小说象征古典自然语言处理任务的模型。gydF4y2Ba
本文结构如下图:首先我们给介绍的一般概念表示,的概念gydF4y2Ba衔接成分gydF4y2Ba和之间的区别gydF4y2Ba当地的gydF4y2Ba和gydF4y2Ba分布式gydF4y2Ba表示(gydF4y2Ba板,1995gydF4y2Ba)。之后,我们现在每个技术细节。后来,我们关注分布表征(gydF4y2Ba特尼和Pantel, 2010gydF4y2Ba),我们将作为一个分布式的特定例子表示。最后我们讨论更多的深度组合性的一般问题,分析三种不同的方法存在的问题:组成分布语义(gydF4y2Ba克拉克et al ., 2008gydF4y2Ba;gydF4y2Ba巴罗尼et al ., 2014gydF4y2Ba)、全息减少表示(gydF4y2Ba板,1994gydF4y2Ba;gydF4y2Ba诺依曼,2001gydF4y2Ba递归神经网络(),gydF4y2BaSocher et al ., 2012gydF4y2Ba;gydF4y2BaKalchbrenner Blunsom, 2013gydF4y2Ba)。gydF4y2Ba
2。符号和分布式表示:可解释性gydF4y2Ba衔接gydF4y2Ba组合性gydF4y2Ba
分布式表示gydF4y2Ba把符号表达式在度量空间之间的相似例子学习规律用于特定任务通过使用神经网络或其他机器学习模型。给定两个符号表达式,分布式表示应该捕获他们的相似性以及特定功能用于最后的任务。例如,两个句子等gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba= "gydF4y2Ba一只老鼠吃一些奶酪”gydF4y2Ba和gydF4y2Ba年代gydF4y2Ba2gydF4y2Ba= "gydF4y2Ba一只猫吞下一只老鼠”gydF4y2Ba可以在许多不同的方式是相似的:(1)常见的单词数量;(2)实现模式”gydF4y2Ba动物吃食物gydF4y2Ba”。关键是决定或让一个算法决定哪些是最好的表示为一个特定的任务。gydF4y2Ba
分布式表示gydF4y2Ba然后替换持久,成功gydF4y2Ba离散符号表示gydF4y2Ba象征着知识的学习机器,但这些表示人类较低gydF4y2Ba可说明的gydF4y2Ba。因此,讨论基本的、明显的属性gydF4y2Ba离散符号表示gydF4y2Ba并不像这些属性可以保证成功的无用的分布式表示类似的离散符号表示。gydF4y2Ba
是人类离散符号表示gydF4y2Ba可说明的gydF4y2Ba作为gydF4y2Ba不改变符号表达式gydF4y2Ba。这是其中一个最重要的是,这些表示的明显特征。无限集的表达式,它是符号的序列,可以gydF4y2Ba解释gydF4y2Ba这些表达式是通过连接一组有限的基本符号根据一些衔接规则。在连接过程中,符号不改变,,然后,可以识别。通过使用的原则gydF4y2Ba语义组合性gydF4y2Ba,表达的意义可以通过结合部分的意义,因此,递归,结合有限的一组基本符号的意义。例如,给定一组基本的符号gydF4y2Ba{gydF4y2Ba老鼠,猫,燕子,(gydF4y2Ba,gydF4y2Ba)gydF4y2Ba},表达式:gydF4y2Ba
是完全可信的和可翻译的规则产生自然语言话语在插入或生产树结构表示形式,分别。这很大程度上取决于个人符号可以被认可的事实。gydF4y2Ba
相反,似乎分布式表示gydF4y2Ba改变符号gydF4y2Ba当应用于符号输入,从而可判断的。事实上,符号和表达式表示为向量在这些度量空间。观察分布表征、符号和表达式不会立即出现。此外,这些分布式表示可能改变了使用矩阵乘法或使用非线性函数。因此,它通常是不清楚:(1)什么是最初的符号或表达式之间的关系和他们的分布式表征和(2)如何操纵这些表达式在矩阵乘法或在应用非线性函数。换句话说,目前尚不清楚是否可以认识到在分布式符号表示。gydF4y2Ba
因此,讨论问题是离散符号表征和分布式表示是两个非常不同的方式编码知识的差异gydF4y2Ba改变符号gydF4y2Ba。可以追溯到80年代末的辩论。为gydF4y2BaFodor和Pylyshyn (1988)gydF4y2Ba在神经网络架构、分布式表示“gydF4y2Ba只有一个实现的经典方法”gydF4y2Ba在经典方法与离散符号表示。然而,对于gydF4y2Ba查尔默斯(1992)gydF4y2Ba、分布式表示给重要的理由”的机会gydF4y2Ba整体”gydF4y2Ba关于编码的知识。这意味着决定可以采取一些具体的存储知识的一部分没有检索特定部分但作用于整个表示。然而,这并没有解决争论的问题,目前还不清楚是什么在一个分布式表示。gydF4y2Ba
为上面的讨论问题,gydF4y2Ba德(1990)gydF4y2Ba形式化的财产吗gydF4y2Ba改变符号表情gydF4y2Ba通过定义两个不同的组合性的概念:gydF4y2Ba衔接gydF4y2Ba组合性和gydF4y2Ba功能gydF4y2Ba组合性。gydF4y2Ba
衔接组合性gydF4y2Ba解释了离散符号表示组成符号获得表达式。事实上,并列的组合方式是一个扩展的概念,提供连续的符号联系起来的方法在不改变这些形式表达式。衔接组合性解释离散符号表示无论手段用于存储表达式:一张纸或一个计算机内存。连接与经营者像∘有时表达,可用于一个中缀或前缀符号,是一种功能与参数∘(gydF4y2BawgydF4y2Ba1gydF4y2Ba、……gydF4y2BawgydF4y2BangydF4y2Ba)。通过使用连接的操作符,上面的两个例子gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba和gydF4y2BatgydF4y2Ba1gydF4y2Ba可以表示为以下:gydF4y2Ba
代表一个中缀表示法和序列gydF4y2Ba
前缀表示法表示树。gydF4y2Ba
功能组合性gydF4y2Ba组合性分布的表征和语义解释道。模式的功能组合,组合是一个函数Φ给一个可靠的、一般过程生产表达式给出其成分。在这个角度来看,语义功能组合的组合是一个特例的目标组合是一种意思表示(gydF4y2BaBlutner et al ., 2003gydF4y2Ba)。gydF4y2Ba
当地的分布式表征gydF4y2Ba(被称为gydF4y2Ba板,1995gydF4y2Ba)或gydF4y2Ba在一个炎热的编码gydF4y2Ba是最简单的方法来可视化如何gydF4y2Ba功能组合性gydF4y2Ba作用于gydF4y2Ba分布式表示gydF4y2Ba。当地的分布式表示给第一、简单编码度量空间中的离散符号表示。给定一组的符号gydF4y2Ba当地的分布式表示地图gydF4y2Ba我gydF4y2Bath符号gydF4y2Ba到gydF4y2Ba我gydF4y2Bath基地单位向量gydF4y2BaegydF4y2Ba我gydF4y2Ba在ℝgydF4y2BangydF4y2Ba,在那里gydF4y2BangydF4y2Ba的基数gydF4y2Ba。因此,gydF4y2Ba我gydF4y2Bath单位向量表示gydF4y2Ba我gydF4y2Bath的象征。在gydF4y2Ba功能组合性gydF4y2Ba、表达式gydF4y2Ba年代gydF4y2Ba=gydF4y2BawgydF4y2Ba1gydF4y2Ba…gydF4y2BawgydF4y2BakgydF4y2Ba由向量gydF4y2Ba年代gydF4y2Ba最终获得一个递归函数Φ应用向量gydF4y2BaegydF4y2BawgydF4y2Ba1gydF4y2Ba…gydF4y2BaegydF4y2BawgydF4y2BakgydF4y2Ba。这个函数gydF4y2BafgydF4y2Ba可能是非常简单的求和或更加复杂。以防Φ函数之和,即:gydF4y2Ba
派生的向量是古典bag-of-word向量空间模型(gydF4y2Ba顿,1989gydF4y2Ba)。然而,更复杂的功能gydF4y2BafgydF4y2Ba的范围可以从不同vector-to-vector操作循环卷积全息减少表示(gydF4y2Ba板,1995gydF4y2Ba)矩阵乘法+非线性操作在复发性神经网络等模型(gydF4y2Ba1997年,的Hochreiter和。施密德胡贝尔表示gydF4y2Ba;gydF4y2Ba舒斯特尔和Paliwal, 1997gydF4y2Ba)或在神经网络的关注(gydF4y2BaVaswani et al ., 2017gydF4y2Ba;gydF4y2BaDevlin et al ., 2019gydF4y2Ba)。例子gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba在方程(1)可以有用的描述gydF4y2Ba功能gydF4y2Ba组合性。一组gydF4y2Ba{gydF4y2Ba燕子,老鼠,猫,吃一些奶酪,(gydF4y2Ba,gydF4y2Ba)gydF4y2Ba}可能代表基向量gydF4y2Ba在哪里gydF4y2BaegydF4y2Ba1gydF4y2Ba基向量gydF4y2Ba鼠标gydF4y2Ba,gydF4y2BaegydF4y2Ba2gydF4y2Ba为gydF4y2Ba猫gydF4y2Ba,gydF4y2BaegydF4y2Ba3gydF4y2Ba为gydF4y2Ba一个gydF4y2Ba,gydF4y2BaegydF4y2Ba4gydF4y2Ba为gydF4y2BaswallawsgydF4y2Ba,gydF4y2BaegydF4y2Ba5gydF4y2Ba为gydF4y2Ba吃gydF4y2Ba,gydF4y2BaegydF4y2Ba6gydF4y2Ba为gydF4y2Ba一些gydF4y2Ba,gydF4y2BaegydF4y2Ba7gydF4y2Ba为gydF4y2Ba奶酪gydF4y2Ba,gydF4y2BaegydF4y2Ba8gydF4y2Ba为gydF4y2Ba(gydF4y2Ba,gydF4y2BaegydF4y2Ba9gydF4y2Ba为gydF4y2Ba)gydF4y2Ba。添加剂的功能组成表达式gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba=gydF4y2Ba一只猫吞下一只老鼠gydF4y2Ba然后:gydF4y2Ba
衔接的地方运营商∘取代了之和+。只是观察,添加剂的功能组成gydF4y2Ba函数gydF4y2BaΣgydF4y2Ba(年代gydF4y2Ba1gydF4y2Ba)gydF4y2Ba、符号仍可见但序列丢失。事实上,很难再现最初的离散符号表达式。然而,例如,添加剂组成函数给出了可能性比较两个表达式。考虑到表达式gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba和gydF4y2Ba年代gydF4y2Ba2gydF4y2Ba=gydF4y2Ba一只老鼠吃一些奶酪gydF4y2Ba,点积gydF4y2Ba函数gydF4y2BaΣgydF4y2Ba(年代gydF4y2Ba1gydF4y2Ba)gydF4y2Ba和gydF4y2Ba两个表达式之间的常见单词。Φ功能组成的函数,表达式gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba可能会成为gydF4y2Ba函数gydF4y2BaΦgydF4y2Ba(年代gydF4y2Ba1gydF4y2Ba)gydF4y2Ba=Φ(Φ(Φ(Φ(gydF4y2BaegydF4y2Ba3gydF4y2BaegydF4y2Ba2gydF4y2Ba),gydF4y2BaegydF4y2Ba4gydF4y2Ba),gydF4y2BaegydF4y2Ba3gydF4y2Ba),gydF4y2BaegydF4y2Ba1gydF4y2Ba)按照离散符号表达式的组合性衔接。相同的功能组成原理可以应用于离散符号树gydF4y2BatgydF4y2Ba1gydF4y2Ba通过生产这种分布式表示Φ(Φ(gydF4y2BaegydF4y2Ba3gydF4y2BaegydF4y2Ba2gydF4y2Ba),Φ(gydF4y2BaegydF4y2Ba4gydF4y2BaΦ(gydF4y2BaegydF4y2Ba3gydF4y2BaegydF4y2Ba1gydF4y2Ba)))。最后,在功能与一般的递归函数组成gydF4y2Ba函数gydF4y2BaΦgydF4y2Ba(年代gydF4y2Ba1gydF4y2Ba)gydF4y2Ba,函数Φ将是至关重要的,以确定是否可以识别和符号序列保存。gydF4y2Ba
分布式表示gydF4y2Ba在他们的一般形式更雄心勃勃的分布gydF4y2Ba当地的gydF4y2Ba表示和编码的基本符号gydF4y2Ba在向量ℝgydF4y2BadgydF4y2Ba在哪里gydF4y2BadgydF4y2Ba<
这是一个简单的例子gydF4y2Ba分布式gydF4y2Ba表示。在一个分布式表示(gydF4y2Ba辛顿et al ., 1986gydF4y2Ba;gydF4y2Ba板,1995gydF4y2Ba)信息内容(因此得名)分布在多个单位,同时每个单元可以导致多个元素的表示。分布式表示有两个明显的优势对一个分布式当地表示:这是更有效的(在这个例子中,表示只使用3数字而不是9)和不平等对待每个元素是不同于任何其他。事实上,gydF4y2Ba鼠标gydF4y2Ba和gydF4y2Ba猫gydF4y2Ba在这表示更相似gydF4y2Ba鼠标gydF4y2Ba和gydF4y2Ba一个gydF4y2Ba。换句话说,这代表了建设一些有趣的关于符号的集合。缺点是符号改变,因此,它可能很难解释的符号是由于其分布式表示。在这个例子中,分布式表示gydF4y2Ba吃gydF4y2Ba和gydF4y2Ba一些gydF4y2Ba是完全相同的向量gydF4y2BaWgydF4y2Ba3×9gydF4y2BaegydF4y2Ba5gydF4y2Ba=gydF4y2BaWgydF4y2Ba3×9gydF4y2BaegydF4y2Ba6gydF4y2Ba。gydF4y2Ba
即使一般形式的分布式表示,可以定义gydF4y2Ba功能性成分gydF4y2Ba代表表达式。向量gydF4y2BaWgydF4y2Bad×ngydF4y2BaegydF4y2Ba我gydF4y2Ba应该取代向量gydF4y2BaegydF4y2Ba我gydF4y2Ba定义的功能组合。方程(3)为添加剂的功能组合性就变成:gydF4y2Ba
在运行示例中,句子的组合性添加剂的功能gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba在示例1:gydF4y2Ba
显然,在这种情况下,它是极难得到离散符号序列gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba生成最终的分布式表示。gydF4y2Ba
因此,gydF4y2Ba可解释性gydF4y2Ba的分布式表征可以陷害为以下问题:gydF4y2Ba
多少底层功能组成的分布式表示gydF4y2Ba衔接gydF4y2Ba吗?gydF4y2Ba
事实上,离散符号表示gydF4y2Ba可说明的gydF4y2Ba作为他们的作文衔接。为了解释的,分布式表示,和相关的功能成分,应该有一些衔接属性。gydF4y2Ba
然后,因为分布式表示gydF4y2BaygydF4y2Ba年代gydF4y2Ba离散符号表达式的gydF4y2Ba年代gydF4y2Ba通过使用一个编码器吗gydF4y2BaWgydF4y2Bad×ngydF4y2Ba评估可解释性和组合功能,变成了:gydF4y2Ba
•gydF4y2Ba符号的解释能力gydF4y2Ba——这个问题“离散符号能认可吗?“成为”学位嵌入矩阵gydF4y2BaWgydF4y2Ba是可逆的?”gydF4y2Ba
•gydF4y2BaSequence-level可解释性gydF4y2Ba-问题”符号和它们的关系可以在序列的符号吗?“成为”功能组合模型是衔接多少?”gydF4y2Ba
的两个驱动问题gydF4y2Ba符号的解释能力gydF4y2Ba和gydF4y2BaSequence-level可解释性gydF4y2Ba将用于描述了分布式表示。事实上,我们感兴趣的是了解是否可以用于编码离散分布的表征符号结构和是否可以解码底层离散符号结构分布式表示。例如,很明显,一个当地的分布式表示比分布式表示可在象征层面提出了方程(4)。然而,表示缺乏在衔接组合序列都是倒在向量。事实上,总和构成函数构建bag-of-word本地和分布式表示,忽视符号序列的顺序。在本文的其余部分,我们分析是否其他的表征,如全息减少表示(gydF4y2Ba板,1995gydF4y2Ba),复发和递归神经网络(gydF4y2Ba1997年,的Hochreiter和。施密德胡贝尔表示gydF4y2Ba;gydF4y2Ba舒斯特尔和Paliwal, 1997gydF4y2Ba与关注)或神经网络(gydF4y2BaVaswani et al ., 2017gydF4y2Ba;gydF4y2BaDevlin et al ., 2019gydF4y2Ba),而不是更多的解释。gydF4y2Ba
3所示。从符号策略获得分布式表示gydF4y2Ba
有一个广泛的技术在分布式表示转换符号表示。当自然语言处理和机器学习相结合,这是一个重大的问题:改变符号,符号或符号序列结构矢量或张量可以用在学习机器。这些技术通常提出η函数变换gydF4y2Ba当地的代表gydF4y2Ba有大量的维度gydF4y2Ba分布式表示gydF4y2Ba较低的维度:gydF4y2Ba
这个函数通常被称为gydF4y2Ba编码器gydF4y2Ba。gydF4y2Ba
我们建议分类技术来获得分布式表示两大类,显示出某种程度的重叠(gydF4y2Ba科维et al ., 2017gydF4y2Ba):gydF4y2Ba
•表示来自降维技术;gydF4y2Ba
•学习表示。gydF4y2Ba
在剩下的部分,我们将介绍根据不同的策略提出了分类。此外,我们将为每个表示强调其程度的可解释性及其相关函数η回答两个问题:gydF4y2Ba
•在ℝ特定的维度gydF4y2BadgydF4y2Ba一个明确的意思?gydF4y2Ba
•我们可以编码符号表征解码吗?换句话说,假设一个解码函数δ:ℝgydF4y2BadgydF4y2Ba→ℝgydF4y2BangydF4y2Ba,有多远gydF4y2BavgydF4y2Ba∈ℝgydF4y2BangydF4y2Ba代表一个符号表示,从gydF4y2BavgydF4y2Ba′=δη(gydF4y2BavgydF4y2Ba))?gydF4y2Ba
Sequence-level可解释性gydF4y2Ba产生的代表将在第五节进行分析。gydF4y2Ba
3.1。与随机投影降维gydF4y2Ba
随机投影gydF4y2Ba(RP) (gydF4y2Ba宾汉和Mannila, 2001gydF4y2Ba;gydF4y2BaFodor 2002gydF4y2Ba)是一种基于随机矩阵技术gydF4y2Ba。一般来说,矩阵的行gydF4y2BaWgydF4y2BadgydF4y2Ba从与零均值高斯分布,采样和归一化单位长度(gydF4y2Ba约翰逊和Lindenstrauss, 1984年gydF4y2Ba)或更复杂的随机向量(gydF4y2BaAchlioptas 2003gydF4y2Ba)。从高斯分布随机预测大约保持两两之间的距离(参见点gydF4y2BaJohnsonn-Lindenstrauss引理gydF4y2Ba;gydF4y2Ba约翰逊和Lindenstrauss, 1984年gydF4y2Ba),也就是说,对于任何一个向量gydF4y2Bax, ygydF4y2Ba∈gydF4y2BaXgydF4y2Ba:gydF4y2Ba
的近似系数ε取决于投影的维数,即确保近似系数ε,尺寸gydF4y2BakgydF4y2Ba必须选择这样:gydF4y2Ba
约束用于构建矩阵gydF4y2BaWgydF4y2Ba可以显著放松,不那么复杂的随机向量(gydF4y2BaAchlioptas 2003gydF4y2Ba)。矩阵的行可以从非常简单的零均值取样分布如:gydF4y2Ba
而不需要手动确保单位长度的行,同时提供一个显著加快计算的稀疏投影。gydF4y2Ba
这些向量η(gydF4y2BavgydF4y2Ba)gydF4y2Ba可在象征层面gydF4y2Ba这些函数可以倒。反向功能,即解码功能,是:gydF4y2Ba
和gydF4y2Ba当gydF4y2BaWgydF4y2BadgydF4y2Ba推导出使用高斯随机向量。因此,分布式ℝ向量gydF4y2BadgydF4y2Ba大约可以解码的原始符号表征的近似度取决于之间的距离gydF4y2BadgydF4y2Ba。gydF4y2Ba
RP是矩阵的主要优势gydF4y2BaWgydF4y2BadgydF4y2Ba可以生产的gydF4y2Ba零点gydF4y2Ba从到目前为止遇到的符号的编码过程。事实上,它是足以产生新的高斯向量为新符号时出现。gydF4y2Ba
3.2。学表示gydF4y2Ba
学表示不同的降维技术的事实:(1)编码/解码功能可能不是线性;(2)学习不同的优化函数对主成分分析的目标(见4.2节);,(3)解决方案不是派生在一个封闭的形式,而是使用优化技术等gydF4y2Ba随机梯度体面的gydF4y2Ba。gydF4y2Ba
学表示可以进一步分为:gydF4y2Ba
•gydF4y2BaTask-independent表示gydF4y2Ba学会了独立的算法(如gydF4y2BaautoencodersgydF4y2Ba;gydF4y2BaSocher et al ., 2011gydF4y2Ba;gydF4y2BaLiou et al ., 2014gydF4y2Ba),这是独立于任何任务,学习只取决于所使用的数据集的表示;gydF4y2Ba
•gydF4y2BaTask-dependent表示gydF4y2Ba学会了另一种算法(这是第一步gydF4y2Ba端到端培训gydF4y2Ba),通常第一层的神经网络。在这种情况下,新的表示形式是由任务驱动的。gydF4y2Ba
3.2.1之上。AutoencodergydF4y2Ba
Autoencoders任务独立技术学习分布式编码器η表示:ℝgydF4y2BangydF4y2Ba→ℝgydF4y2BadgydF4y2Ba通过使用本地表示一组的例子(gydF4y2BaSocher et al ., 2011gydF4y2Ba;gydF4y2BaLiou et al ., 2014gydF4y2Ba)。分布式表示编码器η是autoencoder的一半。gydF4y2Ba
autoencoder是一个神经网络,旨在重现ℝ的输入向量gydF4y2BangydF4y2Ba以遍历隐层输出ℝ(年代)gydF4y2BadgydF4y2Ba。鉴于η:ℝgydF4y2BangydF4y2Ba→ℝgydF4y2BadgydF4y2Ba和δ:ℝgydF4y2BadgydF4y2Ba→ℝgydF4y2BangydF4y2Ba编码器和解码器,分别一个autoencoder旨在最大化下面的功能:gydF4y2Ba
在哪里gydF4y2Ba
编码和解码模块是两个神经网络,这意味着他们是根据一组参数θ的函数的形式gydF4y2Ba
整个模型的参数θ,θ′= {gydF4y2BaW、b、WgydF4y2Ba′,gydF4y2BabgydF4y2Ba′},gydF4y2BaW WgydF4y2Ba′矩阵,gydF4y2Bab, bgydF4y2Ba′向量和gydF4y2Ba年代gydF4y2Ba是一个函数,它可以是一个非线性s形的形状函数,或在某些情况下,认同功能。在某些变异矩阵gydF4y2BaWgydF4y2Ba和gydF4y2BaWgydF4y2Ba′是受限的gydF4y2BaWgydF4y2BaTgydF4y2Ba=gydF4y2BaWgydF4y2Ba′。这个模型是不同的对PCA由于目标损失函数和非线性函数的使用。gydF4y2Ba
Autoencoders得到进一步改善gydF4y2Ba去噪autoencodersgydF4y2Ba(gydF4y2Ba文森特et al ., 2008gydF4y2Ba,gydF4y2Ba2010年gydF4y2Ba;gydF4y2BaMasci et al ., 2011gydF4y2Ba)的一个变体autoencoders的目标是重建输入从一个损坏的版本。直觉是更高层次的功能应该是健壮的关于小噪声输入。特别是,输入gydF4y2BaxgydF4y2Ba通过一个随机函数会损坏:gydF4y2Ba
然后再一个最小化重建误差,但关于gydF4y2Ba原始gydF4y2Ba(未堕落的)输入:gydF4y2Ba
通常gydF4y2BaggydF4y2Ba可以是:gydF4y2Ba
•添加高斯噪声:gydF4y2BaggydF4y2Ba(gydF4y2BaxgydF4y2Ba)=gydF4y2BaxgydF4y2Ba+ε,gydF4y2Ba;gydF4y2Ba
•屏蔽噪音:给定ν一小部分组件的输入被设置为0。gydF4y2Ba
什么问题gydF4y2Ba符号的解释能力gydF4y2Ba,至于随机投影,分布式表示η(gydF4y2BavgydF4y2Ba)获得autoencoders和去噪autoencoders编码器gydF4y2Ba可逆的gydF4y2Ba可解码的,因为这是autoencoders的本质。gydF4y2Ba
3.2.2。嵌入层gydF4y2Ba
嵌入层一般第一层负责改造的更复杂的神经网络初始当地表示在第一内部分布表示。autoencoders的主要区别在于,这些层是由整个整体的学习过程。学习过程通常依赖于任务的。因此,这些最初的嵌入层取决于最后一项任务。gydF4y2Ba
认为其输入的每一层学习高级表示。这是卷积网络(尤其明显gydF4y2BaKrizhevsky et al ., 2012gydF4y2Ba)应用于计算机视觉任务。在这些暗示可视化(gydF4y2BaZeiler,费格斯2014 bgydF4y2Ba),隐藏层对应于图像的抽象特性,从简单的边缘(下层)面临更高的。gydF4y2Ba
然而,这些嵌入层产生编码功能,因此,分布式表示没有在象征层面可判断的。事实上,这些嵌入层不自然地提供解码器。gydF4y2Ba
4所示。gydF4y2Ba分配gydF4y2Ba表示作为硬币的另外一面gydF4y2Ba
分配gydF4y2Ba语义是自然语言处理的一个重要的研究领域,旨在描述单词和句子的含义(见矢量表示gydF4y2Ba特尼和Pantel, 2010gydF4y2Ba一项调查)。这些表示被称为gydF4y2Ba分布表示gydF4y2Ba。gydF4y2Ba
这是一个奇怪的,两个相似的测深的名字——历史事故gydF4y2Ba分布式gydF4y2Ba和gydF4y2Ba分配gydF4y2Ba——是两个概念,不应被混淆。也许,这是因为这两个概念肯定是相关的。我们认为分配表现只不过是一个子集的分布式表示,事实上可以分类整齐在前一节中给出的分歧。gydF4y2Ba
分布语义是基于一个著名的口号——“gydF4y2Ba你要判断一个公司它使”gydF4y2Ba(gydF4y2Ba弗斯,1957gydF4y2Ba),gydF4y2Ba分布的假设gydF4y2Ba(gydF4y2Ba哈里斯,1954gydF4y2Ba)——他们有类似的意义如果使用在类似的情况下,也就是说,与相同或相似的词gydF4y2Ba分布gydF4y2Ba。因此,名称分配以及核心假设来自语言而不是计算机科学背景。gydF4y2Ba
分配向量代表单词通过描述相关信息的情况下出现。将以这种方式很明显,一个分布表示gydF4y2Ba是gydF4y2Ba特定情况下的分布式表示,不同的名称只是一个指标,这个技术的背景。表示句子通常获得结合向量代表词。gydF4y2Ba
因此,分配分布式交涉的语义是一个特例限制可以作为特征向量空间:特性表示的上下文信息。然后,最大的研究机构是什么应该用于表示上下文和应该考虑。一旦这是决定,大型矩阵gydF4y2BaXgydF4y2Ba代表词在上下文中收集,然后降维技术应用于治疗更有识别力的向量。gydF4y2Ba
在剩下的部分中,我们介绍如何构建矩阵表示词在上下文中,不久我们将回顾如何降维技术已经用于分布语义,,最后,我们报告gydF4y2Baword2vecgydF4y2Ba(gydF4y2BaMikolov et al ., 2013gydF4y2Ba),这是一种新型的基于深度的分布语义技术的学习。gydF4y2Ba
4.1。从语料库建筑分布表示的单词gydF4y2Ba
分布语义的主要问题是如何构建分布表征词汇上下文通过观察在文档的集合。在本节中,我们将描述这些技术使用语料库的例子gydF4y2Ba表1gydF4y2Ba。gydF4y2Ba
第一个语义表示的单词和简单的分配是由词与文档矩阵为典型的信息检索(gydF4y2Ba顿,1989gydF4y2Ba)。词上下文表示为文档索引。然后,话说如果这些话同样出现在文档是相似的。这通常被称为gydF4y2Ba局部相似gydF4y2Ba(gydF4y2Ba蓝和杜,1997gydF4y2Ba)字属于同一主题往往更相似。gydF4y2Ba
第二个战略,构建分布表征词汇与语境是构建特征矩阵。这些上下文特征表示gydF4y2Ba代理gydF4y2Ba语义建模的属性词(gydF4y2Ba布洛尼和Lenci, 2010gydF4y2Ba)。例如,单词的上下文gydF4y2Ba狗gydF4y2Ba不知为何会与一只狗有四条腿,叫,吃,等等。在这种情况下,这些向量捕捉co-hyponymy相似性更相关,也就是说,语言共享类似的属性是相似的。例如,gydF4y2Ba狗gydF4y2Ba更相似的gydF4y2Ba猫gydF4y2Ba比gydF4y2Ba车gydF4y2Ba作为gydF4y2Ba狗gydF4y2Ba和gydF4y2Ba猫gydF4y2Ba分享更多属性比gydF4y2Ba狗gydF4y2Ba和gydF4y2Ba车gydF4y2Ba。这通常称为gydF4y2Ba归因相似gydF4y2Ba(gydF4y2Ba特尼,2006gydF4y2Ba)。gydF4y2Ba
第二个策略的一个简单的例子是一个词到一个词矩阵获得通过观察n - windows的目标的话。例如,一个一个词到一个词矩阵获得的语料库gydF4y2Ba表1gydF4y2Ba通过考虑一个高频词窗口如下:gydF4y2Ba
因此,这个词gydF4y2Ba猫gydF4y2Ba是由向量gydF4y2Ba猫gydF4y2Ba=(2 0 0 0 1 0)和相似性gydF4y2Ba猫gydF4y2Ba和gydF4y2Ba狗gydF4y2Ba高于相似吗gydF4y2Ba猫gydF4y2Ba和gydF4y2Ba鼠标gydF4y2Ba的余弦相似度gydF4y2Ba因为gydF4y2Ba(gydF4y2Ba猫、狗gydF4y2Ba)是高于余弦相似性gydF4y2Ba因为gydF4y2Ba(gydF4y2Ba猫,老鼠gydF4y2Ba)。gydF4y2Ba
分布语义研究集中在两个方面:(1)的最佳特性表示上下文;(2)目标词和功能之间的最好的相关措施。gydF4y2Ba
如何表示在分布语义上下文是一个关键问题。这个问题是严格相关经典的机器学习的功能定义和特征选择问题。已经试过各种各样的特性。上下文表示为一组相关的词,设置相关的句法三元组涉及目标词(gydF4y2BaPado Lapata, 2007gydF4y2Ba;gydF4y2BaRothenhausler Schutze, 2009gydF4y2Ba)和组标记词汇三元组(gydF4y2Ba布洛尼和Lenci, 2010gydF4y2Ba)。gydF4y2Ba
寻找最佳关联测量目标词和上下文特征是另一个问题。已经试过很多相关措施。经典的措施gydF4y2Ba术语frequency-inverse文档频率gydF4y2Ba(gydF4y2Batf-idfgydF4y2Ba)(gydF4y2Ba顿,1989gydF4y2Ba),gydF4y2Ba逐点互信息gydF4y2Ba(gydF4y2Ba采购经理人指数gydF4y2Ba)。这些等措施,用于更好的捕捉语境功能的重要性代表分布语义的单词。gydF4y2Ba
第一个制定分配是一个分布式表示语义gydF4y2Bahuman-interpretablegydF4y2Ba。事实上,功能表示上下文信息的语义属性代理目标词(gydF4y2Ba布洛尼和Lenci, 2010gydF4y2Ba)。gydF4y2Ba
4.2。压实分布表示gydF4y2Ba
随着分布式表示,gydF4y2Ba分布表示gydF4y2Ba可以进行主成分分析的降维过程和随机的索引。这个过程是用于两个问题。首先是减少的经典问题获得更紧凑的尺寸表示表示。第二而不是想帮助表示关注更多歧视维度。后者侧重于特征选择和合并问题这是一个重要的任务在这些表示更有效的最后一项任务的相似性检测。gydF4y2Ba
主成分分析(PCA)主要应用于压实分布表示:潜在语义分析(LSA)是一个突出的例子(gydF4y2Ba蓝和杜,1997gydF4y2Ba)。LSA出生在信息检索的概念减少word-to-document矩阵。因此,在这紧凑的表示形式,词上下文是文档和分配向量的单词,单词的文档报告出现。这减少或相似矩阵技术已经应用于一个词到一个词矩阵。gydF4y2Ba
主成分分析(PCA) (gydF4y2Ba皮尔森,1901gydF4y2Ba;gydF4y2BaMarkovsky 2011gydF4y2Ba)是一个线性的方法减少了突出ℝ维度的数量gydF4y2BangydF4y2Ba到“gydF4y2Ba最好的”gydF4y2Ba线性子空间的维度gydF4y2BadgydF4y2Ba通过使用一组数据点。“gydF4y2Ba最好的”gydF4y2Ba线性子空间是一个子空间维度的方差最大化的数据点集。主成分分析可以作为概率方法或解释一个矩阵近似,然后通常被称为gydF4y2Ba截断奇异值分解gydF4y2Ba。我们在这里感兴趣的PCA描述为概率统计方法有关gydF4y2Ba可解释性gydF4y2Ba相关的gydF4y2Ba分布式表示gydF4y2Ba。gydF4y2Ba
概率统计方法,主成分分析发现一个正交投影矩阵gydF4y2Ba这样预计的数据点集的方差最大化。数据点的集合称为一个矩阵gydF4y2BaXgydF4y2Ba∈ℝgydF4y2Ba米gydF4y2Ba×gydF4y2BangydF4y2Ba在每一行gydF4y2Ba是一个单一的观察。因此,的方差最大化gydF4y2Ba。gydF4y2Ba
更具体地说,让我们考虑第一权向量gydF4y2BawgydF4y2Ba1gydF4y2Ba地图数据集的一个元素gydF4y2BaxgydF4y2Ba成一个单一的〈数量gydF4y2Bax, wgydF4y2Ba1gydF4y2Ba〉。最大化方差意味着gydF4y2BawgydF4y2Ba是这样的:gydF4y2Ba
它可以表明,取得最优值gydF4y2BawgydF4y2Ba的特征向量gydF4y2BaXgydF4y2BaTgydF4y2BaXgydF4y2Ba与最大特征值。这就产生一个预测数据集:gydF4y2Ba
迭代算法可以计算第二和进一步组件先减去组件已经计算gydF4y2BaXgydF4y2Ba:gydF4y2Ba
然后继续像之前一样。然而,事实证明,所有后续组件相关矩阵的特征向量gydF4y2BaXgydF4y2BaTgydF4y2BaXgydF4y2Ba,即gydF4y2BadgydF4y2Bath权重向量的特征向量gydF4y2BaXgydF4y2BaTgydF4y2BaXgydF4y2Ba与gydF4y2BadgydF4y2Bath最大对应的特征值。gydF4y2Ba
分布式的编码矩阵表示派生的PCA方法矩阵:gydF4y2Ba
在哪里gydF4y2BawgydF4y2Ba我gydF4y2Ba特征向量与特征值减少吗gydF4y2Ba我gydF4y2Ba。因此,当地表示gydF4y2BavgydF4y2Ba∈ℝgydF4y2BangydF4y2Ba表示在分布式ℝ交涉吗gydF4y2BadgydF4y2Ba为:gydF4y2Ba
因此,矢量η(gydF4y2BavgydF4y2Ba)gydF4y2Bahuman-interpretablegydF4y2Ba作为他们的维度代表的线性组合维度在原来的地方表示这些维度是命令数据集根据他们的重要性,也就是说,他们的方差。此外,每个维度是一个线性组合的原始符号。然后,这个矩阵gydF4y2BaWgydF4y2BadgydF4y2Ba报告的原始符号的组合更重要的区分数据点集。gydF4y2Ba
此外,向量η(gydF4y2BavgydF4y2Ba)gydF4y2Ba可解码的gydF4y2Ba。解码函数是:gydF4y2Ba
和gydF4y2Ba如果gydF4y2BadgydF4y2Ba矩阵的秩是吗gydF4y2BaXgydF4y2Ba,否则这是一个退化的近似(更多细节请参考gydF4y2BaFodor 2002gydF4y2Ba;gydF4y2BaSorzano et al ., 2014gydF4y2Ba)。因此,分布式ℝ向量gydF4y2BadgydF4y2Ba可以回到原来的符号表征解码的近似度取决于之间的距离gydF4y2BadgydF4y2Ba和矩阵的秩gydF4y2BaXgydF4y2Ba。gydF4y2Ba
PCA的引人注目的限制是,所有数据点都为了获得使用编码/解码矩阵。这不是可行的两种情况。首先,当模型来处理大数据。第二,当一组符号的编码在非常大。在后者情况下,当地的矩阵表示不能用于生产gydF4y2BaXgydF4y2Ba应用主成分分析。gydF4y2Ba
在分布语义,gydF4y2Ba随机的索引gydF4y2Ba被用来解决一些问题,出现自然与PCA在处理大型词汇表和大全集。主成分分析有一些可伸缩性问题:gydF4y2Ba
•原同现矩阵是非常昂贵的获取和存储,而且,只有需要后来改变了;gydF4y2Ba
•降维也非常昂贵,而且,与手头的尺寸只能用迭代方法;gydF4y2Ba
•整个方法不是增量,如果我们想要添加新单词语料库我们必须验算整个同现矩阵然后re-perform PCA的一步。gydF4y2Ba
随机索引(gydF4y2BaSahlgren 2005gydF4y2Ba)解决这些问题:这是一个渐进的方法(新单词可以很容易地添加任何时间在低计算成本)的创建词向量减少维度而不需要创建完整的维矩阵。gydF4y2Ba
可解释性的压实分布语义向量与分布式表示获得的可解释性使用相同的技术。gydF4y2Ba
4.3。学习表示:Word2vecgydF4y2Ba
最近,gydF4y2Ba分布的假设gydF4y2Ba入侵神经网络:gydF4y2Baword2vecgydF4y2Ba(gydF4y2BaMikolov et al ., 2013gydF4y2Ba学习单词向量)使用上下文信息。因此,我们致力于讨论这种技术部分gydF4y2Ba分布语义gydF4y2Ba。gydF4y2Ba
word2Vec名称由两个类似的技术,称为gydF4y2Ba跳过克gydF4y2Ba和gydF4y2Ba连续袋的话gydF4y2Ba(CBOW)。神经网络两种方法,前者需要输入一个单词,并试图预测它的上下文,而后者的反向过程,预测单词它周围的一句话。用这项技术没有明确计算共生矩阵法,也有一个明确的协会之间的特性对单词,相反,单词的规律和分布都学会了隐式的网络。gydF4y2Ba
我们只描述CBOW因为它概念简单,因为核心理念在这两种情况下是相同的。完整的网络通常是用两层来实现gydF4y2BaWgydF4y2Ba1gydF4y2BangydF4y2Ba×gydF4y2BakgydF4y2Ba和gydF4y2BaWgydF4y2Ba2gydF4y2BakgydF4y2Ba×gydF4y2BangydF4y2Ba加上一层softmax重建最后向量代表这个词。在学习阶段,网络的输入和输出都是本地表示单词。在CBOW,网络的目标是预测目标词上下文词语。例如,考虑到句子gydF4y2Ba年代gydF4y2Ba1gydF4y2Ba语料库的gydF4y2Ba表1gydF4y2Ba,网络预测gydF4y2Ba捕获gydF4y2Ba鉴于其上下文(参见gydF4y2Ba图1gydF4y2Ba)。gydF4y2Ba
因此,CBOW提供了一个编码器gydF4y2BaWgydF4y2Ba1gydF4y2BangydF4y2Ba×gydF4y2BakgydF4y2Ba,也就是说,一个线性编码器数据中gydF4y2BangydF4y2Ba词汇量的大小和吗gydF4y2BakgydF4y2Ba是分配向量的大小。这个编码器模型上下文信息学会了通过最大化网络的预测能力。一个很好的描述这个方法如何与以前的技术了gydF4y2BaGoldberg和利维(2014)gydF4y2Ba。gydF4y2Ba
显然,CBOW分布向量是人类和机器不容易gydF4y2Ba可说明的gydF4y2Ba。事实上,特定的向量维度并没有一个特定的含义,不同于对auto-encoders会发生什么(见3.2.1节),这些网络不是训练是可逆的。gydF4y2Ba
5。构成的分布式表征gydF4y2Ba
在前面的部分中,我们描述了一个符号或bag-of-symbols可以转换在分布式表示关注是否这些分布的表征gydF4y2Ba可说明的gydF4y2Ba。在本节中,我们想要调查这些表示的第二个重要方面,也就是说,这些表示gydF4y2Ba衔接组合性gydF4y2Ba是象征性的表示吗?如果这些表示gydF4y2Ba组成gydF4y2Ba,仍gydF4y2Ba可说明的gydF4y2Ba吗?gydF4y2Ba
衔接组合性gydF4y2Ba的能力是一个象征性的表示描述序列或结构通过组合符号与特定的规则。在这个过程中,保持独特的象征和组合规则是清晰的。因此,最后的序列和结构可用于后续步骤作为知识存储库。gydF4y2Ba
衔接组合性gydF4y2Ba对于任何一个重要方面表示,对分布式表示。理解到什么程度分布表示gydF4y2Ba衔接组合性gydF4y2Ba然后如何恢复信息是一个至关重要的问题。事实上,这个问题已经造成的强烈gydF4y2Ba板(1994gydF4y2Ba,gydF4y2Ba1995)gydF4y2Ba分析了同一特定的分布式表征编码结构信息和结构信息是如何恢复回来。gydF4y2Ba
当前方法治疗分布式/分布表示的序列和结构混合在一个模型两个方面:“gydF4y2Ba语义”gydF4y2Ba方面,gydF4y2Ba表征gydF4y2Ba方面。一般来说,语义方面是主要的和表征方面剩下的一边。为“gydF4y2Ba语义”gydF4y2Ba原因方面,我们把分布式符号是由:最后一个任务在神经网络应用程序或需要给一个gydF4y2Ba分布语义向量gydF4y2Ba为词的序列。后一种情况gydF4y2Ba语义成分分布gydF4y2Ba(gydF4y2Ba克拉克et al ., 2008gydF4y2Ba;gydF4y2Ba巴罗尼et al ., 2014gydF4y2Ba)。为gydF4y2Ba表征gydF4y2Ba方面,我们称这一事实组成分布式表示实际上是代表结构和这些表示可以解码回为了提取这些结构是什么。gydF4y2Ba
虽然“gydF4y2Ba语义”gydF4y2Ba似乎是主要的方面gydF4y2Bamodels-that-composegydF4y2Ba,gydF4y2Ba卷积猜想gydF4y2Ba(gydF4y2BaZanzotto et al ., 2015gydF4y2Ba)共存和推测,这两个方面gydF4y2Ba表征gydF4y2Ba方面发挥至关重要的作用。根据这一猜想,结构信息是保存在任何模型,组成和结构信息出现的时候比较两个分布式交涉点积来确定他们的相似之处。gydF4y2Ba
因此,考虑到gydF4y2Ba卷积猜想,models-that-composegydF4y2Ba生产分布表征结构可以解释。gydF4y2Ba可解释性gydF4y2Ba是一个非常重要的功能在这些吗gydF4y2Bamodels-that-composegydF4y2Ba这将推动我们的分析。gydF4y2Ba
在本节中,我们将探讨的问题面对表示的组合性原则,主要的“趋势”,一定程度上对应的类别已经提出。特别是我们将从工作组成分布语义,然后我们修改工作全息减少表示(gydF4y2Ba板,1995gydF4y2Ba;gydF4y2Ba诺依曼,2001gydF4y2Ba),最后,我们最近的分析方法与复发和递归神经网络。这些类别并不完全独立,和方法提出了一个类可以通常解释为归属为另一个类。gydF4y2Ba
5.1。语义成分分布gydF4y2Ba
在分布语义,gydF4y2Bamodels-that-composegydF4y2Ba有名字的gydF4y2Ba成分分布语义模型gydF4y2Ba(CDSMs) (gydF4y2Ba米切尔和Lapata, 2010年gydF4y2Ba;gydF4y2Ba巴罗尼et al ., 2014gydF4y2Ba),旨在应用组合性原则(gydF4y2Ba弗雷格,1884gydF4y2Ba;gydF4y2Ba蒙塔古,1974gydF4y2Ba)为短语语义向量计算分配。这些CDSMs产生分配短语的语义向量通过组合分布向量的单词在这些短语。这些模型通常利用gydF4y2Ba结构化或句法表征gydF4y2Ba的短语中分配的意义。因此,CDSMs目标分配给一个完整的语义模型的语义。gydF4y2Ba
分布语义词,CDSMs的目的是为语义相似的句子无论产生相似的向量长度或结构。例如,单词和词典中定义,应该有类似的向量中讨论gydF4y2BaZanzotto et al。(2010)gydF4y2Ba。像往常一样在分布语义,捕捉相似点的产品(或类似的指标)之间分配向量。gydF4y2Ba
这些CDSMs包含多文档摘要的应用,认识到暗含文本(gydF4y2Ba达冈et al ., 2013gydF4y2Ba),显然,语义文本相似性检测(gydF4y2BaAgirre et al ., 2013gydF4y2Ba)。gydF4y2Ba
显然,这些CDSMs远离gydF4y2Ba衔接组合性gydF4y2Ba可以,因为这些分布式表示gydF4y2Ba解释gydF4y2Ba回来。在某种意义上,他们自然希望得到的向量忘记这些了,专注于最后分配短语的意义。有证据表明,这并非完全如此。gydF4y2Ba
的gydF4y2Ba卷积猜想gydF4y2Ba(gydF4y2BaZanzotto et al ., 2015gydF4y2Ba)表明,许多CDSMs生产分配向量结构信息和向量单词还可以gydF4y2Ba解释gydF4y2Ba。因此,许多CDSMsgydF4y2Ba衔接组合性gydF4y2Ba财产和gydF4y2Ba可说明的gydF4y2Ba。gydF4y2Ba
在本节的其余部分,我们将展示一些类这些CDSMs和我们重点描述这些羊肚菌是如何解释。gydF4y2Ba
5.1.1。加性模型gydF4y2Ba
加性模型gydF4y2Ba成分分布语义是重要的例子gydF4y2Bamodels-that-composesgydF4y2Ba在哪里gydF4y2Ba语义gydF4y2Ba和gydF4y2Ba表征gydF4y2Ba方面显然是分开的。因此,这些模型可以高度gydF4y2Ba可说明的gydF4y2Ba。gydF4y2Ba
这些添加剂模型已经正式被提出的两个词序列的总体框架gydF4y2Ba米切尔和Lapata (2008)gydF4y2Ba。两个字的通用框架组合分布向量序列”gydF4y2Ba紫外线”gydF4y2Ba如下:gydF4y2Ba
在哪里gydF4y2BapgydF4y2Ba∈ℝgydF4y2BangydF4y2Ba是组成向量,gydF4y2BaugydF4y2Ba和gydF4y2BavgydF4y2Ba是这两个词的向量gydF4y2BaugydF4y2Ba和gydF4y2BavgydF4y2Ba,gydF4y2BaRgydF4y2Ba连接这两个词和语法关系吗gydF4y2BaKgydF4y2Ba任何其他额外的知识用于组合操作。加性模型,这个方程具有以下形式:gydF4y2Ba
在哪里gydF4y2Ba一个gydF4y2BaRgydF4y2Ba和gydF4y2BaBgydF4y2BaRgydF4y2Ba是两个方阵根据语法关系gydF4y2BaRgydF4y2Ba可以从数据(gydF4y2Ba格瓦拉,2010gydF4y2Ba;gydF4y2BaZanzotto et al ., 2010gydF4y2Ba)。gydF4y2Ba
之前调查如果这些模型是可翻译的,我们引入一个递归公式的添加剂模型可以应用于句子结构表示。为了这个目的,我们使用依赖树。依赖树可以被定义为一个树节点单词和输入链接的两个词之间的关系。树的根是支配这个句子的意思的词。依赖树gydF4y2BaTgydF4y2Ba然后一个词如果是最后一个节点或它有根吗gydF4y2BargydF4y2BaTgydF4y2Ba和链接(gydF4y2BargydF4y2BaTgydF4y2Ba,gydF4y2BaR、CgydF4y2Ba我gydF4y2Ba),gydF4y2BaCgydF4y2Ba我gydF4y2Ba第i个节点的子树吗gydF4y2BargydF4y2BaTgydF4y2Ba和gydF4y2BaRgydF4y2Ba连接节点的关系吗gydF4y2BargydF4y2BaTgydF4y2Ba与gydF4y2BaCgydF4y2Ba我gydF4y2Ba。两个例句的依赖树报告gydF4y2Ba图2gydF4y2Ba。然后递归公式如下:gydF4y2Ba
根据相加模型的递归定义,函数gydF4y2BafgydF4y2BargydF4y2Ba(gydF4y2BaTgydF4y2Ba结果在一个元素的线性组合gydF4y2Ba米gydF4y2Ba年代gydF4y2BawgydF4y2Ba年代gydF4y2Ba在哪里gydF4y2Ba米gydF4y2Ba年代gydF4y2Ba是矩阵的产物吗gydF4y2Ba代表结构gydF4y2Ba和gydF4y2BawgydF4y2Ba年代gydF4y2Ba是gydF4y2Ba分配的意义gydF4y2Ba一个词的结构,即:gydF4y2Ba
在哪里gydF4y2Ba年代gydF4y2Ba(gydF4y2BaTgydF4y2Ba有关子结构gydF4y2BaTgydF4y2Ba。在这种情况下,gydF4y2Ba年代gydF4y2Ba(gydF4y2BaTgydF4y2Ba)包含链接链。例如,第一句话gydF4y2Ba图2gydF4y2Ba以这种方式定义了分布式矢量:gydF4y2Ba
每一项之和的部分代表结构和部分代表的含义,例如:gydF4y2Ba
因此,这种递归添加剂成分的语义模型gydF4y2Bamodel-that-composesgydF4y2Ba原则上,能高吗gydF4y2Ba可说明的gydF4y2Ba。通过选择矩阵gydF4y2Ba米gydF4y2Ba年代gydF4y2Ba这样:gydF4y2Ba
可以恢复分布语义向量相关词在特定的部分结构。例如,样例句子的主要动词gydF4y2Ba图2gydF4y2Ba与一个矩阵gydF4y2Ba,即:gydF4y2Ba
一般来说,矩阵派生的成分分布语义模型(gydF4y2Ba格瓦拉,2010gydF4y2Ba;gydF4y2BaZanzotto et al ., 2010gydF4y2Ba)没有这个属性但有可能获得与这个属性通过应用你Jonson-Linderstrauss水谷矩阵(gydF4y2Ba约翰逊和Lindenstrauss, 1984年gydF4y2Ba)或类似的技术也在讨论gydF4y2BaZanzotto et al。(2015)gydF4y2Ba。gydF4y2Ba
5.1.2中。词法功能成分分布语义模型gydF4y2Ba
词汇功能模型组分分布语义模型,是张量和每种类型的词由张量表示的顺序不同。创作意义然后写这张量得到向量。这些模型有坚实的数学背景链接Lambek pregroup理论,正式的语义和语义分布(gydF4y2BaCoecke et al ., 2010gydF4y2Ba)。词汇衔接成分,功能模型,在接下来,我们将检查是否我这些模型产生向量gydF4y2Ba解释gydF4y2Ba。gydF4y2Ba
确定这些模型产生gydF4y2Ba可说明的gydF4y2Ba向量,我们从一个简单的词法功能模型应用于两个词序列。这个模型已基本分析gydF4y2Ba布洛尼和Zamparelli (2010)gydF4y2Ba作为矩阵编码被认为是更好的线性模型gydF4y2Ba形容词gydF4y2Ba。gydF4y2Ba
在词法功能模型两个词序列,有一个两个字的订单2的张量(即一个矩阵)和一个词所代表的一个向量。例如,gydF4y2Ba形容词gydF4y2Ba是向量(矩阵和名词gydF4y2Ba布洛尼和Zamparelli, 2010gydF4y2Ba)-名词序列。因此,名词如“序列gydF4y2Ba黑猫》gydF4y2Ba或“gydF4y2Ba白色的狗”gydF4y2Ba表示为:gydF4y2Ba
在哪里gydF4y2Ba黑色的gydF4y2Ba和gydF4y2Ba白色的gydF4y2Ba矩阵代表两个形容词和吗gydF4y2Ba猫gydF4y2Ba和gydF4y2Ba狗gydF4y2Ba是两个向量代表的两个名词。gydF4y2Ba
这两个词模型gydF4y2Ba部分可翻译的gydF4y2Ba:了解形容词可以提取名词而不是亦然。事实上,如果形容词矩阵是可逆的,有可能提取的相关名词一直特殊的形容词。例如,如果gydF4y2Ba黑色的gydF4y2Ba逆矩阵是可逆的,gydF4y2Ba黑色的gydF4y2Ba−1gydF4y2Ba可以用来提取的向量gydF4y2Ba猫gydF4y2Ba从向量中gydF4y2BafgydF4y2Ba(黑猫):gydF4y2Ba
这有助于gydF4y2Ba可解释性gydF4y2Ba这个模型。此外,如果矩阵构建使用Jonson-Lindestrauss变换(形容词gydF4y2Ba约翰逊和Lindenstrauss, 1984年gydF4y2Ba),与属性矩阵方程(8),可以把不同的句子在一个向量,然后,只选择相关信息,例如:gydF4y2Ba
相反,知道名词向量,它不可能提取形容词矩阵。这是一个强烈的限制的可解释性。gydF4y2Ba
词法功能模型更大的结构衔接成分,但不是可判断的。事实上,这些模型一般有张量在中间,这张量是唯一的部分可以倒。因此,一般来说这些模型不是解释。然而,使用gydF4y2Ba卷积猜想gydF4y2Ba(gydF4y2BaZanzotto et al ., 2015gydF4y2Ba),可以知道部分中包含一些最终向量与这些模型获得。gydF4y2Ba
5.2。全息表示gydF4y2Ba
(嗯)全息减少表示gydF4y2Bamodels-that-composegydF4y2Ba明确设计gydF4y2Ba可说明的gydF4y2Ba(gydF4y2Ba板,1995gydF4y2Ba;gydF4y2Ba诺依曼,2001gydF4y2Ba)。事实上,这些模型编码平结构代表断言和这些断言应该然后搜索为了恢复部分的知识。例如,这些表示被用来编码逻辑命题等gydF4y2Ba吃gydF4y2Ba(gydF4y2Ba约翰,苹果gydF4y2Ba)。在这种情况下,每个原子元素都有一个关联的向量和向量的化合物是通过结合这些向量。这里的主要问题是构建编码可以解码的功能,也就是说,它应该可以从最终检索组成元素分布向量的向量gydF4y2Ba吃gydF4y2Ba(gydF4y2Ba约翰,苹果gydF4y2Ba)。gydF4y2Ba
嗯,gydF4y2Ba近正交单位向量gydF4y2Ba(gydF4y2Ba约翰逊和Lindenstrauss, 1984年gydF4y2Ba)为基本符号,gydF4y2Ba循环卷积gydF4y2Ba⊗和gydF4y2Ba圆形的相关性gydF4y2Ba⊕担保gydF4y2Ba可组合性gydF4y2Ba和gydF4y2Ba可解释性gydF4y2Ba。嗯是随机的扩展索引结构(见3.1节)。因此,符号是用向量表示采样多元正态分布gydF4y2Ba。功能是构成循环卷积表示⊗和定义为:gydF4y2Ba
在下标模gydF4y2BadgydF4y2Ba。循环卷积是交换和双线性。这个操作还可以计算使用gydF4y2Ba循环矩阵gydF4y2Ba:gydF4y2Ba
在哪里gydF4y2Ba一个gydF4y2Ba∘gydF4y2Ba和gydF4y2BaBgydF4y2Ba∘gydF4y2Ba循环矩阵的向量gydF4y2Ba一个gydF4y2Ba和gydF4y2BabgydF4y2Ba。给定的属性向量gydF4y2Ba一个gydF4y2Ba和gydF4y2BabgydF4y2Ba,矩阵gydF4y2Ba一个gydF4y2Ba∘gydF4y2Ba和gydF4y2BaBgydF4y2Ba∘gydF4y2Ba在方程(8)财产。因此,gydF4y2Ba循环卷积gydF4y2Ba大约是可逆的gydF4y2Ba圆形的相关性gydF4y2Ba函数(⊕)定义如下:gydF4y2Ba
再次,下标模吗gydF4y2BadgydF4y2Ba。圆形的相关性与循环矩阵的逆矩阵,gydF4y2Ba。⊕的解码,地区的结构可以以一种近似的方式,即:gydF4y2Ba
因此,循环卷积⊗和循环相关⊕允许建立可判断的表征。例如,在向量gydF4y2Bae, JgydF4y2Ba,gydF4y2Ba一个gydF4y2Ba为gydF4y2Ba吃gydF4y2Ba,gydF4y2Ba约翰gydF4y2Ba和gydF4y2Ba苹果gydF4y2Ba分别以下编码和解码产生一个向量,接近原始矢量gydF4y2Ba约翰gydF4y2Ba:gydF4y2Ba
在这些表象背后的“可逆性”很重要,因为它允许我们不考虑这些表示黑匣子。gydF4y2Ba
然而,全息表示有严重的局限性,因为这些可以编码和解码简单,平面结构。事实上,这些表示是基于循环卷积,这是一个交换功能;这意味着组成对象的表示无法跟踪订单事宜,这一现象尤为重要,当编码嵌套结构。gydF4y2Ba
分布式树(gydF4y2BaZanzotto和戴尔'Arciprete, 2012年gydF4y2Ba)表明,表达的原则可以应用于编码全息表示更大的结构,克服问题的可靠的编码元素的顺序是由使用gydF4y2Ba打乱循环卷积gydF4y2Ba函数的组合算子。分布式树编码函数,将树转换成低维向量也包含树的每个子结构的编码。因此,这些分布式树是特别有吸引力,因为他们可以用来表示结构在线性计算高效的学习机器。gydF4y2Ba
特别是分布式树木和分布式平滑树(gydF4y2BaFerrone Zanzotto, 2014gydF4y2Ba)代表一个有趣的成分分布语义模型之间的中间道路和全息表示。gydF4y2Ba
5.3。组成神经网络模型gydF4y2Ba
当神经网络应用于序列或结构化的数据,这些网络实际上是gydF4y2Bamodels-that-composegydF4y2Ba。然而,这些模型的结果gydF4y2Bamodels-that-composegydF4y2Ba不解释。事实上,组成功能训练是以特定的任务,而不是重建结构化输入的可能性,除非在一些罕见的情况下(gydF4y2BaSocher et al ., 2011gydF4y2Ba)。这些网络的输入序列或结构化数据基本符号是嵌入在哪里gydF4y2Ba当地的gydF4y2Ba表示或gydF4y2Ba分布式gydF4y2Ba表示用单词嵌入(见4.3节)。输出分布向量导出为特定任务。因此,这些gydF4y2Bamodels-that-composegydF4y2Ba不解释的我们的最终目的和这一事实吗gydF4y2Ba非线性gydF4y2Ba功能规范中采用神经网络。gydF4y2Ba
在本节中,我们修改一些著名的神经网络结构,可以解释为gydF4y2Bamodels-that-composegydF4y2Ba:gydF4y2Ba复发性神经网络gydF4y2Ba(gydF4y2BaKrizhevsky et al ., 2012gydF4y2Ba;gydF4y2Ba坟墓,2013gydF4y2Ba;gydF4y2BaVinyals et al ., 2015 agydF4y2Ba;gydF4y2Ba他et al ., 2016年gydF4y2Ba)和gydF4y2Ba递归神经网络gydF4y2Ba(gydF4y2BaSocher et al ., 2012gydF4y2Ba)。gydF4y2Ba
5.3.1。复发性神经网络gydF4y2Ba
复发性神经网络形成一个非常广泛的家庭的神经网络结构,处理复杂对象的表示(加工)。其核心递归神经网络(RNN)是一个网络将在输入序列中的当前元素和过程这基于一个内部状态取决于以前的输入。目前最强大的网络架构卷积神经网络(gydF4y2BaKrizhevsky et al ., 2012gydF4y2Ba;gydF4y2Ba他et al ., 2016年gydF4y2Ba)相关的视觉任务和LSTM-type网络语言相关的任务(gydF4y2Ba坟墓,2013gydF4y2Ba;gydF4y2BaVinyals et al ., 2015 agydF4y2Ba)。gydF4y2Ba
一个递归神经网络作为输入序列gydF4y2BaxgydF4y2Ba= (gydF4y2BaxgydF4y2Ba1gydF4y2Ba…gydF4y2BaxgydF4y2BangydF4y2Ba)和生产作为输出一个向量gydF4y2BaygydF4y2Ba∈ℝgydF4y2BangydF4y2Ba这是一个表示整个序列。在每一步gydF4y2Ba1gydF4y2BatgydF4y2Ba网络作为输入当前元素gydF4y2BaxgydF4y2BatgydF4y2Ba,前面的输出gydF4y2BahgydF4y2Bat−1gydF4y2Ba并执行以下操作产生电流输出gydF4y2BahgydF4y2BatgydF4y2Ba
在σ是一个非线性函数等物流功能或双曲正切,gydF4y2BahgydF4y2Bat−1gydF4y2BaxgydF4y2BatgydF4y2Ba]表示向量的连接gydF4y2BahgydF4y2Bat−1gydF4y2Ba和gydF4y2BaxgydF4y2BatgydF4y2Ba。模型的参数矩阵gydF4y2BaWgydF4y2Ba和偏差向量gydF4y2BabgydF4y2Ba。gydF4y2Ba
因此,实际上是一个递归神经网络学习组合函数,动态取决于当前的输入,它的所有先前输入的数据集和训练。然而,这种学习组合函数基本上是不可能以任何方式分析或解释。有时一个“直观”的解释是关于学习权重表示:一些权重代表信息必须被铭记或遗忘。gydF4y2Ba
更复杂的复发性神经网络多空词记忆(LSTM) (gydF4y2Ba1997年,的Hochreiter和。施密德胡贝尔表示gydF4y2Ba)可解释性的同样的问题。LSTM最近和成功为神经网络处理时间序列的输入,克服一些困难,RNN的脸在训练阶段。与RNN LSTM网络作为输入序列gydF4y2BaxgydF4y2Ba= (gydF4y2BaxgydF4y2Ba1gydF4y2Ba…gydF4y2BaxgydF4y2BangydF4y2Ba)和生产作为输出一个向量gydF4y2BaygydF4y2Ba∈ℝgydF4y2BangydF4y2Ba这是一个表示整个序列。在每一步gydF4y2BatgydF4y2Ba网络作为输入当前元素gydF4y2BaxgydF4y2BatgydF4y2Ba,前面的输出gydF4y2BahgydF4y2Bat−1gydF4y2Ba并执行以下操作产生电流输出gydF4y2BahgydF4y2BatgydF4y2Ba和更新内部状态gydF4y2BacgydF4y2BatgydF4y2Ba。gydF4y2Ba
⊙代表element-wise乘法,矩阵是模型的参数gydF4y2BaWgydF4y2BafgydF4y2Ba,gydF4y2BaWgydF4y2Ba我gydF4y2Ba,gydF4y2BaWgydF4y2BaogydF4y2Ba,gydF4y2BaWgydF4y2BacgydF4y2Ba和偏差向量gydF4y2BabgydF4y2BafgydF4y2Ba,gydF4y2BabgydF4y2Ba我gydF4y2Ba,gydF4y2BabgydF4y2BaogydF4y2Ba,gydF4y2BabgydF4y2BacgydF4y2Ba。gydF4y2Ba
一般来说,对递归神经网络提供的解释gydF4y2Ba功能gydF4y2Ba或“gydF4y2Ba心理”gydF4y2Ba而不是中间向量的内容。例如,一个解释LSTM的参数如下:gydF4y2Ba
•gydF4y2BafgydF4y2BatgydF4y2Ba是gydF4y2Ba忘记门gydF4y2Ba:在每一步需要考虑到新输入和输出计算到目前为止在内部状态必须决定哪些信息gydF4y2Ba被遗忘的gydF4y2Ba(也就是说,设置为0);gydF4y2Ba
•gydF4y2Ba我gydF4y2BatgydF4y2Ba是gydF4y2Ba输入门gydF4y2Ba:它决定在内部状态的位置将被更新,和多少;gydF4y2Ba
•gydF4y2Ba是拟议的新内部状态,它将被更新有效结合前面的门;gydF4y2Ba
•gydF4y2BaogydF4y2BatgydF4y2Ba是gydF4y2Ba输出门gydF4y2Ba:它决定如何调节内部状态产生的输出gydF4y2Ba
这些gydF4y2Bamodels-that-composegydF4y2Ba有很高的性能对最终任务但绝对不是解释。gydF4y2Ba
5.3.2。递归神经网络gydF4y2Ba
的最后一节课gydF4y2Bamodels-that-composegydF4y2Ba我们现在的类gydF4y2Ba递归神经网络gydF4y2Ba(gydF4y2BaSocher et al ., 2012gydF4y2Ba)。这些网络应用于数据结构树和实际上是应用递归结构。一般来说,网络的目的是最后一个任务gydF4y2Ba情绪分析gydF4y2Ba或gydF4y2Ba释义检测gydF4y2Ba。gydF4y2Ba
递归神经网络是一个基本块,递归地应用在树上的gydF4y2Ba图3gydF4y2Ba。正式定义如下:gydF4y2Ba
在哪里gydF4y2BaggydF4y2Ba是一个特定组件的乙状结肠或双曲正切函数,gydF4y2BaWgydF4y2Ba是一个矩阵映射连接向量gydF4y2Ba有相同的尺寸。gydF4y2Ba
这个方法自然处理递归:给定一个二进制解析树的一个句子gydF4y2Ba年代gydF4y2Ba,该算法创建为每个节点向量和矩阵表示,从终端节点。单词是由分布式表示或当地表示。例如,树gydF4y2Ba图3gydF4y2Ba是由递归网络以以下方式进行处理。首先,网络应用gydF4y2Ba(动物提取物)gydF4y2Ba和gydF4y2BafgydF4y2Ba紫外线gydF4y2Ba(gydF4y2Ba动物,提取gydF4y2Ba)。然后,网络和应用结果gydF4y2Ba吃gydF4y2Ba和gydF4y2BafgydF4y2Ba紫外线gydF4y2Ba(gydF4y2Ba吃gydF4y2Ba,gydF4y2BafgydF4y2Ba紫外线gydF4y2Ba(gydF4y2Ba动物,提取gydF4y2Ba)获得等等。gydF4y2Ba
递归神经网络不容易解释,即使非常类似于添加剂gydF4y2Ba成分分布语义模型gydF4y2Ba5.1.1节中给出。事实上,非线性函数gydF4y2BaggydF4y2Ba是要使最终向量不解释。gydF4y2Ba
5.3.3。关注神经网络gydF4y2Ba
注意神经网络(gydF4y2BaVaswani et al ., 2017gydF4y2Ba;gydF4y2BaDevlin et al ., 2019gydF4y2Ba)是一个非常成功的方法相结合的分布式表示的符号序列。然而,这些模型是非常简单的。事实上,这些关注模型基本上是巨大的多层感知器的应用于分布式表示离散符号。关键是,这些巨大的多层percpetrons训练通用的任务,然后,这些pre-trained模型用于特定任务的训练最后一层。sequence-level观点的可解释性,这些模型还在调查最终衔接组合分散在整个网络。gydF4y2Ba
6。结论gydF4y2Ba
在90年,在神经网络最热门的话题是是否分发表示gydF4y2Ba只有一个实现gydF4y2Ba离散符号表示。这场争论背后的问题实际上是至关重要的理解如果神经网络可以利用更系统严格基于离散符号表示。问题是再次变得非常贴切,因为自然语言是通过建设一个离散符号表示,如今,深层神经网络解决许多任务。gydF4y2Ba
我们做这个调查振兴辩论。事实上,这是正确的时间专注于这一基本问题。我们表明,分布式表示有写到与离散符号表示。在我们看来,通过阴影这场辩论,这个调查将有助于设计新的深层神经网络可以利用现有的和小说象征古典自然语言处理任务的模型。我们相信严格的清晰理解分布式/分布表征和符号之间的联系可能导致全新的深度学习网络。gydF4y2Ba
作者的贡献gydF4y2Ba
所有作者列出了一大笔,直接和知识贡献的工作,批准发布。gydF4y2Ba
的利益冲突gydF4y2Ba
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2Ba
脚注gydF4y2Ba
1。gydF4y2Ba^gydF4y2Ba我们通常可以认为这是一个步伐,但并不是所有的递归神经网络的应用有时间解释。gydF4y2Ba
引用gydF4y2Ba
Achlioptas, d . (2003)。Database-friendly随机预测:Johnson-lindenstrauss二进制硬币。gydF4y2Baj .第一版。系统。科学。gydF4y2Ba66年,671 - 687。doi: 10.1016 / s0022 - 0000 (03) 00025 - 4gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Agirre E。Cer D。,D我一个b,米。,Gonzalez-Agirre, A., and Guo, W. (2013). “sem 2013 shared task: Semantic textual similarity,” in第二次联席会议词法和计算语义(* SEM),卷1:程序的主要会议和共享任务:语义文本相似gydF4y2Ba(亚特兰大,乔治亚州:计算语言学协会),32-43。gydF4y2Ba
Bahdanau D。曹,K。,Beng我o,Y. (2015). “Neural machine translation by jointly learning to align and translate,” in学报(ICLR)第三学习国际会议上表示gydF4y2Ba。gydF4y2Ba
巴罗尼M。,Bern一个rd我,R。,和Zamparelli, R. (2014). Frege in space: a program of compositional distributional semantics.语言学家。朗问题。抛光工艺。gydF4y2Ba9日,241 - 346。gydF4y2Ba
巴罗尼M。,Lenci, A. (2010). Distributional memory: a general framework for corpus-based semantics.第一版。语言学家。gydF4y2Ba36岁,673 - 721。doi: 10.1162 / coli_a_00016gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
巴罗尼M。,Zamparelli, R. (2010). “Nouns are vectors, adjectives are matrices: Representing adjective-noun constructions in semantic space,” in学报2010年大会在自然语言处理的经验方法gydF4y2Ba(Cambridge, MA:计算语言学协会),1183 - 1193。gydF4y2Ba
宾汉,E。,米一个nn我l一个,H. (2001). “Random projection in dimensionality reduction: applications to image and text data,” in第七届ACM SIGKDD学报》国际会议上知识发现和数据挖掘gydF4y2Ba(旧金山:ACM), 245 - 250。gydF4y2Ba
Blutner, R。,Hendriks, P., and de Hoop, H. (2003). “A new hypothesis on compositionality,” in《认知科学联合国际会议gydF4y2Ba(悉尼新南威尔士)。gydF4y2Ba
Chetlur, S。,Woolley,C。,V一个ndermersch, P., Cohen, J., Tran, J., Catanzaro, B., et al. (2014). cudnn: Efficient primitives for deep learning.arXiv预印本。arXiv: 1410.0759gydF4y2Ba。gydF4y2Ba
克拉克,S。,Coecke B。,年代一个drz一个deh,米。(2008)。“意义的成分分布模型”gydF4y2Ba学报第二个研讨会上量子交互(气- 2008)gydF4y2Ba(牛津大学),133 - 140。gydF4y2Ba
科,R。Poliak,。,V一个nDur米e,B。,和 Eisner, J. (2017). “Explaining and generalizing skip-gram through exponential family principal component analysis,” in《欧洲15日会议的计算语言学协会章卷2,短论文gydF4y2Ba(瓦伦西亚:计算语言学协会),175 - 181。gydF4y2Ba
崔,H。,Ganger, G. R., and Gibbons, P. B. (2015).可伸缩的深度学习在分布式gpu GPU-Specialized参数服务器。gydF4y2Ba技术报告,卡耐基-梅隆PDL技术报告(CMU - PDL 15 - 107)。gydF4y2Ba
达冈,我。,Roth,D。,年代一个米米on年代, M., and Zanzotto, F. M. (2013).识别文本蕴涵:模型和应用程序gydF4y2Ba。Claypool圣拉斐尔,CA:摩根和出版商。gydF4y2Ba
Devlin, J。,Ch一个ng,米。,Lee, K., and Toutanova, K. (2019). “BERT: pre-training of deep bidirectional transformers for language understanding,” in学报2019年大会北美的计算语言学协会章:人类语言技术gydF4y2Ba,4171 - 4186。gydF4y2Ba
Ferrone, L。,Zanzotto, f M。(2014)。”语法成分分布语义模型”gydF4y2Ba科尔学报》2014年,25日计算语言学国际会议:技术论文gydF4y2Ba(都柏林:都柏林城市大学和计算语言学协会),721 - 730。gydF4y2Ba
Ferrone, L。,Zanzotto, f M。,C一个rrer作为,X。(2015). “Decoding distributed tree structures,” in统计语言和语音处理,第三个国际会议,SLSP 2015gydF4y2Ba(布达佩斯),73 - 83。gydF4y2Ba
Fodor, j . A。,Pylyshyn, Z. W. (1988). Connectionism and cognitive architecture: a critical analysis.认知gydF4y2Ba28日,3 - 71。gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
弗雷格,g (1884)。gydF4y2Ba死《Arithmetik(算术的基础):明信片logisch-mathematische Untersuchung uber窝Begriff ZahlgydF4y2Ba。布雷斯劳:w . Koebner。gydF4y2Ba
戈德堡,Y。,Levy, O. (2014). word2vec explained: deriving mikolov et al.'s negative-sampling word-embedding method.arXiv预印本。arXiv: 1402.3722gydF4y2Ba。gydF4y2Ba
格拉汉姆·古德费勒,我。,Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., et al. (2014). “Generative adversarial nets,” in先进的神经信息处理系统gydF4y2Ba蒙特利尔(QC), 2672 - 2680。gydF4y2Ba
Grefenstette E。,年代一个drz一个deh,米。(2011)。 “Experimental support for a categorical compositional distributional model of meaning,” in实证方法的会议在自然语言处理中,EMNLP”11gydF4y2Ba(斯特劳斯堡,爸爸:计算语言学协会),1394 - 1404。gydF4y2Ba
他,K。,Zhang, X., Ren, S., and Sun, J. (2016). Identity mappings in deep residual networks.arXiv(预印本)arXiv: 1603.05027gydF4y2Ba。doi: 10.1007 / 978 - 3 - 319 - 46493 - 0 - _38gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
辛顿,g . E。,米cClell和,J。L., and Rumelhart, D. E. (1986). “Distributed representations,” in并行分布式处理:探索微观结构的认知。卷1:基础gydF4y2Ba,eds d . e . Rumelhart和j·l·麦克勒兰德(剑桥,麻州:麻省理工学院出版社),77 - 109。gydF4y2Ba
Hochreiter, S。,年代ch米我dhuber,J。(1997). Long short-term memory.神经第一版。gydF4y2Ba9日,1735 - 1780。gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Jacovi,。,年代h一个lo米,O. S., and Goldberg, Y. (2018). “Understanding convolutional neural networks for text classification,” in学报2018 EMNLP车间BlackboxNLP: NLP对神经网络进行分析和解读gydF4y2Ba(布鲁塞尔),56 - 65。gydF4y2Ba
张成泽,K.-R。,K我米,年代。- - - - - -B。,和Corp, N. (2018). “Interpretable word embedding contextualization,” in学报2018 EMNLP车间BlackboxNLP: NLP对神经网络进行分析和解读gydF4y2Ba(布鲁塞尔),341 - 343。gydF4y2Ba
约翰逊,W。,Lindenstrauss, J. (1984). Extensions of lipschitz mappings into a hilbert space.一栏。数学。gydF4y2Ba26日,189 - 206。gydF4y2Ba
Kalchbrenner, N。,Blun年代o米,P. (2013). “Recurrent convolutional neural networks for discourse compositionality,” in学报2013车间连续向量空间模型和组合性gydF4y2Ba(索非亚)。gydF4y2Ba
Krizhevsky,。,年代ut年代kever,我。, and Hinton, G. E. (2012). “Imagenet classification with deep convolutional neural networks,” in先进的神经信息处理系统gydF4y2Ba(太浩湖,NV), 1097 - 1105。gydF4y2Ba
蓝道·t·K。,Du米一个我年代,年代。T。(1997). A solution to plato's problem: the latent semantic analysis theory of acquisition, induction, and representation of knowledge.Psychol。牧师。gydF4y2Ba104年,211 - 240。gydF4y2Ba
LeCun (Y。,Beng我o,Y., and Hinton, G. (2015). Deep learning.自然gydF4y2Ba521年,436 - 444。gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Liou彭译葶。,Cheng,W。- - - - - -C。,Liou, J.-W., and Liou, D.-R. (2014). Autoencoder for words.NeurocomputinggydF4y2Ba139年,84 - 96。doi: 10.1016 / j.neucom.2013.09.055gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
利普顿z . c (2018)。模型的可解释性的神话。gydF4y2BaCommun。ACMgydF4y2Ba61年,第36 -。doi: 10.1145 / 3233231gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
∙马希J。,米e我er,U。,C我reşan, D., and Schmidhuber, J. (2011). “Stacked convolutional auto-encoders for hierarchical feature extraction,” in国际会议上人工神经网络gydF4y2Ba(Springer) 52-59。gydF4y2Ba
Mikolov, T。陈,K。,Corr一个do,G., and Dean, J. (2013). “Efficient estimation of word representations in vector space,” in学报(ICLR)学习国际会议上表示gydF4y2Ba。gydF4y2Ba
米切尔,J。,Lapata, M. (2008). “Vector-based models of semantic composition,” in学报ACL-08:停止gydF4y2Ba(哥伦布,哦:计算语言学协会),236 - 244。gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
米切尔,J。,Lapata, M. (2010). Composition in distributional models of semantics.Cogn。ScigydF4y2Ba。34岁,1388 - 1429。doi: 10.1111 / j.1551-6709.2010.01106.xgydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Pado, S。,Lapata, M. (2007). Dependency-based construction of semantic space models.第一版。语言学家。gydF4y2Ba33岁,161 - 199。doi: 10.1162 / coli.2007.33.2.161gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
板,t . a (1995)。全息表示减少。gydF4y2BaIEEE反式。神经。gydF4y2Ba6,623 - 641。gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Rosenblatt, f (1958)。感知器:一个概率模型为信息存储和组织在大脑中。gydF4y2BaPsychol。牧师。gydF4y2Ba65年,386 - 408。gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Rothenhausler, K。,年代chütze, H. (2009). “Unsupervised classification with dependency based word spaces,” in学报自然语言语义的几何模型研讨会,宝石' 09gydF4y2Ba(斯特劳斯堡,爸爸:计算语言学协会),17-24。gydF4y2Ba
Schmidhuber, j . (2015)。深度学习神经网络:概述。gydF4y2Ba神经。gydF4y2Ba61年,85 - 117。doi: 10.1016 / j.neunet.2014.09.003gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
舒斯特尔,M。,Paliwal, K. (1997). Bidirectional recurrent neural networks.反式。Proc团体。gydF4y2Ba45岁,2673 - 2681。gydF4y2Ba
Socher, R。,Huang, E. H., Pennington, J., Ng, A. Y., and Manning, C. D. (2011). “Dynamic pooling and unfolding recursive autoencoders for paraphrase detection,” in先进的神经信息处理系统24gydF4y2Ba(格拉纳达)。gydF4y2Ba
Socher, R。,Huval, B., Manning, C. D., and Ng, A. Y. (2012). “Semantic compositionality through recursive matrix-vector spaces,” in学报2012年会议上实证方法在自然语言处理(EMNLP)gydF4y2Ba(济州岛)。gydF4y2Ba
Sorzano, c·o·S。巴尔加斯,J。,米ont一个no,一个。P. (2014). A survey of dimensionality reduction techniques.arXiv预印本。arXiv: 1403.2877gydF4y2Ba。gydF4y2Ba
特尼,p . d . (2006)。相似的语义关系。gydF4y2Ba第一版。语言学家。gydF4y2Ba32岁,379 - 416。doi: 10.1162 / coli.2006.32.3.379gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
特尼,p D。,Pantel, P. (2010). From frequency to meaning: vector space models of semantics.j . Artif。智能。Res。gydF4y2Ba37岁,141 - 188。doi: 10.1613 / jair.2934gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Vaswani)。,年代h一个zeer,N。,Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). “Attention is all you need,” in神经信息处理系统的进步30gydF4y2Baeds。第二,美国诉Luxburg s Bengio h .瓦拉赫,r·费格斯s Vishwanathan和r·加内特(CA:长滩Curran Associates Inc .), 5998 - 6008。gydF4y2Ba
文森特,P。,Larochelle, H., Bengio, Y., and Manzagol, P.-A. (2008). “Extracting and composing robust features with denoising autoencoders,” in美国25日机器学习国际会议gydF4y2Ba(赫尔辛基:ACM), 1096 - 1103。gydF4y2Ba
文森特,P。,Larochelle, H., Lajoie, I., Bengio, Y., and Manzagol, P.-A. (2010). Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion.j·马赫。学习。Res。gydF4y2Ba11日,3371 - 3408。gydF4y2Ba
Vinyals, O。,K一个我年代er,L. u., Koo, T., Petrov, S., Sutskever, I., and Hinton, G. (2015a). “Grammar as a foreign language,” in神经信息处理系统的进步28gydF4y2Baeds c·科尔特斯,n . d .劳伦斯·d·d·李,m . Sugiyama和r·加内特(QC:蒙特利尔Curran Associates Inc .), 2755 - 2763。gydF4y2Ba
Vinyals, O。,To年代hev,一个。,Beng我o, S., and Erhan, D. (2015b). “Show and tell: a neural image caption generator,” in《IEEE计算机视觉与模式识别会议gydF4y2Ba(波士顿),3156 - 3164。gydF4y2Ba
维斯,D。,一个lbert我,C。,Collins, M., and Petrov, S. (2015). Structured training for neural network transition-based parsing.arXiv预印本。arXiv: 1506.06158gydF4y2Ba。doi: 10.3115 / v1 / p15 - 1032gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
徐,K。,B一个,J。,K我ro年代,R。,Cho, K., Courville, A., Salakhudinov, R., et al. (2015). “Show, attend and tell: neural image caption generation with visual attention,” in美国第32机器学习国际会议上,PMLRgydF4y2Ba37卷,2048 - 2057。gydF4y2Ba
Zanzotto, f M。,Dell'Arciprete, L. (2012). “Distributed tree kernels,” in学报》国际会议上机器学习gydF4y2Ba(爱丁堡)。gydF4y2Ba
Zanzotto, f M。Ferrone, L。,巴罗尼M。(2015)。当整个不大于其各部分的组合:“全局”看看成分分布语义。gydF4y2Ba第一版。语言学家。gydF4y2Ba41岁,165 - 173。doi: 10.1162 / COLI_a_00215gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Zanzotto, f M。,Korkontzelo年代,我。,Fallucchi, F., and Manandhar, S. (2010). “Estimating linear models for compositional distributional semantics,” in23日计算语言学国际会议的程序(科尔)gydF4y2Ba(北京)。gydF4y2Ba
Zeiler, m D。,Fergus, R. (2014a). “Visualizing and understanding convolutional networks,” in计算机视觉——2014年大会gydF4y2Baeds d舰队,t . Pajdla b . Schiele和t . Tuytelaars (Cham:施普林格国际出版),818 - 833。gydF4y2Ba
Zeiler, m D。,Fergus, R. (2014b). “Visualizing and understanding convolutional networks,” in欧洲计算机视觉gydF4y2Ba(苏黎世:Springer), 818 - 833。gydF4y2Ba
关键词:gydF4y2Ba自然语言处理(NLP)、分布式表示,衔接组合性,深度学习(DL),成分分布语义模型,组合性gydF4y2Ba
引用:gydF4y2BaFerrone L和Zanzotto调频(2020)象征性的,分布式的,和分布表示为自然语言处理深度学习的时代:一项调查。gydF4y2Ba前面。机器人。人工智能gydF4y2Ba6:153。doi: 10.3389 / frobt.2019.00153gydF4y2Ba
收到:gydF4y2Ba2019年5月05;gydF4y2Ba接受:gydF4y2Ba2019年12月20日;gydF4y2Ba
发表:gydF4y2Ba2020年1月21日。gydF4y2Ba
编辑:gydF4y2Ba
乔凡尼卢卡基督教马沙拉gydF4y2Ba英国曼彻斯特城市大学gydF4y2Ba版权gydF4y2Ba©2020 Ferrone和Zanzotto。这是一个开放分布式根据文章gydF4y2Ba知识共享归属许可(CC)gydF4y2Ba。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。gydF4y2Ba
*通信:gydF4y2Ba法比奥·马西莫Zanzotto,gydF4y2Bafabio.massimo.zanzotto@uniroma2.itgydF4y2Ba