跳转到主要内容

原始研究的文章

前面。机器人。AI, 08年2022年11月
秒。空间机器人
<年代p一个ncl一个年代年代="volumeInfo">卷9 - 2022 | https://doi.org/10.3389/frobt.2022.968305

NN-Poly:近似常见与泰勒多项式神经网络,使动力系统约束

www.雷竞技rebatfrontiersin.org弗朗西丝·朱 1*,<我米g class="pr5" src="https://f96a1a95aaa960e01625-a34624e694c43cdf8b40aa048a644ca4.ssl.cf2.rackcdn.com/Design/Images/newprofile_default_profileimage_new.jpg" alt="www.雷竞技rebatfrontiersin.org">Dongheng静<年代up>2,<一个href="//www.thespel.com/people/u/1537873" class="user-id-1537873">www.雷竞技rebatfrontiersin.orgLeve弗雷德里克 3和<我米g class="pr5" src="https://f96a1a95aaa960e01625-a34624e694c43cdf8b40aa048a644ca4.ssl.cf2.rackcdn.com/Design/Images/newprofile_default_profileimage_new.jpg" alt="www.雷竞技rebatfrontiersin.org">西尔维亚法拉利<年代up>2
  • 1夏威夷地球物理研究所和行星学,檀香山,嗨,美国夏威夷大学
  • 2Sibley机械和航空航天工程学院,康奈尔大学,伊萨卡岛,纽约,美国
  • 3美国空军科学研究办公室,阿灵顿,弗吉尼亚州,美国

最近的深度学习的进步提振我们的预测能力的进化动力系统,但常见的神经网络不遵守物理定律,关键信息,可能导致测深仪状态预测。这贡献解决这个问题提出了一个神经网络(NN-Poly)多项式近似,这种方法提供了算法保证遵守物理,同时保留状态的预测精度。为了实现这些目标,本文展示如何表示一个训练有素的完全连接的感知器,各种激活函数的卷积和递归神经网络的泰勒多项式任意顺序。这种解决方案不仅是分析在本质上也是最小二乘优化。NN-Poly系统识别或状态评估预测方法对单层神经网络和一个多项式训练数据生成的动态系统。在我们的测试用例,该方法保持最小根均方误差状态,需要一些参数形式,使模型结构验证和安全。未来的工作将安全约束纳入状态预测,有了这个新模型结构和测试数据高维动力系统。

1介绍

神经网络已成为通用的回归模型和计算机视觉和机器翻译等领域的一次革命,在偶尔的错误不太可能危及人的生命。延长深层神经网络(NNs)高动态系统的应用结果,同时保留预测能力,神经网络应该可核查和符合物理定律。原始动力系统遵循物理法则,但具体形式的动力系统的过渡模型是未知的。神经网络擅长学习过渡的表示模型但这代表可以不同意物理定律,甚至的范围内培训的学习特点是不可知论者/无知物理规律特别是外部界限的培训由于缺乏泛化。此外,测量(输入)的不确定性或扰动产生的状态预测不准确;垃圾在垃圾。例如,如果一个相机反启蒙主义者会导致一个不正确的状态估计(不是传播位置)而其他传感器继续传播,物理无知的模型将把异常的传感器读数产生物理上不可行的状态预测。重组神经网络或改变神经网络输出不同的抽象可以确保模型遵循物理定律与原始系统生成数据。

理想,可说明的解决方案利用了神经网络的力量,通过1)信任:包含物理输出预测和算法行为的安全保证,2)因果关系:派生的输入和输出之间的关系,和3)信息:分析抽象从学习的神经网络和推断系统特征参数和关系(<一个href="#B15">立顿,2018)。信任,或安全,能遵守约束集的形式由用户来减轻干扰的影响模型预测的输入信号。添加域信息的物理定律可以对抗不良的行为。此外,添加约束有一个额外的好处就是:用户强加一些用户定义信息预测;也就是说,有一些组件的系统,用户可以解释和担保的行为。因果关系可能被跟踪输入对输出的贡献,对因果关系的一组线性方程是非常简单的关联系数矩阵的贡献分析,而内嵌套层神经网络是不太明显的输入/输出休闲(凸起地图)的关系。信息可以包括在模型中参数的数量/条款,熟悉的基地,和另一个抽象的存在:“计算一个容易处理的函数模型从最初的模型也可以被视为一种知识蒸馏从验证的角度来看,函数模型应该能够产生类似的结果或复制目标的输出神经网络在特定输入”(<一个href="#B12">黄et al ., 2019)。

本文的贡献是解决系统识别或状态预测问题,构建一个从一个神经网络函数映射到一个多项式函数,用户可以更容易地推断行为(信息和因果关系)和处理约束(信任)的变化。该方法近似的训练神经网络函数各种常见架构(完全连接感知器、卷积和复发性)成一个线性微分方程组的多项式空间基础。神经网络是普遍接近者,推导假设一般接近系统映射的神经网络结构(<一个href="#B11">Hornik et al ., 1989;<一个href="#B18">Pinkus 1999)。的最终形式表示用于近似神经网络与多项式矩阵方程的一组条目。约束或不变的数量来自物理法则可以适用于提供安全性和可行性系统动力学。的多项式逼近神经网络是一个简单的映射,在实时执行,需要最少的数据存储、限制和限制过度拟合的多项式表达的权力。神经网络和多项式抽象增加可解释性的动态系统生成的数据。

最简单的多项式,线性模型的抽象科学家在神经网络的熟悉和分析的可追溯性。多项式的基础上能够表达非线性与线性模型的关系。多项式计算更容易处理,使验证(<一个href="#B23">Sidrane et al ., 2022)。他们的分析可追溯性使理论保证,推理规则(<一个href="#B5">Dutta et al ., 2019),和分析(李雅普诺夫稳定性和稳定系数)。在多项式空间,用户可以申请安全标准或上下文中的领域知识限制,不变的物理量,输入/输出关系,连续性或有界敏感属性(<一个href="#B17">Narasimhamurthy et al ., 2019)。多项式的形式出现在许多物理环境(能源、传热和摩擦),这可能适用于近似领域知识或安全约束,并能告知科学家底层物理系统的特点。

在获得有价值的普遍(NN)近似和一个多项式表示。多项式与多项式NNs激活函数不是普遍接近者像NNs乙状结肠或双曲正切激活函数(<一个href="#B11">Hornik et al ., 1989)。一个通用的数据集由一个动态系统并不能保证一个平方和多项式解决方案,这就是为什么一个神经网络通用近似是必要的在捕捉从动态数据转换模型(<一个href="#B2">艾哈迈迪Parrilo, 2011)。深NNs训练非凸优化问题,约束通常不让解决方案更容易处理作为培训协议通常使用一个随机梯度搜索放在第一位。将动态的映射转化为多项式强加的动力学约束是semi-algebraic(例如,p(x)> = 0p(x)= 0,包括许多其他多项式约束)。Semi-algebraic优化新的强大的结果(例如,平方和和时刻序列),允许高度非凸优化程序转换为迭代的半定规划(sdp)收敛到全局最小值。本文的优化解决方案提供了最初的动力学约束表示为多项式映射。半定计划,这样的工具,使优化问题是容易处理的。

该方法的进步在以前的方法(<一个href="#B6">法拉利et al ., 2013;<一个href="#B7">法拉利和斯坦格尔,2005年)通过派生一个多项式抽象训练神经网络,能够将知识和约束纳入状态预测的同时解决端到端多项式函数和约束。输出状态的预测一样,可以限制坚持保证如果函数是多项式形式,而传统神经网络缺乏这种能力(<一个href="#B22">鲁迪et al ., 2017;<一个href="#B13">Lagaris et al ., 1998;<一个href="#B19">Psichogios杉,1992)。最近,一类神经网络物理直接融入到神经网络结构,如PINNs (<一个href="#B20">Raissi et al ., 2019;<一个href="#B24">王et al ., 2022),拉格朗日/哈密顿海军新闻(<一个href="#B3">克兰麦et al ., 2020;<一个href="#B9">不安暴风雪et al ., 2019)、神经常微分方程(<一个href="#B4">Djeumou et al ., 2022),深马尔可夫模型(<一个href="#B16">刘et al ., 2022)。改变在计划的工作在于物理实施发生时:physics-guided NNs在训练和NN-Poly的岗位培训。我们的工作也不同于严格的学习一个多项式直接从数据作为我们学习一个多项式神经网络。此外,多项式所导致的这种方法没有坚持一个李雅普诺夫函数的属性一样在学习齐次多项式李雅普诺夫函数V(x)不需要严格的积极<我nl在e-formula id="inf1"> V ̇ ( x ) 不需要严格的负面,V是传统能源的函数(<一个href="#B2">艾哈迈迪Parrilo, 2011)。而对于一些国家的定义和系统,这种形式可能是最方便的形式,最终使用,我们不征收形式在我们的配方。约束方程使用可能不使用能量和动量可能使用或距离。

以下部分详述了推导近似转换训练神经网络参数的神经网络模型的系数多项式形式。推导过程一般包括四个部分详细的步骤2 - 5:

•第二节源于一般的向量函数的泰勒级数展开向量域(即。从训练的神经网络模型,张量形式);高于二阶导数是张量衍生品。

•第三节简化了张量衍生品和状态矩阵和向量形式。本文的一个重要贡献是展开张衍生成一个矩阵形式和张状态向量形式,从而导致矩阵可操纵性和计算储蓄。

•第四节改写一般的泰勒级数展开,张量包含衍生品为泰勒级数展开只有矩阵和向量形式衍生品。泰勒级数展开,只有矩阵和向量形式衍生品是可取的,因为现代科学编程语言是矢量化计算的优化。泰勒级数展开可表示为多项式形式的表达式,输入到输出的映射。每个多项式系数输入导出和随后的动态系统,神经网络近似可以解释。

•第5部分单层多项式近似扩展到多层网络,导致一个多项式表示一个任意深度网络。

本文剩余部分给上下文,如何应用这种方法模拟动态系统并显示结果。

•第六节有关物理约束为牛顿动力学semi-algebraic约束,可以应用于多项式近似函数的输出。

•第七节演示了如何求解状态预测同时提出的约束。

•8节分析了提出NN-extracted多项式方法在各种情况下。结果显示精度高和效率在处理测试用例;我们讨论如何扩展NN-Poly其他病例。

2问题公式化:泰勒展开式的神经网络

代表了神经网络模型作为泰勒多项式涉及两个步骤。首先,一个向量函数的泰勒展开f必须导出状态向量域x。神经网络模型的输入是在某个时间步状态向量,xk。神经网络模型的输出是下一个时间步的状态向量,xk+ 1状态向量的导数,<我nl在e-formula id="inf2"> x ̇ k 。张量的扩张包括各种尺寸和冗余多项交叉项。接下来,一般神经网络的衍生品是派生的张量形式。两个一起努力生成最终的泰勒多项式多项式系数。验证方法和为其他方法提供上下文,最后一节提供了一个比较模型保真度和计算其他数值系统识别的方法。

给定一个向量输入xR×1和输出yRn×1,一个函数f地图输入输出状态f(x):R×1Rn×1。假设函数f(⋅)是一个光滑、连续向量函数,所有衍生品与尊重x存在,是光滑的。

y = f x ( 1 )

考虑到培训对(x,y),一个神经网络预测<我nl在e-formula id="inf3"> y ̂ N N 与一个映射f神经网络(W,b,x),在<一个href="#e2">情商。符号的帽子吗<我nl在e-formula id="inf4"> ( ) ̂ 象征的预测变量。学参数W和b在神经网络。

y ̂ N N = f N N W , b , x ( 2 )

一个多项式p(x)的形式泰勒展开近似多项式的顺序的神经网络d接近神经网络是神经网络结构(定义的<一个href="#B21">Rolnick组成,2017年)。多项式的输出<我nl在e-formula id="inf5"> y ̂ p 在<一个href="#e3">情商。,多项式系数的表达式由\ {一个0,一个1、…一个d\}。

y ̂ p p x = 一个 0 + 一个 1 x + 1 2 ! 一个 2 x 2 + + 1 d ! 一个 d x d ( 3 )

我们的目标是找到系数一个一个多项式表达式的最小误差相对于神经网络模型中,定义的成本函数,C,因为在<一个href="#e4">Eq。4系数是设置在哪里一个= {一个0,一个1、…一个d}。

C = argmin 一个 f N N W , b , x p x , 一个 , d ( 4 )

多项式的形式是一种终端的泰勒展开式,给出了<一个href="#e5">情商。,那里的k函数的偏导数f是由<我nl在e-formula id="inf6"> k f x k 类似地,雅可比矩阵,<我nl在e-formula id="inf7"> J f k 。多项式终止订单d捕获,剩下的高阶项R(x)。

f x = f 0 + f x x + 2 f x 2 x 2 + + R x = f 0 + J f 1 0 x + 1 2 ! J f 2 0 x 2 + + R x ( 5 )

外产品⊗本手稿中使用取幂向量,一个取幂向量方程的例子<一个href="#e6">情商。索引符号<一个href="#e7">7情商。,采用<一个href="#B8">格拉纳多斯(2015)。

x 3 x x x ( 6 )
x x x ijk = x x j x k ( 7 )

内积⊙本手稿中使用与取幂乘函数导数,给出了指数的符号<一个href="#e8">情商。,采用<一个href="#B8">格拉纳多斯(2015)。

J f 2 x 2 = j J ijk 2 x j 2 ( 8 )

多项式表达式是一个矢量系列用雅可比矩阵定义条款和取幂状态向量的条款<一个href="#e9">Eq。9,表达的扩张是一个总和d+ 1雅可比矩阵。为简单起见,扩张是零状态,假设x0= 0,这简化了较低的维度。注意的相等<一个href="#e3">方程式3,<一个href="#e9">9。

p x = k = 0 d J f k x 0 k ! x x 0 k k = 0 d 1 k ! 一个 k x x 0 k ( 9 )

虽然<一个href="#e5">情商。优雅而能得到原函数的闭合表达式,随后衍生条件逐步增加维度,在吗<一个href="#e10">情商。。

f x = f 1 x 0 f 2 x 0 f n x 0 + f 1 x 1 f 1 x 2 f 1 x f 2 x 1 f 2 x 2 f 2 x f n x 1 f n x 2 f n x x 1 x 2 x + 1 2 ! 2 f 1 x 1 2 2 f 1 x 2 x 1 2 f 1 x x 1 2 f 2 x 1 2 2 f 2 x 2 x 1 2 f 2 x x 1 2 f n x 1 2 2 f n x 2 x 1 2 f n x x 1 , , 2 f 1 x 1 x 2 f 1 x 2 x 2 f 1 x 2 2 f 2 x 1 x 2 f 2 x 2 x 2 f 2 x 2 2 f n x 1 x 2 f n x 2 x 2 f n x 2 x 1 2 x 1 x 2 x 1 x x 2 x 1 x 2 2 x 2 x x x 1 x x 2 x 2 + + R x ( 10 )

相反,我们仅仅想一组线性方程,解决了用一个多项式的系数矩阵运算,给出了<一个href="#e11">Eq。11。将张量各为一组线性方程,张量的导数项必须展开和压缩成矩阵和向量来实现所需的形式,给出了<一个href="#e11">Eq。11以下各部分将描述。

f x = f 1 x 0 f 1 x 1 f 1 x 2 f 1 x 1 2 2 f 1 x 1 x 2 f 1 x 2 R 1 x k f n x 0 f n x 1 f n x 2 f n x 1 2 2 f n x 1 x 2 f n x 2 R n x k 1 x 1 x 1 2 ! x 1 2 2 2 ! x 1 x 1 2 ! x 2 1 ( 11 )

3展开和压缩张量矩阵和向量

接近原始函数的张量方程可以折叠为一组线性方程,组成的系数矩阵和状态向量,一个有用的形式线性最小平方解或semi-algebraic优化。取幂的秩序高于两个张量的形式,包含冗余的多项条款,因为他们是对称的。通过类比,上三角对称矩阵的一部分包含所有其独特的价值观。展开和重塑高维张量矩阵和向量,每个更高维度的张量指标关系到一个索引向量和矩阵。推导可能凭直觉知道的视觉。上三角矩阵的列顺序是附加到一个矢量,在<一个href="#F1">图1一个。这个过程是扩展到对称张量,<一个href="#F1">图1 b,产量增广状态向量。

图1
www.雷竞技rebatfrontiersin.org

图1(一)展开一个上三角矩阵向量。(B)展开一个张量为一个向量。(C)减速比之间数量的削减和数量的充分条件。蓝色和橙色箭头表示的运动减薄率曲线在两个极端:蓝色为状态向量维数趋于无穷;橙色的状态向量维数的方法。

通过将冗余分组一起多项交叉项系数向量,输入向量只包含独特的国家。第一步是收集冗余状态条件相同的方程,高亮显示(<一个href="#e12">Eq。12)。所需的矩阵方程,(<一个href="#e11">Eq。11),张量方程的收益率相同的一组线性方程,还减少了总状态的数量条款和在一个更有用的表示。增广状态向量<一个href="#e11">Eq。11包含标量系数,表示数量的冗余项多项式的扩张状态。这些标量系数分离到一个新的系数向量。定义这个新的系数向量是必要的改革取幂州的状态向量唯一状态和过程中揭示了减少计算通过使用唯一的状态。直觉,独特的三阶多项式状态向量<我nl在e-formula id="inf8"> x ̃ 3 ,因为在<一个href="#e13">Eq。13,添加的波浪号注释上的独特性操作已经完成初始状态向量x⊗3。相应的多项式系数向量,一个3,包含各自的系数,代表的组合数量冗余多项式,给出<一个href="#e14">Eq。14。

f ( x ) = f 1 ( x 0 ) + ( f 1 x 1 x 1 + f 1 x 2 x 2 + + f 1 x x ) + + 1 2 ! ( 2 f 1 x 1 2 x 1 2 + 2 f 1 x 2 x 1 x 2 x 1 + + 2 f 1 x x 1 x x 1 ) + + ( 2 f 1 x 1 x x 1 x + 2 f 1 x 2 x x 2 x + + 2 f 1 x 2 x 2 ) + + R 1 ( x k ) f 2 ( x 0 ) + f 2 x 1 x 1 + f 2 x 2 x 2 + + ( f 1 x x ) + + 1 2 ! ( 2 f 2 x 1 2 x 1 2 + 2 f 2 x 2 x 1 x 2 x 1 + + 2 f 2 x x 1 x x 1 ) + + 2 f 2 x 1 x x 1 x + ( 2 f 2 x 2 x x 2 x + + 2 f 2 x 2 x 2 ) + + R 2 ( x k ) f n ( x 0 ) + ( f n x 1 x 1 + f n x 2 x 2 + + f n x x ) + + 1 2 ! ( 2 f n x 1 2 x 1 2 + 2 f n x 2 x 1 x 2 x 1 + + 2 f n x x 1 x x 1 ) + + ( 2 f n x 1 x x 1 x + 2 f n x 2 x x 2 x + + 2 f n x 2 x 2 ) + + R n ( x k ) ( 12 )
x ̃ 3 = x 1 3 , x 1 2 x 2 , , x 1 2 x , x 1 x 2 2 , , x 1 x 2 x , , x 1 x 2 , x 2 3 , x 2 2 x 3 , , x 2 2 x , x 2 x 2 , , x 3 ( 13 )
一个 3 = 1 3 ! 3 3 3 2、1 3 2、1 3 1、2 3 1,1,1 3 2、1 3 3 3 2、1 3 2、1 3 1、2 3 3 = 1 3 ! 1 3 3 3 6 3 1 3 3 3 1 ( 14 )

这个增广状态向量是独特的多项状态向量,<我nl在e-formula id="inf9"> x ̃ d ,这是<我nl在e-formula id="inf10"> x ̃ 取幂,学位d在<一个href="#e15">Eq。15,在那里j是向量项指数和1,2、…d张量维度指标。

x ̃ d j = x d 1 , 2 , , d = x 1 x 2 x d 在哪里 j = 1 + 2 2 1 2 + + k = 1 d d + k 2 k 1 = 1 : , 2 = 1 : , , d 1 = d 2 : , d = d 1 : ( 15 )
n d = = 1 d + 1 ( 16 )

这个增广状态向量,<我nl在e-formula id="inf11"> x ̃ d 的大小nd,因为在<一个href="#e16">Eq。16计算多项式定理(<一个href="#B10">希尔德布兰,2009)。张量是一个非唯一的过程展开,展开不同收益率不同的系数向量。这些解决方案集都是最小值相同的展开问题。<一个href="#SM1">补充附录部分S10.1给增广状态向量的显式描述提升学历和相应的多项式系数向量。

多项式系数的一般解向量一个d(j)是在<一个href="#e17">Eq。17,操作员(⋅)二项式系数的选择d州的米州和总数n是个体的数量吗x在多项状态<我nl在e-formula id="inf12"> x ̃ d ( j ) (<一个href="#B10">希尔德布兰,2009)。的大小一个d也遵循(<一个href="#e16">Eq。16)。多项式系数向量索引j在<一个href="#e17">Eq。17符合国家j指数<一个href="#e17">Eq。17。明确提升系数定义的命令<我nl在e-formula id="inf13"> x ̃ d ( j ) 表8中给出<一个href="#SM1">补充附录部分S10.1。

一个 d j = 1 d ! d n 1 , n 2 , , , n n 1 = O x 1 x ̃ d j , , n = O x x ̃ d j ( 17 )

雅可比矩阵的一般解<我nl在e-formula id="inf14"> J ̃ f 2 ( : , j ) 在<一个href="#e18">Eq。18。该指数j修改后的雅可比矩阵<我nl在e-formula id="inf15"> J ̃ f d 映射的索引j多项式的状态向量<我nl在e-formula id="inf16"> x ̃ d 映射与一个额外的规则:第一个维度的索引0在最初的雅可比矩阵张量<我nl在e-formula id="inf17"> J f d 直接转化成第一个维度的索引0在修改后的雅可比矩阵<我nl在e-formula id="inf18"> J ̃ f d 。的显式定义的一个例子<我nl在e-formula id="inf19"> J ̃ f 2 ( : , j ) 表8中可以找到<一个href="#SM1">补充附录部分S10.1。请注意,对于d≤米,1d米+ 1不增加指数但呆在指数1为多项国家虚拟维度,系数和雅可比矩阵派生。

J ̃ f d 0 , j = J f d 0 , 1 , 2 , , d j = 1 + 2 2 1 2 + + k = 1 d d + k 2 k 0 = 1 : n 1 = 1 : , 2 = 1 : , , d 1 = d 2 : , d = d 1 : ( 18 )

压缩冗余状态方面节省了大量的计算,特别是在现实世界的应用程序的状态数和推导近似与两个以上的衍生品。一般的减速比,r之间,独特的数量条款和完整的扩张了<一个href="#e19">Eq。19。

r = 1 = 1 d + 1 d ( 19 )

可以看到减少接近100%,大州为0%,标量域,<一个href="#F1">图1 c。真实的还原速度落在某个地方米=∞边界曲线和米= 1。最小数量的州和衍生品收益率显著减少计算已经达到25%米= 2,d= 2衍生品。表6中<一个href="#SM1">补充附录部分S10.1说明导数的减速比尺度秩序,明确相应数量的计算状态全张量的扩张而独特的状态方面的增广状态向量<我nl在e-formula id="inf20"> x ̃ d 。出于线性解决方案和重要的计算成本,这样的框架是派生的张量衍生品和州泰勒展开式可以改造成一个独特的多项式矩阵和向量,分别。

4张量神经网络的衍生品

这部分源于不同的单层神经网络张量的衍生品<我nl在e-formula id="inf21"> J f d 填充泰勒级数。张衍生品评估在原点<我nl在e-formula id="inf22"> J f d x = 0 是系数张量一个d。本节的推导是整个流程的下一步单层神经网络逼近的多项式函数。导数公式覆盖广泛的最受欢迎的网络,分为网络类型和激活函数。前馈网络层包含在这一节中,卷积和复发性层。激活功能包括二进制,马克斯,线性,ReLU, softmax,乙状结肠,双曲正切,和概率,中引用<一个href="#T1">表1。

表1
www.雷竞技rebatfrontiersin.org

表1。激活函数类型提升复杂性与它们相关的向量和索引表达式。

张导,近似神经网络层是由细胞层类型的配对和激活函数类型;一层前馈与ReLU激活不同的张量比前馈与乙状结肠激活层衍生品。下面的内容将改变相关的转换σ(⋅)和计算提升订单不同的神经网络层衍生品来填充一个张量形式的泰勒近似(<一个href="#e5">情商。以矩阵形式),然后明确(<一个href="#e18">Eq。18)。层类型说明<一个href="#F2">图2。

图2
www.雷竞技rebatfrontiersin.org

图2。单层基础类型转换的输入输出:(一)感知器层,(B)卷积层,(C)复发性层。

4.1感知器层

一个单层前馈网络n数量的神经元层中描述<一个href="#F2">图2一个。一个隐藏层的输出yF是一个变换fF输入的x,学会了重量和偏见矩阵,W和b。输入和输出向量形式,x的大小<我nl在e-formula id="inf29"> R × 1 yF的大小<我nl在e-formula id="inf30"> R n × 1 。矢量方程给出<一个href="#e20">Eq。20,在那里σ(⋅)是激活函数。

y F = f F x = σ W , b , x ( 20. )

给出了指数方程<一个href="#e21">Eq。21指数遵循维度的顺序。该指数,我,对应于一个值在输入状态x指数,j在输出状态,对应于一个值yF

y j = f j x = σ w j , b j , x ( 21 )

对于许多激活功能,衍生品截断有限顺序,如二进制、线性和ReLU函数。系数张量这些终止衍生品是微不足道的解决方案为泰勒级数相当于原来的函数表达式。这些派生可能会发现的<一个href="#SM1">补充附录部分S10.2。连续可微的激活函数,如乙状结肠,双曲正切,softmax,概率,泰勒近似系列人工截断在一个用户定义的顺序d(<一个href="#e22">情商。)。

y j 一个 j 0 + = 1 一个 j 1 x + 1 2 ! 1 = 1 2 = 1 一个 j 1 2 2 x 1 2 2 + + 1 d ! 1 = 1 d = 1 一个 j 1 d d x 1 d d ( 22 )

高阶多项式系数张量与之前立即迭代得到多项式系数张量。一般为每个激活函数导数的关系,证明了用归纳法从低阶导数。一般的乙状结肠导数给出<一个href="#e23">Eq。23与二阶项在第0个方程式88 - 90<一个href="#SM1">补充附件作为迭代模式的证据。

一个 j 1 d d = 一个 j 1 d 1 d 1 σ w j d σ b j 1 σ b j ( 23 )

tanh导数给出<一个href="#e24">Eq。24为0<年代up>th到2<年代up>nd衍生品在方程式91 - 93<一个href="#SM1">补充附件。

一个 j 1 d d = 一个 j 1 d 1 d 1 σ w j d 1 σ 2 b j ( 24 )

将softmax导数给出<一个href="#e25">Eq。25为0<年代up>th1<年代up>圣衍生品在94年方程式,95年<一个href="#SM1">补充附件。

一个 j 1 d d = 一个 j 1 d 1 d 1 w j d ( 25 )

概率激活函数有许多不同形式的高斯或径向基函数是最受欢迎的功能,给出了<一个href="#T1">表1。这个函数的多项式系数是复杂表达式的两个中间表达式简化和中更清楚地揭示迭代模式<一个href="#e26">Eq。26:<我nl在e-formula id="inf31"> α t D 和<我nl在e-formula id="inf32"> 年代 t D 。每个多项式系数张量是一个总和nt条款组成的<我nl在e-formula id="inf33"> α t D 和<我nl在e-formula id="inf34"> 年代 t D ,在那里t子表达式的增量D这个词是秩序。的数量条款nt只取决于这个词的顺序D中定义<一个href="#e27">Eq。27。

一个 j 1 d d = t = 1 n t α t D 年代 t D ( 26 )
n t = D + 1 2 ( 27 )

最一般的条件,<我nl在e-formula id="inf35"> α t D 和<我nl在e-formula id="inf36"> 年代 t D 和程度的定义,对于任何术语<一个href="#e28">方程式28,<一个href="#e29">29日表9中,有明确的定义<一个href="#SM1">补充附录部分S10.2和第0个四阶项显式地给出方程式99 - 103<一个href="#SM1">补充附件。

α t D = k = 1 t 1 2 k 1 β j c j t 1 α 1 D t + 1 ( 28 )
年代 t D = l = 1 D 2 t 1 k = l D β j c j k c j ( 29日 )

4.2卷积层

卷积层通常使用两种类型的激活函数,线性和马克斯,实现过滤和池。这些激活函数的导数截断在第0个或一阶导数。系数张量,当注入原激活函数的泰勒级数产生精确表示但提供标准索引矩阵和向量转换。一层单层卷积n过滤器的f空间范围,年代步,p补零中描述<一个href="#F2">图2 b。像感知器层,隐藏层的输出,Y转换的输入,X,学会了重量和偏见张量,W和b。与感知器层,输入和输出通常是在矩阵或三阶张量形式,其中X是大小<我nl在e-formula id="inf37"> R w 1 × h 1 × d 1 Y的大小<我nl在e-formula id="inf38"> R w 2 × h 2 × d 2 。给出了张量方程<一个href="#e30">Eq。30。

Y = f C X = σ W , b , X ( 30. )

给出了张量方程的指数<一个href="#e31">Eq。31。指数我,j,k为输出包括:我= 1,2,…,w2,j= 1,2,…,h2,k= 1,2,…,d2。指数l,米,n从:l= 1,2,…,w1,米= 1,2,…,h1,n= 1,2,…,d1

Y ijk = σ W j k , b k , X lmn ( 31日 )

中的线性激活函数卷积层通常被称为一个卷积过滤器和提供输入数据的特征提取。卷积滤波函数利用卷积算子矩阵和指数形式给出<一个href="#e32">Eq。32的定义<我nl在e-formula id="inf39"> X ̃ j 在<一个href="#e33">Eq。33。

Y ijk = W k X ̃ j + b k ( 32 )
X ̃ j = X 年代 1 p + 1 : 年代 1 p + f , 年代 j 1 p + 1 : 年代 j 1 p + f , 1 : d 1 ( 33 )

输入和输出大小之间的关系被定义为网络hyperparameters,重申:过滤器n高度和宽度的过滤器f,步幅年代和填充p,因为在<一个href="#e34">Eq。34。

w 2 = w 1 f + 2 p 年代 + 1 , h 2 = h 1 f + 2 p 年代 + 1 , d 2 = n ( 34 )

的hyperparametersn,f,年代,p是用户定义的一个常见的设置hyperparameters是:f= 3,年代= 1,p= 1。约束p= (f−1)/ 2保留了输入输出大小。学参数W的大小<我nl在e-formula id="inf40"> R f × f × n b的大小<我nl在e-formula id="inf41"> R n 。严格的输出方程指数形式给出<一个href="#e35">Eq。35。

Y ijk = l = 1 f = 1 f n = 1 d 1 W lmn k X l + 年代 1 p , + 年代 j 1 p , n + b k ( 35 )

线性激活函数是一个连续可微函数的泰勒近似级数第一次项后,截断了<一个href="#e36">Eq。36。

Y ijk = 一个 ijk 0 + l = 1 w 1 = 1 h 1 n = 1 d 1 一个 ijklmn 1 X lmn ( 36 )

第0个和1阶项<一个href="#e37">方程式37,<一个href="#e38">38。<我nl在e-formula id="inf42"> 一个 ijklmn 1 是一个稀疏的六维张量,执行一个等价的卷积操作Wk。泰勒近似收益率的原始函数表达式表示尽管操作的差异表示。

一个 ijk 0 = f ijk X lmn = 0 = b k ( 37 )
一个 ijklmn 1 = f ijk X lmn X lmn = 0 = W l + 年代 1 + p , + 年代 1 j + p , n k , 如果 1 + 年代 1 + p l f + 年代 1 + p 1 + 年代 j 1 + p f + 年代 j 1 + p 0 , 否则 ( 38 )

最大限度的激活函数卷积层通常被称为一个池内层。池层通常遵循一个过滤层,提供翻译不变性的卷积滤波输出。max函数输出输入的最大值,落在内核中。矩阵形式给出<一个href="#e39">Eq。39。

Y ijk = 马克斯 , j , k X 年代 1 + 1 : 年代 1 + f , 年代 j 1 + 1 : 年代 j 1 + f , k ( 39 )

没有不同的内核和没有填充,只有hyperparameters字段大小f和步年代的定义输入和输出大小之间的关系<一个href="#e40">Eq。40。

w 2 = w 1 f 年代 + 1 , h 2 = h 1 f 年代 + 1 , d 2 = d 1 ( 40 )

hyperparameters是常见的设置f= 2,年代= 2。泰勒近似遵循相同的形式<一个href="#e36">Eq。36第一次项后,截断。0<年代up>th和1<年代up>圣顺序给出<一个href="#e41">方程式41,<一个href="#e42">42。泰勒近似收益率的原始函数表达式表示尽管操作的差异表示。

一个 ijk 0 = f ijk X lmn = 0 = 0 ( 41 )
一个 ijklmn 1 = 1 , 如果 X lmn = 马克斯 X ̃ ijk 0 , 否则 ( 42 )

4.3层复发

单层的结构n的复发性单位数层描述了<一个href="#F2">图2 c。隐层节点的输出卷积,<我nl在e-formula id="inf43"> y C t 或者同样的年代t是当前时间步的输入,转换xt前一个时间步的内部状态,年代t−1,学会了重量和偏见矩阵,W,U,b。内部状态,输入和输出通常用向量形式,xt的大小<我nl在e-formula id="inf44"> R × 1 年代t−1和<我nl在e-formula id="inf45"> y C t 的大小<我nl在e-formula id="inf46"> R n × 1 。权重通常以矩阵形式,W的大小<我nl在e-formula id="inf47"> R n × n ,U的大小<我nl在e-formula id="inf48"> R n × ,b的大小<我nl在e-formula id="inf49"> R n × 1 。香草的单位向量关系了<一个href="#e43">Eq。43。

y = f 年代 t 1 , x t = σ W , 年代 t 1 , U , x t , b ( 43 )

在该指数关系<一个href="#e44">Eq。44指数遵循维度的顺序。该指数我在内部状态对应于一个值年代t−1,该指数k对应于一个值在输入状态xt,该指数j对应于一个值在输出状态<我nl在e-formula id="inf50"> y C t

y j = f j 年代 t 1 , x k t = σ w j , 年代 t 1 , u j k , x k t , b j ( 44 )

显式香草RNN矢量方程,给出了指数方程<一个href="#e45">方程式45,<一个href="#e46">46,分别。

y = σ W 年代 t 1 + U x t + b ( 45 )
y j = σ w j 年代 t 1 + k u j k x k t + b j ( 46 )

香草RNN矢量方程可以被改造成一个前馈层类似的张量和系数推导。之前的状态年代t−1和当前输入xt可能会加入一个输入z,因为在<一个href="#e47">Eq。47。

z t = 年代 t 1 x t ( 47 )

合并后的输入z添加剂的大小<我nl在e-formula id="inf51"> R ( n + ) × 1 相关的维度指数l。合并后的权重矩阵,V,在<一个href="#e48">Eq。48和的大小<我nl在e-formula id="inf52"> R n × ( n + )

V = W U ( 48 )

改革后的状态预测矢量方程,给出了指数方程<一个href="#e49">方程式49,<一个href="#e50">50。

y C t = σ V z t + b ( 49 )
y j = σ l v j l z l + b j ( 50 )

改革后的方程之间的相似性的周期性层和前馈层明显。明确的,修改后的泰勒级数展开的改革z在<一个href="#e51">方程式51,<一个href="#e52">52。

f z = f z 0 + J f 1 z 0 z + 1 2 ! J f 2 z 0 z 2 + + R n z ( 51 )
y j 一个 j 0 + l = 1 n + 一个 j l 1 z l + 1 2 ! l 1 = 1 n + l 2 = 1 n + 一个 j l 1 l 2 2 z l 1 l 2 2 + + 1 d ! l 1 = 1 n + l d = 1 n + 一个 j l 1 l d d z l 1 l d d ( 52 )

张量和系数推导中可以找到<一个href="#SM1">补充附录部分S10.2)方程的形式是相同的,但输入状态,权重矩阵,和各自的指标直接类似于前馈推导。

5多层网络近似

多层网络的输出是一个嵌入式泰勒近似的每个层。给定一个网络k层,最终的输出y是一个转换的kth中间状态zk。在输出表达式<一个href="#e53">Eq。53。

y = f o z k = 一个 k , 0 + 一个 k , 1 z k + 一个 k , 2 z k , 2 + + 一个 k , d z k , d ( 53 )

最后一个隐层输出层变换前的中间状态zk−1zk,因为在<一个href="#e54">Eq。54所有中间状态,重复z隐藏层1k−1。输入层将数据输入x第一个中间状态z1,因为在<一个href="#e55">Eq。55。

z k = f k z k 1 = 一个 k 1,0 + 一个 k 1,- 1 z k 1 + 一个 k 1、2 z k 1 , 2 + + 一个 k 1 , d z k 1 , d ( 54 )
z 1 = f 1 x = 一个 , 0 + 一个 , 1 x + 一个 , 2 x 2 + + 一个 , d x d ( 55 )

从输入到输出的映射是一个递归函数嵌入向后从最后一层中间函数,给出了<一个href="#e56">56式。。

y = f x = f o f k f 2 f 1 x ( 56 )

多层近似的验证可能会发现的<一个href="#SM1">补充附录部分S10.4。

6物理约束的形式semi-algebraic约束

开发新的semi-algebraic优化常规激励一个多项式表示的一个未知的动力系统中提取的神经网络。因为许多物理向量场至少分段光滑,我们可以利用泰勒定理构造一个多项式统一接近底层地面实况任意紧随着学历的增加。

在动力系统的背景下,物理定律提供有价值的上下文,可能适用于状态预测。一个更明智的状态预测模型相结合,发现NN-derived多项式状态方程和用户定义semi-algebraic约束。这主要是诱人的,当学习和更新新的多项式表达式时动态数据收集。,线性规划层次结构的半定,有时甚至放宽可能向全球最小值的收敛系数等参数设置内的一个问题。此外,公司的约束容许集的域可能确实崩溃的程度,需要政府维度学习多项式。事实上,在最初的和可能大多项式精确提取的神经网络微分方程分析给出无约束方法在这篇文章中,一个新的优化目标是建立一个层次结构的优化问题同时最小化,度和国家维度,因此压缩参数空间的维度。参数空间的维数,n年代,在<一个href="#e57">Eq。57,在那里n国家的大小吗年代d多项式的次数。

n 年代 d = n + d d = n + d ! d ! n ! ( 57 )

本节提供了常见约束但在应用程序中,可以定义多项式形式的任何约束和附加到这个大组线性方程。全面负责刚体动力学是翻译xyz和旋转,θxθyθz),在所有六个自由度和相关的速度,用导数点以上的状态。完整的状态向量所示<一个href="#e58">Eq。58。

年代 = x y z x ̇ y ̇ z ̇ θ x θ y θ z θ ̇ x θ ̇ y θ ̇ z ( 58 )

预测动力学模型,神经网络可以训练发展一个离散的过渡模式fd取得下一个状态年代k+ 1从当前状态年代k或连续模型fc取得当前状态的导数<我nl在e-formula id="inf53"> 年代 ̇ k ,因为在<一个href="#e59">方程式59,<一个href="#e60">60,分别。

年代 k + 1 = f d 年代 k ( 59 )
年代 ̇ k = f c 年代 k ( 60 )

感兴趣的一些建议约束分为系统在任何外部影响,外部影响,和物理约束。在没有外部的影响下,系统的总能量(动能和势能U)是守恒的,给出<一个href="#e61">Eq。61。同样,在翻译和动量是守恒的角度,给出了<一个href="#e62">Eq。62。如果转动自由度的限制,θ条款<一个href="#e62">Eq。62是零,约束翻译,x,y,z术语是零。

1 2 x ̇ k y ̇ k z ̇ k x ̇ k y ̇ k z ̇ k + θ x k θ y k θ z k θ x K θ y k θ z K + U 年代 k = 1 2 x ̇ k + 1 y ̇ k + 1 z ̇ k + 1 x ̇ k + 1 y ̇ k + 1 z ̇ k + 1 + θ x , k + 1 θ y , k + 1 θ z , k + 1 θ x , k + 1 θ y , k + 1 θ z , k + 1 + U 年代 k + 1 ( 61年 )
x ̇ k y ̇ k z ̇ k + θ x , k θ y , k θ z , k = x ̇ k + 1 y ̇ k + 1 z ̇ k + 1 + θ x , k + 1 θ y , k + 1 θ z , k + 1 ( 62年 )

外部的影响下,这些矩阵等式变成矩阵不等式和额外的外部集成。关于能量守恒,如果这个外部的影响有一个已知的能源关系,外部工作项W(年代)可能会出现<一个href="#e63">Eq。63。同样,动量守恒方程是修改与外部影响的力和力矩,在<一个href="#e64">Eq。64。如果转动自由度的限制,θ条款<一个href="#e64">Eq。64是零,约束翻译,x,y,z术语是零。

1 2 x ̇ k y ̇ k z ̇ k x ̇ k y ̇ k z ̇ k + θ x k θ y k θ z k θ x k θ y k θ z k + U 年代 k + W 年代 k 1 2 x ̇ k + 1 y ̇ k + 1 z ̇ k + 1 x ̇ k + 1 y ̇ k + 1 z ̇ k + 1 + θ x , k + 1 θ y , k + 1 θ z , k + 1 θ x , k + 1 θ y , k + 1 θ z , k + 1 + U 年代 k + 1 + W 年代 k + 1 ( 63年 )
x ̇ k y ̇ k z ̇ k + F 年代 k Δ t + θ x , k θ y , k θ z , k + τ 年代 k Δ t = x ̇ k + 1 y ̇ k + 1 z ̇ k + 1 + F 年代 k + 1 Δ t + θ x , k + 1 θ y , k + 1 θ z , k + 1 + τ 年代 k + 1 Δ t ( 64年 )

以外的物理规律的动态,更一般的约束绑定一个不等式的形式。州边界可能导致从物理边界,身体不能相交的另一个身体。一个下界和更高的束缚<一个href="#e65">Eq。65,在那里r是一个参考点。

年代 k + 1 r 年代 k + 1 r ( 65年 )

这两个约束可以叠加只要约束不相互冲突。另一组边界条件的结果状态的关系和信号状态导数,给出了状态不平等(<一个href="#e66">Eq。66)。

年代 k + 1 年代 k 如果 年代 ̇ k 0 年代 k + 1 年代 k 如果 年代 ̇ k 0 ( 66年 )

7与约束同时解决状态预测

拟议中的NN-Poly方法可以用作系统识别方法和/或状态预测方法。状态预测解决方案在多项式矩阵形式和基础空间中给出<一个href="#e67">Eq。67,在那里yk导数是什么状态年代k或传播状态年代k+ 1

y k = J ̃ f d 一个 d 年代 ̃ d ( 67年 )

正如前面推导的,<我nl在e-formula id="inf54"> J ̃ f d 一个d都只与数值矩阵填充系数近似神经网络函数。在一起,<我nl在e-formula id="inf55"> J ̃ f d 一个 d 是一个类似的状态转移矩阵,传统的输入状态年代k增强为前面定义的高阶多项式基空间<我nl在e-formula id="inf56"> 年代 ̃ d 。正如前面所示的,约束可表示为线性方程相同的多项式空间基础。与状态预测同时求解等式约束,约束方程的矩阵,he是附加到多项式状态方程矩阵,所示<一个href="#e68">Eq。68,并与半定规划解决(sdp)。

y k h e = J ̃ f d 一个 d H e 年代 ̃ d ( 68年 )

对于不等式约束,数值程序可能被利用来解决semi-algebraic优化问题,给出了<一个href="#e69">Eq。69,在那里h是不等式约束方程。解决semi-algebraic优化问题是这项研究的范围之外,但是作者引用我们普遍的工具,如线性规划和半定规划包(<一个href="#B14">Lasserre 2015)。这些sdp凸但增长任意大的迭代。未来的研究包括利用信息包含在约束知道系统来减少这些sdp的大小,建筑的工作<一个href="#B1">艾哈迈迪和El Khadir (2020)。

y k = J ̃ f d 一个 d 年代 ̃ d 这样 h H 年代 ̃ d ( 69年 )

一个可以实现有限状态预测实时嵌入式动态系统在学习应用程序。循环算法,神经网络可以训练每迭代收集测量,然后随后的多项式可以生成和状态预测/控制工作与预定义的约束限制。data-constrained应用程序包括后处理系统的其他应用程序识别,神经网络的参数比大型数据集更有效的沟通,就像空间或深海的应用程序。

8 NN-Poly状态预测的性能

我们的目标在这些结果是指之间的近似最小损失NN-Poly和模型推导出直接从数据:神经网络和多项式。在无约束情况下,NN-Poly只能尽可能准确的神经网络与多项式近似多项式来源于神经网络。同样,NN-Poly只能尽可能准确的一个多项式发现从原始数据因为NN-Poly丢失原始数据之间的信息和神经网络表示。在NN-Poly受限的情况下,有能力将领域知识的神经网络不能捕捉,提供NN-Poly能力更好地代表底层动态系统生成数据;例如,神经网络训练数据产生一个弹跳球可以预测球的状态与地面相交,但约束放在多项式模型绑定预测球与地面不相交,产生更精确的状态预测。拟议的泰勒展开式与MATLAB的神经网络参数编码(<一个href="https://github.com/alexdhjing/NNX_matlab">https://github.com/alexdhjing/NNX_matlab)。指标来评估每个方法的性能效率,准确性和复杂性。本节讨论的方法比较,指标来评估性能和后续的结果状态预测方法。

8.1方法

几个动态模型是用来测量每个状态预测方法的效率和精度,不仅在预测模型中还表示。每个算法训练两两相同的输入和输出数据,产生真正的动态模型,来预测一系列动态系统的状态。表单的输入-输出数据对{xk,xk+ 1},在时间步输入状态向量k和输出的时间k+ 1。大多数数据对训练的各种模型和其他数据对评估状态误差和计算时间。其他指标评估模型系数和结构训练后。所有指标都是正式定义在下一小节。

选择的动态模型是在提升选择的复杂性,从一个二维特征空间与线性动力学和非线性动力学。1自由度欠阻尼的线性弹簧质量阻尼系统有一个线性矩阵从之前的状态转换到下一个状态,构成最简单的动态系统识别、描述<一个href="#e70">Eq。70。1自由度非线性弹簧系统非线性弹簧刚度和由微分方程,给出了<一个href="#e71">Eq。71。一个2自由度弹簧摆演示了动力学的非线性和耦合,给出了<一个href="#e72">Eq。72。在1自由度非线性弹簧和2自由度弹簧摆情况下,运动传播状态的微分方程生成数据。系统识别方法不产生加速度的表达式但以前生成的映射状态到下一个状态,隐式积分二阶导数。

x t + 1 v t + 1 = 0.9995 0.01 0.0999 0.9985 x t v t ( 70年 )
x ̈ = 3 μ 0 2 π x + 一个 4 ( 71年 )
x ̈ y ̈ = 5 x 2 + y 2 1 x x 2 + y 2 5 x 2 + y 2 1 y x 2 + y 2 10 ( 72年 )

8.2指标的评估

评价指标是计算时间、状态误差(均方误差),系数误差,解决方案,长度和稳定系数,给出<一个href="#T2">表2。状态误差的均方误差形式的算法的状态预测和小错误的真实状态代表了一种更精确的近似。系数误差是指系数向量c的长度米针对多项式解,小错误又意味着一个更精确的模型。参数稳定性指的是学习参数,与所有方法相关,值接近1代表高稳定性和值接近无穷代表不稳定。解决方案的长度是指的数量h(x)的少数代表了一个更简洁的解决方案。

表2
www.雷竞技rebatfrontiersin.org

表2。指标评价系统辨识动态系统的方法。

8.3的复杂性

我们将探索复杂性的方法通过推导和比较失败的数量为以下方法:多项式直接从数据,训练一个神经网络和NN-Poly。直觉之前甚至接近一个严格的推导,NN-Poly方法明确有关神经网络参数多项式系数,模拟一个“硬编码”计算。我们增加了计算时间为评价指标如表元素调用从内存可能是最在NN-Poly方法计算密集型任务。计算多项式系数直接从大数据集的最小二乘法将由于反矩阵计算密集型操作尺度立方维度的数据集。神经网络的失败取决于训练时期直到收敛,随机神经网络的初始参数化有关。所有失败的计算,我们将假设:

•输入状态的大小米大小和输出状态n是等价的米=n

•国家大小米远小于训练点的数量t,米≪t

最小二乘法计算多项式系数一个一个矩阵的输入X和输出Y在<一个href="#e73">Eq。73,在那里一个p是一组由最小二乘法多项式系数。

一个 p = Y X d T X d X d T 1 ( 73年 )

失败的数量一个多项式导出直接从数据中给出<一个href="#e74">Eq。74。中间步骤给出了135 - 138年的方程式<一个href="#SM1">补充附录部分S10.5。

O 一个 p t d d ! + 3 d d ! ( 74年 )

训练神经网络,我们必须考虑每个时代向前传球和向后传播整体训练数据。在神经网络实现,但不一定在所有训练数据的推导失败将假定简化计算。我们还假设网络只有一层k神经元。失败的总数来训练一个神经网络给出<一个href="#e75">Eq。75。

O 神经网络 n k t ( 75年 )

这个神经网络转换成一个多项式,为每个多项式多项式系数程度鳞片层的神经元数量。最高阶多项式主导的失败,这接近失败的总数将单层神经网络k神经元的多项式的程度d给出了<一个href="#e76">Eq。76。一组多项式系数来源于神经网络给出了<我nl在e-formula id="inf60"> 一个 N N d 。中间步骤方程式140 - 145所示<一个href="#SM1">补充附录部分S10.5。

O 一个 N N d k d + 1 ( 76年 )

训练一个神经网络组合的复杂性和转换这些神经网络参数给出了多项式系数

O 神经网络 + 一个 N N d k 2 t + k d + 1 ( 77年 )
= k 2 t + d + 1 ( 78年 )

神经网络训练的条件更比NN-Poly转换中给出了计算复杂<一个href="#e79">Eq。79。

O 神经网络 > O 一个 N N d , 如果 t > d 1 O 一个 N N d > O 神经网络 , 否则 ( 79年 )

给定的顺序每个方法的复杂性,最终产生一个多项式(直接从数据和多项式最小二乘多项式神经网络参数),条件是什么国家的大小米、培训数据大小t神经元和神经网络的大小k使这两种方法都或多或少比其他复杂吗?NN-Poly方法不复杂的条件比从原始数据给出了一个多项式<一个href="#e80">Eq。80。

O 一个 p > O 神经网络 + 一个 N N d , 如果 k < t + d d ! O 神经网络 + 一个 N N d > O 一个 p , 否则 ( 80年 )

凭直觉,NN-Poly方法在计算上有利的下列条件:

•有很多训练点

•小神经网络

•国家规模很大

•国家规模足够大、多项式程度很大

复杂性并不完全捕捉计算负载,NN-Poly方法严重依赖内存调用。下一节包含计算时间出于这个原因。

8.4结果

对于每一个动态系统,<一个href="#T3">表3- - - - - -<一个href="#T5">5报告的性能严格的多项式,唯一NN和NN-Poly动态系统。无论一个ϵ在表中列出,ϵ表示一个非常小的值在机器的精度。NN-polynomial扩张的计算时间不包括神经网络训练时间,只有时间将神经网络参数转换为多项式系数。

表3
www.雷竞技rebatfrontiersin.org

表3。1自由度弹簧性能的评价系统识别方法。

最好的方法预测1自由度线性弹簧状态是严格的多项式;虽然好奇,但NN-Poly准确预测原系统状态矩阵系数。所示的性能在所有方法<一个href="#T3">表3。拟议中的NN-Poly近似法的性能在每个国家的时间序列和增加多项式度所示<一个href="#F3">图3。正如所料,增加多项式近似产量少的订单状态错误,虽然没有多少性能得到过去的二阶近似,在<一个href="#F3">图3。每个学位的小误差信号,最后从每个神经网络解决方案随机初始化不同误差不大。NN-polynomial转换计算可比,但包括更多的国家错误的预期。这个简单的测试用例是最好的和最简单的解算器,解决了直接多项式解决方案;即使是最小二乘解就足够了。这个系统不需要复杂,表达系统的简单识别方法由于其线性形式。

图3
www.雷竞技rebatfrontiersin.org

图3(一)三阶NN-Poly近似1自由度线性系统每个状态和错误的区别。(B)MSE误差位置和速度NN-Poly近似状态在不同的订单。

最好的方法预测神经网络和NN-Poly 1自由度非线性弹簧状态,和性能报告<一个href="#T4">表4。与线性系统近似,提出NN-Poly近似不同神经网络参数的初始化,不收敛于稳态误差,直到第四个订单,看到<一个href="#F4">图4。唯一NN和NN-Poly近似数据最少的状态错误,生成最小表示法,收益最稳定的参数的方法。随后,国家NN-Poly保留相同的值从神经网络误差,证明的准确性从神经网络的形式转变为多项式形式,同时还提供一种应用的领域知识和安全保证。

表4
www.雷竞技rebatfrontiersin.org

表4。1景深flux-pinned系统评估所有系统识别方法的性能。

图4
www.雷竞技rebatfrontiersin.org

图4(一)三阶NN-Poly近似1自由度非线性弹簧系统每个状态和错误的区别。(B)MSE误差位置和速度NN-Poly近似状态在不同的订单。

2自由度系统,神经网络和NN-Poly预测准确,看到<一个href="#T5">表5。三阶NN-poly近似为每个国家所示<一个href="#F5">图5一个。NN-Poly MSE误差随增加多项式程度和不收敛到四阶之后,看到的<一个href="#F5">图5 b。神经网络和NN-Poly预测2自由度系统用更少的条件。每个方法有类似的参数稳定性和计算时间。这耦合和略非线性动态系统横跨边界在决定使用哪个模型。

图5
www.雷竞技rebatfrontiersin.org

图5(一)三阶NN-Poly近似一个2自由度的非线性耦合spring-pendulum系统每个状态和错误的区别。(B)2自由度spring-pendulum个人MSE误差位置和速度不同的订单状态NN-Poly近似。

表5
www.雷竞技rebatfrontiersin.org

表5。2自由度弹簧摆系统评估所有系统识别方法的性能。

9的结论

利用最近的深度学习的进步,NN-Poly提供准确的预测的非线性、耦合系统动力学以最小的上下文。避免了NN-to-polynomial映射需要下载大量的数据和一个多项式直接适合大数据量利用NN的密实度。一个多项式增强可解释性的依赖明确的神经网络,使其功能,为多项式分析和数学文学有着悠久的历史,包括安全验证和担保。这项工作的主要贡献是提供一个多项式形式和semi-algebraic约束、多项式不等式和等式约束等捕获最终预测的神经网络模型和系统上下文功能的解决方案。这些semi-algebraic约束表示领域知识的应用,如能量守恒形式的二次利率,和安全约束,如线性不等式约束特定状态值。这项努力的结果显示类似的预测和计算性能之间唯一的神经网络,唯一的多项式,线性系统的方法但伟大的改善提出了高度非线性系统的方法。进一步的未来的工作还包括更复杂的系统的近似,在增加自由度,程度的非线性,在耦合的状态。

数据可用性声明

在这项研究中提出的数据集可以在网上找到存储库。库的名称/存储库和加入号码可以找到(s)如下:<一个href="https://github.com/alexdhjing/NNX_matlab">https://github.com/alexdhjing/NNX_matlab。

作者的贡献

FZ是主要作者对于大多数这手稿和派生所有产生的理论方程。DJ的情节写的代码生成的结果。FL贡献的洞察力和部分semi-algebraic约束。科幻回顾了纸和协助识别差距的解释。FL和科幻的轨迹引导研究的贡献。

资金

FZ感谢NASA空间技术研究奖学金授予NNX15AP55H和NSF人工智能研究所的动力学系统奖号2112085支持这项研究。科幻的工作是由美国海军研究办公室(ONR)授予n00014 - 19 - 1 - 2266。

确认

FZ要感谢切尔西Sidrane和西班牙Potnis有价值的反馈。

的利益冲突

作者DJ是受雇于公司华为。

其余作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或那些出版商编辑和评论员。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:<一个href="//www.thespel.com/articles/10.3389/frobt.2022.968305/full">https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frobt.2022.968305/full补充材料

引用

艾哈迈迪,A。,El Khadir, B. (2020). “Learning dynamical systems with side information,” in<年代p一个ncl一个年代年代="conf-name">学习动力和控制(PMLR),718年。

谷歌学术搜索

艾哈迈迪,A。,Parrilo, P. A. (2011). “Converse results on existence of sum of squares lyapunov functions,” in<年代p一个ncl一个年代年代="conf-name">2011年50 IEEE会议决定和控制和欧洲控制会议(IEEE),6516年。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Converse+results+on+existence+of+sum+of+squares+lyapunov+functions&btnG=">谷歌学术搜索

克兰麦,M。,不安暴风雪,S。霍耶,S。,Battaglia, P., Spergel, D., and Ho, S. (2020). Lagrangian neural networks.一个rX我v预印本arXiv: 2003.04630。

谷歌学术搜索

Djeumou F。尼瑞,C。,Goubault, E., Putot, S., and Topcu, U. (2022). “Neural networks with physics-informed architectures and constraints for dynamical systems modeling,” in<年代p一个ncl一个年代年代="conf-name">学习动力和控制会议(PMLR),263 - 277。

谷歌学术搜索

Dutta年代。,Chen,X。Sankaranarayanan领导,美国(2019年)。“可达性分析神经反馈系统使用回归多项式规则推理,”<年代p一个ncl一个年代年代="conf-name">学报22 ACM国际会议上混合动力系统:计算和控制。(IEEE)。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Reachability+analysis+for+neural+feedback+systems+using+regressive+polynomial+rule+inference&btnG=">谷歌学术搜索

法拉利,S。陆克文,K。,米uro,G. (2013). “A constrained backpropagation (cprop) approach to function approximation and approximate dynamic rogramming,” in<年代p一个ncl一个年代年代="conf-name">强化学习和近似动态规划的反馈控制器,162 - 181。l。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=A+constrained+backpropagation+(cprop)+approach+to+function+approximation+and+approximate+dynamic+rogramming&btnG=">谷歌学术搜索

法拉利,S。,Stengel, R. F. (2005). Smooth function approximation using neural networks.我EEE反式。神经。16日,24-38。doi: 10.1109 / tnn.2004.836233

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1109/tnn.2004.836233">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Smooth+function+approximation+using+neural+networks&btnG=">谷歌学术搜索

格拉纳多斯(2015)。多元函数的泰勒级数。

谷歌学术搜索

不安暴风雪,S。Dzamba, M。,Yo年代在年代k我,J。(2019). “Hamiltonian neural networks,” in先进的神经信息处理系统。编辑h .瓦拉赫,h . Larochelle a . Beygelzimer 'Alche-Buc f . d, e·福克斯和r·加内特(<年代p一个ncl一个年代年代="publisher-name">Curran Associates Inc .)),32。

谷歌学术搜索

希尔德布兰,a (2009)。多项式的系数。

谷歌学术搜索

Hornik, K。,Stinchcombe, M., and White, H. (1989). Multilayer feedforward networks are universal approximators.神经。2,359 - 366。0893 - 6080 . doi: 10.1016 / (89) 90020 - 8

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Multilayer+feedforward+networks+are+universal+approximators&btnG=">谷歌学术搜索

黄,C。风扇,J。李,W。,Chen,X。,朱问:(2019)。Reachnn:可达性分析的神经网络控制系统。一个C米反式。嵌入。第一版。系统。18、22页。doi: 10.1145 / 3358228

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1145/3358228">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Reachnn:+Reachability+analysis+of+neural-network+controlled+systems&btnG=">谷歌学术搜索

Lagaris,即。lika,。,Fot我一个d我年代,D。我。(1998). Artificial neural networks for solving ordinary and partial differential equations.我EEE反式。神经。9日,987 - 1000。doi: 10.1109/72.712178

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1109/72.712178">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Artificial+neural+networks+for+solving+ordinary+and+partial+differential+equations&btnG=">谷歌学术搜索

Lasserre j . b . (2015)。介绍多项式和semi-algebraic优化,52岁。剑桥大学:<年代p一个ncl一个年代年代="publisher-name">剑桥大学出版社。

谷歌学术搜索

利普顿z . c (2018)。模型的可解释性的神话。队列16日,31-57。doi: 10.1145/3236386.3241340

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=The+mythos+of+model+interpretability&btnG=">谷歌学术搜索

刘,W。,Lai, Z., Bacsa, K., and Chatzi, E. (2022). Physics-guided deep markov models for learning nonlinear dynamical systems with uncertainty.动力机械。系统。信号的过程。178年,109276年。doi: 10.1016 / j.ymssp.2022.109276

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Physics-guided+deep+markov+models+for+learning+nonlinear+dynamical+systems+with+uncertainty&btnG=">谷歌学术搜索

Narasimhamurthy, M。库什纳,T。Dutta S。,Sankaranarayanan, S. (2019). “Verifying conformance of neural network models,” in<年代p一个ncl一个年代年代="conf-name">2019年IEEE计算机辅助设计/ ACM国际会议上(ICCAD) (IEEE)1。

谷歌学术搜索

Pinkus, a (1999)。近似理论的神经网络模型。一个ct一个号码。8,143 - 195。doi: 10.1017 / s0962492900002919

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Approximation+theory+of+the+mlp+model+in+neural+networks&btnG=">谷歌学术搜索

Psichogios, d . C。,Ungar, L. H. (1992). A hybrid neural network-first principles approach to process modeling.一个我ChE J。38岁,1499 - 1511。doi: 10.1002 / aic.690381003

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=A+hybrid+neural+network-first+principles+approach+to+process+modeling&btnG=">谷歌学术搜索

Raissi, M。,Perdikaris, P., and Karniadakis, G. E. (2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations.j。第一版。理论物理。378年,686 - 707。doi: 10.1016 / j.jcp.2018.10.045

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Physics-informed+neural+networks:+A+deep+learning+framework+for+solving+forward+and+inverse+problems+involving+nonlinear+partial+differential+equations&btnG=">谷歌学术搜索

Rolnick D。,Tegmark, M. (2017). The power of deeper networks for expressing natural functions.一个rX我v预印本arXiv: 1705.05502。

谷歌学术搜索

鲁迪,s . H。,Brunton, S. L., Proctor, J. L., and Kutz, J. N. (2017). Data-driven discovery of partial differential equations.科学。睡觉。3,e1602614。doi: 10.1126 / sciadv.1602614

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1126/sciadv.1602614">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Data-driven+discovery+of+partial+differential+equations&btnG=">谷歌学术搜索

Sidrane C。Katz, S。,Cor年代o,一个。,Kochenderfer m . j . (2022)。验证神经网络逆模型。一个rX我v预印本arXiv: 2202.02429。

谷歌学术搜索

王的年代。,Sankaran, S., and Perdikaris, P. (2022). Respecting causality is all you need for training physics-informed neural networks.一个rX我v预印本arXiv: 2203.07404。

谷歌学术搜索

关键词:神经网络、安全、可解释性、多项式、动态系统,预测

引用:朱F, Leve Jing D, F和法拉利(2022)NN-Poly:近似常见与泰勒多项式神经网络,使动力系统约束。前面。机器人。人工智能9:968305。doi: 10.3389 / frobt.2022.968305

收到:2022年6月13日;<年代p一个n>接受:2022年8月05;
<年代p一个n>发表:2022年11月08年。

编辑:

马塞洛·罗马诺美国海军研究生院

审核:

Pitoyo HartonoChukyo大学日本
<一个href="//www.thespel.com/loop/people/1072180/overview">穆罕默德汗土耳其Atılım大学

版权Leve©2022朱,精,和法拉利。这是一个开放分布式根据文章<一个rel="license" href="http://creativecommons.org/licenses/by/4.0/" target="_blank">知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:弗朗西丝·朱,<一个href="mailto:zhuf@hawaii.edu">zhuf@hawaii.edu

下载