跳转到主要内容

原始研究的文章

前面。信号的过程。,2022年4月05
秒。信号处理理论
卷2 - 2022 | https://doi.org/10.3389/frsip.2022.794469

多元李普希茨分析神经网络的稳定性

  • 1法国信息中心de愿景Numerique CentraleSupelec,大学Paris-Saclay,温度,法国2空中机动方案提单,泰利斯公司拉斯维加斯,Rungis快递,法国

神经网络对敌对的扰动的稳定性一直得到广泛的研究。的一个主要策略包括量化神经网络的李普希茨规律。在本文中,我们引入一个多元李普希茨constant-based稳定性分析的完全连接神经网络让我们捕捉每个输入的影响或一组输入神经网络稳定。我们的方法依赖于一个合适re-normalization输入空间的目的来执行一个比一个更精确的分析提供了一个全局李普希茨常数。我们调查的数学特性提出了多元李普希茨分析和显示它的实用性在更好地理解的敏感性神经网络对输入组。我们显示结果分析的一种新的表示方法为机器学习设计从业者和安全工程师称为李普希茨明星。李普希茨星是一个图形和实用工具来分析神经网络模型在其发展的敏感性,对不同组合的输入。利用这个工具,我们表明,可以构建robust-by-design模型使用光谱归一化技术控制神经网络的稳定性,给出安全李普希茨的目标。感谢我们的多元李普希茨分析,我们还可以测量对抗训练推理任务的效率。我们执行实验各种开放获取表格数据集,和一个真正的泰利斯空中机动工业应用认证要求。

1介绍

人工神经网络是人工智能的最新进展的核心。今天面临的一个主要挑战,特别是公司设计先进的工业系统,是确保安全的使用这些技术的新一代产品。神经网络已被证明是敏感的对抗性的扰动(<一个href="#B21">Szegedy et al ., 2013)。例如,改变几个像素的图像可能导致误分类的形象深神经网络(款),强调的潜在缺乏稳定的架构。款被敏感的对抗性的例子,因此可以愚弄,故意地(安全问题)或存在/意外的方式(安全问题),这提出了一个主要关心安全至上的系统稳定性,需要由一个独立的认证机构认证之前,任何进入生产/操作。DNN-based解决方案受阻的问题由于其复杂的非线性结构。尝试对验证神经网络已经在(例如<一个href="#B12">Katz et al ., 2017;<一个href="#B26">翁et al ., 2019)。它已被证明在<一个href="#B23">齐et al ., 2018 b)之间存在一个平衡,神经网络的预测性能和稳定性。

在过去的几年,作品的数量用于神经网络的稳定性问题已经在集合管。在这些作品中,术语“稳定”,“鲁棒性”或“地方健壮性”是交替使用具有相同含义的正式定义在本文作为神经网络的程度可以继续操作正确,尽管小扰动的输入。这里的稳定性判据认为强调了这样一个事实,这些小扰动的输入不产生高变化的输出。提出了很多方法,一些致力于特定的架构(例如,网络只使用ReLU激活函数)和基于或多或少的经验技术。我们可以打破这些技术大致分为三个类别:

•纯粹的计算方法由一个神经网络的攻击和观察其应对此类攻击,

•基于(通常是聪明)启发式方法进行测试/促进神经网络的稳定性,

•研究旨在建立稳定的数学证明。

这三种策略有助于建立和认证有效强健的神经网络。然而,基于数学证明的技术稳定的工业安全专家通常是首选,因为他们使safe-by-design比鲁棒性验证活动更加有效的方法完成后验必然有界的努力。在可能的数学方法,我们在本文中关注那些依赖李普希茨分析神经网络的属性。这些属性中发挥基础性作用的理解内部机制管理这些复杂的非线性系统。此外,他们做一些假设在使用何种类型的非线性,因此适用范围广泛的网络。不过,他们生成一个许多挑战从理论和数值的立场。

因为款敏感特定扰动小,提供一个定量的估计这种体系结构的稳定性是至关重要的安全产品开发的领域如航空、地面运输、自主车辆、能源和医疗保健。评估神经网络稳定性的对抗性的扰动是李普希茨常数,该上界之间的比例和输入输出变化对于一个给定的指标变化。更普遍的是,在小说深入学习理论,概括范围极度依赖李普希茨常数的神经网络<一个href="#B2">巴特利特et al ., 2017)。的一个主要的限制李普希茨常量,定义在全局或局部上下文,它只提供一个参数量化神经网络的鲁棒性。这样一个单个参数分析不方便的理解的潜在来源不稳定。特别是,它可能是富有洞察力的识别的输入影响的敏感性最高。在输入表格数据挖掘的背景下,经常有异构的特点。有些分类数据,经常在特定的方式(如编码。在一个炎热的编码器(<一个href="#B11">汉考克和Khoshgoftaar, 2020年),其中,一个通常可以区分那些无序(如标签识别国家)或那些排序(如疾病严重程度评分)。它可能有用的分析出现在一个特定的方式每种类型的神经网络的输入,有时甚至排除这些输入(例如,无序分类数据的小扰动的概念可能是无意义的)进行敏感性分析。

的贡献的工作总结如下:

•李普希茨的多变量分析得到的属性是由生成一组局部李普希茨常数。这将打开一个新维度研究得到的稳定性。

•我们的灵敏度分析使我们能够捕捉单个输入的行为或一组输入。

•分析结果显示由一个新的图形表示称为李普希茨明星。

•使用提出的分析,我们也研究定量光谱归一化约束的作用和对抗的训练得到的稳定。

•我们展示我们的结果在不同的开源数据集以及一个真正的空中交通管理的工业应用领域。

在下一节中,我们给出一个详细描述的最先进的相关量化李普希茨常数的神经网络。第三节给我们建议的方法与灵敏度的输入和介绍李普希茨星星。第四节为我们提供了一个分析评价方法与合成数据集。在下一节中详细结果给出三种开源数据集和一个真正的安全关键工业数据集。最后一节总结我们的论文。

<一个我d="h3" name="h3">

2概述的估计李普希茨前馈网络的常数

2.1理论背景

一个多层前馈网络可以通过下面的递归方程建模:

<米我>我<米o>∈<米fenced open="{" close="}"> 1 ,<米o>…<米o>,<米我>米 x =<米sub> T x <米o>−<米n> 1 =<米sub> R W x <米o>−<米n> 1 +<米sub> b ,<米space width="5em"> (<米n> 1 )

在那里,在th层,<我nline-formula id="inf1"> x <米o>−<米n> 1 <米吃晚饭><米row> R N <米o>−<米n> 1 指定的输入向量,<我nline-formula id="inf2"> x <米吃晚饭><米row> R N 输出一个<我nline-formula id="inf3"> W <米吃晚饭><米row> R N ×<米sub> N <米o>−<米n> 1 是权重矩阵,<我nline-formula id="inf4"> b <米吃晚饭><米row> R N 偏差向量,<我nline-formula id="inf5"> R :<米吃晚饭><米row> R N <米吃晚饭><米row> R N 激活操作符。该操作可能包括基本的非线性函数的应用程序,例如,ReLU或双曲正切,每个组件的输入。或者,它可能由softmax操作或组排序操作通常出现在马克斯池。在这个模型中,当矩阵W托普利兹或block-Toeplitz结构,convolutive层。

由于开创性的工作(<一个href="#B21">Szegedy et al ., 2013),众所周知,可能出现不稳定的输出神经网络。这个问题,通常被称为稳定对敌对的噪音,往往是更严重的小训练集时。然而,它甚至可能发生在大型数据集,比如ImageNet。所示(<一个href="#B9">格拉汉姆·古德费勒et al ., 2015),主要问题是相关的权重矩阵的选择。量化系统的稳定性的一种方法是计算李普希茨常数的网络。

李普希茨常数的一个函数T是一个上限之间的比例变化的输出值和输入参数的函数的变化T。因此,这是一个衡量函数对输入扰动的敏感性。这意味着,如果<我nline-formula id="inf6"> θ<米o>∈<米fenced open="[" close=""> 0 ,<米o>+ <米fenced open="[" close=""> 是这样的,对于每一个输入<我nline-formula id="inf7"> x<米o>∈<米吃晚饭><米row> R N 0 和扰动<我nline-formula id="inf8"> z<米o>∈<米吃晚饭><米row> R N 0 ,

<米我>T<米fenced open="(" close=")"> x<米o>+<米我>z <米我>T<米fenced open="(" close=")"> x <米o>≤<米我>θ<米ostretchy="false"> 为<米我>z<米ostretchy="false"> 为<米o>,<米space width="5em"> (<米n> 2 )

然后θ是李普希茨常数T。注意,这里使用相同的符号的规范<我nline-formula id="inf9"> R N 0 和<我nline-formula id="inf10"> R N ,但实际上可以使用不同的规范。如果没有指定,那么将使用标准的欧几里得范数。另一个重要的评论它遵循从均值不等式是,如果T是可微的<我nline-formula id="inf11"> R N 0 最优(即。,smallest) Lipschitz constant is

θ<米o>=<米sub> 吃晚饭 x<米o>∈<米吃晚饭><米row> R N 0 <米吃晚饭><米row> T x 年代 =<米sub> 吃晚饭 x<米o>∈<米吃晚饭><米row> R N 0 吃晚饭 x<米o>∈<米吃晚饭><米row> R N 0 <米吃晚饭><米row> T x z<米ostretchy="false"> 为 <米我>z<米ostretchy="false"> 为 ,<米space width="5em"> (<米n> 3 )

在哪里<我nline-formula id="inf12"> T (<米row> x ) <米吃晚饭><米row> R N ×<米sub> N 0 的雅可比矩阵Tx和为⋅为年代表示光谱矩阵范数。也可以进行局部李普希茨的定义常数(<一个href="#B27">杨et al ., 2020)。为了得到更有意义的表达李普希茨常数,一个重要的假设,本文将是运营商<我nline-formula id="inf13"> (<米row> R ) 1 <米我>我<米o>≤<米我>米 扩张,即。,1-Lipschitz。这种假设是满足所有的标准选择激活操作。

第一个上限李普希茨常数分析神经网络派生的每一层独立的影响产生的光谱和考虑产品规范(<一个href="#B9">格拉汉姆·古德费勒et al ., 2015)。这将导致以下琐碎的上限:

θ ̄ =<米ostretchy="false"> 为<米sub> W 年代 <米sub> W <米o>−<米n> 1 年代 <米o>,<米ostretchy="false"> 为<米sub> W 1 年代 <米space width="5em"> (<米n> 4 )

虽然容易计算,这上界证明是over-pessimistic。在(<一个href="#B25">Virmaux Scaman, 2018),计算问题的确切李普希茨常数可微函数指出是赋权。第一个通用算法(AutoLip)上边界的李普希茨常数可微函数。然而降低这个绑定<一个href="#e4">Eq。4标准前馈神经网络。此外,作者提出了一个算法,称为SeqLip,连续神经网络,显示AutoLip显著提高。顺序激活的神经网络是一个网络运营商是可分的,对于每一个∈(1…),

<米sub> x =<米sub> ξ <米o>,<米我>k 1 <米我>k<米o>≤<米sub> N <米吃晚饭><米row> R N R x =<米sub> ρ ξ <米o>,<米我>k 1 <米我>k<米o>≤<米sub> N ,<米space width="5em"> (<米n> 5 )

的激活函数<我nline-formula id="inf14"> ρ :<米我米在hvariant="double-struck"> R<米o>→<米我米在hvariant="double-struck"> R 1。在(<一个href="#B25">Virmaux Scaman, 2018),它假定函数<我nline-formula id="inf15"> (<米row> ρ ) 1 <米我>我<米o>≤<米我>米 是可微的,增加,及其导数的上界。它可以推断李普希茨常数的网络

ϑ =<米sub> 吃晚饭 Λ 1 <米sub> D N 1 0 1 ,<米o>…<米o>,<米sub> Λ <米o>−<米n> 1 <米sub> D N <米o>−<米n> 1 0 1 <米sub> W Λ <米o>−<米n> 1 <米o>,<米sub> Λ 1 W 1 年代 ,<米space width="5em"> (<米n> 6 )

在哪里<我nline-formula id="inf16"> D N (<米row> ) 指定的一组对角矩阵的维度N×N用对角值<我nline-formula id="inf17"> <米o>⊂<米我米在hvariant="double-struck"> R 。这个绑定简化

ϑ =<米sub> 吃晚饭 Λ 1 <米sub> D N 1 0 1 ,<米o>…<米o>,<米sub> Λ <米o>−<米n> 1 <米sub> D N <米o>−<米n> 1 0 1 <米sub> W Λ <米o>−<米n> 1 <米o>,<米sub> Λ 1 W 1 年代 ,<米space width="5em"> (<米n> 7 )

这表明,<我nline-formula id="inf18"> 2 N 值矩阵的对角元素Λ在每一层都需要测试吗∈(1…),这相当于全球的复杂性<我nline-formula id="inf19"> 2 N 1 +<米o>⋯<米o>+<米sub> N <米o>−<米n> 1 因此神经元的数量呈指数级增长的函数。估计李普希茨常数使用这种方法是棘手甚至中型网络;因此,作者使用贪婪算法来计算一个束缚,这可能under-approximate李普希茨常数。这并不提供真正的上界。

在<一个href="#B5">Combettes和Pesquet (2020 b)前馈网络的各种界限李普希茨常数推导假设,每一个∈(1…)激活操作符Rα平均的<我nline-formula id="inf20"> α 0 1 。我们回想一下,这意味着存在一个non-expansive(即。1-Lipschitz)操作符这样R= (1−α)我d+α。下面的不平等是满足:

<米fenced open="(" close=")"> x<米o>,<米我>y <米吃晚饭><米row> R N <米sub> R x <米sub> R y 2 <米ostretchy="false"> 为<米我>x<米o>−<米我>y<米吃晚饭><米row> 2 <米frac> 1 <米sub> α α <米我>x<米o>−<米sub> R x <米我>y<米o>+<米sub> R y 2 <米space width="5em"> (<米n> 8 )

因此我们看到,小α,“稳定”R是多少。在极限情况α1= 1,Rnon-expansive,什么时候α= 1/2,R据说是坚定地扩张。坚定地扩张的一个重要子类运营商是邻近的类运营商适当和下半连续的凸函数。让<我nline-formula id="inf21"> Γ 0 (<米row> R N ) 类定义的函数<我nline-formula id="inf22"> R N 来<我nline-formula id="inf23"> <米我>∞<米o>,<米o>+<米我>∞ 。近距离操作符的一个函数<我nline-formula id="inf24"> f<米o>∈<米sub> Γ 0 (<米row> R N ) ,在某种程度上<我nline-formula id="inf25"> x<米o>∈<米吃晚饭><米row> R N ,是用prox独特的向量f(x),这样

prox f x =<米under> argmin p<米o>∈<米吃晚饭><米row> R N 1 2 <米我>p<米o>−<米我>x<米吃晚饭><米row> 2 +<米我>f<米fenced open="(" close=")"> p <米space width="5em"> (<米n> 9 )

近距离操作符是一个凸优化的基本工具。所示(<一个href="#B4">Combettes Pesquet, 2020 a),关键是大多数的激活函数(例如,乙状结肠,ReLu,漏水的ReLu, ELU)目前用于神经网络的邻近运营商一些适当的下半连续凸函数。这个属性也满足激活运营商不分离,像softmax或胶囊中使用的挤压功能网络。为数不多的激活操作符不接近操作符(例如,凸组合的max池和平均池)可以被视为超松弛邻近运营商和对应于一个值的平均参数大于1/2。

基于这些平均的假设,第一个李普希茨常数是由的估计

θ =<米sub> β <米o>;<米我>∅ <米sub> W <米o>…<米o>,<米o>◦<米sub> W 1 <米o>+<米underover accentunder="false" accent="false"> k<米o>=<米n> 1 <米o>−<米n> 1 j 1 ,<米o>…<米o>,<米sub> j k <米sub> J <米o>,<米我>k β <米o>;<米fenced open="{" close="}"> j 1 ,<米o>…<米o>,<米sub> j k σ <米o>;<米fenced open="{" close="}"> j 1 ,<米o>…<米o>,<米sub> j k ,<米space width="5em"> (<米n> 10 )

在哪里

<米space width="0.17em"> J<米o>⊂<米fenced open="{" close="}"> 1 ,<米o>…<米o>,<米我>米<米o>−<米n> 1 β <米o>;<米我米在hvariant="double-struck"> J =<米fenced open="(" close=")"> j<米o>∈<米我米在hvariant="double-struck"> J α j j<米o>∈<米fenced open="{" close="}"> 1 ,<米o>…<米o>,<米我>米<米o>−<米n> 1 \<米我米在hvariant="double-struck"> J 1 <米sub> α j ,<米space width="5em"> (<米n> 11 )

对于每一个k∈(1…−1),

J <米o>,<米我>k =<米fenced open="{" close=""> j 1 ,<米o>…<米o>,<米sub> j k <米吃晚饭><米row> N k 1 <米sub> j 1 <<米o>…<米o>,<米o><<米sub> j k <米我>米<米o>−<米n> 1 ,<米space width="1em"> 如果 k<米o>><米n> 1 ; 1 ,<米o>…<米o>,<米我>米<米o>−<米n> 1 ,<米space width="1em"> 如果 k<米o>=<米n> 1 (<米n> 12 )

每<我nline-formula id="inf26"> (<米row> j 1 ,<米o>…<米o>,<米sub> j k ) <米sub> J <米o>,<米我>k ,

σ <米o>;<米fenced open="{" close="}"> j 1 ,<米o>…<米o>,<米sub> j k =<米ostretchy="false"> 为<米sub> W <米o>,<米sub> W j k +<米n> 1 年代 <米sub> W j k <米o>,<米sub> W j k<米o>−<米n> 1 +<米n> 1 年代 <米ostretchy="false"> 为<米sub> W j 1 <米o>,<米sub> W 1 年代 (<米n> 13 )

时,每∈(1…−1),R坚定地扩张,表达式简化

θ =<米frac> 1 2 <米o>−<米n> 1 <米sub> W <米o>,<米sub> W 1 年代 +<米underover accentunder="false" accent="false"> k<米o>=<米n> 1 <米o>−<米n> 1 j 1 ,<米o>…<米o>,<米sub> j k <米sub> J <米o>,<米我>k σ <米o>;<米fenced open="{" close="}"> j 1 ,<米o>…<米o>,<米sub> j k (<米n> 14 )

如果,每∈(1…−1),R是可分离的<一个href="#fn2">2,第二个估计是提供读取

ϑ =<米sub> 吃晚饭 Λ 1 <米sub> D N 1 2 α 1 <米n> 1,- 1 , <米o>, Λ <米o>−<米n> 1 <米sub> D N <米o>−<米n> 1 2 α <米o>−<米n> 1 <米n> 1,- 1 <米sub> W Λ <米o>−<米n> 1 <米o>,<米sub> Λ 1 W 1 年代 (<米n> 15 )

因此我们看到,当α1=…=α米−1= 1/2,我们恢复<一个href="#e7">7情商。没有做任何假设激活函数的可微性。这估计是比以前更准确

<米sub> W <米o>,<米sub> W 1 年代 <米sub> ϑ <米sub> θ <米space width="5em"> (<米n> 16 )

这是证明(<一个href="#B5">Combettes Pesquet 2020 b),如果非负权重的网络<我nline-formula id="inf27"> (<米row> <米我>我<米o>∈<米row> {<米row> 1 ,<米o>…<米o>,<米我>米 } ) W <米fenced open="[" close=""> 0 ,<米o>+<米我>∞ N ×<米sub> N 的下界<一个href="#e16">Eq。16获得,即

ϑ =<米ostretchy="false"> 为<米sub> W <米o>,<米sub> W 1 年代 <米space width="5em"> (<米n> 17 )

另一个有趣的结果是成立于(<一个href="#B5">Combettes Pesquet 2020 b如果其他规范),类似的结果将会比欧几里得范数是用来量化的扰动输入和输出。例如,对于一个给定的∈(1…),每p∈(1+),我们可以定义以下规范:

<米sub> x =<米sub> ξ <米o>,<米我>k 1 <米我>k<米o>≤<米sub> N <米吃晚饭><米row> R N <米我>x<米sub> p =<米fenced open="{" close=""> k<米o>=<米n> 1 N |<米sub> ξ <米o>,<米我>k | p 1 /<米我>p ,<米space width="1em"> 如果 p<米o><<米o>+<米我>∞ 吃晚饭 1 <米我>k<米o>≤<米sub> N |<米sub> ξ <米o>,<米我>k |<米o>,<米space width="1em"> 如果 p<米o>=<米o>+<米我>∞<米o>。 (<米n> 18 )

如果(p,)∈(1+)<吃晚饭>2,输入空间<我nline-formula id="inf28"> R N 0 配备标准为⋅为p,输出空间<我nline-formula id="inf29"> R N 配备标准为⋅为李普希茨常数,与可分激活运营商网络

ϑ =<米sub> 吃晚饭 Λ 1 <米sub> D N 1 2 α 1 <米n> 1,- 1 , <米o>, Λ <米o>−<米n> 1 <米sub> D N <米o>−<米n> 1 2 α <米o>−<米n> 1 <米n> 1,- 1 <米sub> W Λ <米o>−<米n> 1 <米o>,<米sub> Λ 1 W 1 p<米o>,<米我>问 (<米n> 19 )
=<米sub> 吃晚饭 Λ 1 <米sub> D N 1 2 α 1 <米n> 1,- 1 , <米o>, Λ <米o>−<米n> 1 <米sub> D N <米o>−<米n> 1 2 α <米o>−<米n> 1 <米n> 1,- 1 <米sub> W Λ <米o>−<米n> 1 <米o>,<米sub> Λ 1 W 1 p<米o>,<米我>问 (<米n> 20. )

在为⋅为p,是下属lp,矩阵范数由前两个规范。能够使用规范其他比欧几里得可能有时在实践(特别是对于更有意义1或少量规范)。然而,计算这样一个下属规范并不容易(<一个href="#B16">刘易斯,2010)。

2.2 SDP-Based方法

工作(<一个href="#B8">Fazlyab et al ., 2019)关注神经网络使用分离激活操作。它假设激活函数ρ在一层∈(1…)是slope-bounded,即。,there exist nonnegative parameters ϒ最小值和ϒ马克斯这样

<米fenced open="(" close=")"> ξ<米o>,<米吃晚饭><米row> ξ <米吃晚饭><米row> R 2 ξ<米o>≠<米吃晚饭><米row> ξ <米sub> ϒ 最小值 <米frac> ρ ξ <米sub> ρ ξ ξ<米o>−<米吃晚饭><米row> ξ <米sub> ϒ 马克斯

正如作者说的,大多数激活函数满足这个不等式ϒ最小值= 0和ϒ马克斯= 1。换句话说,以上不平等意味着ρ是一个递增函数和扩张。但一个已知的结果(<一个href="#B6">Combettes Pesquet, 2008,命题1.4)指出,一个函数ρ满足这些属性当且仅当它是接近操作符的一些适当的下半连续凸函数。所以事实证明我们恢复类似的假设那些制造(<一个href="#B4">Combettes Pesquet, 2020 a)。

让我们这样假设ϒ最小值= 0,ϒ马克斯= 1,≥2。一个已知的属性R坚定地扩张映射当且仅当吗

<米fenced open="(" close=")"> x<米o>,<米我>y <米吃晚饭><米row> R N 2 x<米o>−<米我>y R x <米sub> R y <米ostretchy="false"> 为<米sub> R x <米sub> R y 2 <米space width="5em"> (<米n> 21 )

关键是,如果R是一个可分离的运营商,这种不平等在一个更一般的度量与矩阵相关联

=<米我>诊断接头<米fenced open="(" close=")"> <米o>,<米n> 1,- 1 ,<米o>…<米o>,<米sub> <米o>,<米sub> N ,<米sub> N ,<米space width="5em"> (<米n> 22 )

在哪里<我nline-formula id="inf30"> (<米row> <米我>k<米o>∈<米吃晚饭><米row> {<米row> 1 ,<米o>…<米o>,<米sub> N } 2 ) <米o>,<米我>k<米o>,<米我>k <米n> 0 。在下面,这样的矩阵<我nline-formula id="inf31"> (<米row> ) 1 <米我>我<米o>≤<米我>米<米o>−<米n> 1 将用<我nline-formula id="inf32"> 。这意味着

<米fenced open="(" close=")"> x<米o>,<米我>y <米吃晚饭><米row> R N 2 x<米o>−<米我>y R x <米sub> R y <米吃晚饭><米row> R x <米sub> R y R x <米sub> R y <米space width="5em"> (<米n> 23 )

对于每一个<我nline-formula id="inf33"> (<米row> x ,<米sub> y ) <米吃晚饭><米row> (<米row> R N ) 2 ,让x=R(Wx我−1+b),y=R(Wy我−1+b)。它遵循从<一个href="#e23">Eq。23

W x <米o>−<米n> 1 <米sub> y <米o>−<米n> 1 x <米sub> y <米吃晚饭><米row> x <米sub> y x <米sub> y <米space width="5em"> (<米n> 24 )

总结第一−1层产量

<米o>=<米n> 1 <米o>−<米n> 1 W x <米o>−<米n> 1 <米sub> y <米o>−<米n> 1 x <米sub> y <米underover accentunder="false" accent="false"> <米o>=<米n> 1 <米o>−<米n> 1 x <米sub> y x <米sub> y <米space width="5em"> (<米n> 25 )

另一方面,ϑ> 0李普希茨常数的神经网络T如果

ϑ 2 <米sub> x 0 <米sub> y 0 2 <米ostretchy="false"> 为<米sub> W x <米o>−<米n> 1 <米sub> y <米o>−<米n> 1 2 <米space width="5em"> (<米n> 26 )

后者不平等,因此能充分保证

ϑ 2 <米sub> x 0 <米sub> y 0 2 <米ostretchy="false"> 为<米sub> W x <米o>−<米n> 1 <米sub> y <米o>−<米n> 1 2 <米n> 2 <米o>=<米n> 1 <米o>−<米n> 1 W x <米o>−<米n> 1 <米sub> y <米o>−<米n> 1 x <米sub> y <米n> 2 <米o>=<米n> 1 <米o>−<米n> 1 x <米sub> y x <米sub> y (<米n> 27 )

这个不等式可以改写以矩阵形式

x 0 <米sub> y 0 x <米o>−<米n> 1 <米sub> y <米o>−<米n> 1 <米fenced open="(" close=")"> ρ ,<米sub> 1 ,<米o>…<米o>,<米sub> <米o>−<米n> 1 x 0 <米sub> y 0 x <米o>−<米n> 1 <米sub> y <米o>−<米n> 1 <米n> 0 (<米n> 28 )

与<我nline-formula id="inf34"> ρ =<米subsup> ϑ 2

<米fenced open="(" close=")"> ρ ,<米sub> 1 ,<米o>…<米o>,<米sub> <米o>−<米n> 1 = ρ Id N 0 <米subsup> W 1 1 0 <米sub> 1 W 1 0 0 <米subsup> W <米o>−<米n> 1 <米o>−<米n> 1 0 <米sub> <米o>−<米n> 1 W <米o>−<米n> 1 2 <米o>−<米n> 1 <米subsup> W W (<米n> 29日 )

在网络中只有一个隐藏层,主要调查(<一个href="#B8">Fazlyab et al ., 2019),上述矩阵降低

<米fenced open="(" close=")"> ρ 2 ,<米sub> 1 =<米fenced open="[" close="]"> ρ 2 Id N 0 <米subsup> W 1 1 <米sub> 1 W 1 2 1 <米subsup> W 2 W 2 <米space width="5em"> (<米n> 30. )

条件<一个href="#e28">Eq。28是满意的,对每一个(x0、…x米−1)和(y0、…y米−1)当且仅当

<米fenced open="(" close=")"> ρ ,<米sub> 1 ,<米o>…<米o>,<米sub> <米o>−<米n> 1 <米n> 0 <米space width="5em"> (<米n> 31日 )

这实际上是足够积极semidefiniteness矩阵约束得到满足<我nline-formula id="inf35"> (<米row> 1 ,<米o>…<米o>,<米sub> <米o>−<米n> 1 ) <米我米在hvariant="script"> 问 为<我nline-formula id="inf36"> ρ 李普希茨常数。结果的最小可能值常数可以获得利用半定规划(SDP)解决以下问题:

最小化 ρ ,<米sub> 1 ,<米o>…<米o>,<米sub> <米o>−<米n> 1 <米我>C ρ ,<米space width="5em"> (<米n> 32 )

在哪里C闭凸集吗

C<米o>=<米fenced open="{" close="}"> ρ ,<米sub> 1 ,<米o>…<米o>,<米sub> <米o>−<米n> 1 <米fenced open="[" close=""> 0 ,<米o>+<米我>∞ ×<米我米在hvariant="script"> 问 (<米text> 31日 ) 持有 (<米n> 33 )

尽管存在有效解决SDP,仍然是计算密集型的方法。解决降低其计算复杂度为代价较低的精度由限制的优化指标矩阵1、…米−1的一个子集<我nline-formula id="inf37">

这种方法的一个局限是,它是根据欧几里得范数的使用。

备注1。在(<一个href="#B8">Fazlyab et al ., 2019),声称<一个href="#e23">Eq。23为每个度量矩阵是有效的吗

=<米underover accentunder="false" accent="false"> k<米o>=<米n> 1 N <米o>,<米我>k<米o>,<米我>k e k e k +<米under> 1 <米我>k<米o><<米我>ℓ<米o>≤<米sub> N <米o>,<米我>k<米o>,<米我>l e k <米sub> e e k <米sub> e ,<米space width="5em"> (<米n> 34 )

在哪里<我nline-formula id="inf38"> (<米row> e k ) 1 <米我>k<米o>≤<米sub> N 规范化的基础吗<我nline-formula id="inf39"> R N 和<我nline-formula id="inf40"> (<米row> <米row> (<米row> k<米o>,<米我>ℓ ) <米吃晚饭><米row> {<米row> 1 ,<米o>…<米o>,<米sub> N } 2 ) 与k≤ℓ,q我,k,ℓ≥0不幸的是,这是不正确的。错误的声明来自一个缺陷引理1的扣除从引理2 (<一个href="#B8">Fazlyab et al ., 2019)。一个反例是最近提供的(<一个href="#B19">泡利et al ., 2022)。

2.3基于多项式优化的方法

的方法(<一个href="#B15">Latorre et al ., 2020)适用于神经网络有一个输出(例如,N= 1)<一个href="#fn3">3。作者提到,他们的方法仅限于可微的激活函数,但它实际上是任何有效分离坚定地扩张激活操作。实际上,当N= 1,李普希茨常数<一个href="#e19">Eq。19减少到

ϑ =<米sub> 吃晚饭 Λ 1 <米sub> D N 1 0 1 , <米o>, Λ <米o>−<米n> 1 <米sub> D N <米o>−<米n> 1 0 1 <米subsup> W 1 Λ 1 <米o>,<米sub> Λ <米o>−<米n> 1 W p ,<米space width="5em"> (<米n> 35 )

在哪里p∗∈(1+)的双重指数p(1/p+1/p∗= 1),记得p∈(1+)的指数p输入空间的标准装备。这表明ϑ等于

ϑ =<米我>吃晚饭<米fenced open="{" close="}"> Φ<米fenced open="(" close=")"> x<米o>,<米sub> λ 1 ,<米o>…<米o>,<米sub> λ <米o>−<米n> 1 <米ostretchy="false"> 为<米我>x<米sub> p <米n> 1 ,<米sub> λ 1 <米我>我<米o>≤<米我>米<米o>−<米n> 1 <米吃晚饭><米row> 0 1 N 1 +<米o>⋯<米o>+<米sub> N <米o>−<米n> 1 ,<米space width="5em"> (<米n> 36 )

在那里,每<我nline-formula id="inf41"> x<米o>∈<米吃晚饭><米row> R N 0 和<我nline-formula id="inf42"> (<米row> λ ) 1 <米我>我<米o>≤<米我>米 <米吃晚饭><米row> R N 1 +<米o>⋯<米o>+<米sub> N <米o>−<米n> 1 ,

Φ<米fenced open="(" close=")"> x<米o>,<米sub> λ 1 ,<米o>…<米o>,<米sub> λ <米o>−<米n> 1 =<米吃晚饭><米row> x W 1 诊断接头<米fenced open="(" close=")"> λ 1 <米o>,<米我>诊断接头<米fenced open="(" close=")"> λ <米o>−<米n> 1 W <米space width="5em"> (<米n> 37 )

Φ函数是一个多元多项式组成的向量参数。因此,如果相关的单位球p规范可以通过多项式描述的不平等,而当<我nline-formula id="inf43"> p<米o>∈<米我米在hvariant="double-struck"> N<米o>\<米row> {<米row> 0 }p= +,然后找到ϑ原来是一个多项式约束优化问题。解决这样的优化问题可以通过解决凸的层次结构问题。然而,层次结构倾向于快速增长的大小如果层次的顺序是截断值太小,交付结果变得不准确。利用权重矩阵的稀疏特性可能存在的数值可能有帮助。注意,方法是进一步改善(<一个href="#B3">陈et al ., 2020)使用Lasserre的层次结构。

比较先进的和提出建议的方法<一个href="#T1">表1

表1
www.雷竞技rebatfrontiersin.org

表1。比较先进的李普希茨估计方法对拟议中的一个。

3加权李普希茨常数进行敏感性分析

延长上述理论结果的评价神经网络通过李普希茨稳定性规律,在本节中我们提出一种新的方法基于一个合适的权重计算的操作执行李普希茨常数。这使得神经网络稳定性的多变量敏感性分析单个输入或输入组。我们将首先激励这个权重从统计的角度来看。然后我们将定义在一个更精确的方式,在讨论其产生的数学特性。

3.1统计动机

温顺,假设网络的扰动输入是一个实现零均值高斯分布随机向量<我nline-formula id="inf44"> zN0×N0协方差矩阵Σ≻0。然后,它的密度定义为上层集

C η =<米fenced open="{" close="}"> z<米o>∈<米吃晚饭><米row> R N 0 <米吃晚饭><米row> z Σ <米n> 1 z<米o>≤<米我>η ,<米space width="5em"> (<米n> 38 )

对于每一个<我nline-formula id="inf45"> η<米o>∈ 0 ,<米o>+<米我>∞<米fenced open="[" close=""> 。一组Cη定义了一个椭球的概率密度最高的价值。更准确地说,概率<我nline-formula id="inf46"> z 属于这个集合是独立的Σ(<一个href="#SM1">补充附录S1),等于。

P<米fenced open="(" close=")"> z<米o>∈<米sub> C η =<米frac> γ<米fenced open="(" close=")"> N 0 /<米n> 2 ,<米我>η<米o>/<米n> 2 Γ<米fenced open="(" close=")"> N 0 /<米n> 2 ,<米space width="5em"> (<米n> 39 )

Γγ函数和在哪里γ较低的(非规范)不完整的γ函数。

另一方面,让我们假设最大标准差σ马克斯的组件<我nline-formula id="inf47"> z (即。,square root of the maximum diagonal element of matrixΣ)是足够小。如果我们假设网络T在附近的一个给定的输入是可微的<我nline-formula id="inf48"> x<米o>∈<米吃晚饭><米row> R N 0 输入扰动足够小,我们可以近似的网络输出以下扩展:

T<米fenced open="(" close=")"> x<米o>+<米我>z <米我>T<米fenced open="(" close=")"> x +<米吃晚饭><米row> T x z<米o>。<米space width="5em"> (<米n> 40 )

让我们关注扰动Cη。通过这样做,我们强加一些norm-bounded条件,这可能会显得更加真实了敌对的扰动。然后,我们将计算感兴趣

吃晚饭 z<米o>∈<米sub> C η <米我>T<米fenced open="(" close=")"> x<米o>+<米我>z <米我>T<米fenced open="(" close=")"> x <米o>≃<米sub> 吃晚饭 z<米o>∈<米sub> C η <米吃晚饭><米row> T x z<米ostretchy="false"> 为<米o>。<米space width="5em"> (<米n> 41 )

通过变量的变化<我nline-formula id="inf49"> z =<米我>z<米o>/<米sqrt> η 和使用<一个href="#e38">Eq。38,

吃晚饭 z<米o>∈<米sub> C η <米我>T<米fenced open="(" close=")"> x<米o>+<米我>z <米我>T<米fenced open="(" close=")"> x <米sqrt> η 吃晚饭 z <米sub> C 1 <米吃晚饭><米row> T x z =<米sqrt> η 吃晚饭 z<米o>∈<米吃晚饭><米row> R N 0 z <米n> 0 <米吃晚饭><米row> T x z <米吃晚饭><米row> z Σ <米n> 1 =<米sqrt> η σ 马克斯 吃晚饭 z <米吃晚饭><米row> R N 0 z <米n> 0 <米吃晚饭><米row> T x z <米吃晚饭><米row> z Ω <米n> 1 , (<米n> 42 )

在哪里<我nline-formula id="inf50"> Ω<米o>=<米我>Σ<米o>/<米subsup> σ 马克斯 2 和<我nline-formula id="inf51"> <米o>⋅<米sub> Ω <米n> 1 =<米sqrt> (<米row> ) Ω <米n> 1 (<米row> ) 。这表明,在这种情况下,合适的隶属矩阵范数计算李普希茨常数<一个href="#e3">情商。通过加权欧几里得范数的输入空间Ω吗<吃晚饭>−1。我们也可以推断<一个href="#e42">42岁的情商。,通过设置z<吃晚饭>”=Ω<吃晚饭>−1/2z′,

吃晚饭 z<米o>∈<米sub> C η <米我>T<米fenced open="(" close=")"> x<米o>+<米我>z <米我>T<米fenced open="(" close=")"> x <米sqrt> η σ 马克斯 吃晚饭 z <米吃晚饭><米row> R N 0 z <米n> 0 <米吃晚饭><米row> T x Ω 1 /<米n> 2 z <米吃晚饭><米row> z =<米sqrt> η <米吃晚饭><米row> T x Σ 1 /<米n> 2 年代 (<米n> 43 )

另一方面,基于一阶近似<一个href="#e40">Eq。40,T(x+z)大约是高斯的意思T(x)和协方差矩阵T′(x)ΣT′(x)<吃晚饭>。作为<我nline-formula id="inf52"> <米吃晚饭><米row> T (<米row> x ) Σ<米吃晚饭><米row> T (<米row> x ) 年代 =<米ostretchy="false"> 为<米吃晚饭><米row> T (<米row> x ) Σ 1 /<米n> 2 年代 2 ,我们看到另一个深刻的解释<一个href="#e43">Eq。43是,比例因子<我nline-formula id="inf53"> η 的平方根,它大约提供了协方差矩阵的谱范数输出扰动。

3.2新定义的加权李普希茨常数

基于前面的动机,我们建议采用加权范数定义一个网络李普希茨常数如下:

定义1。让Ω一个N0×N0对称正定实值矩阵。我们说${\θ}_ {m} ^ {\ upOmega}是一个美元Ω-weighted规范李普希茨常数T中描述<一个href="#F1">图1如果

<米fenced open="(" close=")"> x<米o>,<米我>z <米吃晚饭><米row> R N 0 2 <米我>T<米fenced open="(" close=")"> x<米o>+<米我>z <米我>T<米fenced open="(" close=")"> z <米o>≤<米subsup> θ Ω <米我>z<米sub> Ω <米n> 1 <米space width="5em"> (<米n> 44 )

上述定义可以扩展到非欧几里得规范利用指数(p,)∈(1+)<吃晚饭>2和通过替换不平等<一个href="#e44">Eq。44

<米fenced open="(" close=")"> x<米o>,<米我>z <米吃晚饭><米row> R N 0 2 <米我>T<米fenced open="(" close=")"> x<米o>+<米我>z <米我>T<米fenced open="(" close=")"> z <米subsup> θ Ω <米吃晚饭><米row> Ω <米n> 1 /<米n> 2 z<米sub> p <米space width="5em"> (<米n> 45 )

变化的变量,这种不平等也可以写成。

<米fenced open="(" close=")"> x ,<米吃晚饭><米row> z <米吃晚饭><米row> R N 0 2 <米我>T<米fenced open="(" close=")"> Ω 1 /<米n> 2 x +<米吃晚饭><米row> z <米我>T<米fenced open="(" close=")"> Ω 1 /<米n> 2 z <米subsup> θ Ω <米吃晚饭><米row> z p <米space width="5em"> (<米n> 46 )

因此,我们看到,计算<我nline-formula id="inf54"> θ Ω 相当于派生李普希茨常数的网络T额外的第一个线性层Ω哪里<吃晚饭>1/2已被添加。在本节的其余部分,它将假定,每一个∈(1…−1)激活操作R是可分离的,α平均。然后遵循从<一个href="#e20">Eq。20Ω-weighted规范李普希茨常数T

ϑ Ω =<米space width="-0.17em"> 吃晚饭 Λ 1 <米sub> D N 1 2 α 1 <米n> 1,- 1 , <米o>, Λ <米o>−<米n> 1 <米sub> D N <米o>−<米n> 1 2 α <米o>−<米n> 1 <米n> 1,- 1 <米sub> W Λ <米o>−<米n> 1 <米o>,<米sub> Λ 1 W 1 Ω 1 /<米n> 2 p<米o>,<米我>问 <米space width="5em"> (<米n> 47 )

虽然我们所有的推导是基于这一事实Ω正定,从后者表达我们看到,通过不断扩展,<我nline-formula id="inf55"> ϑ Ω 可以定义当Ω是奇异矩阵。

图1
www.雷竞技rebatfrontiersin.org

图1多层前馈神经网络的体系结构。为th-layer,W线性重量是运营商,b偏差向量,R激活操作。

3.3灵敏度对一组输入

在本节中,我们将有兴趣在一个特定的家庭加权矩阵与组相关的规范

Ω ϵ<米o>,<米我米在hvariant="double-struck"> K <米我>∅<米o>≠<米我米在hvariant="double-struck"> K<米o>⊂<米fenced open="{" close="}"> 1 ,<米o>…<米o>,<米sub> N 0 ,<米fenced open close="]"> ϵ<米o>∈ 0 1 ,

定义,每一个非空的子集<我nline-formula id="inf56"> K (1…N0),每<我nline-formula id="inf57"> ϵ<米o>∈ 0 1 ,因为

Ω ϵ<米o>,<米我米在hvariant="double-struck"> K =<米我>诊断接头<米fenced open="(" close=")"> σ ϵ<米o>,<米我米在hvariant="double-struck"> K<米o>,<米n> 1 2 ,<米o>…<米o>,<米subsup> σ ϵ<米o>,<米我米在hvariant="double-struck"> K<米o>,<米sub> N 0 2 ,<米space width="5em"> (<米n> 48 )

在哪里

<米我>ℓ<米o>∈<米fenced open="{" close="}"> 1 ,<米o>…<米o>,<米sub> N 0 σ ϵ<米o>,<米我米在hvariant="double-struck"> K<米o>,<米我>ℓ =<米fenced open="{" close=""> 1 如果 <米o>∈<米我米在hvariant="double-struck"> K ϵ<米space width="1em"> 否则。 (<米n> 49 )

如果我们回到统计解释3.1节中,<我nline-formula id="inf58"> Ω ϵ<米o>,<米我米在hvariant="double-struck"> K 然后(积极的比例因子)高斯随机向量的协方差矩阵吗<我nline-formula id="inf59"> z 与独立的组件<一个href="#fn4">4。指数的组件<我nline-formula id="inf60"> K 有一个给定的方差<我nline-formula id="inf61"> σ 马克斯 2 而其他人则有差异<我nline-formula id="inf62"> ϵ 2 σ 马克斯 2 。这样一个矩阵从而提供了一种自然的方式把强调的输入与指标<我nline-formula id="inf63"> K 。因此,变量<我nline-formula id="inf64"> ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K 将在下面被称为局部李普希茨常量。

列表的下一个建议的主要特性与使用加权计算规范李普希茨常数。这些结果给出的证明<一个href="#SM1">补充附录S2

命题1。让(p, q)∈(1, +∞)<吃晚饭>2。对于每个非空的子集<我nline-formula id="inf65"> K (1,…,N0),每<我nline-formula id="inf66"> ϵ<米o>∈ 0 1 ,让<我nline-formula id="inf67"> Ω ϵ<米o>,<米我米在hvariant="double-struck"> K 被定义为超过我们<我nline-formula id="inf68"> ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K 被定义为(47)。让<我nline-formula id="inf69"> K 0 和<我nline-formula id="inf70"> K 1 的非空的子集(1…N0)。然后以下控制:

1)ϵ→0时,<我nline-formula id="inf71"> ϑ Ω ϵ<米o>,<米sub> K 0 收敛于李普希茨常数的一个网络,所有的输入指标<我nline-formula id="inf72"> K 0 保持不变。

2)<我nline-formula id="inf73"> ϑ Ω 1 ,<米sub> K 0 等于全局李普希茨常数ϑ吗定义为<一个href="#e20">Eq。20

3)让<我nline-formula id="inf74"> (<米row> ϵ<米o>,<米吃晚饭><米row> ϵ ) 0 1 2 。如果<我nline-formula id="inf75"> Ω ϵ<米o>,<米sub> K 0 <米sub> Ω ϵ ,<米sub> K 1 ,然后<我nline-formula id="inf76"> ϑ Ω ϵ<米o>,<米sub> K 0 <米subsup> ϑ Ω ϵ ,<米sub> K 1

4)函数<我nline-formula id="inf77"> ϑ Ω <米o>,<米sub> K 0 : 0 1 <米fenced open="[" close=""> 0 ,<米o>+<米我>∞ :<米我>ϵ<米o>↦<米subsup> ϑ Ω ϵ<米o>,<米sub> K 0 是单调递增的。

5)让<我nline-formula id="inf78"> ϵ<米fenced open close="]"> 0 1 。如果<我nline-formula id="inf79"> K 0 <米sub> K 1 ,然后<我nline-formula id="inf80"> ϑ Ω ϵ<米o>,<米sub> K 0 <米subsup> ϑ Ω ϵ<米o>,<米sub> K 1

6)让<我nline-formula id="inf81"> ϵ<米o>∈ 0 1 ,让<我nline-formula id="inf82"> K<米o>∈<米我米在hvariant="double-struck"> N<米o>\<米row> {<米row> 0 } ,让

ω K<米o>,<米我>ϵ =<米fenced open="(" close=")"> N 0 <米n> 1 K<米o>−<米n> 1 1 +<米fenced open="(" close=")"> N 0 K <米n> 1 ϵ <米space width="5em"> (<米n> 50 )

我们有

马克斯 K<米o>⊂<米fenced open="{" close="}"> 1 ,<米o>…<米o>,<米sub> N 0 <米我米在hvariant="double-struck"> K<米o>=<米我>K ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K <米sub> ϑ <米frac> 1 ω K<米o>,<米我>ϵ K<米o>⊂<米fenced open="{" close="}"> 1 ,<米o>…<米o>,<米sub> N 0 <米我米在hvariant="double-struck"> K<米o>=<米我>K ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K <米space width="5em"> (<米n> 51 )

7)让<我nline-formula id="inf83"> ϵ<米o>∈ 0 1 ,让<我nline-formula id="inf84"> P 是一个分区(1…N0),让。

ω P<米o>,<米我>ϵ =<米n> 1 +<米row> (<米row> <米我米在hvariant="script"> P<米o>−<米n> 1 ) ϵ<米o>。

我们有

马克斯 K<米o>∈<米我米在hvariant="script"> P ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K <米sub> ϑ <米frac> 1 ω P<米o>,<米我>ϵ K<米o>∈<米我米在hvariant="script"> P ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K <米space width="5em"> (<米n> 52 )

8)让<我nline-formula id="inf85"> K 2 是这样的,<我nline-formula id="inf86"> K 1 <米sub> K 2 <米我>∅ 和<我nline-formula id="inf87"> K 1 <米sub> K 2 =<米sub> K 0 。让p∗∈(1, +∞)是这样1 / p + 1 / p@ = 1

ϑ Ω ϵ<米o>,<米sub> K 0 <米吃晚饭><米row> ϑ Ω ϵ<米o>,<米sub> K 1 p +<米吃晚饭><米row> ϑ Ω ϵ<米o>,<米sub> K 2 p 1 /<米吃晚饭><米row> p +<米我>o<米fenced open="(" close=")"> ϵ <米space width="5em"> (<米n> 53 )

让我们对这些结果发表评论。根据属性(i)在极限情况ϵ→0,只有输入指标<我nline-formula id="inf88"> K 0 用于计算的相关李普希茨常数。反过来,财产(ii)状态,当ϵ= 1,我们恢复古典李普希茨常数的表达式在所有输入考虑扰动。此外,基于属性(iv),进化的<我nline-formula id="inf89"> ϑ Ω ϵ<米o>,<米sub> K 0 ϵ变化从1到0的评估提供了一种方法如何输入索引的组织<我nline-formula id="inf90"> K 0 有助于网络的整体李普希茨行为。虽然人会期望求和李普希茨常数获得每组的输入将产生全局李普希茨常数,属性(vi)和(7)表明,一般这并不持有任何条目的方式分裂(可能重叠组给定的大小K或分离组任意大小)。合适的正常化后,这样的资金提供上界ϑ。此外,它遵循从(2),<一个href="#e51">方程式51,<一个href="#e52">52这些规范化总结和之间的区别ϑ会消失的时候ϵ增加。Note that, when looking at the sensitivity with respect to individual inputs, i.e., when the considered set of indices are singletons, both (6) (withK= 1)和(7)(<我nline-formula id="inf91"> P<米o>=<米row> {<米row> {<米row> k } <米我>k<米o>∈<米row> {<米row> 1 ,<米o>…<米o>,<米sub> N 0 } } 导致同样的不平等

马克斯 k<米o>∈<米fenced open="{" close="}"> 1 ,<米o>…<米o>,<米sub> N 0 ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> k <米sub> ϑ <米frac> 1 1 +<米fenced open="(" close=")"> N 0 <米n> 1 ϵ k<米o>=<米n> 1 N 0 ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> k <米space width="5em"> (<米n> 54 )

4对合成数据验证

4.1背景

强调需要先进的神经网络灵敏度分析工具的设计,我们首先研究简单的合成多项式系统的例子,我们可以计算出局部李普希茨明确常数。我们定义的系统生成输入输出数据,训练一个完全连接的模型使用一个标准的培训,即。,没有任何约束。我们比较该方法与培训主题的谱范数约束层。

光谱归一化:为了安全关键任务,李普希茨常数和性能目标可以指定工程需求,之前网络培训。李普希茨目标可以定义为一个可接受的安全分析为每个输出知道输入扰动范围,它构成了当前实践在许多行业。实施这个李普希茨目标可以通过控制李普希茨常数为每一层或整个网络取决于应用程序。这样的工作控制李普希茨常数已经提出了(<一个href="#B20">Serrurier et al ., 2021)使用铰链正规化。在我们的实验中,我们训练网络时使用光谱归一化技术(<一个href="#B17">Miyato et al ., 2018)已被证明是有效地控制在甘斯李普希茨属性。给定一个层完全连接体系结构和一个李普希茨的目标l,我们可以限制每一层的谱范数小于<我nline-formula id="inf92"> l 。根据<一个href="#e4">Eq。4,这确保了上限全球李普希茨常数小于l

对于每个训练,我们研究输入变量的影响网络的稳定性。正如3.3节中提出,对于一个给定的输入与指标<我nline-formula id="inf93"> K ,我们将量化局部李普希茨常数<我nline-formula id="inf94"> ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K 。获得的价值<我nline-formula id="inf95"> ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K 允许我们评估相应的组变量可能如何影响网络的稳定性。为简单起见,在本节中,我们将关注的极限情况ϵ=0(见3.2节)的最后一句话。

局部李普希茨常量值<我nline-formula id="inf96"> ϑ Ω 0 ,<米我米在hvariant="double-struck"> K 所有可能的选择<我nline-formula id="inf97"> K ,使用2.2节中描述的数值方法计算并与理论派生值在以下小节。更多细节在这些模型还提供了部分。

4.2多项式系统

我们认为回归问题的数据合成了一个二阶多变量多项式。系统建模是这样描述以下函数:

<米fenced open="(" close=")"> ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 <米吃晚饭><米row> R N 0 f<米fenced open="(" close=")"> ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 =<米underover accentunder="false" accent="false"> k<米o>=<米n> 1 N 0 一个 k ξ k +<米underover accentunder="false" accent="false"> k<米o>=<米n> 1 N 0 l<米o>=<米n> 1 N 0 b k<米o>,<米我>l ξ k ξ l ,<米space width="5em"> (<米n> 55 )

在哪里<我nline-formula id="inf98"> (<米row> 一个 k ) k<米o>∈<米sub> N 0 和<我nline-formula id="inf99"> (<米row> b k<米o>,<米我>l ) 1 <米我>k<米o>,<米我>l<米o>≤<米sub> N 0 是实值多项式系数。注意,这样一个多项式系统一般不Lipschitz-continuous。Lipschitz-continuity属性只有抓住每一个紧集。随后,我们将研究该系统在超立方体<我nline-formula id="inf100"> (<米row> <米我>米<米o>,<米我>米 ] N 0 >0。

局部李普希茨的显式值常数在这个领域可以得到如下。我们首先计算的梯度f

<米我>f<米fenced open="(" close=")"> ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 =<米sub> k f<米fenced open="(" close=")"> ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 1 <米我>k<米o>≤<米sub> N 0 ,<米space width="5em"> (<米n> 56 )

在那里,每k∈(1…N0),kf表示w.r.t.偏导数kth变量由

k f<米fenced open="(" close=")"> ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 =<米sub> 一个 k +<米underover accentunder="false" accent="false"> l<米o>=<米n> 1 N 0 b k<米o>,<米我>l +<米sub> b l<米o>,<米我>k ξ l <米space width="5em"> (<米n> 57 )

对于每一个<我nline-formula id="inf101"> K<米o>⊂<米row> {<米row> 1 ,<米o>…<米o>,<米sub> N 0 } ,局部李普希茨常数<我nline-formula id="inf102"> ϑ ̊ Ω 0 ,<米我米在hvariant="double-struck"> K 的多项式系统(限制<我nline-formula id="inf103"> (<米row> <米我>米<米o>,<米我>米 ] N 0 )w.r.t.组变量与指标<我nline-formula id="inf104"> K 就等于。

ϑ ̊ Ω 0 ,<米我米在hvariant="double-struck"> K =<米sub> 吃晚饭 ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 <米吃晚饭><米row> <米我>米<米o>,<米我>米 N 0 λ Ω 0 ,<米我米在hvariant="double-struck"> K ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 ,<米space width="5em"> (<米n> 58 )

每一个对角矩阵,在哪里<我nline-formula id="inf105"> Λ<米o>=<米我>诊断接头<米row> (<米row> ε 1 2 ,<米o>…<米o>,<米subsup> ε N 0 2 ) 与<我nline-formula id="inf106"> (<米row> ε 1 ,<米o>…<米o>,<米sub> ε N 0 ) <米fenced open="[" close=""> 0 ,<米o>+<米我>∞ N 0 ,

λ Λ ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 =<米ostretchy="false"> 为<米吃晚饭><米row> <米我>f<米fenced open="(" close=")"> ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 Λ 1 /<米n> 2 2 =<米underover accentunder="false" accent="false"> k<米o>=<米n> 1 N 0 ε k k f<米fenced open="(" close=")"> ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 2 (<米n> 59 )

自偏导数<一个href="#e57">Eq。57仿射函数的变量吗<我nline-formula id="inf107"> (<米row> ξ 1 ,<米o>…<米o>,<米sub> ξ N 0 ) ,λΛ是一个凸函数。我们演绎的上确界<一个href="#e58">Eq。58获得当<我nline-formula id="inf108"> ξ 1 =<米o>±<米我>米<米o>,<米o>…<米o>,<米sub> ξ N 0 =<米o>±<米我>米 ,所以<我nline-formula id="inf109"> ϑ ̊ Ω 0 ,<米我米在hvariant="double-struck"> K 可以计算通过寻找最大的有限数量的值。

4.3计算结果

在数值实验中,我们考虑一个玩具例子对应N0= 3,

<米fenced open="(" close=")"> ξ 1 ,<米sub> ξ 2 ,<米sub> ξ 3 <米吃晚饭><米row> R 3 f<米fenced open="(" close=")"> ξ 1 ,<米sub> ξ 2 ,<米sub> ξ 3 =<米sub> ξ 1 +<米n> One hundred. ξ 3 <米subsup> ξ 2 2 +<米我>γ<米sub> ξ 1 ξ 3 ,<米space width="5em"> (<米n> 60 )

在哪里<我nline-formula id="inf110"> γ<米o>∈<米fenced open="[" close=""> 0 ,<米o>+<米我>∞ 。我们推断<一个href="#e59">59式。

λ Λ ξ 1 ,<米sub> ξ 2 ,<米sub> ξ 3 =<米sub> ε 1 1 +<米我>γ<米sub> ξ 3 2 +<米n> 4 ε 2 ξ 2 2 +<米sub> ε 3 One hundred. +<米我>γ<米sub> ξ 1 2 (<米n> 61年 )

,因此,

吃晚饭 ξ 1 ,<米sub> ξ 2 ,<米sub> ξ 3 <米吃晚饭><米row> <米我>米<米o>,<米我>米 3 λ Λ ξ 1 ,<米sub> ξ 2 ,<米sub> ξ 3 =<米sub> ε 1 1 +<米我>γ<米我>米 2 +<米n> 4 ε 2 2 +<米sub> ε 3 One hundred. +<米我>γ<米我>米 2 <米space width="5em"> (<米n> 62年 )

通过观察七个可能的二进制值(ɛ1,ɛ2,ɛ3)≠(0,0,0),我们因此李普希茨常数的计算f对于每组输入。例如,

•如果ɛ1= 1,ɛ= 0,ɛ3= 0,我们计算<我nline-formula id="inf111"> ϑ ̊ Ω 0 ,<米我米在hvariant="double-struck"> K 与<我nline-formula id="inf112"> K<米o>=<米row> {<米row> 1 } ,即,evaluate the sensitivity w.r.t. the first variable

•如果ɛ1=ɛ2= 1,ɛ3= 0,我们计算<我nline-formula id="inf113"> ϑ ̊ Ω 0 ,<米我米在hvariant="double-struck"> K 与<我nline-formula id="inf114"> K<米o>=<米row> {<米row> 1、2 } ,即,evaluate the joint sensitivity w.r.t. the first and second variables;

•如果ɛ1=ɛ2=ɛ3= 1,我们计算<我nline-formula id="inf115"> ϑ ̊ Ω 0 ,<米我米在hvariant="double-struck"> K 与<我nline-formula id="inf116"> K<米o>=<米row> {<米row> 1、2、3 } ,即,evaluate the sensitivity w.r.t. all the variables (global Lipschitz constant).

这些李普希茨常数允许我们评估系统的内在动力,这就是它响应当输入变化。

现在我们的兴趣将会评估这个动态修改时,系统是由一个神经网络模型。为此,选择三个系统进行了研究γ∈(0,1/10 1)和=50。我们从每个系统生成5000个样本数据,输入值在独立于一个随机均匀分布。虽然训练神经网络,数据集以4:1的比例分为训练和测试样本。输入是规范化使用其均值和标准差,而输出是max-normalized。我们构建神经网络来逼近系统使用两个隐藏层(=3)与一些隐藏在每一层神经元等于30和ReLU激活功能。培训损失均方误差。

为不同的值γ我们报告的局部李普希茨常量的值<一个href="#T2">表2,<一个href="#T3">3,<一个href="#T4">4。的变量<我nline-formula id="inf117"> θ K 对应于<我nline-formula id="inf118"> ϑ ̊ Ω 0 ,<米我米在hvariant="double-struck"> K 分析价值我们来自以前的公式,而它对应于李普希茨常数<我nline-formula id="inf119"> ϑ 3 Ω 0 ,<米我米在hvariant="double-struck"> K ,当计算的神经网络训练以标准的方式或光谱归一化约束。的价值l用于光谱归一化调整,以获得类似的多项式系统全局李普希茨常数。在标题中,我们也显示精度的归一化均方误差(NMSE)和归一化平均绝对误差(NMAE)。限制培训这些值略高,但仍然相当小。

表2
www.雷竞技rebatfrontiersin.org

表2。李普希茨常量值的比较γ=0。测试性能标准培训:NMSE = 0.007, NMAE = 0.005,光谱归一化:NMSE = 0.011, NMAE = 0.009。

表3
www.雷竞技rebatfrontiersin.org

表3。李普希茨常量值的比较γ=1/10。测试性能标准培训:NMSE = 0.006, NMAE = 0.005,光谱归一化:NMSE = 0.009, NMAE = 0.007。

表4
www.雷竞技rebatfrontiersin.org

表4。李普希茨常量值的比较γ=1。测试性能标准培训:NMSE = 0.006,美= 0.005,光谱归一化:NMSE = 0.014, NMAE = 0.009。

评价结果:

•在一般情况下,ξ3影响这个系统的输出最,(ξ2,ξ3)主要是占全球系统的动力学。

•与标准培训,我们可以看到,存在一个显著增加的敏感性对输入变化,因此神经网络容易受到敌对的扰动。

•通过使用光谱归一化,可以限制系统的全局李普希茨常数接近全球价值分析,同时保持良好的精度。然而你可能注意的敏感性增加ξ1ξ3,降低灵敏度ξ2对原系统。

•三个模型,与神经网络获得的值遵循相同的趋势,不同组的输入,这些观察与分析值。

•尽管李普希茨常数计算神经网络在整个空间的一个系统(−50,50)<吃晚饭>3似乎,我们李普希茨估计没有求助于当地的分析一致。

这些观察强调控制的重要性的李普希茨常数神经网络模型需要通过专门的培训策略。另外,我们看到,评估李普希茨常数对组的输入允许我们有一个更好的理解的行为模式。

在本节中,我们已经讨论了合成数据集的方法。在下一节中,灵敏度分析将在广泛使用的开源数据集和一个工业数据集。

<一个我d="h6" name="h6">

5应用程序在不同的用例

5.1数据集和网络描述

我们研究四个回归问题涉及表格数据集展示我们提出多变量分析的神经网络的稳定性。表格数据利用异构数据源的信息来自不同传感器或数据收集过程。我们应用广泛使用的表格数据集上的方法:1)联合循环电厂的数据集<一个href="#fn5">5这与9568年有4个属性实例;2)汽车MPG的数据集<一个href="#fn6">6由398个实例7属性;3)波士顿住房数据集<一个href="#fn7">7由506个实例13属性。结合发电厂和汽车MPG的数据集,我们解决回归问题单输出,而对于波士顿住房数据集我们考虑两个输出回归问题“价格”和“ptratio”作为输出变量。数据集的属性是一个连续和分类。之间的数据集划分的比例4:1训练和测试数据。

泰利斯空中机动工业应用程序表示预计行程时间的预测(高频),这意味着时间的飞机在起飞和降落,考虑的变量中描述<一个href="#T5">表5。应用程序在空中交通流量管理中很重要,这是一个活动区域安全是至关重要的。拟议中的灵敏度分析的目的是从而帮助工程师在建筑安全设计模型符合特定的安全稳定目标。数据集由2219097年的培训,739639验证,739891测试样品。

表5
www.雷竞技rebatfrontiersin.org

表5。输入和输出变量描述为泰利斯空中机动工业应用数据集。

对于所有的模型,我们与ReLU建立完全连接网络<一个href="#fn8">8激活函数在所有隐藏层,除了最后一个。模型训练与Tensorflow Keras后端。初始化设置Glorot制服。不同的网络体系结构模型、层数和神经元列表<一个href="#T6">表6。联合循环电厂数据集(10,6)网络架构是训练两个隐藏层有10 6隐藏神经元,分别。泰利斯空中机动工业应用(10×(30)]意味着30的神经网络有10个隐藏层神经元。

表6
www.雷竞技rebatfrontiersin.org

表6。网络体系结构和培训设置为不同的数据集。

5.2对每个输入灵敏度分析

在本节中,我们研究了输入变量对网络的稳定性的影响。更具体地说,我们研究输入变化的影响通过量化网络的稳定性<我nline-formula id="inf120"> ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K 与<我nline-formula id="inf121"> ϵ<米o>∈ 0 1 的各种选择<我nline-formula id="inf122"> K ,而不是全局李普希茨常数占整个组输入的影响。获得的价值<我nline-formula id="inf123"> ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K 允许我们评估相应的组变量可能如何影响网络的稳定性。通过执行这个分析数的选择<我nline-formula id="inf124"> K ,我们因此生成的多元分析李普希茨规律的网络。

如图所示,<一个href="#Proposition_1">命题1,不同的ϵ参数也是深刻的,因为它允许我们衡量网络的行为当输入扰动逐渐更多的集中在一个给定的输入子集。

尽管我们的方法可以应用于组织的投入,为简单起见在本节中,我们将关注此案时集<我nline-formula id="inf125"> K 减少一个。在这种背景下,我们提出一种新的表征显示李普希茨的结果分析的神经网络。更准确地说,我们的价值观<我nline-formula id="inf126"> (<米row> ϑ Ω ϵ<米o>,<米row> {<米row> k } ) 1 <米我>k<米o>≤<米sub> N 0 明星或雷达图表,恒星的每个分支对应于该指数k一个输入。为每个值ϵ获得一个新的情节,显示在一个特定的颜色。注意,根据<一个href="#Proposition_1">命题3(我v),故事情节生成的不同ϵ值不能交叉。当ϵ= 1,我们获得一个“半径”对应的“各向同性”表示全局李普希茨常数ϑ的网络。这种表示方法叫做李普希茨明星。所有的结果将显示我们的分析表示。

对于每个数据集,我们首先在设计网络时执行一个标准的培训。为了便于比较,网络的李普希茨星训练以这样的标准方式提出了作为第一次要情节的所有数据。接下来,我们显示输入灵敏度的变化而言,当1)李普希茨目标实施,和2)当执行网络的对抗训练。网络架构不变,为我们所有的实验和每个数据集,表示在5.1节。李普希茨每个值的常量ϵ计算使用LipSDP-Neuron (<一个href="#B8">Fazlyab et al ., 2019)。自稳定的价格可能会增加精确度损失(<一个href="#B22">齐et al ., 2018 a),我们也报告网络的性能测试数据集的美(平均绝对误差)为每个李普希茨星阴谋。

5.3培训李普希茨指定目标的效果

谱范数约束执行培训4.1节中解释。我们的三个数据集的结果显示<一个href="#F2">图2- - - - - -<一个href="#F5">5。在这些情节,我们可以观察到的收缩李普希茨明星后减少目标李普希茨的价值。有趣的是,改善稳定不影响网络的性能。让我们评论最后一个用例的结果。

图2
www.雷竞技rebatfrontiersin.org

图2。灵敏度w.r.t.对联合循环发电厂每个输入数据集。光谱归一化约束的影响。(一)标准培训:李普希茨常数= 0.66,美= 0.007,(B)光谱归一化:李普希茨常数= 0.25,美= 0.0066。

图3
www.雷竞技rebatfrontiersin.org

图3。敏感度w.r.t.每个输入数据集汽车MPG。光谱归一化约束的影响。(一)标准培训:李普希茨常数= 2.75,美= 0.05,(B)光谱归一化:李普希茨常数= 0.76,美= 0.04。

图4
www.雷竞技rebatfrontiersin.org

图4。灵敏度w.r.t.每个输入在波士顿住房数据集。光谱归一化约束的影响。(一)标准培训:李普希茨常数= 18.56,美(y1)= 2.45,美(y2)= 1.41,(B)光谱归一化:李普希茨常数= 8.06,美(y1)= 2.96,美(y2)= 1.35。

图5
www.雷竞技rebatfrontiersin.org

图5。灵敏度w.r.t.每个输入泰利斯空中机动工业应用。光谱归一化约束的影响。(一)标准培训:李普希茨常数= 45.46,美= 496.37 (s),(B)光谱归一化约束:李普希茨常数= 16.62,美= 478.88 (s)。

评论泰利斯空中机动工业应用明星的情节,很明显,各个变量对李普希茨有截然不同的影响行为的网络。这是一个预期的结果,因为这些变量有不同数量的信息被学习。从<一个href="#F5">图5我们观察到变量1-Flight距离和3-Initial扮演重要角色,而变量5-Longitude起源和8-Longitude目的地也很敏感。下面介绍了一些似是而非的解释这些事实。

•飞行距离:一个变化的影响的输入可以是重要的因为因为空中交通管理规则分离,自由商业飞机不能增加他们的速度更长的飞行距离的影响降到最低。

•初始研讨会:修改这个输入相当于改变初始条件,这将产生重大影响。这是有可能的,在最坏的情况,积累其他来自其他耦合输入和扰动参数(如天气状况),这可能是为什么局部李普希茨常数非常高,和接近全球李普希茨常数。

•经度出发地和目的地参数:这些参数与不同的大洲,甚至国家的起源和目的地机场和空中交通设备可能有不同的品质。

5.4影响的对抗训练

产生敌对的攻击和执行对抗训练方法设计鲁棒神经网络构成受欢迎。然而,这些技术对回归任务得到的关注更少,因为大部分的作品处理分类任务(<一个href="#B9">格拉汉姆·古德费勒et al ., 2015;<一个href="#B14">Kurakin et al ., 2018;<一个href="#B7">Eykholt et al ., 2018)。同时,大多数现有的深度学习的文学作品都是对标准信号/图像处理问题,而只有一些作品处理表格数据(<一个href="#B28">Zhang et al ., 2016;<一个href="#B13">柯et al ., 2018)。一个明显的例外是(<一个href="#B1">芭蕾舞et al ., 2019调查问题对抗攻击涉及表格数据的分类任务。因为我们的应用程序相关的回归问题的一些现有的作品直接适用,我们设计了一个具体的对抗性的训练方法。更具体地说,对于一个给定的噪音和对抗的振幅为每个样本训练集,我们产生最严重的攻击基于雅可比矩阵的谱特性的网络,计算反向传播。在每个时代的对抗训练过程,我们解决潜在的极大极小问题(<一个href="#B24">图et al ., 2019)。更多细节的生成回归攻击可以在对手的攻击(<一个href="#B10">古普塔et al ., 2021)。

从训练模型生成的敌对攻击在以前的时代先后连接到训练集在接下来的训练时期,就像在标准对抗训练实践使用FGSM (<一个href="#B9">格拉汉姆·古德费勒et al ., 2015)和Deepfool (<一个href="#B18">Moosavi-Dezfooli et al ., 2016)的攻击。而产生敌对攻击表格数据,有些变量可能比其他人更容易受到攻击。的作者(<一个href="#B1">芭蕾舞et al ., 2019)照顾这方面通过使用一个特征向量的重要性。他们也只攻击连续变量,无视分类的同时产生攻击。发电厂和波士顿的住房数据集,我们攻击所有的四个输入变量,在MPG数据集,我们只攻击连续变量。工业数据集,我们为最敏感的五个输入变量生成攻击。我们也试着攻击的所有变量的数据集,但这不是观察到更有效率。的结果形式李普希茨星了<一个href="#F6">图6- - - - - -<一个href="#F9">9

图6
www.雷竞技rebatfrontiersin.org

图6。灵敏度w.r.t.对联合循环发电厂每个输入数据集。对抗训练的效果。(一)标准培训:李普希茨常数= 0.657,美= 0.007,(B)敌对的培训:李普希茨常数= 0.37,美= 0.0068。

图7
www.雷竞技rebatfrontiersin.org

图7。敏感度w.r.t.每个输入数据集汽车MPG。对抗训练的效果。(一)标准培训:李普希茨常数= 2.75,美= 0.05,(B)敌对的培训:李普希茨常数= 1.84,美= 0.042。

图8
www.雷竞技rebatfrontiersin.org

图8。灵敏度w.r.t.每个输入在波士顿住房数据集。对抗训练的效果。(一)标准培训:李普希茨= 18.56美(y1)= 2.45,美(y2)= 1.41,(B)敌对的培训:李普希茨常数= 16.50,美(y1)= 2.35美y2)= 1.32。

图9
www.雷竞技rebatfrontiersin.org

图9。灵敏度w.r.t.每个输入泰利斯空中机动工业应用。对抗训练的效果。(一)标准培训:李普希茨= 45.47,美= 496.37 (s),对抗训练。(B)李普希茨= 34.26,梅= 494.7 (s)。

正如预期的那样,对抗的训练会导致收缩恒星的阴谋,这表明一个更好的控制训练模型的稳定性,同时也略有改善美。在测试,然而我们看到,我们的全球对抗的训练过程的效率不及光谱归一化技术。

5.5灵敏度关于一对变量

我们现在考虑的情况下<我nline-formula id="inf127"> K 包含对元素。我们第一次显示相应的局部李普希茨常量使用一颗李普希茨表示<一个href="#F10">图10为不同的数据集,我们已经讨论了。顶点的李普希茨星代表李普希茨获得恒定的值<我nline-formula id="inf128"> ϑ Ω ϵ<米o>,<米我米在hvariant="double-struck"> K 所有可能的组合的双变量有不同的价值观ϵ,即,我t represents the sensitivity w.r.t. to that particular pair.

图10
www.雷竞技rebatfrontiersin.org

图10。敏感性w.r。t双变量(一)结合电厂数据集(B)汽车MPG数据集(C)波士顿住房数据集和(D)泰利斯空中机动工业应用。

如图所示,<一个href="#F10">图10这颗李普希茨表示可以用于显示组织的影响的变量,而不是单一的。这可能是高利息,当输入的数量很大,特别是如果他们可以分为变量属于一个给定的类有一个特定的物理意义(如电气变量与机械的)。然而这种李普希茨星表示可能不是很深刻的识别之间可能存在的耦合在一个给定的变量组。例如,它可能发生,被认为是在一起,两个变量产量增加敏感性比他们每个人单独的敏感性。为什么我们需要找到一种更好的方式来强调这些耦合效应有关<一个href="#Proposition_1">命题3(v)的州,为每一个<我nline-formula id="inf129"> ϵ<米o>∈ 0 1 和<我nline-formula id="inf130"> (<米row> k<米o>,<米我>ℓ ) <米吃晚饭><米row> {<米row> 1 ,<米o>…<米o>,<米sub> N 0 } 2 ,

马克斯<米fenced open="{" close="}"> ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> k ,<米subsup> ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> <米subsup> ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> k<米o>,<米我>ℓ <米space width="5em"> (<米n> 63年 )

这个属性意味着,在考虑一对输入时,最高的一个局部李普希茨常数将“主宰”。绕过这个困难,使我们的分析更可判断的,我们能想到的正常化李普希茨常数以合适的方式。这种策略是一种常见的做法在统计的时候,举个例子,一对变量的协方差归一化标准差来定义他们的产品的相关因素。再一次,我们可以利用属性建立的<一个href="#Proposition_1">命题3为我们提供一个准则来执行这个正常化。除了<一个href="#e63">Eq。63根据属性(八),

ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> k<米o>,<米我>ℓ <米吃晚饭><米row> ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> k p * +<米吃晚饭><米row> ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> p 1 /<米吃晚饭><米row> p +<米我>o<米fenced open="(" close=")"> ϵ <米吃晚饭><米row> 2 1 /<米吃晚饭><米row> p 马克斯<米fenced open="{" close="}"> ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> k ,<米subsup> ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> +<米我>o<米fenced open="(" close=")"> ϵ (<米n> 64年 )

前两个不平等提出规范化的李普希茨常数对输入通过定义

ϑ ̃ Ω ϵ<米o>,<米fenced open="{" close="}"> k<米o>,<米我>ℓ =<米frac> 1 2 1 /<米吃晚饭><米row> p <米n> 1 ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> k<米o>,<米我>ℓ 马克斯<米fenced open="{" close="}"> ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> k ,<米subsup> ϑ Ω ϵ<米o>,<米fenced open="{" close="}"> <米n> 1 <米space width="5em"> (<米n> 65年 )

实际上,当ϵ是接近于零,<一个href="#e63">方程式63- - - - - -<一个href="#e65">65年表明,<我nline-formula id="inf131"> ϑ ̃ Ω ϵ<米o>,<米row> {<米row> k<米o>,<米我>ℓ } <米row> (<米row> 0 1 ] 。注意,对角线的条款,<我nline-formula id="inf132"> ϑ ̃ Ω ϵ<米o>,<米row> {<米row> k<米o>,<米我>k } =<米n> 0 。越高<我nline-formula id="inf133"> ϑ ̃ Ω ϵ<米o>,<米row> {<米row> k<米o>,<米我>ℓ } ,增益灵敏度越高之间的耦合k。的归一化值在不同的数据集<一个href="#T7">表7

表7
www.雷竞技rebatfrontiersin.org

表7。二阶归一化耦合矩阵ϵ=0。001(一)结合电厂数据集(B)汽车MPG数据集(C)波士顿住房数据集和(D)泰利斯空中机动工业应用。

5.6的解释结果

我们总结一些重要的观察/属性有关的稳定性得到可从训练在不同的数据集,在本文中,我们提出了利用定量工具。

C)ombined电厂数据集

•“3-Exhaust真空”是最敏感的变量的四个变量。

•我们观察任何变量加上“3”给出了一个更高的局部李普希茨常数。

•从<一个href="#T7">表7,我们看到效果主要是由“3”的敏感性和没有获得加上其他变量。因此,“3”主导整个神经网络的灵敏度。

•另一方面,我们观察到,“0”加上“1”和“2”变得更加敏感的增益就是明证<一个href="#T7">表7

b)汽车MPG的数据集

•变量“6-Origin”和“3-Weight”是最敏感的变量。

•局部李普希茨常数的值峰值当其他变量加上“3”或“6”。

•从<一个href="#T7">表7 b,我们看到,大部分的价值加上“3”或“6”是接近于零,除非“3”和“6”耦合在一起。同时,我们看到一个异常当“5”加上“3”或“6”。这表明,“3”,“5”、“6”有更高的对网络的稳定性的影响。

c)波士顿住房数据集

•变量“7-DIS”和“11-LSTAT”是最敏感的变量。

•我们观察一个高局部李普希茨常数当耦合变量与“7”或“十一”。

•从<一个href="#T7">表7 c,我们看到所有的值为“7”和“十一”再加上其他变量都接近于零,除非“7”和“十一”共同考虑。因此,“7”和“十一”主导NN的敏感性。

从表中我们看到的归一化值,“2 - 9”有更高的影响当耦合神经网络的敏感性。类似的观察可以对“2 - 8”,“1 - 4”,“3 - 4”。

d)泰利斯空中机动工业应用

•变量“1-Flight距离”、“3-Initial研讨会”,和“8-Longitude目的地”是最敏感的变量。

•我们看到山峰的局部李普希茨常量值,当这些变量加上其他变量高度敏感。

•但是当分析规范化表,它变得明显,增加主要是由于这些敏感的变量。

•我们也观察到<一个href="#T7">表7 d“0”的敏感性增加,再加上其他变量“5”,“7”,“10”、“十一”和“13”。

<一个我d="h7" name="h7">

6结论

我们已经提出了一种新的多变量分析李普希茨规律性的神经网络。我们的方法,其理论基础是在第三节,允许输入灵敏度对任何群体的突出显示。我们引入了一个新的“李普希茨星”代表这有助于显示每个输入或一组输入有助于网络的全局李普希茨行为。这些工具的使用已经说明在四个涉及表格数据的回归测试用例。两个健壮的训练方法带来的改进(培训李普希茨界限和敌对的)测量。更一般的提议的方法适用于各种机器学习任务来构建“safe-by-design”模型在异构/多通道/ multi-omic可以使用数据。

<一个我d="h8" name="h8">

数据可用性声明

工业数据集本文并不容易获得,因为数据集是泰利斯公司内部。进一步调查应该指向<一个href="mailto:kavya.gupta100@gmail.com">kavya.gupta100@gmail.com。所有其他数据集很容易可以从以下几点:<一个href="https://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant">https://archive.ics.uci.edu/ml/datasets/Combined +周期+能力+植物;<一个href="https://archive.ics.uci.edu/ml/datasets/auto+mpg">https://archive.ics.uci.edu/ml/datasets/auto +英里/加仑;<一个href="https://www.cs.toronto.edu/∼delve/data/boston/bostonDetail.html">https://www.cs.toronto.edu/∼钻研/数据/波士顿/ bostonDetail.html

<一个我d="h9" name="h9">

作者的贡献

KG-Doctoral学生处理数据集的处理、编码工具,提出了优化的结果和本文的写作。FK-Thales博士生的导师。负责采购工业数据集和技术建议实验和更好的利用工具,编辑的文章。BP-P-Thales博士生的导师。负责采购工业数据集实验和技术建议。更好的利用工具,编辑的文章。J-CP-Academic顾问负责的数学证明本文中提出的工作和写作的文章。FM-Academic顾问负责编辑这篇文章。

<一个我d="h10" name="h10">

资金

公斤的博士论文是由l 'Association国家de la矫揉造作的et de la Technologie (ANRT)和法国泰利斯LAS CIFRE公约。这部分工作是ANR研究和教学支持的椅子上人工智能,可以解决的。

<一个我d="h11" name="h11">

的利益冲突

公斤,颗BP-P受雇于该公司法国泰利斯拉斯维加斯。

其余作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

<一个我d="h12" name="h12">

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

<一个我d="h13" name="h13">

补充材料

本文的补充材料在网上可以找到:<一个href="//www.thespel.com/articles/10.3389/frsip.2022.794469/full">https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frsip.2022.794469/full补充材料

<一个我d="h14" name="h14">

脚注

1更普遍的是,一个函数ρ我,k可以应用于每个组件ξ我,k但是这种情况很少发生在标准神经网络。

2结果仍然是有效的,如果使用不同的标量激活函数在给定的层。

3这可以扩展到多个输出网络,如果输出空间配备ℓ+∞范数。

4回想一下,这个解释时是有效的p=2<一个href="#e47">Eq。47

5<一个href="https://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant">https://archive.ics.uci.edu/ml/datasets/Combined +周期+能力+植物

6<一个href="https://archive.ics.uci.edu/ml/datasets/auto+mpg">https://archive.ics.uci.edu/ml/datasets/auto +英里/加仑

7<一个href="https://www.cs.toronto.edu/">https://www.cs.toronto.edu/∼钻研/数据/波士顿/ bostonDetail.html。

8RelU只给出结果,但是我们测试了我们的方法与其他激活等功能双曲正切,发现输入的灵敏度的趋势是相似的。

<一个我d="h15" name="h15">

引用

芭蕾舞,V。,Renard, X., Aigrain, J., Laugel, T., Frossard, P., and Detyniecki, M. (2019). Imperceptible Adversarial Attacks on Tabular Data.NeurIPS 2019车间健壮的AI在金融服务:数据、公平、Explainability、可信度和隐私(健壮的AI在FS 2019)。可以在<一个href="https://hal.archives-ouvertes.fr/hal-03002526">https://hal.archives - ouvertes.fr/hal - 03002526

谷歌学术搜索

巴特利特,p . L。福斯特·d·J。,和Telgarsky, M. J. (2017). “Spectrally-normalized Margin Bounds for Neural Networks,” in先进的神经信息处理系统,6240- 6249。

谷歌学术搜索

陈,T。,l一个sserre, J.-B., Magron, V., and Pauwels, E. (2020). Semialgebraic Optimization for Lipschitz Constants of ReLU Networks.放置神经Inf。过程。系统。33岁,19189 - 19200。

谷歌学术搜索

Combettes, p . L。,和Pesquet, J.-C. (2020a). Deep Neural Network Structures Solving Variational Inequalities.集值变分肛门。28日,28。doi: 10.1007 / s11228 - 019 - 00526 - z

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Deep+Neural+Network+Structures+Solving+Variational+Inequalities&btnG=">谷歌学术搜索

Combettes, p . L。,和Pesquet, J.-C. (2020b). Lipschitz Certificates for Layered Network Structures Driven by Averaged Activation Operators.暹罗j .数学。科学数据。2,529日- 557。m1272780 doi: 10.1137/19

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Lipschitz+Certificates+for+Layered+Network+Structures+Driven+by+Averaged+Activation+Operators&btnG=">谷歌学术搜索

Combettes, p . L。,和Pesquet, J.-C. (2008). Proximal Thresholding Algorithm for Minimization over Orthonormal Bases.暹罗j . Optim。18日,1351 - 1376。doi: 10.1137 / 060669498

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Proximal+Thresholding+Algorithm+for+Minimization+over+Orthonormal+Bases&btnG=">谷歌学术搜索

Eykholt, K。,Evtimov, I., Fernandes, E., Li, B., Rahmati, A., Xiao, C., et al. (2018). “Robust Physical-World Attacks on Deep Learning Visual Classification,” in《IEEE计算机视觉与模式识别会议,1625 - 1634。doi: 10.1109 / cvpr.2018.00175

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Robust+Physical-World+Attacks+on+Deep+Learning+Visual+Classification&btnG=">谷歌学术搜索

Fazlyab, M。罗比,。,Hassani, H., Morari, M., and Pappas, G. (2019). “Efficient and Accurate Estimation of Lipschitz Constants for Deep Neural Networks,” in先进的神经信息处理系统,11423- 11434。

谷歌学术搜索

格拉汉姆·古德费勒,J。Shlens, J。,和Szegedy C。(2015)。解释和利用对手的例子。学习国际会议上表示。可以在<一个href="http://arxiv.org/abs/1412.6572">http://arxiv.org/abs/1412.6572

谷歌学术搜索

Gupta, K。,Pesquet, J.-C., Pesquet-Popescu, B., Malliaros, F., and Kaakai, F. (2021). An Adversarial Attacker for Neural Networks in Regression Problems.我JCAI人工智能(AI)安全安全研讨会上展出。可以在<一个href="http://ceur-ws.org/Vol-2916/paper_17.pdf">http://ceur-ws.org/Vol-2916/paper_17.pdf

谷歌学术搜索

汉考克,j . T。,和Khoshgoftaar, T. M. (2020). Survey on Categorical Data for Neural Networks.j。大数据7,1-41。doi: 10.1186 / s40537 - 020 - 00305 - w

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Survey+on+Categorical+Data+for+Neural+Networks&btnG=">谷歌学术搜索

Katz, G。,Barrett, C., Dill, D. L., Julian, K., and Kochenderfer, M. J. (2017). “Reluplex: An Efficient SMT Solver for Verifying Deep Neural Networks,” in国际会议上计算机辅助验证(施普林格),97 - 117。doi: 10.1007 / 978 - 3 - 319 - 63387 - 9 - _5

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Reluplex:+An+Efficient+SMT+Solver+for+Verifying+Deep+Neural+Networks&btnG=">谷歌学术搜索

柯,G。,Zhang, J., Xu, Z., Bian, J., and Liu, T.-Y. (2018).T一个bNN:通用表格数据的神经网络解决方案

谷歌学术搜索

Kurakin,。,格拉汉姆·古德费勒,J。,和Bengio, S. (2018). Adversarial Examples in the Physical World.人工智能安全查普曼和大厅/ CRC,99 - 112。

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Adversarial+Examples+in+the+Physical+World&btnG=">谷歌学术搜索

Latorre F。,Roll和,P。T。Y., and Cevher, V. (2020). Lipschitz Constant Estimation of Neural Networks via Sparse Polynomial Optimization.第八届国际会议上学习表示

谷歌学术搜索

刘易斯,公元(2010)。前九个列表:最受欢迎的诱导矩阵规范。可以在<一个href="https://mast.queensu.ca∼andrew/notes/pdf/2010a.pdf">https://mast.queensu.ca∼安德鲁/ notes / pdf / 2010 a.pdf

谷歌学术搜索

Miyato, T。,K一个taoka, T., Koyama, M., and Yoshida, Y. (2018). Spectral Normalization for Generative Adversarial Networks.学习国际会议上表示。可以在<一个href="https://openreview.net/forum?id=B1QRgziT-">https://openreview.net/forum?id=B1QRgziT-

谷歌学术搜索

Moosavi-Dezfooli S.-M。法,。,和Frossard, P. (2016). “Deepfool: a Simple and Accurate Method to Fool Deep Neural Networks,” in《IEEE计算机视觉与模式识别会议(IEEE),2574 - 2582。doi: 10.1109 / cvpr.2016.282

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Deepfool:+a+Simple+and+Accurate+Method+to+Fool+Deep+Neural+Networks&btnG=">谷歌学术搜索

泡利,P。,Koch, A., Berberich, J., Kohler, P., and Allgower, F. (2022). Training Robust Neural Networks Using Lipschitz Bounds.我EEE控制。系统。列托人。6,121- 126。doi: 10.1109 / LCSYS.2021.3050444

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Training+Robust+Neural+Networks+Using+Lipschitz+Bounds&btnG=">谷歌学术搜索

Serrurier, M。Mamalet F。,González-Sanz, A., Boissin, T., Loubes, J.-M., and del Barrio, E. (2021). “Achieving Robustness in Classification Using Optimal Transport with Hinge Regularization,” in《IEEE / CVF计算机视觉与模式识别会议(IEEE),505 - 514。doi: 10.1109 / cvpr46437.2021.00057

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Achieving+Robustness+in+Classification+Using+Optimal+Transport+with+Hinge+Regularization&btnG=">谷歌学术搜索

Szegedy C。,Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I. J., et al. (2013). “Intriguing Properties of Neural Networks,” in第二学习国际会议上表示,班夫,AB,2014年4月14 - 16日。可以在<一个href="https://dblp.org/rec/journals/corr/SzegedyZSBEGF13.bib">https://dblp.org/rec/雷竞技电竞体育竞猜平台journals/corr/SzegedyZSBEGF13.bib

谷歌学术搜索

齐D。,年代一个nturkar, S., Engstrom, L., Turner, A., and Madry, A. (2018a). Robustness May Be at Odds with Accuracy.学习国际会议上表示。可以在<一个href="https://openreview.net/forum?id=SyxAb30cY7">https://openreview.net/forum?id=SyxAb30cY7

谷歌学术搜索

齐D。,年代一个nturkar, S., Engstrom, L., Turner, A., and Madry, A. (2018b). There Is No Free Lunch in Adversarial Robustness (But There Are Unexpected Benefits).一个rXiv预印本arXiv: 1805.121522(3)。

谷歌学术搜索

你,Z。,Zhang, J., and Tao, D. (2019). Theoretical Analysis of Adversarial Learning: A Minimax Approach.先进的神经信息处理系统32。

谷歌学术搜索

Virmaux,。,和年代caman, K. (2018). “Lipschitz Regularity of Deep Neural Networks: Analysis and Efficient Estimation,” in先进的神经信息处理系统,3835- 3844。

谷歌学术搜索

翁,L。,Chen, P.-Y., Nguyen, L., Squillante, M., Boopathy, A., Oseledets, I., et al. (2019). “Proven: Verifying Robustness of Neural Networks with a Probabilistic Approach,” in国际会议上机器学习(长滩,CA:PMLR),6727 - 6736。

谷歌学术搜索

杨,y y。,R一个shtchian, C., Zhang, H., Salakhutdinov, R. R., and Chaudhuri, K. (2020). A Closer look at Accuracy vs. Robustness.先进的神经信息处理系统。33岁,8588 - 8601。

谷歌学术搜索

张,W。杜,T。,和W一个ng, J. (2016). “Deep Learning over Multi-Field Categorical Data,” in欧洲会议信息检索(施普林格),45-57。doi: 10.1007 / 978 - 3 - 319 - 30671 - 1 - _4

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Deep+Learning+over+Multi-Field+Categorical+Data&btnG=">谷歌学术搜索

下载