多元李普希茨分析神经网络的稳定性
- 1吃晚饭>法国信息中心de愿景Numerique CentraleSupelec,大学Paris-Saclay,温度,法国
2吃晚饭>空中机动方案提单,泰利斯公司拉斯维加斯,Rungis快递,法国
神经网络对敌对的扰动的稳定性一直得到广泛的研究。的一个主要策略包括量化神经网络的李普希茨规律。在本文中,我们引入一个多元李普希茨constant-based稳定性分析的完全连接神经网络让我们捕捉每个输入的影响或一组输入神经网络稳定。我们的方法依赖于一个合适re-normalization输入空间的目的来执行一个比一个更精确的分析提供了一个全局李普希茨常数。我们调查的数学特性提出了多元李普希茨分析和显示它的实用性在更好地理解的敏感性神经网络对输入组。我们显示结果分析的一种新的表示方法为机器学习设计从业者和安全工程师称为李普希茨明星。李普希茨星是一个图形和实用工具来分析神经网络模型在其发展的敏感性,对不同组合的输入。利用这个工具,我们表明,可以构建robust-by-design模型使用光谱归一化技术控制神经网络的稳定性,给出安全李普希茨的目标。感谢我们的多元李普希茨分析,我们还可以测量对抗训练推理任务的效率。我们执行实验各种开放获取表格数据集,和一个真正的泰利斯空中机动工业应用认证要求。
1介绍
人工神经网络是人工智能的最新进展的核心。今天面临的一个主要挑战,特别是公司设计先进的工业系统,是确保安全的使用这些技术的新一代产品。神经网络已被证明是敏感的对抗性的扰动(<一个href="#B21">Szegedy et al ., 2013一个>)。例如,改变几个像素的图像可能导致误分类的形象深神经网络(款),强调的潜在缺乏稳定的架构。款被敏感的对抗性的例子,因此可以愚弄,故意地(安全问题)或存在/意外的方式(安全问题),这提出了一个主要关心安全至上的系统稳定性,需要由一个独立的认证机构认证之前,任何进入生产/操作。DNN-based解决方案受阻的问题由于其复杂的非线性结构。尝试对验证神经网络已经在(例如<一个href="#B12">Katz et al ., 2017一个>;<一个href="#B26">翁et al ., 2019一个>)。它已被证明在<一个href="#B23">齐et al ., 2018 b一个>)之间存在一个平衡,神经网络的预测性能和稳定性。
2概述的估计李普希茨前馈网络的常数
2.1理论背景
一个
在那里,在
然后
在哪里<我nline-formula id="inf12">
的雅可比矩阵
虽然容易计算,这上界证明是over-pessimistic。在(<一个href="#B25">Virmaux Scaman, 2018一个>),计算问题的确切李普希茨常数可微函数指出是赋权。第一个通用算法(AutoLip)上边界的李普希茨常数可微函数。然而降低这个绑定<一个href="#e4">Eq。4一个>标准前馈神经网络。此外,作者提出了一个算法,称为SeqLip,连续神经网络,显示AutoLip显著提高。顺序激活的神经网络是一个网络运营商是可分的,对于每一个
的激活函数<我nline-formula id="inf14">
在哪里<我nline-formula id="inf16">
这表明,<我nline-formula id="inf18">
因此我们看到,小
近距离操作符是一个凸优化的基本工具。所示(<一个href="#B4">Combettes Pesquet, 2020 a一个>),关键是大多数的激活函数(例如,乙状结肠,ReLu,漏水的ReLu, ELU)目前用于神经网络的邻近运营商一些适当的下半连续凸函数。这个属性也满足激活运营商不分离,像softmax或胶囊中使用的挤压功能网络。为数不多的激活操作符不接近操作符(例如,凸组合的max池和平均池)可以被视为超松弛邻近运营商和对应于一个值的平均参数大于1/2。
在哪里
对于每一个
每<我nline-formula id="inf26">
时,每
如果,每
因此我们看到,当
这是证明(<一个href="#B5">Combettes Pesquet 2020 b一个>),如果非负权重的网络<我nline-formula id="inf27">
另一个有趣的结果是成立于(<一个href="#B5">Combettes Pesquet 2020 b一个>如果其他规范),类似的结果将会比欧几里得范数是用来量化的扰动输入和输出。例如,对于一个给定的
如果(
在为⋅为p,
2.2 SDP-Based方法
工作(<一个href="#B8">Fazlyab et al ., 2019一个>)关注神经网络使用分离激活操作。它假设激活函数
正如作者说的,大多数激活函数满足这个不等式
关键是,如果
在哪里<我nline-formula id="inf30">
对于每一个<我nline-formula id="inf33">
总结第一
另一方面,
后者不平等,因此能充分保证
这个不等式可以改写以矩阵形式
与<我nline-formula id="inf34">
在网络中只有一个隐藏层,主要调查(<一个href="#B8">Fazlyab et al ., 2019一个>),上述矩阵降低
条件<一个href="#e28">Eq。28一个>是满意的,对每一个(
这实际上是足够积极semidefiniteness矩阵约束得到满足<我nline-formula id="inf35">
在哪里
尽管存在有效解决SDP,仍然是计算密集型的方法。解决降低其计算复杂度为代价较低的精度由限制的优化指标矩阵
在哪里<我nline-formula id="inf38">
2.3基于多项式优化的方法
的方法(<一个href="#B15">Latorre et al ., 2020一个>)适用于神经网络有一个输出(例如,
在哪里
在那里,每<我nline-formula id="inf41">
Φ函数是一个多元多项式组成的向量参数。因此,如果相关的单位球
3加权李普希茨常数进行敏感性分析
延长上述理论结果的评价神经网络通过李普希茨稳定性规律,在本节中我们提出一种新的方法基于一个合适的权重计算的操作执行李普希茨常数。这使得神经网络稳定性的多变量敏感性分析单个输入或输入组。我们将首先激励这个权重从统计的角度来看。然后我们将定义在一个更精确的方式,在讨论其产生的数学特性。
3.1统计动机
温顺,假设网络的扰动输入是一个实现零均值高斯分布随机向量<我nline-formula id="inf44">
对于每一个<我nline-formula id="inf45">
Γγ函数和在哪里
让我们关注扰动
通过变量的变化<我nline-formula id="inf49">
在哪里<我nline-formula id="inf50">
另一方面,基于一阶近似<一个href="#e40">Eq。40一个>,
3.2新定义的加权李普希茨常数
基于前面的动机,我们建议采用加权范数定义一个网络李普希茨常数如下:
上述定义可以扩展到非欧几里得规范利用指数(
变化的变量,这种不平等也可以写成。
因此,我们看到,计算<我nline-formula id="inf54">
虽然我们所有的推导是基于这一事实Ω正定,从后者表达我们看到,通过不断扩展,<我nline-formula id="inf55">
3.3灵敏度对一组输入
在本节中,我们将有兴趣在一个特定的家庭加权矩阵与组相关的规范
定义,每一个非空的子集<我nline-formula id="inf56">
在哪里
如果我们回到统计解释3.1节中,<我nline-formula id="inf58">
我们有
7)让<我nline-formula id="inf83">
我们有
8)让<我nline-formula id="inf85">
让我们对这些结果发表评论。根据属性(i)在极限情况
4对合成数据验证
4.1背景
强调需要先进的神经网络灵敏度分析工具的设计,我们首先研究简单的合成多项式系统的例子,我们可以计算出局部李普希茨明确常数。我们定义的系统生成输入输出数据,训练一个完全连接的模型使用一个标准的培训,即。,没有任何约束。我们比较该方法与培训主题的谱范数约束层。
4.2多项式系统
我们认为回归问题的数据合成了一个二阶多变量多项式。系统建模是这样描述以下函数:
在哪里<我nline-formula id="inf98">
在那里,每
对于每一个<我nline-formula id="inf101">
每一个对角矩阵,在哪里<我nline-formula id="inf105">
自偏导数<一个href="#e57">Eq。57一个>仿射函数的变量吗<我nline-formula id="inf107">
4.3计算结果
在数值实验中,我们考虑一个玩具例子对应
在哪里<我nline-formula id="inf110">
,因此,
通过观察七个可能的二进制值(
评价结果:
5应用程序在不同的用例
5.1数据集和网络描述
我们研究四个回归问题涉及表格数据集展示我们提出多变量分析的神经网络的稳定性。表格数据利用异构数据源的信息来自不同传感器或数据收集过程。我们应用广泛使用的表格数据集上的方法:1)联合循环电厂的数据集<一个href="#fn5">5吃晚饭>一个>这与9568年有4个属性实例;2)汽车MPG的数据集<一个href="#fn6">6吃晚饭>一个>由398个实例7属性;3)波士顿住房数据集<一个href="#fn7">7吃晚饭>一个>由506个实例13属性。结合发电厂和汽车MPG的数据集,我们解决回归问题单输出,而对于波士顿住房数据集我们考虑两个输出回归问题“价格”和“ptratio”作为输出变量。数据集的属性是一个连续和分类。之间的数据集划分的比例4:1训练和测试数据。
对于所有的模型,我们与ReLU建立完全连接网络<一个href="#fn8">8吃晚饭>一个>激活函数在所有隐藏层,除了最后一个。模型训练与Tensorflow Keras后端。初始化设置Glorot制服。不同的网络体系结构模型、层数和神经元列表<一个href="#T6">表6一个>。联合循环电厂数据集(10,6)网络架构是训练两个隐藏层有10 6隐藏神经元,分别。泰利斯空中机动工业应用(10×(30)]意味着30的神经网络有10个隐藏层神经元。
5.2对每个输入灵敏度分析
在本节中,我们研究了输入变量对网络的稳定性的影响。更具体地说,我们研究输入变化的影响通过量化网络的稳定性<我nline-formula id="inf120">
5.3培训李普希茨指定目标的效果
谱范数约束执行培训4.1节中解释。我们的三个数据集的结果显示<一个href="#F2">图2一个>- - - - - -<一个href="#F5">5一个>。在这些情节,我们可以观察到的收缩李普希茨明星后减少目标李普希茨的价值。有趣的是,改善稳定不影响网络的性能。让我们评论最后一个用例的结果。
图2。灵敏度w.r.t.对联合循环发电厂每个输入数据集。光谱归一化约束的影响。(一)标准培训:李普希茨常数= 0.66,美= 0.007,(B)光谱归一化:李普希茨常数= 0.25,美= 0.0066。
图4。灵敏度w.r.t.每个输入在波士顿住房数据集。光谱归一化约束的影响。(一)标准培训:李普希茨常数= 18.56,美(
图5。灵敏度w.r.t.每个输入泰利斯空中机动工业应用。光谱归一化约束的影响。(一)标准培训:李普希茨常数= 45.46,美= 496.37 (s),(B)光谱归一化约束:李普希茨常数= 16.62,美= 478.88 (s)。
评论泰利斯空中机动工业应用明星的情节,很明显,各个变量对李普希茨有截然不同的影响行为的网络。这是一个预期的结果,因为这些变量有不同数量的信息被学习。从<一个href="#F5">图5一个>我们观察到变量1-Flight距离和3-Initial扮演重要角色,而变量5-Longitude起源和8-Longitude目的地也很敏感。下面介绍了一些似是而非的解释这些事实。
5.4影响的对抗训练
产生敌对的攻击和执行对抗训练方法设计鲁棒神经网络构成受欢迎。然而,这些技术对回归任务得到的关注更少,因为大部分的作品处理分类任务(<一个href="#B9">格拉汉姆·古德费勒et al ., 2015一个>;<一个href="#B14">Kurakin et al ., 2018一个>;<一个href="#B7">Eykholt et al ., 2018一个>)。同时,大多数现有的深度学习的文学作品都是对标准信号/图像处理问题,而只有一些作品处理表格数据(<一个href="#B28">Zhang et al ., 2016一个>;<一个href="#B13">柯et al ., 2018一个>)。一个明显的例外是(<一个href="#B1">芭蕾舞et al ., 2019一个>调查问题对抗攻击涉及表格数据的分类任务。因为我们的应用程序相关的回归问题的一些现有的作品直接适用,我们设计了一个具体的对抗性的训练方法。更具体地说,对于一个给定的噪音和对抗的振幅为每个样本训练集,我们产生最严重的攻击基于雅可比矩阵的谱特性的网络,计算反向传播。在每个时代的对抗训练过程,我们解决潜在的极大极小问题(<一个href="#B24">图et al ., 2019一个>)。更多细节的生成回归攻击可以在对手的攻击(<一个href="#B10">古普塔et al ., 2021一个>)。
图8。灵敏度w.r.t.每个输入在波士顿住房数据集。对抗训练的效果。(一)标准培训:李普希茨= 18.56美(
图9。灵敏度w.r.t.每个输入泰利斯空中机动工业应用。对抗训练的效果。(一)标准培训:李普希茨= 45.47,美= 496.37 (s),对抗训练。(B)李普希茨= 34.26,梅= 494.7 (s)。
正如预期的那样,对抗的训练会导致收缩恒星的阴谋,这表明一个更好的控制训练模型的稳定性,同时也略有改善美。在测试,然而我们看到,我们的全球对抗的训练过程的效率不及光谱归一化技术。
5.5灵敏度关于一对变量
我们现在考虑的情况下<我nline-formula id="inf127">
如图所示,<一个href="#F10">图10一个>这颗李普希茨表示可以用于显示组织的影响的变量,而不是单一的。这可能是高利息,当输入的数量很大,特别是如果他们可以分为变量属于一个给定的类有一个特定的物理意义(如电气变量与机械的)。然而这种李普希茨星表示可能不是很深刻的识别之间可能存在的耦合在一个给定的变量组。例如,它可能发生,被认为是在一起,两个变量产量增加敏感性比他们每个人单独的敏感性。为什么我们需要找到一种更好的方式来强调这些耦合效应有关<一个href="#Proposition_1">命题3一个>(v)的州,为每一个<我nline-formula id="inf129">
这个属性意味着,在考虑一对输入时,最高的一个局部李普希茨常数将“主宰”。绕过这个困难,使我们的分析更可判断的,我们能想到的正常化李普希茨常数以合适的方式。这种策略是一种常见的做法在统计的时候,举个例子,一对变量的协方差归一化标准差来定义他们的产品的相关因素。再一次,我们可以利用属性建立的<一个href="#Proposition_1">命题3一个>为我们提供一个准则来执行这个正常化。除了<一个href="#e63">Eq。63一个>根据属性(八),
前两个不平等提出规范化的李普希茨常数对输入通过定义
实际上,当
5.6的解释结果
我们总结一些重要的观察/属性有关的稳定性得到可从训练在不同的数据集,在本文中,我们提出了利用定量工具。
•“3-Exhaust真空”是最敏感的变量的四个变量。
6结论
我们已经提出了一种新的多变量分析李普希茨规律性的神经网络。我们的方法,其理论基础是在第三节,允许输入灵敏度对任何群体的突出显示。我们引入了一个新的“李普希茨星”代表这有助于显示每个输入或一组输入有助于网络的全局李普希茨行为。这些工具的使用已经说明在四个涉及表格数据的回归测试用例。两个健壮的训练方法带来的改进(培训李普希茨界限和敌对的)测量。更一般的提议的方法适用于各种机器学习任务来构建“safe-by-design”模型在异构/多通道/ multi-omic可以使用数据。
<一个我d="h8" name="h8">数据可用性声明
工业数据集本文并不容易获得,因为数据集是泰利斯公司内部。进一步调查应该指向<一个href="mailto:kavya.gupta100@gmail.com">kavya.gupta100@gmail.com一个>。所有其他数据集很容易可以从以下几点:<一个href="https://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant">https://archive.ics.uci.edu/ml/datasets/Combined +周期+能力+植物一个>;<一个href="https://archive.ics.uci.edu/ml/datasets/auto+mpg">https://archive.ics.uci.edu/ml/datasets/auto +英里/加仑一个>;<一个href="https://www.cs.toronto.edu/â¼delve/data/boston/bostonDetail.html">https://www.cs.toronto.edu/∼钻研/数据/波士顿/ bostonDetail.html一个>。
<一个我d="h9" name="h9">作者的贡献
KG-Doctoral学生处理数据集的处理、编码工具,提出了优化的结果和本文的写作。FK-Thales博士生的导师。负责采购工业数据集和技术建议实验和更好的利用工具,编辑的文章。BP-P-Thales博士生的导师。负责采购工业数据集实验和技术建议。更好的利用工具,编辑的文章。J-CP-Academic顾问负责的数学证明本文中提出的工作和写作的文章。FM-Academic顾问负责编辑这篇文章。
<一个我d="h10" name="h10">资金
公斤的博士论文是由l 'Association国家de la矫揉造作的et de la Technologie (ANRT)和法国泰利斯LAS CIFRE公约。这部分工作是ANR研究和教学支持的椅子上人工智能,可以解决的。
<一个我d="h11" name="h11">的利益冲突
公斤,颗BP-P受雇于该公司法国泰利斯拉斯维加斯。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
<一个我d="h13" name="h13">补充材料
本文的补充材料在网上可以找到:<一个href="//www.thespel.com/articles/10.3389/frsip.2022.794469/full">https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frsip.2022.794469/full补充材料一个>
<一个我d="h14" name="h14">脚注
1一个>吃晚饭>更普遍的是,一个函数
引用
芭蕾舞,V。,Renard, X., Aigrain, J., Laugel, T., Frossard, P., and Detyniecki, M. (2019). Imperceptible Adversarial Attacks on Tabular Data.
巴特利特,p . L。福斯特·d·J。,和Telgarsky, M. J. (2017). “Spectrally-normalized Margin Bounds for Neural Networks,” in
陈,T。,l一个sserre, J.-B., Magron, V., and Pauwels, E. (2020). Semialgebraic Optimization for Lipschitz Constants of ReLU Networks.
Combettes, p . L。,和Pesquet, J.-C. (2020a). Deep Neural Network Structures Solving Variational Inequalities.
Combettes, p . L。,和Pesquet, J.-C. (2020b). Lipschitz Certificates for Layered Network Structures Driven by Averaged Activation Operators.
Combettes, p . L。,和Pesquet, J.-C. (2008). Proximal Thresholding Algorithm for Minimization over Orthonormal Bases.
Eykholt, K。,Evtimov, I., Fernandes, E., Li, B., Rahmati, A., Xiao, C., et al. (2018). “Robust Physical-World Attacks on Deep Learning Visual Classification,” in《IEEE计算机视觉与模式识别会议,1625 - 1634。doi: 10.1109 / cvpr.2018.00175
Fazlyab, M。罗比,。,Hassani, H., Morari, M., and Pappas, G. (2019). “Efficient and Accurate Estimation of Lipschitz Constants for Deep Neural Networks,” in
格拉汉姆·古德费勒,J。Shlens, J。,和Szegedy C。(2015)。解释和利用对手的例子。
Gupta, K。,Pesquet, J.-C., Pesquet-Popescu, B., Malliaros, F., and Kaakai, F. (2021). An Adversarial Attacker for Neural Networks in Regression Problems.
汉考克,j . T。,和Khoshgoftaar, T. M. (2020). Survey on Categorical Data for Neural Networks.
Katz, G。,Barrett, C., Dill, D. L., Julian, K., and Kochenderfer, M. J. (2017). “Reluplex: An Efficient SMT Solver for Verifying Deep Neural Networks,” in国际会议上计算机辅助验证(施普林格),97 - 117。doi: 10.1007 / 978 - 3 - 319 - 63387 - 9 - _5
柯,G。,Zhang, J., Xu, Z., Bian, J., and Liu, T.-Y. (2018).
Kurakin,。,格拉汉姆·古德费勒,J。,和Bengio, S. (2018). Adversarial Examples in the Physical World.
Latorre F。,Roll和,P。T。Y., and Cevher, V. (2020). Lipschitz Constant Estimation of Neural Networks via Sparse Polynomial Optimization.
刘易斯,公元(2010)。前九个列表:最受欢迎的诱导矩阵规范。可以在<一个href="https://mast.queensu.caâ¼andrew/notes/pdf/2010a.pdf">https://mast.queensu.ca∼安德鲁/ notes / pdf / 2010 a.pdf一个>。
Miyato, T。,K一个taoka, T., Koyama, M., and Yoshida, Y. (2018). Spectral Normalization for Generative Adversarial Networks.
Moosavi-Dezfooli S.-M。法,。,和Frossard, P. (2016). “Deepfool: a Simple and Accurate Method to Fool Deep Neural Networks,” in《IEEE计算机视觉与模式识别会议(IEEE),2574 - 2582。doi: 10.1109 / cvpr.2016.282
泡利,P。,Koch, A., Berberich, J., Kohler, P., and Allgower, F. (2022). Training Robust Neural Networks Using Lipschitz Bounds.
Serrurier, M。Mamalet F。,González-Sanz, A., Boissin, T., Loubes, J.-M., and del Barrio, E. (2021). “Achieving Robustness in Classification Using Optimal Transport with Hinge Regularization,” in《IEEE / CVF计算机视觉与模式识别会议(IEEE),505 - 514。doi: 10.1109 / cvpr46437.2021.00057
Szegedy C。,Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, I. J., et al. (2013). “Intriguing Properties of Neural Networks,” in第二学习国际会议上表示,班夫,AB,2014年4月14 - 16日。可以在<一个href="https://dblp.org/rec/journals/corr/SzegedyZSBEGF13.bib">https://dblp.org/rec/雷竞技电竞体育竞猜平台journals/corr/SzegedyZSBEGF13.bib一个>。
齐D。,年代一个nturkar, S., Engstrom, L., Turner, A., and Madry, A. (2018a). Robustness May Be at Odds with Accuracy.
齐D。,年代一个nturkar, S., Engstrom, L., Turner, A., and Madry, A. (2018b). There Is No Free Lunch in Adversarial Robustness (But There Are Unexpected Benefits).
你,Z。,Zhang, J., and Tao, D. (2019). Theoretical Analysis of Adversarial Learning: A Minimax Approach.
Virmaux,。,和年代caman, K. (2018). “Lipschitz Regularity of Deep Neural Networks: Analysis and Efficient Estimation,” in
翁,L。,Chen, P.-Y., Nguyen, L., Squillante, M., Boopathy, A., Oseledets, I., et al. (2019). “Proven: Verifying Robustness of Neural Networks with a Probabilistic Approach,” in国际会议上机器学习(长滩,CA:PMLR),6727 - 6736。
杨,y y。,R一个shtchian, C., Zhang, H., Salakhutdinov, R. R., and Chaudhuri, K. (2020). A Closer look at Accuracy vs. Robustness.
张,W。杜,T。,和W一个ng, J. (2016). “Deep Learning over Multi-Field Categorical Data,” in欧洲会议信息检索(施普林格),45-57。doi: 10.1007 / 978 - 3 - 319 - 30671 - 1 - _4
关键词:李普希茨,神经网络,稳定,对抗攻击,敏感性,安全,表格数据
引用:古普塔K, Kaakai F, Pesquet-Popescu B, Pesquet J - Malliaros FD(2022)多元李普希茨分析神经网络的稳定性。
收到:2021年10月13日;接受:2022年1月31日;
发表:2022年4月05。
编辑:
<一个href="//www.thespel.com/loop/people/1219348/overview">即刻梅塞尔集团一个>以色列特拉维夫大学审核:
<一个href="//www.thespel.com/loop/people/1286812/overview">(廖一个>华中科技大学,中国Jonatan Ostrometzky一个>以色列特拉维夫大学
版权©2022 Gupta, Kaakai、Pesquet-Popescu Pesquet Malliaros。这是一个开放分布式根据文章<一个rel="license" href="http://creativecommons.org/licenses/by/4.0/" target="_blank">知识共享归属许可(CC)。一个>使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:Kavya古普塔<一个href="mailto:kavya.gupta100@gmail.com">kavya.gupta100@gmail.com一个>