跳转到主要内容

原始研究的文章

前面。Nanotechnol。,28February 2023
秒。计算纳米技术
卷5 - 2023 | https://doi.org/10.3389/fnano.2023.1128667

节能和noise-tolerant神经形态计算基于记忆电阻器和domino逻辑

  • 大脑实验室,计算机工程系,罗彻斯特理工学院,罗切斯特,纽约,美国

日益增长的规模和复杂性人工智能(AI)模型促使一些新的研究领域的神经形态计算。神经形态计算的一个关键目标是使先进的人工智能算法能源贫瘠的硬件上运行。在这项工作中,我们提出一种新颖的节能神经形态架构基于记忆电阻器和domino逻辑。设计使用记忆电阻RC电路的延迟表示突触计算和简单的二元神经元激活函数。同步方案提出了神经网络层之间的通信信息,和一个简单的线性功率模型来估计设计的能源效率为特定网络的大小。结果表明,该体系结构可以实现1.26 fJ /分类/突触和达到高精度图像分类甚至在大噪声的存在。

1介绍

在过去的十年中,显著提高了神经网络模型的精度等许多人工智能(AI)任务对象分类(Rueckauer et al ., 2017)、语音识别(达尔et al ., 2011),机器翻译(Seide et al ., 2011),等等。三个主要因素导致了这种进步:1)海量数据可用大型神经网络模型训练,2)处理能力(即连续增长。,更好、更快的图形处理单元(gpu),内存,等等),和3)发展和创新的神经网络结构和训练算法。然而,这些发展的代价巨大的资源需求(计算资源、能源等)进行训练和推理(2022年亨迪和默克尔),这阻碍了人工智能在边缘设备的解决方案。边缘设备如手机、植入式医疗设备,无线传感器,和其他人,有严格的尺寸、重量,和权力(交换),要求神经形态计算等新方法实现智能处理在这些平台上。

自定义神经形态硬件平台在这个领域越来越受欢迎,因为他们能够有效地执行复杂的任务类似物理过程的底层生物神经系统(道格拉斯et al ., 1995)。这些系统的一个关键特性是,他们克服局限性的冯诺依曼瓶颈造成的配置计算和内存(Nandakumar et al ., 2018)。而现代数字互补金属氧化物半导体(CMOS)技术用于复制神经元的行为,缺乏一种设备,可以有效地执行突触操作进程受阻了好几年。然而,最近的进步在记忆电阻器等纳米材料和设备的实现开辟了可能性发展紧凑存储设备阵列潜在变革性的超节能神经形态系统的设计。

以前的工作memristor-based神经形态系统的几个方面进行了研究,包括设备属性、可靠性、横梁实现,芯片上的训练,量化,和更多的(舒曼et al ., 2017;唱et al ., 2018)。最高效的设计方法是结合忆阻突触integrate-and-fire(如果)神经元设计。如果神经元来自我的能源效率)的“全有或全无”的表示信息和ii)。巴特神经元的输入和突触之间的短路电流驱动它(因为他们只是把膜电容器)。在这项工作中,我们探索类似的想法应用到网络的二进制神经元受到多米诺逻辑。Domino逻辑,一种动态逻辑,电路分为pre-charge和评估阶段,以避免短路电流,减少能耗。在这里,我们提出一个domino逻辑风格神经元使用memristor-based RC延迟进行评估,并提供良好的功率效率。小说的具体贡献我们的工作有:

•设计memristor-based多米诺逻辑电路使用延迟编码信息

•结合多个domino创建二进制逻辑电路与一个仲裁者神经元

•集成动态流水线技术与domino基于逻辑的二进制神经元

•分析和比较提出设计的手写数字分类任务

本文的其余部分组织如下:第二节memristor-based神经形态计算提供了背景和相关工作,以及量化神经网络,包括与二进制神经网络神经元。第三节细节设计方法从事这项工作,从基本构建块多层神经网络的同步策略。在第四节,我们概述了战略用于分析亚稳定性和噪声的影响,特别是在仲裁者电路,在网络级性能。第五节提供了手写数字结果和比较我们的设计分类。最后第六节总结这项工作。

2背景和相关工作

2.1 Memristor-based神经形态计算

忆阻器是一个总括的术语来描述一类广泛的内存技术,依赖政府遵循欧姆定律(蔡,2014)。物理实现的记忆电阻器有几种形式,包括电阻随机存取存储器(ReRAM),自旋转移力矩RAM,相变内存,铁电RAM等(陈,2016)。从本质上说,这些设备存储非易失性电导(或阻力),可以修改通过提供大量写电压和可以使用更小的阅读读电压。2极值之间的电导是有界的,G最小值G马克斯。记忆电阻器神经形态计算尤其具有吸引力,因为他们表现出行为相似生物突触结合存储、适应、和身体连接在一个设备。此外,结合多个记忆电阻器到高密度闩支持向量矩阵的高效计算乘法(VMM),(电压)的输入向量横梁列的矩阵乘以记忆电阻电导产生(当前)的输出向量。

执行大量的VMM操作在神经网络训练和推理。在实现神经网络权重的忆阻器电导硬件,会有不需要稀疏设计了芯片存储和数据移动重量在大多数的数字基础设计(Jouppi et al ., 2017;戴维斯et al ., 2018)。收益率高能源效率,这是人工智能的一个重要因素在边缘设备(李和黄,2016年)。计算基于信息VMM可以用电流,电压(电压模式),或两者的结合,每种方法都有自己的长处和弱点(默克尔和Kudithipudi, 2017年)。基于电压型VMM电路,是最常见的方法,输入被表示为电压,输出表示为电流。电流型VMM (默克尔2019年)有一些优势,如低电源电压,电流型设计技术等,但电流分布可以挑战(Marinella et al ., 2018;Sinangil et al ., 2020)。Charge-based VMM是另一个方法旨在执行点积操作,使用电压输入和收取binary-weighted电容器通过电容器之间的电荷再分配和执行合计通过开关电容电路原理(李和黄,2016年)。这种方法的主要优点,没有电路静态功耗和没有限制技术节点扩展。然而,需要多个时钟周期执行乘法操作。基于时间的VMM方法是实现之外的另一种方法在模拟域通过一连串的缓冲区。每个缓冲区的延迟可以修改每个阶段每个阶段根据重量输入求和(艾弗森et al ., 2018)。在时域计算中,离散值用边缘信号到达时间(Freye et al ., 2022)。另一个实现基于时间的VMM讨论(Bavandpour et al ., 2019;刚刚et al ., 2020),memristor-dependent电流在一个电容器,然后总结和综合电荷转换回时域表示。

2.2量子神经网络

量子化方法深度学习越来越受欢迎的加速训练,减少模型大小和神经网络映射到专门的硬件。最简单的量化方法使用四舍五入减少活化和重量精度训练后。这通常会导致大型软件不能和量化模型之间的精度下降。其他方法量化权重,激活,有时梯度训练期间,导致更好的性能(Hubara et al ., 2017)。在这项工作中,我们只有量化权重和激活。核心理念是不能向前传播时使用量化值和梯度估计在向后传播。对于激活,我们使用一个简单的阈值模型传球前进:

x = 1 2 标志 年代 + 1 2 ( 1 )

标志(⋅)是1,如果参数是非负和−1。自签署一个梯度,到处都是零,它将摊位反向传播算法,将习得的。为了解决这个问题,我们近似梯度

x 年代 1 1 + 经验值 k 年代 1 1 1 + 经验值 k 年代 , ( 2 )

在哪里k是经验选为2。换句话说,向后传递,梯度计算,如果激活一个物流乙状结肠函数。当然,我们注意,激活阈值函数的确是一个物流的乙状结肠k值+

对于重量,我们使用以下量化技术:

w = 2 × r o u n d 2 1 c l p w , 1,- 1 + 1 2 2 1 1 ( 3 )

在哪里所需的比特数,重量,一轮轮(⋅)到最近的整数和剪辑(w,一个,b)= max (一个分钟(b,w)),一个b。反向传播,我们估计的梯度∂J/∂w∂J/∂w

3设计方法

3.1概述

神经元的核心设计使用domino逻辑风格基于忆阻器的RC延迟。从本质上讲,记忆电阻器作为一个可配置的RC延迟。忆阻器的延迟RC电路代表突触权重计算和一个简单的二元神经元激活函数由一个逆变器,如图所示图1一个。突触权重矩阵的操作分为两个阶段:pre-charge和评估。当时钟信号ϕ低,动态节点vd(输入逆变器)是预先Vdd通过PMOS晶体管。当钟高,评价和动态节点开始排放速率取决于下拉网络(钢筋混凝土时间常数)。一旦节点达到逆变器的阈值时,神经元的输出将会很高。在评估阶段,神经元的动态节点的电压在层l的发展,

v d l t = V d d × 经验值 0 t G l ξ C d d ξ ( 4 )

在哪里 G l 相当于拉低电导。忆阻器只对下拉电导时选择晶体管。假设忆导值常数在评价阶段和输入电压是二进制值,也就是说, v x j l 1 0 , V d d ,然后 G l 是一个分段常数函数写成:

G l t = 1 V d d j = 1 N l 1 v x j l 1 t G j l ( 5 )

在哪里Nl−1是在前一层神经元的数目,+ 1占偏差输入。

图1
www.雷竞技rebatfrontiersin.org

图1(一)Domino logic-style神经元电路示意图。(B)两个domino电路(和交货)使正面和负面的重量。(C)信息编码之间的时差兴奋和抑制性上升的边缘。

我们使用一个简单的寄生电容的模型(Eq。4),每个1 t1r突触对电容的贡献一个单位C动态节点的NMOS流失。假设PMOS最小大小,逆变器有2:1 PMOS: NMOS大小配给,总电容是估计

C d = 4 + N l 1 C = 4 + N l 1 一个 n k o x ϵ 0 t o x , ( 6 )

在哪里一个最小值是最低晶体管区,k相对介电常数的SiO吗2,ϵ0是自由空间介电常数,t是晶体管的栅氧化层厚度。所花费的时间界限流量动态节点逆变器阈值将重要的设置一个适当的时钟频率。从(方程式。4- - - - - -6),最低放电时间

t n l = ln θ V d d 4 + N l 1 C N l 1 G n = β N l 1 G n ( 7 )

在哪里θ是threhold逆变器的电压。

请注意,这个表达式大约是独立的Nl−1作为Nl−1变大,这意味着这些神经元self-normalizing。即最大one-presynptic神经元兴奋性神经元的活动不管输入是常数。与最低放电时间,最长时间将无限的如果我们忽略泄漏通过选择晶体管。然而,我们需要确保动态节点不需要更长的时间比评估阶段放电。否则,将会有信息丢失。因此,我们设置一个绑定的偏见,也对应于一个1 t1r细胞不断的栅电压Vdd:

G 0 l β T / 2 , ( 8 )

在哪里T是时钟周期。这将确保 t 一个 x l = T / 2

图2显示了泄漏电流会影响突触的神经行为越来越多。在这里,我们假设所有的突触晶体管,和每一个电导设置为最大值,这将最大限度地泄漏电流。图显示了最终的电压动态节点上50 ns评估期间。随着突触输入数量的增加,电容在动态节点和总泄漏电流增加。这维持的影响相对较大的电压动态节点上,即使有大量的突触输入。事实上,随着突触数量的变大,增加电容占主导地位,导致泄漏的影响减少。在所有情况下测试,泄漏电流不足以放电动态节点逆变器的阈值。

图2
www.雷竞技rebatfrontiersin.org

图2。影响泄漏电流的动态节点的数量和突触输入。

代表积极的和消极的权重,使用domino逻辑风格的两个神经元,抑制神经元代表负重量组件和兴奋性神经元代表积极的重量组件所示图1 b。节点之间的时差(抑制和兴奋性)达到逆变器的阈值可以作为:

Δ t l = t e x l t n l = β V d d 1 v x l 1 G e x l 1 v x l 1 G n l ( 9 )

这一次差分编码的输入神经元的二进制激活函数。图1 c显示了一个例子,比抑制兴奋性多米诺电路放电更快,导致Δ的积极价值t

在本文中,我们感兴趣的是二进制神经元,这足以知道 Δ t l 是正面的还是负面的,可以使用一个仲裁者电路计算,稍后讨论的细节。首先,重要的是要指出如何(Eq。9)对应于pre-synaptic神经元输出、权重和突触后神经元的输入。神经元的输入是 Δ t l ,我们定义无单位的版本 年代 l = Δ t l / ( T / 2 ) ( 1,- 1 ] 。pre-synaptic神经元输出的向量 v x l 1 ,没有单位的版本 x l 1 = v x l 1 / V d d ( 0 1 ] 。最后,权重与电导有关 G e x l G n l 。有无限的方式映射的重量 w j l 两个导 G e x j l G n j l 。在这项工作中,我们使用一个电源优化方案,在最小的电导值用于兴奋组件和抑制性组件正面和负面的权重时,分别。这时,一个线性函数映射相反的组件:

G e x j l = G n + G 一个 x G n 一个 x 0 , w j l ( 10 )
G n j l = G n G 一个 x G n n 0 , w j l ( 11 )

现在,(Eq。9)可以改写完全没有单位的值为:

年代 l = β 1 x l 1 w e x l 1 x l 1 w n l ( 12 )

在哪里 w e x l = G e x l / G 一个 x w n l = G n l / G 一个 x ,β′= 2β/ (TG马克斯)。与之形成对比的是,通常的点积神经网络的输入:

年代 l = x l 1 w l ( 13 )

换句话说,神经元输入我们的设计与pre-synaptic神经元输出的非线性关系和权重,而神经网络的典型配方有一个线性关系。这种非线性源于自然RC电路的非线性,并删除它需要一个额外的评估阶段,等方法Bavandpour et al。(2019)。相反,我们选择保持尽可能简单的硬件,我们注意到非线性可能占在两个方面。一方面,(Eq的行为。12)可以直接在Tensorflow建模。虽然这是最简单的解决方案,我们发现,这就导致一些模拟的挑战。例如,它是很容易的(Eq。12)当输入或重量变得小有未定义的值。另外,我们观察到的不稳定的学习和,在某些情况下,当工作直接与(Eq无法收敛。12)。

不过,有趣的是,因为我们的神经元是二进制,唯一的标志 年代 l 是重要的,我们可以使用(Eq。13)培训。图3比较值(Eq。9),(Eq。12),(Eq。13)。这里,我们执行1000年蒙特卡洛模拟−1和1之间均匀分布权重,和Bernoulli-distributed输入概率值0.5。从情节,可以观察到正常点积运算(Eq。13),我们称之为“软件”非线性映射到excitatory-inhibitory时差以及归一化版本的时差,称为“硬件”。硬件的范围值成反比软件的范围值,预计由于逆关系(Eq。9)和(Eq。12)。至关重要的是,所有的点都在左下角和右上角象限,这意味着软件和硬件的符号数据总是相同的。换句话说,神经元的输入的非线性行为不会影响其输出。下一节将讨论如何捕获这个标志使用仲裁者来产生一个二进制激活函数。

图3
www.雷竞技rebatfrontiersin.org

图3。时差兴奋和抑制性多米诺电路(Eq。9),没有单位的神经元的输入(Eq。12)和一个正常的输入点积(Eq。13)。

3.2仲裁者设计和布置

我们探索了两种可能的设计实现arbiter-based激活函数,转换之间的时差兴奋和抑制性多米诺电路为一个二进制值:

v x l = 0 , Δ t l 0 V d d , Δ t l > 0 ( 14 )

最初,我们设计了所示的仲裁者图4一。这里,盖茨也用于禁用抑制(兴奋)电路从放电一旦兴奋(抑制)电路经过逆变器阈值。这种方法的一个优势是,只有一个domino电路将充分放电。例如,如果兴奋更快多米诺电路放电,它会导致抑制电路回到pre-charge阶段才能进入逆变器阈值。这将减少动态功率消耗在pre-charge阶段。然而,我们发现这种方法稳定性差(见过的波形图4一特别是对于小Δt,经常导致振荡以及不正确的输出。

图4
www.雷竞技rebatfrontiersin.org

图4(一)Domino神经元与或非门逻辑风格作为一个仲裁者,显示在输出节点由于不稳定的振荡行为的反馈。(B)简化多米诺逻辑风格神经元与非gate-based仲裁者,它消除了振荡行为。

第二个设计是所示图4 b使用cross-coupled NAND盖茨和包括一个亚稳态过滤,以确保输出不保持长在一个无效的逻辑状态,因此,它是可能的设计行为和进入亚稳态。此外,或非门两大PMOS晶体管串联,这意味着更多的电容和延迟与非门相比。这个设计的主要优势是,记忆电阻多米诺电路不包括在反馈路径,所以电路的稳定性不依赖于记忆电阻状态。这是我们的设计用于本文的其余部分。

3.3同步策略

为了实现大型多层神经网络信息从一个层需要转移到下一层。同步传输层之间的信息是至关重要的,在这里,我们探讨三种技术各种权衡。在本节中,我们使用XOR问题作为一个案例研究中,我们的多层感知器(MLP)神经网络由2输入,2个隐藏的神经元,和1个输出。输出应该' 0 '当输入都是相同的,' 1 '当输入是不同的。

3.3.1方法1:多个时钟不同的占空比

最简单的同步策略使用一个时钟每层所示图5。注意,前面讨论的神经元和突触的设计很容易集成到一个crossbar-like电路高效实现。在这里,三个钟,对应输入(Clk)、隐层(Clk-1)和输出层(Clk-2)。的输入是Vxex1-1Vxex2-1和最终的输出输出。对于一个给定的输入,首先所有的时钟都‘0’pre-charge多米诺电路。然后,Clk变成了“1”输入评估,使输入转发到隐层。然后,时钟的每一层过渡到' 1 '一个留在' 1 ',直到所有层都被评估。这种技术没有测序开销。然而,这种方法的缺点是,每一层都必须等待所有的前层完成之前执行任何评价。一般来说,周期时间是逻辑的和延迟和测序。的逻辑延迟取决于放电率下拉网络主要取决于记忆电阻状态在评价阶段。

图5
www.雷竞技rebatfrontiersin.org

图5。XOR问题的简要示意图和模拟使用多个重叠时钟不同的占空比。

3.3.2方法2:触发器流水线

设计可以提高使用传统的吞吐量与flip-flips流水线,所示图6。在这里,一个时钟Clk控制D层之间的人字拖,持有评价结果与前面的一层一层,直到随后完成了评估。这是经典的时钟策略和已广泛应用由于其鲁棒性。在这种方法中,整个网络可以跨层和管线式每个神经元可以在每一个时钟周期内执行评估。这种方法的缺点是测序开销(时间和区域)的触发器。

图6
www.雷竞技rebatfrontiersin.org

图6。XOR问题的简要示意图和模拟使用多个重叠时钟与传统基于D拖鞋流水线。

3.3.3方法3:动态流水线

如果重叠时钟,拖鞋可以消除,这是第三种方法,称为斜宽容domino (哈里斯和霍洛维茨,1997年所示),图7。重叠时钟的想法是确保后续层中的神经元的评价之前有足够的时间来评估前一层神经元pre-charging阶段开始。在这里,三个重叠的时钟,Clk-0,Clk-1,Clk-2用于输入、隐藏和输出层,一半。这些时钟可以生成使用简单的延迟电路的基础上,如逆变器链。前一层神经元pre-charging阶段开始时,动态盖茨将预先Vdd因此静态盖茨将出院。这意味着后续的输入层低,似乎违反了单调性规则。单调性的规则,输入动态盖茨必须低到高转换而盖茨在评估阶段。然而,domino在随后的逻辑层将保持在不管价值评估结果的基础上第一层时输入下跌低点,因为下拉晶体管和pre-charge晶体管将(哈里斯和霍洛维茨,1997年)。因此,神经元上一层将保持其价值即使pre-charges。因此,没有必要一个门闩或触发器。这种方法提高了吞吐量在多个工作周期的方法,但没有触发器区域传统流水线开销。其余的我们的模拟是基于这种技术。

图7
www.雷竞技rebatfrontiersin.org

图7。XOR问题的简要示意图和模拟使用skew-tolerant动态流水线。

4噪声建模

我们的设计的一个关键组件是arbiter-based二进制激活函数。仲裁者是必不可少的的部分很多数字和混合信号设计,比如记忆和微处理器(金姆和达顿,1990年)。然而,这些电路可能导致系统故障由于亚稳定性问题。提出的电路中,将会有随机行为的神经元的输出小到达时间的差异兴奋和抑制性信号的边缘在仲裁者的输入。特别是,当Δ的价值t接近仲裁者的孔径时间(大约2 ps),它可以进入亚稳状态。结合噪声,亚稳状态将随机决心要么“0”或“1”。图8显示Δ的分布t在一个延时网络隐层神经元,我们训练MNIST手写数字的数据集进行分类。隐藏的相对较少,只有100个神经元,所以网络不给好的准确性。然而,这里的重点是指分布,大约是正常的。这是预期的,因为神经网络训练会有正态分布权重,所以的点积pre-synaptic神经元和突触后神经元输出权重向量也将正态分布。在这种情况下,意思是约100 ps,但是对于其他数据集和网络规模,意味着可能集中接近0或负值。事实上,随着层的大小增加,预计平均将接近0。这意味着,仲裁者输入可能经常在孔径窗口,可能导致随机行为。图8 b显示了一个仲裁者的蒙特卡罗模拟输出一个小Δt在噪音的存在。在这里,Δt是积极的,会导致输出的' 1 '但在许多样品,仲裁者的输出是“0”。图9之间的不匹配神经元输出显示了一个箱线图的理想软件仿真,在不考虑噪音,和硬件模拟不同程度的噪音为MNIST数据集。在这种情况下,保持模拟驯良的,网络只有10个隐藏的神经元,并且已经有一些不匹配的神经元输出。

图8
www.雷竞技rebatfrontiersin.org

图8(一)Δ分布t60000年在100个隐藏神经元手写数字输入。(B)对小型Δ仲裁者输出t噪声的存在的价值。

图9
www.雷竞技rebatfrontiersin.org

图9。不匹配位不同的噪声水平。

捕捉这种行为,我们开发了一个简单的随机模型的仲裁者通过模拟其行为与不同级别的瞬态噪声(低、中等和高)。输入到时差Δ仲裁者t之间的兴奋和抑制性信号。这两个信号是被从10−ps - 10 ps。每个运行的模拟进行了100次,和神经元的输出概率计算。所示的结果图10。数据是适合一个s形的函数:

一个 1 + 经验值 b x ( 15 )

在哪里一个b乙状结肠函数的拟合参数。低噪音:一个= 99.93,b= 7.394。温和的声音:一个= 99.59,b= 2.681。对高噪声:一个= 98.77,b= 1.119。注意,其他的噪声来源等过程的变化也会导致神经元的变化概率小Δ差异t。例如,考虑图10 b显示了模拟不同工艺CMOS工艺下的仲裁者。整体效果的不同角落是修改曲线的斜率。定性类似的行为也在电压和温度变化的结果。

图10
www.雷竞技rebatfrontiersin.org

图10(一)神经元的输出的概率等于' 1 '的函数输入时间兴奋和抑制性多米诺电路之间的区别。(B)过程变化的影响神经元的输出概率高噪声的情况。

5的结果和分析

5.1仿真方法

模拟香料等大型电子动力学神经网络非常缓慢。我们使用香料(Synopsys对此HSPICE)和Tensorflow为了快速模拟同时捕获关键硬件的行为。我们的模拟策略所示图11。关键的方面讨论的电路行为捕获的前面部分已经用HSPICE模拟预测技术130海里散装CMOS晶体管模型(https://ptm.asu.edu/)和基于忆阻器提出了记忆电阻参数(Prezioso et al ., 2015),开关电导值G最小值= 5×10−7G马克斯= 5×10−5和编程电压大小接近1 V。在这个工作中,只有一个子集的电导范围使用的设备:G最小值= 1×10−6年代和G马克斯= 1×10−5美国自设备大约线性行为在低电压低于编程阈值,我们建模的电阻器。Tensorflow用于训练神经网络权值,这是根据体重映射转换为电导(Eq。10)和(Eq。11)。最后,另一个Tensorflow模型相同的神经网络拓扑结构,但更准确的硬件的行为(例如,随机行为的神经元,conductance-based重量,等等)是用来估计数据集上的硬件性能。

图11
www.雷竞技rebatfrontiersin.org

图11。模拟策略用于这项工作,结合SPICE-level Tensorflow神经网络模拟仿真。

5.2 MNIST数据集上的性能

我们测试了中长期规划提出了一个设计方法与1000隐藏神经元MNIST手写数字的数据集(http://yann.lecun.com/exdb/mnist/)。所示的结果图12。不考虑噪音,软件和硬件模拟产生几乎相同的结果,90年代的精度高。这些精度约常数在不同水平的重量精度,从3到10位。注意,1 -和2比特精度结果低得多,不包括在阴谋。被添加到仿真噪声影响,通常精度降低。噪音低,温和的结果几乎相同,而高噪音给一个明确的精度下降。然而,即使高噪声级,退化还不到2%。我们也探讨了影响电导的变化提出的硬件设计。这些变化可能出现不精确的编程或漂移的电导值随着时间的推移。小电导的变化(例如,10%)对测试精度的影响可以忽略不计,而更大的变化(20%甚至更多)可以开始有相当大的影响。 Note that the effects of conductance variations are more pronounced at higher levels of weight precisions, which may motivate employing lower-precision devices or fewer of devices’ conductance levels.

图12
www.雷竞技rebatfrontiersin.org

图12(一)测试精度提出的软件和硬件实现电路的延时与1000隐藏神经元MNIST不同程度的噪音。(B)测试精度的硬件下不同程度的电导的变化。

5.3权力与其他作品分析和比较

提出设计的功耗建模通过假设大多数神经元pre-charges时的功率消耗。这理由,尤其是对神经元具有高扇入神经元的开关电容的动态节点将远远大于电容在电路中其他节点。因此,权力可以制定

P 3 × 1 + η l = 2 l α C l V d d 2 f ( 16 )

在哪里η是一个拟合参数,来自相关的额外的电力逆变器,仲裁者,等等,α是交换活动因素,l是层数,Cl的总开关电容层。为动态流水线同步方案,α= 1,因为每一层都将pre-charge每个时钟周期。此外,的价值Cl是3C次在层突触数量的两倍(占两个兴奋和抑制性)。3的因素来自每个突触的来源,排水,记忆电阻电容。我们有经验发现η≈0.19。在图13100年,我们显示电能消耗可随机调整大小3 - layer网络与突触的数量和神经元网络。对于每一个网络,输入和权值都是随机生成的。此外,网络使用10 MHz时钟频率。从这些数据,我们估计我们的设计的能源效率大约1.26 fJ /分类/突触。比较相似的作品为MNIST设计mlp分类所示表1。我们的工作已经略比报告更好的能源效率Yakopcic et al。(2015)同时给予更好的精度。2 t2r需要代表积极的和消极的权重。对于我们的工作来说,每个神经元的晶体管数量是20。为Yakopcic et al。(2015)我们估计每个神经元的晶体管数量是4,和每个神经元的晶体管数量(江et al ., 2018)是30抑制性兴奋和15 (15)。

图13
www.雷竞技rebatfrontiersin.org

图13。功耗与突触的数量提出了设计。

表1
www.雷竞技rebatfrontiersin.org

表1。比较memristor-based神经形态设计MNIST分类。

6结论和未来的工作

本文提出了一种新颖的架构memristor-based神经形态计算使用domino逻辑。硬件的关键行为元素,包括噪音性特性转化,使用Tensorflow被捕在行为模拟,设计分析了MNIST分类任务。结果表明,该设计略好能源效率(1.26 fJ /突触)比竞争方法,同时提供更高的精度(97%)。未来的工作包括设计片上培训的可能途径的电路,进一步减少能源使用额外的低功耗设计技术。

数据可用性声明

最初的贡献提出了研究中都包含在本文/辅料,可以针对相应的作者进一步询问。

作者的贡献

HH帮助设计电路,进行了模拟,分析了数据,并写了手稿。CM构思domino逻辑设计理念,帮助设计电路,写手稿,监督这项研究。

资金

赞助提供的工作是罗切斯特理工学院计算机工程系。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

引用

Bavandpour, M。,刚刚年代。,Mahmoodi, M. R., and Strukov, D. (2019). Efficient mixed-signal neurocomputing via successive integration and rescaling.IEEE反式。超大规模集成系统。28日,823 - 827。doi: 10.1109 / tvlsi.2019.2946516

CrossRef全文|谷歌学术搜索

陈,a (2016)。回顾新兴的非易失性内存(nvm)技术和应用程序。固态电子。125年,25-38。doi: 10.1016 / j.sse.2016.07.006

CrossRef全文|谷歌学术搜索

蔡,l (2014)。如果是捏这是忆阻器。Semicond。科学。抛光工艺。29日,104001年。0268 - 1242/29/10/104001 doi: 10.1088 /

CrossRef全文|谷歌学术搜索

达尔·g·E。Yu, D。,Deng, L., and Acero, A. (2011). Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition.IEEE反式。音频,演讲,朗。过程。20日,30-42。doi: 10.1109 / tasl.2011.2134090

CrossRef全文|谷歌学术搜索

戴维斯,M。,Srinivasa, N., Lin, T.-H., Chinya, G., Cao, Y., Choday, S. H., et al. (2018). Loihi: A neuromorphic manycore processor with on-chip learning.Ieee微38岁,82 - 99。doi: 10.1109 / mm.2018.112130359

CrossRef全文|谷歌学术搜索

道格拉斯,R。,Mahowald, M., and Mead, C. (1995). Neuromorphic analogue vlsi.为基础。启>。18日,255 - 281。doi: 10.1146 / annurev.ne.18.030195.001351

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

艾弗森,l·R。刘,M。,P一个nde,N。金,c . h . (2018)。“104.8上衣/ w一次性基于时间的神经形态芯片采用动态阈值误差修正在65 nm,”2018年IEEE亚洲固态电路会议(A-SSCC)(台南,台湾:IEEE),273 - 276。doi: 10.1109 / ASSCC.2018.8579302

CrossRef全文|谷歌学术搜索

Freye F。卢,J。,Bengel, C., Menzel, S., Wiefels, S., and Gemmeke, T. (2022). Memristive devices for time domain compute-in-memory.IEEE j .空洞。固态第一版。设备的电路8,119 - 127。doi: 10.1109 / jxcdc.2022.3217098

CrossRef全文|谷歌学术搜索

哈里斯,D。,Horowitz, M. A. (1997). Skew-tolerant domino circuits.IEEE j .固态电路32岁,1702 - 1711。doi: 10.1109/4.641690

CrossRef全文|谷歌学术搜索

Hendy说,H。,默克尔,C。(2022)。回顾spike-based brain-inspired视觉神经形态计算:生物学、算法和硬件。j .电子。成像31日,010901年。jei.31.1.010901 doi: 10.1117/1.

CrossRef全文|谷歌学术搜索

Hubara,我。,Courb一个r我一个ux,M., Soudry, D., El-Yaniv, R., and Bengio, Y. (2017). Quantized neural networks: Training neural networks with low precision weights and activations.j·马赫。学习。Res。18日,6869 - 6898。

谷歌学术搜索

江,H。,Yamada, K., Ren, Z., Kwok, T., Luo, F., Yang, Q., et al. (2018). “Pulse-width modulation based dot-product engine for neuromorphic computing system using memristor crossbar array,” in2018年IEEE国际研讨会上的电路和系统(ISCAS)(意大利的佛罗伦萨:IEEE),1 - 4。doi: 10.1109 / ISCAS.2018.8351276

CrossRef全文|谷歌学术搜索

Jouppi: P。,年轻,C。帕蒂尔,N。,P一个tter年代on,D., Agrawal, G., Bajwa, R., et al. (2017). “In-datacenter performance analysis of a tensor processing unit,” in美国第44届国际研讨会上计算机体系结构(在多伦多,加拿大:IEEE),1 - 12。doi: 10.1145/3079856.3080246

CrossRef全文|谷歌学术搜索

金,L.-S。,Dutton, R. W. (1990). Metastability of cmos latch/flip-flop.IEEE j .固态电路25日,942 - 951。doi: 10.1109/4.58286

CrossRef全文|谷歌学术搜索

李·e·H。,Wong, S. S. (2016). Analysis and design of a passive switched-capacitor matrix multiplier for approximate computing.IEEE j .固态电路52岁,261 - 271。doi: 10.1109 / jssc.2016.2599536

CrossRef全文|谷歌学术搜索

Marinella, m . J。阿加瓦尔,S。夏朝,。,Richter, I., Jacobs-Gedrim, R., Niroula, J., et al. (2018). Multiscale co-design analysis of energy, latency, area, and accuracy of a reram analog neural training accelerator.IEEE j .紧急情况。选取。上面。电路系统。8,86 - 101。doi: 10.1109 / jetcas.2018.2796379

CrossRef全文|谷歌学术搜索

默克尔,c (2019)。“电流型忆阻器闩神经形态计算”学报》第七届年度Neuro-inspired车间计算元素,1 - 6。doi: 10.1145/3320288.3320298

CrossRef全文|谷歌学术搜索

默克尔,C。,Kudithipudi, D. (2017). “Neuromemristive systems: A circuit design perspective,” in神经形态硬件利用新兴的纳米级设备的进步认知系统的专著。编辑m .苏瑞(新德里:施普林格45 - 64),卷。31日。doi: 10.1007 / 978 - 81 - 322 - 3703 - 7 - _3

CrossRef全文|谷歌学术搜索

Nandakumar, S。,Kulkarni, S. R., Babu, A. V., and Rajendran, B. (2018). Building brain-inspired computing systems: Examining the role of nanoscale devices.IEEE Nanotechnol。玛格。12,19-35。doi: 10.1109 / mnano.2018.2845078

CrossRef全文|谷歌学术搜索

Prezioso, M。,Merrikh-Bayat, F., Hoskins, B., Adam, G. C., Likharev, K. K., and Strukov, D. B. (2015). Training and operation of an integrated neuromorphic network based on metal-oxide memristors.自然521年,61 - 64。doi: 10.1038 / nature14441

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Rueckauer B。,lungu, I.-A., Hu, Y., Pfeiffer, M., and Liu, S.-C. (2017). Conversion of continuous-valued deep networks to efficient event-driven networks for image classification.前面。>。11日,682年。doi: 10.3389 / fnins.2017.00682

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

刚刚年代。,Bavandpour, M。,Mahmoodi, M. R., and Strukov, D. (2020). Energy-efficient moderate precision time-domain mixed-signal vector-by-matrix multiplier exploiting 1t-1r arrays.IEEE j .空洞。固态第一版。设备的电路6,18-26。doi: 10.1109 / jxcdc.2020.2981048

CrossRef全文|谷歌学术搜索

舒曼,c, D。Potok, t·E。,P一个tton,R. M., Birdwell, J. D., Dean, M. E., Rose, G. S., et al. (2017).神经形态的调查计算和神经网络在硬件arXiv预印本arXiv: 1705.06963

谷歌学术搜索

Seide F。李,G。,Yu, D. (2011). “Conversational speech transcription using context-dependent deep neural networks,” in十二国际言语交际协会年会上。doi: 10.5555/3042573.3042574

CrossRef全文|谷歌学术搜索

Sinangil m E。,Erbagci B。Naous, R。,一个k一个rv一个rd一个r,K., Sun, D., Khwa, W.-S., et al. (2020). A 7-nm compute-in-memory sram macro supporting multi-bit input, weight and output and achieving 351 tops/w and 372.4 gops.IEEE j .固态电路56岁,188 - 198。doi: 10.1109 / jssc.2020.3031290

CrossRef全文|谷歌学术搜索

唱,C。,Hwang, H., and Yoo, I. K. (2018). Perspective: A review on memristive hardware for neuromorphic computation.j:。理论物理。124年,151903年。doi: 10.1063/1.5037835

CrossRef全文|谷歌学术搜索

Yakopcic C。哈桑,R。,T一个ha, T. M. (2015). “Memristor based neuromorphic circuit for让其它多层神经网络的训练算法,”2015年国际神经网络(IJCNN)联合会议(基拉尼的,爱尔兰:IEEE),1 - 7。doi: 10.1109 / IJCNN.2015.7280813

CrossRef全文|谷歌学术搜索

关键词:神经形态、忆阻神经网络,domino逻辑,人工智能

引用:默克尔Hendy说H和C(2023)节能和noise-tolerant神经形态计算基于记忆电阻器和domino逻辑。前面。Nanotechnol。5:1128667。doi: 10.3389 / fnano.2023.1128667

收到:2022年12月21日;接受:2023年2月16日;
发表:2023年2月28日。

编辑:

陈应美国北亚利桑那大学

审核:

忌用吸引庆北国立大学,韩国
Xumeng张、复旦大学、中国

版权©2023 Hendy说,默克尔。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:科里默克尔cemeec@rit.edu

下载