Att-TasNet:出席在时域的音频编码语音噪声分离,回响的演讲混合物gydF4y2B一个
- 计算机科学部门,谢菲尔德大学,英国谢菲尔德gydF4y2B一个
言论分离混合噪声和混响环境仍然是一个挑战性的任务最先进的语音分离系统。时域音频语音分离网络(TasNets)是最常用的网络架构这一任务。TasNet模型演示了在典型的语音分离基线,语音方面的良好表现是不受噪声污染。添加剂或convolutive噪声存在时,语音分离的性能将显著下降。TasNets通常构造编码器的网络,一个面具估计网络和一个译码器网络。这些网络的设计把大部分责任增强信号掩码估计网络使用时没有任何输入数据或后期处理的预处理分离网络的输出数据。使用多线程的关注(尼古拉斯)提出了这项工作作为一个附加层的编码器和译码器帮助分离网络参加相关的编码特性目标扬声器和相反的抑制噪声干扰的编码功能。这项工作所示,将尼古拉斯机制纳入编码器网络特别是导致一致的性能改进许多质量和清晰度度量各种声学条件使用WHAMR语料库,省际层面的噪声混响语音混合物。尼古拉斯也调查译码器的使用网络,这是表明,较小的性能改进中持续获得特定模型配置。表现最好的尼古拉斯模型产量平均0.6 dB规模不变signal-to-distortion (SISDR)改善噪声混响混合物在一个基线1 d卷积编码器。 A mean 1 dB SISDR improvement is observed on clean speech mixtures.
1介绍gydF4y2B一个
信号增强语音信号记录在远场情况下一直积极研究课题对于一些几十年了(gydF4y2B一个Benesty 2000gydF4y2B一个;gydF4y2B一个Cauchi et al ., 2015gydF4y2B一个;gydF4y2B一个Reddy et al ., 2021gydF4y2B一个)。隔离各个扬声器信号混合时往往需要应用语音处理系统在现实生活中应用程序(gydF4y2B一个王,陈2018gydF4y2B一个;gydF4y2B一个Haeb-Umbach et al ., 2021gydF4y2B一个)。演讲是一种常见的分离方法来解决这个问题。虽然近年来取得了重大进展使用基于深层神经网络架构分离干净语音混合物(gydF4y2B一个罗et al ., 2017gydF4y2B一个;gydF4y2B一个石和海,2021gydF4y2B一个),性能仍然大幅下降在嘈杂的环境中,特别是对于低信噪比(信噪比)(gydF4y2B一个Wichern et al ., 2019gydF4y2B一个;gydF4y2B一个张家港基地et al ., 2020gydF4y2B一个;gydF4y2B一个Maciejewski et al ., 2020gydF4y2B一个)。早期的方法分离语音信号是基于信号的谐波关系(gydF4y2B一个帕森斯,1976gydF4y2B一个)或非负矩阵分解(NMF) (gydF4y2B一个施密特和奥尔森,2006年gydF4y2B一个;gydF4y2B一个Cauchi et al ., 2016gydF4y2B一个),后来深层神经网络(款)变化NMF方法(gydF4y2B一个Le Roux et al ., 2015gydF4y2B一个;gydF4y2B一个莫里茨et al ., 2017gydF4y2B一个)。gydF4y2B一个
模型,使用学习filterbank TasNets等从时域变换可以始终比模型基于短时傅里叶变换(STFT)特性(gydF4y2B一个罗和Mesgarani, 2018年gydF4y2B一个;gydF4y2B一个罗和Mesgarani, 2019年gydF4y2B一个;gydF4y2B一个罗et al ., 2019gydF4y2B一个;gydF4y2B一个陈et al ., 2020gydF4y2B一个;gydF4y2B一个落et al ., 2020gydF4y2B一个;gydF4y2B一个Subakan et al ., 2021gydF4y2B一个)。TasNets的编码器可以解释为滤波器,本文旨在想象TasNets编码信号的在这方面。gydF4y2B一个罗和Mesgarani, (2018)gydF4y2B一个首先提出了一个周期性TasNet (BLSTM-TasNet)模型由一维卷积编码器、双向长期短期记忆(BLSTM)屏蔽网络和转置维卷积译码器。gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个修改成完全卷积网络(Conv-TasNet)代替BLSTM网络时间卷积网络(TCN) (gydF4y2B一个Lea et al ., 2016gydF4y2B一个)。gydF4y2B一个施et al . (2019)gydF4y2B一个提出了控制机制引入TCN的控制流信息通过网络。双路径递归神经网络模型(DPRNN)介绍了gydF4y2B一个罗et al ., (2019)gydF4y2B一个吾输入数据到多个数据块和流程顺序国米块和块内数据使用一个长时间的短期记忆(LSTM)建立网络模型时间序列的上下文。双路径网络变压器(DPTNet) (gydF4y2B一个陈et al ., 2020gydF4y2B一个)和Sepformer (gydF4y2B一个Subakan et al ., 2021gydF4y2B一个)是双路径模型,取代DPRNN的复发性神经网络模型与变压器网络(gydF4y2B一个Vaswani et al ., 2017gydF4y2B一个;gydF4y2B一个Katharopoulos et al ., 2020gydF4y2B一个)面具造型时间上下文估计网络的一部分。工作gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个更关注编码器和译码器广义TasNet模型结构的一部分,一个更深层次的卷积编码器和译码器网络提出了Conv-TasNet模型。这是所示gydF4y2B一个杨et al。(2019)gydF4y2B一个Conv-TasNet结合学过的特性与STFT的编码器特性导致小改进性能对清洁语音分离任务。同样的,gydF4y2B一个Pariente et al。(2020)gydF4y2B一个使用复数可学的分析表明,filterbanks编码器和解码器可能会导致进一步的性能改进Conv-TasNet实值编码器。gydF4y2B一个说,Gerkmann (2020)gydF4y2B一个提出手工多相gammatone (MPGT)滤波器组在学习filterbank Conv-TasNet特性。只是应用于编码器时,这种方法是有效的,但学会了解码器Conv-TasNet被证明是更有效的比他们MPGT解码器。gydF4y2B一个
这项工作研究注意力机制的使用的编码器和解码器TasNets改善性能,尤其是在噪声和混响情况。gydF4y2B一个Vaswani et al。(2017)gydF4y2B一个提议尼古拉斯来并行化一个注意机制为多个注意头同时保持类似的参数数到单一领导关注。这项工作提出了将多线程注意力机制纳入Conv-TasNet改善性能的编码器和译码器噪声和混响语音混合物,它假定噪声数据正交于演讲的内容。一些讨论正交性假设的相关性及其与互相关的关系给出了激励为什么注意力机制改善编码器和解码器的一个合适的选择。网络结构评估对噪声和混响WHAMR语料库的数据(gydF4y2B一个Maciejewski et al ., 2020gydF4y2B一个)。虽然这项工作的主要目标是最小化的负面影响添加剂噪声正交性的假设下,混响语音分离混合物,即convolutive噪声(混响)也会考虑。其余的工作收益如下。在第二节Conv-TasNet模型简要修改和分析。在第三节提出了多线程的关注和这部小说介绍了编码器和译码器结构。WHAMR上的配置和实验训练语料库在第四节解释说。进一步讨论和一些结论是给5节。gydF4y2Ba
2 Conv-TasNetgydF4y2B一个
在本节中Conv-TasNet语音分离网络提出的gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个研究进展。网络由三部分组成:一个编码器,面具估计网络和译码器。网络结构的示意图所示gydF4y2B一个图1gydF4y2B一个的典范gydF4y2B一个CgydF4y2B一个= 2输出信号。面具估计网络制定本节之前,实现可以在开源SpeechBrain找到gydF4y2B一个Ravanelli et al。(2021)gydF4y2B一个和ESPnet (gydF4y2B一个李et al ., 2021gydF4y2B一个)软件工具包。从最初提出的这个实现稍有不同gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个这是在2.3节中详细讨论。gydF4y2B一个
2.1信号模型和问题公式化gydF4y2B一个
单声道的问题吵了混响语音分离是1维的添加剂和convolutive麦克风信号问题gydF4y2B一个
的符号*gydF4y2B一个(1)gydF4y2B一个表示卷积。目的是隐含在吵闹的混响语音分离的任务是找到gydF4y2B一个CgydF4y2B一个估计为每个gydF4y2B一个年代gydF4y2B一个cgydF4y2B一个(gydF4y2B一个tgydF4y2B一个),表示为gydF4y2B一个
离散混合gydF4y2B一个xgydF4y2B一个(gydF4y2B一个我gydF4y2B一个)处理重叠部分的长度gydF4y2B一个lgydF4y2B一个提单gydF4y2B一个这样:gydF4y2B一个
在哪里gydF4y2B一个ℓgydF4y2B一个的帧数吗gydF4y2B一个lgydF4y2B一个xgydF4y2B一个框架和gydF4y2B一个
编码器编码短重叠块的时域信号gydF4y2B一个xgydF4y2B一个ℓgydF4y2B一个中定义的gydF4y2B一个(2)gydF4y2B一个。层的编码器是一种卷积神经网络权重学习在一个端到端的(E2E)时尚。面具估计需要编码器的输出网络gydF4y2B一个wgydF4y2B一个ℓgydF4y2B一个和用它来估计一组向量面具一样gydF4y2B一个米gydF4y2B一个ℓgydF4y2B一个,gydF4y2B一个cgydF4y2B一个为每个gydF4y2B一个CgydF4y2B一个扬声器。然后这些面具一样向量乘以向量编码信号gydF4y2B一个wgydF4y2B一个ℓgydF4y2B一个为每一个演讲者,产生一个蒙面的权向量。原始的解码器Conv-TasNet方法(gydF4y2B一个罗和Mesgarani, 2019年gydF4y2B一个)是一种转置一维卷积层,解码这些表示回时域导致gydF4y2B一个CgydF4y2B一个分离源估计gydF4y2B一个
2.2编码器gydF4y2B一个
第一阶段的网络编码输入音频。编码器是一种构建内核使用一维卷积滤波器的尺寸gydF4y2B一个lgydF4y2B一个提单gydF4y2B一个1输入通道gydF4y2B一个NgydF4y2B一个过滤器和一个可选的非线性编码器活化层用gydF4y2B一个
在哪里gydF4y2B一个
2.2.1频道排序编码信号的可视化gydF4y2B一个
而时频方法基于掩蔽的语音分离谱图表征往往容易解释,可视化的编码信号gydF4y2B一个WgydF4y2B一个,排序输出卷积的通道gydF4y2B一个ngydF4y2B一个是有益的。当想象中的编码表示这项工作,因此重新排序根据编码信号的通道中定义的排序算法gydF4y2B一个算法1gydF4y2B一个基于切除欧几里得距离。Conv-TasNet纸,gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个提出使用未加权的两组与算术平均法(UPGMA)欧几里得滤波器相似的渠道。被提议的gydF4y2B一个算法1gydF4y2B一个被发现在很多情况下更好gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个的方法,因为它会导致一个粗粒度的表示与演讲的大部分能量被位于较低地区的代表,使其更容易观察低能量区域内吵着编码信号。因此,该频道排序算法可视化结果更类似于著名的spectrogram-like time-spectral表示。拟议的排序算法是关键的区别gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个方法使用滤波器的相似性分类频道,而该方法分类频道根据编码特性相似。利用UPGMA基于聚类的方法对渠道进行排序也没有明显的动机gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个因此在我们的方法,我们只是建议排序最相似的渠道减少相似渠道以欧几里得相似的特性。这是基于假设的最相似的渠道将包含最多的语音能量。gydF4y2B一个
距离矩阵gydF4y2B一个EgydF4y2B一个1号线的gydF4y2B一个算法1gydF4y2B一个是由加密频道之间的欧几里得距离表示,计算element-wisegydF4y2B一个
与gydF4y2B一个
图2gydF4y2B一个。编码信号矩阵gydF4y2B一个WgydF4y2B一个清洁演讲混合物(CSM)(上)和噪声混响语音的混合物(学院下属)(底部)。从左到右:无序;分类使用gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个的方法;排序中使用该方法gydF4y2B一个算法1gydF4y2B一个。gydF4y2B一个
2.3面具估计网络gydF4y2B一个
分离网络视觉效果gydF4y2B一个图3gydF4y2B一个。它使用一个TCN由gydF4y2B一个XgydF4y2B一个卷积的块的层(水平和彩色gydF4y2B一个图3一gydF4y2B一个),是重复的gydF4y2B一个RgydF4y2B一个次(垂直gydF4y2B一个图3一gydF4y2B一个)。最初channel-wise正常化为每个块的编码信号gydF4y2B一个wgydF4y2B一个ℓgydF4y2B一个被定义为gydF4y2B一个
在哪里gydF4y2B一个
图3gydF4y2B一个。gydF4y2B一个(一)gydF4y2B一个时间卷积面具估计网络。gydF4y2B一个(B)gydF4y2B一个网络层内部ConvBlockgydF4y2B一个图3一gydF4y2B一个。gydF4y2B一个
2.3.1卷积模块gydF4y2B一个
每个卷积模块由一个逐点的一维卷积层通过切除处理分离卷积操作的可视化gydF4y2B一个图3 bgydF4y2B一个导致gydF4y2B一个HgydF4y2B一个通道内的卷积。每个后续的卷积块膨胀系数逐渐增加gydF4y2B一个fgydF4y2B一个= 2gydF4y2B一个0gydF4y2B一个,2gydF4y2B一个1gydF4y2B一个,gydF4y2B一个…gydF4y2B一个,2gydF4y2B一个XgydF4y2B一个−1gydF4y2B一个这扩大了网络的时间背景为每个额外的块。的这个实现Conv-TasNet TCN,用于流行的研究框架,如SpeechBrain (gydF4y2B一个Ravanelli et al ., 2021gydF4y2B一个)和ESPnet (gydF4y2B一个渡边et al ., 2018gydF4y2B一个;gydF4y2B一个李et al ., 2021gydF4y2B一个)。这个实现与原Conv-TasNet提出的gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个包括一个额外的从并行卷积跳过连接层的输出卷积块。gydF4y2B一个
Conv-TasNet最初提出的因果和非因果的实现。在因果累积层标准化提出的实现gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个卷积的归一化层块。在实现和结果在下面重点是全球非因果模型,利用层正常化(gLN)正常化中间层内回旋的街区。gLN函数被定义为gydF4y2B一个
在哪里gydF4y2B一个
参数ReLU (PReLU)激活函数卷积在最初的点态以及在切除分离卷积,用gydF4y2B一个
切除的分离卷积是一种有效的算法,通过卷积运算卷积计算在两个阶段:gydF4y2B一个
1)在第一阶段切除卷积,即每通道,卷积应用于G的每个输入通道。gydF4y2B一个
输入矩阵gydF4y2B一个
2)在第二阶段然后在执行每个点态卷积gydF4y2B一个HgydF4y2B一个频道。此操作被定义为gydF4y2B一个
在哪里gydF4y2B一个
切除分离卷积操作gydF4y2B一个GgydF4y2B一个×gydF4y2B一个PgydF4y2B一个+gydF4y2B一个GgydF4y2B一个×gydF4y2B一个HgydF4y2B一个参数作为标准卷积操作的地方gydF4y2B一个GgydF4y2B一个×gydF4y2B一个PgydF4y2B一个×gydF4y2B一个HgydF4y2B一个这意味着该模型尺寸减少的一个因素吗gydF4y2B一个
2.3.2时间上下文gydF4y2B一个
TCN的固定窗切除的输入,输出层能够观察到对于一个给定的输出块。这个窗口的数据点的利益尤其是输入语音数据网络可以建模为一个因果系统长期依赖关系特别是混响语音信号的房间脉冲响应gydF4y2B一个hgydF4y2B一个cgydF4y2B一个(gydF4y2B一个tgydF4y2B一个)gydF4y2B一个(1)gydF4y2B一个显著增加长期依赖。的接受域卷积网络指的是数据点的数量,可以同时观察到最后卷积层深的网络卷积网络。时间的接受域卷积网络(TCN)用于Conv-TasNet取决于卷积阻塞定义为重复的数量gydF4y2B一个XgydF4y2B一个和gydF4y2B一个RgydF4y2B一个以及内核大小gydF4y2B一个PgydF4y2B一个,可以定义为gydF4y2B一个
的接受域gydF4y2B一个(15)gydF4y2B一个测量数量的帧中观察到一个给定的序列。当整个Conv-TasNet模型被认为是,可以使用接受域测量总时间背景下观察到整个网络在任何给定的输出,以秒。考虑到采样率gydF4y2B一个fgydF4y2B一个年代gydF4y2B一个与块大小gydF4y2B一个lgydF4y2B一个提单gydF4y2B一个在几秒钟内,接受域gydF4y2B一个
2.3.3输出面具gydF4y2B一个
每一帧的TCN网络的输出特性gydF4y2B一个ℓgydF4y2B一个一个连接向量估计面具,被定义为gydF4y2B一个
在哪里gydF4y2B一个
2.4译码器gydF4y2B一个
译码器的输入信号gydF4y2B一个UgydF4y2B一个以聪明元素的乘法面具吗gydF4y2B一个米gydF4y2B一个ℓgydF4y2B一个,gydF4y2B一个cgydF4y2B一个和编码的混合gydF4y2B一个wgydF4y2B一个ℓgydF4y2B一个从gydF4y2B一个(3)gydF4y2B一个。估计源信号gydF4y2B一个
在哪里gydF4y2B一个
然而,没有限制的模型训练来执行这个条件,这样这只协助理解模型预计将如何学习,因此可以是一个有用的方法在解释模型。gydF4y2B一个
2.5目标函数gydF4y2B一个
扇区signal-to-distortion目标函数用于培训的比例(SISDR)gydF4y2B一个
这是一个常用的目标函数为培训款语音分离系统(gydF4y2B一个罗和Mesgarani, 2018年gydF4y2B一个;gydF4y2B一个罗和Mesgarani, 2019年gydF4y2B一个;gydF4y2B一个罗et al ., 2019gydF4y2B一个;gydF4y2B一个陈et al ., 2020gydF4y2B一个;gydF4y2B一个Subakan et al ., 2021gydF4y2B一个),有时候有一些细微的修改。gydF4y2B一个
在gydF4y2B一个(21)gydF4y2B一个言论是规模不变的目标和gydF4y2B一个
残余变形出现在估计演讲。清洁用语音段gydF4y2B一个
2.6深PReLU编码器和译码器gydF4y2B一个
一些工作已经完成调查Conv-TasNet模型改进的编码器和译码器。更深层次的卷积编码器和译码器网络被提出的gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个使用Conv-TasNet语音分离任务。在这个工作,这个深卷积编码器和译码器模型是实现为一个额外的基线原始Conv-TasNet模型描述了在前面的这一节的一部分。深卷积编码器由三个额外的1 d卷积与内核层每个尺寸3和1的步伐。每个由PReLU激活函数进行卷积层。输入和输出通道的数量是相等的gydF4y2B一个NgydF4y2B一个。他们深卷积译码器也同样构造的一个额外的三转置一维卷积层进行PReLU激活功能。每个额外的转置一维卷积层都有相同的内核大小和步幅额外编码器层。每一层也有gydF4y2B一个NgydF4y2B一个输入和输出通道。它被发现gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个,增加编码器和译码器层的膨胀对SISDR分离性能的影响可以忽略不计,所以固定膨胀的1是用于每一层。gydF4y2B一个
3多线程注意编码器和解码器gydF4y2B一个
之后,提出了尼古拉斯编码器和译码器的设计。按比例缩小的点积的关注功能(gydF4y2B一个Vaswani et al ., 2017gydF4y2B一个)和尼古拉斯尼古拉斯的简要介绍,提出了应用TasNet架构描述。首次提出了关注gydF4y2B一个Bahdanau et al。(2015)gydF4y2B一个作为款层模型可以用来评估两组之间的相似性或相关性特性,从而提供关注更多的相关功能。gydF4y2B一个
3.1注意机制gydF4y2B一个
在这个工作中,scaled-dot产品的关注gydF4y2B一个
在哪里使用gydF4y2B一个
在编码器和解码器提出,关注的输出函数是用来re-weight序列的特性根据序列有哪些特性最点态关联(即相关跨渠道而不是在离散时间)。有一个双重的假设在我们提出的应用注意功能。首先,编码块包含演讲将有一个彼此的相关性高于块包含噪音。注意,这是一个类似的假设的正交性的假设gydF4y2B一个Roux et al。(2019)gydF4y2B一个在SISDR目标函数gydF4y2B一个(21)gydF4y2B一个用于训练模型在这工作。第二个假设是,每个演讲者的演讲混合编码的语音信号会有更大的点态相关性本身比任何其他演讲者在所有帧。gydF4y2B一个
图4gydF4y2B一个表明该方法计算self-attention (gydF4y2B一个林et al ., 2017gydF4y2B一个块)的转置编码信号gydF4y2B一个WgydF4y2B一个从gydF4y2B一个(4)gydF4y2B一个,即gydF4y2B一个KgydF4y2B一个=gydF4y2B一个问gydF4y2B一个=gydF4y2B一个VgydF4y2B一个=gydF4y2B一个WgydF4y2B一个⊤gydF4y2B一个。右下角的面板显示了然后输出的注意机制用于re-weight编码混合在左下方面板中。gydF4y2B一个
图4gydF4y2B一个。左上:学院下属编码信号。右上:矩阵权重计算的关注。右下角:扩展点积的注意。左下:学院下属编码信号调整权值与关注。左边的数字有值高于0.05×最大值剪和规范化在0和1之间。右边的数据规范化是在0和1之间。gydF4y2Ba
图5gydF4y2B一个显示了关注加权编码输入(中间面板)相比,编码学院下属的特性(前面板)以及相应的编码CSM特性(下半部分)。注意权重增加更多强调的功能包含演讲和相反的权重的一些吵着部分编码功能。gydF4y2B一个
图5gydF4y2B一个。上图:学院下属的信号编码块。中产:学院下属编码块中定义的调整权值与注意的信号gydF4y2B一个(24)gydF4y2B一个。底部:CSM编码信号块(gydF4y2B一个νgydF4y2B一个(gydF4y2B一个tgydF4y2B一个)= 0,gydF4y2B一个hgydF4y2B一个cgydF4y2B一个(gydF4y2B一个tgydF4y2B一个)=gydF4y2B一个δgydF4y2B一个(gydF4y2B一个tgydF4y2B一个),gydF4y2B一个∀tgydF4y2B一个≥0)。顶部和底部的数据夹值高于0.05×学院下属编码信号的最大值,然后归一化在0和1之间。中间的图剪辑值高于0.05×其最大值,然后归一化在0和1之间。gydF4y2B一个
3.2多线程注意层gydF4y2B一个
以下部分介绍了多线程的关注(gydF4y2B一个Vaswani et al ., 2017gydF4y2B一个)作为扩展点的扩展产品关注编码器和译码器模型的上下文中提出了工作,所有的输入层关注的维度。gydF4y2B一个
3.2.1线性预测和注意力gydF4y2B一个
在下列模型来简化符号描述,gydF4y2B一个VgydF4y2B一个,gydF4y2B一个KgydF4y2B一个,gydF4y2B一个
对于每一个关注的头gydF4y2B一个一个gydF4y2B一个∈{1,…gydF4y2B一个一个gydF4y2B一个},gydF4y2B一个一个gydF4y2B一个注意头的数量吗gydF4y2B一个dgydF4y2B一个=gydF4y2B一个NgydF4y2B一个/gydF4y2B一个一个gydF4y2B一个是降低维数。减少维数的动机是保持大致相同的计算使用单一成本关注头完整的维数,同时允许使用多个注意机制。这些权重矩阵用于计算(gydF4y2B一个KgydF4y2B一个一个gydF4y2B一个,gydF4y2B一个问gydF4y2B一个一个gydF4y2B一个,gydF4y2B一个VgydF4y2B一个一个gydF4y2B一个为每一个关注的头)gydF4y2B一个一个gydF4y2B一个∈{1,…gydF4y2B一个一个gydF4y2B一个},gydF4y2B一个
为每一个关注头函数计算,这样的关注gydF4y2B一个
在哪里gydF4y2B一个χgydF4y2B一个一个gydF4y2B一个是gydF4y2B一个一个gydF4y2B一个注意头。gydF4y2B一个
3.2.2多线程的关注gydF4y2B一个
最后阶段是注意连接头连接的时间gydF4y2B一个dgydF4y2B一个长度尺寸和重量使用一个线性层定义的特性矩阵gydF4y2B一个
合并后的连接和线性投影是多线程注意定义的函数gydF4y2B一个
3.2.3尼古拉斯编码器和解码器架构gydF4y2B一个
在这一节中描述的尼古拉斯编码器和解码器架构。编码器和译码器模型使用类似的范例运用多线程注意层,后跟一个非线性产生一组面具像特性,然后用于重量和编码的混合。gydF4y2B一个
3.2.3.1编码器gydF4y2B一个
编码器self-attention (gydF4y2B一个林et al ., 2017gydF4y2B一个使用)。self-attention指的是将注意力集中在一个序列应用于本身。因此,尼古拉斯的输入层被定义为可视化gydF4y2B一个图6gydF4y2B一个这样gydF4y2B一个
每一输入尼古拉斯层从一维卷积编码的混合层和ReLU激活同样的吗gydF4y2B一个(3)gydF4y2B一个。尼古拉斯的输出层然后面具一样的方式对待它乘以element-wise混合编码。这表示是接着ReLU激活。实证发现后将ReLU激活elementwise乘法而不是使用尼古拉斯的直接输出层持续产生更好的性能在所有声学条件。尼古拉斯编码器的完整的网络图所示gydF4y2B一个图6gydF4y2B一个。gydF4y2B一个
3.2.3.2面具精化和Post-Masking解码器gydF4y2B一个
提出了很多方法。两个encoder-decoder关注(gydF4y2B一个Vaswani et al ., 2017gydF4y2B一个)基于译码器模型提出了下面的小节。第一个被称为面具细化(先生)和其他被称为post-masking (PM)。尼古拉斯层进行的解码器都由ReLU激活函数和一个转置1 d卷积层。对体系结构被定义为尼古拉斯的输入层gydF4y2B一个
在哪里gydF4y2B一个cgydF4y2B一个∈{1,…gydF4y2B一个CgydF4y2B一个},gydF4y2B一个CgydF4y2B一个是目标信号的数量。这些输入定义结合的原则encoder-decoder注意力,3.2.3节描述gydF4y2B一个Vaswani et al。(2017)gydF4y2B一个,与self-attention关键和查询包含的信息估计面具。相同的尼古拉斯层用于每个演讲者。gydF4y2B一个
尼古拉斯的译码器产生一个面具先生由ReLU函数乘以层进行编码的混合编码,这re-masked混合物然后解码与转置1 d时域卷积层。先生译码器模型中描述gydF4y2B一个图7gydF4y2B一个。这个设计是使用尼古拉斯的动机机制来产生一个面具,改进已经掩盖了编码表示,参加最好最相关的特征是最扬声器功能在原来的蒙面编码功能。gydF4y2B一个
图7gydF4y2B一个。gydF4y2B一个(一)gydF4y2B一个尼古拉斯面具细化(MR)译码器结构。gydF4y2B一个(B)gydF4y2B一个尼古拉斯post-masking (PM)译码器结构。gydF4y2B一个(C)gydF4y2B一个尼古拉斯self-attention (SA)译码器结构。gydF4y2B一个
post-masking解码器(PMD)也使用一个尼古拉斯层产生一个新的面具但是在这个模型中新的面具用来提炼已经掩盖了编码的混合物。PMD模型所示gydF4y2B一个图7 bgydF4y2B一个。这个设计是使用尼古拉斯的动力机制,通过观察演讲者信息生成一个新的面具口罩和蒙面编码混合物产生一种改进的假设的面具应该通过参加最普遍的一个相关的人的信息在这两种类型的表示。gydF4y2B一个
3.2.3.3 Self-Attention译码器gydF4y2B一个
一个额外的译码器提出了基于self-attention所示gydF4y2B一个图7 cgydF4y2B一个。这个解码器尼古拉斯适用于2.3节中定义的面具估计的网络self-attentive方式等gydF4y2B一个
尼古拉斯的输出层由ReLU进行函数产生一套新的面具。新面具的阿达玛产品编码的混合计算。这蒙面编码混合然后解码回使用转置1 d时域卷积层。gydF4y2B一个
3.3点积和互相关之间的关系gydF4y2B一个
一些简单的讨论了多线程中的扩展点积函数关注如何制定计算互相关矩阵的有限离散过程在每一帧的特点gydF4y2B一个ℓgydF4y2B一个。使用这个配方建议关注机制自然适用于更多的重量在帧高度交叉相关和适用于少重量在交叉相关性较低的帧。gydF4y2B一个
两个有限的离散互相关函数的过程gydF4y2B一个问gydF4y2B一个(gydF4y2B一个ngydF4y2B一个),gydF4y2B一个kgydF4y2B一个(gydF4y2B一个ngydF4y2B一个可以估计gydF4y2B一个
的分子gydF4y2B一个(24)gydF4y2B一个是下面的矩阵的大小gydF4y2B一个lgydF4y2B一个问gydF4y2B一个×gydF4y2B一个lgydF4y2B一个kgydF4y2B一个在下面gydF4y2B一个lgydF4y2B一个问gydF4y2B一个=gydF4y2B一个lgydF4y2B一个kgydF4y2B一个=gydF4y2B一个lgydF4y2B一个xgydF4y2B一个。gydF4y2B一个
每个细胞的合成矩阵特征向量的点积gydF4y2B一个问gydF4y2B一个ℓgydF4y2B一个和gydF4y2B一个kgydF4y2B一个ℓgydF4y2B一个可以写的更明确吗gydF4y2B一个
在gydF4y2B一个Eq。35gydF4y2B一个,gydF4y2B一个
3.4编码器和译码器的复杂性gydF4y2B一个
一些简单的讨论了模型的复杂性主要是供参考。每个提议的编码器和译码器的复杂性以及基线使用后在第四节给出gydF4y2B一个表1gydF4y2B一个。gydF4y2B一个
3.2.3.1中描述该编码器比提出的编码器计算复杂gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个和gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个不过一个重要原因是,注意操作认为整个序列长度而不是操作在一个较小的上下文窗口和编码器。也是如此的解码器部分3.2.3.2和部分中描述3.2.3.3而提出的纯粹的卷积解码器gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个和gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个。在未来的工作中,使用线性的关注减少计算复杂度的方法(gydF4y2B一个Katharopoulos et al ., 2020gydF4y2B一个)和限制self-attention (gydF4y2B一个Vaswani et al ., 2017gydF4y2B一个)可以探索但这是超出了本文提供的工作范围。gydF4y2B一个
4实验gydF4y2B一个
本节提出了详细的实验装置和结果进行评估该编码器和译码器在前一节中。gydF4y2B一个
4.1数据gydF4y2B一个
大量的数据集提出了基准测试语音分离系统(gydF4y2B一个张家港基地et al ., 2020gydF4y2B一个)。WSJ0-2Mix数据集,首先发表在gydF4y2B一个好时et al . (2016)gydF4y2B一个和gydF4y2B一个Isik et al。(2016)gydF4y2B一个,是一种流行的模拟数据集清洁语音分离。但是,它不包括额外的噪声和混响有针对性的在这工作gydF4y2B一个(1)gydF4y2B一个。将额外的噪音(WSJ0潮人周围的混合物)介绍了重打语料库gydF4y2B一个Wichern et al。(2019)gydF4y2B一个并将混响效果,WHAMR数据集提出了gydF4y2B一个Maciejewski et al。(2020)gydF4y2B一个作为噪声混响WSJ0-2Mix扩展,用于所有实验在本节中。WHAMR语料库的噪声混响语音混合物。为每一个训练的例子有一个混合物和两个目标。演讲混合物在四个不同的声学条件下评估(ACs): CSM。gydF4y2B一个νgydF4y2B一个(gydF4y2B一个tgydF4y2B一个)= 0和gydF4y2B一个hgydF4y2B一个(gydF4y2B一个tgydF4y2B一个)=gydF4y2B一个δgydF4y2B一个(gydF4y2B一个tgydF4y2B一个)gydF4y2B一个(1)gydF4y2B一个嘈杂的演讲混合物(销售经理)。gydF4y2B一个hgydF4y2B一个(gydF4y2B一个tgydF4y2B一个)=gydF4y2B一个δgydF4y2B一个(gydF4y2B一个tgydF4y2B一个),但噪声出现在gydF4y2B一个(1)gydF4y2B一个混合物(RSM)也就是说,回响的演讲。gydF4y2B一个vgydF4y2B一个(gydF4y2B一个tgydF4y2B一个)= 0但混响gydF4y2B一个(1)gydF4y2B一个,学院下属。训练集由20000训练的例子导致整体58.03 h的言论,验证集由5000等于14.65 h的演讲训练样本和测试集包含3000例导致9 h的言论。8 khz音频样本和剪3 s片段用于培训。删除这个长度约束进行验证和测试。gydF4y2B一个
声音剪辑被采样的城市环境中,这些是与演讲混合物混合在一个随机选择的SNR值之间的均匀分布−6 + 3 dB。rir也随机生成的。每个演讲者的RIR生成相同的模拟空间环境。rir的混响时间RT60从0.1到1 s和生成使用pyroomacoustics软件包(gydF4y2B一个Scheibler et al ., 2018gydF4y2B一个)。gydF4y2B一个
4.2培训配置gydF4y2B一个
Conv-TasNet模型引入使用SpeechBrain框架实现gydF4y2B一个Ravanelli et al。(2021)gydF4y2B一个。所使用的特定模型配置WHAMR基线提供略有不同gydF4y2B一个Maciejewski et al。(2020)gydF4y2B一个作为一个改善配置被发现。如前所述,在SpeechBrain面具估计网络gydF4y2B一个1gydF4y2B一个忽略了跳过连接在原始Conv-TasNet模型提出的gydF4y2B一个罗和Mesgarani (2019)gydF4y2B一个和实现gydF4y2B一个Maciejewski et al。(2020)gydF4y2B一个1gydF4y2B一个。比较不同的模型参数以及CSM SISDR性能和时间上下文,秒(s),报告的每个网络所示gydF4y2B一个表2gydF4y2B一个。gydF4y2B一个
表2gydF4y2B一个。相比Conv-TasNet配置的细节gydF4y2B一个Maciejewski et al。(2020)gydF4y2B一个。大胆的表明SISDR提出基线的结果。gydF4y2B一个
一个utterance-level排列不变的培训计划(坑)(gydF4y2B一个Kolbaek et al ., 2017gydF4y2B一个)是用来处理语音分离器的未知的不匹配。1×10的初始学习速率gydF4y2B一个3gydF4y2B一个使用和学习速率减半调度器使用如果没有平均SISDR改进模型的三个时期。使用批处理大小为4。100时代的培训进行。gydF4y2B一个
4.3评价指标gydF4y2B一个
性能是衡量使用SISDR signal-to-distortion比率(SDR),感知语音质量评价(PESQ)和短期目标(STOI)的可解性。gydF4y2B一个
特别提款权是一个广义信噪比指标测量的信号的能量与能量结合残留噪声相比,工件和干扰。特别提款权已广泛应用于评估源分离模型(gydF4y2B一个短距起落et al ., 2018gydF4y2B一个;gydF4y2B一个罗和Mesgarani, 2019年gydF4y2B一个)。gydF4y2B一个
PESQ提出了gydF4y2B一个里克斯et al。(2001)gydF4y2B一个作为语音质量评价的客观指标。PESQ应该提供类似的设计结果意味着意见分数(MOS)通过使用心理声学的动机过滤模型。的测量范围从0.5−4.5−0.5被认为是最低的质量。PESQ通常用于评估一般去噪和反混响的任务。它也被用于评估语音分离性能(gydF4y2B一个王et al ., 2014gydF4y2B一个;gydF4y2B一个邓et al ., 2020gydF4y2B一个)。gydF4y2B一个
STOI清晰度指标提出的gydF4y2B一个塔阿尔et al。(2010)gydF4y2B一个它使用清洁和退化信号之间的相关性比驴退化信号的清晰度得分在0和1之间。STOI一直常用的评估一般语音增强任务但也被用于评估语音分离模型(gydF4y2B一个邓et al ., 2020gydF4y2B一个)。gydF4y2B一个
Δ措施显示除了绝对度量值来表示的改善质量和清晰度噪声混响信号之间的混合物gydF4y2B一个xgydF4y2B一个和网络估计gydF4y2B一个
4.4结果gydF4y2B一个
下面的内容将介绍语音分离方法的结果相比基线WHAMR语料库的方法。尼古拉斯编码器是评估,然后后面两部分分析尼古拉斯解码器架构和看注意正面的数量如何影响性能。所有指标使用排列不变的训练模式下找到每个指标的最优值假设这是正确匹配排列的扬声器。每组结果而提出的对最初的编码器和译码器gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个报告为Conv-TasNet深卷积编码器和译码器模型提出的gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个和深PReLU报道。gydF4y2B一个
4.1.1尼古拉斯编码器的结果gydF4y2B一个
尼古拉斯编码器模型中看到gydF4y2B一个图6gydF4y2B一个比较原始Conv-TasNet基线编码器提出的gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个以及深PReLU方法提出的gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个。这种比较的结果中可以看到所有四个声学条件gydF4y2B一个表3gydF4y2B一个。尼古拉斯编码器被指示为self-attention编码器(SAE)在所有的结果。gydF4y2B一个
这些结果证明一致的改善尼古拉斯编码器在原始基线纯粹的卷积编码器。最高性能的改善可以观察到清洁演讲混合物(CSM)因为这是最简单的任务。尼古拉斯编码器实现的性能改进RSM条件略高于销售经理条件和学院下属。尼古拉斯编码器比深PReLU编码器在每一声条件。gydF4y2B一个图8gydF4y2B一个显示了尼古拉斯中间特征编码器编码学院下属的一个信号。比较第一次卷积编码的信号层网络中类似的表示gydF4y2B一个图6gydF4y2B一个值得注意的是,卷积层已经学会专注于狭窄的通道。这意味着大量的渠道实际上是多余的,一个类似的发现MPGT编码器和卷积译码器模型提出的gydF4y2B一个说,Gerkmann (2020)gydF4y2B一个。尼古拉斯的最终输出编码器进一步缩小编码特性的焦点。gydF4y2B一个
尼古拉斯的输出层的另一个有趣的发现是,面具一样的功能似乎并不减弱信号像人们预计的那样,只有噪音由于噪音不是出现在目标信号在训练。相比这种效果可以看到更清晰的中介机构CSM尼古拉斯编码器的编码信号gydF4y2B一个图9gydF4y2B一个。gydF4y2B一个
图8gydF4y2B一个。左上:学院下属编码功能后1 d和尼古拉斯的非线性卷积编码器使用排序gydF4y2B一个算法1gydF4y2B一个。右上:面具一样输出的自我关注尼古拉斯在尼古拉斯层。左下:尼古拉斯编码器的输出。右下角:平均所有注意力,关注权重矩阵gydF4y2B一个一个gydF4y2B一个= 4。gydF4y2B一个
图9gydF4y2B一个。左上:编码CSM功能后1 d和尼古拉斯的非线性卷积编码器。右上:面具一样输出的自我关注尼古拉斯在尼古拉斯层。左下:尼古拉斯编码器的输出。右下角:平均所有注意力,关注权重矩阵gydF4y2B一个一个gydF4y2B一个= 4。gydF4y2B一个
10/24/11尼古拉斯解码器架构比较gydF4y2B一个
面具的比较细化解码器(MRD)gydF4y2B一个图7gydF4y2B一个PMD的gydF4y2B一个图7 bgydF4y2B一个和self-attention解码器(SAD)gydF4y2B一个图7 cgydF4y2B一个进行以下分析方法,如果有的话,会导致解码性能优越Conv-TasNet基线(gydF4y2B一个罗和Mesgarani, 2019年gydF4y2B一个)和深PReLU译码器(gydF4y2B一个Kadıoğlu et al ., 2020gydF4y2B一个)。所示的结果gydF4y2B一个表4gydF4y2B一个。在每种情况下注意头设置的数量gydF4y2B一个一个gydF4y2B一个= 2。gydF4y2B一个
表4gydF4y2B一个。MRD的比较gydF4y2B一个图7gydF4y2B一个PMD (a)gydF4y2B一个图7gydF4y2B一个在各种声学条件(b)。大胆的表明表现最好的为每个声学条件和度量模型。gydF4y2B一个
有一个明确的性能改进清洁演讲MRD的混合物在所有指标gydF4y2B一个图7gydF4y2B一个。也明显的性能提升可以观察到混响语音混合物,但这种进步不是还见过噪声混响语音混合那里有一个小降措施除了STOI措施。PMD设计显示所有条件和性能指标下降。表现最好的建议的解码器是self-attention译码器在所有条件。这种译码器也超过基线深PReLU解码器更成功更有挑战性的音频,c f。SISDR CSM的结果,销售经理条件SISDR结果RSM和学院下属的条件。gydF4y2B一个
尼古拉斯解码器比较正面的数目gydF4y2B一个
结果所示部分10/24/11证明该self-attention解码器gydF4y2B一个图7 cgydF4y2B一个是更有效的比先生和PM解码器。解码器先生还显示一些潜在的性能改进的CSM条件但这不是复制的所有条件。在接下来的小节,进一步分析使用悲伤和MRD观察效果,使用数量可变的头可能在模型。实验使用gydF4y2B一个一个gydF4y2B一个={2、4、8}注意头解码器和再次对Conv-TasNet相比gydF4y2B一个罗和Mesgarani, 2019年gydF4y2B一个)和Deep-PReLU基线(gydF4y2B一个Kadıoğlu et al ., 2020gydF4y2B一个)。gydF4y2B一个
的结果gydF4y2B一个表5gydF4y2B一个显示使用gydF4y2B一个一个gydF4y2B一个= 4注意头部导致小而稳定的性能提升所有指标用于MRD的原始Conv-TasNet解码器。最小的改善往往是接近0.1 dB SISDR认为,这不是一个足够强大的进步超出了随机效应模型初始化确认这种技术是实现任何比原Conv-TasNet译码器更有效。伤心再次显示一致的改善以往演示模型只有两个正面的关注gydF4y2B一个一个gydF4y2B一个= 4,gydF4y2B一个一个gydF4y2B一个= 8。通常为两个模型gydF4y2B一个一个gydF4y2B一个= 4导致最好的平均改善所有指标MRD和伤心。gydF4y2B一个
表5gydF4y2B一个。比较使用2、4和8注意头在MRD (gydF4y2B一个图7gydF4y2B一个对提出的原始Conv-TasNet解码器)gydF4y2B一个罗和Mesgarani, (2019)gydF4y2B一个。大胆的表明表现最好的为每个声学条件和度量模型。gydF4y2B一个
4.4.4尼古拉斯编码器/解码器模式相结合的比较深卷积编码器/解码器gydF4y2B一个
中给出最终的结果集比较尼古拉斯编码器和解码器的方法提出的深卷积编码器和译码器gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个。Conv-TasNet模型利用提出了尼古拉斯编码器和译码器训练的E2E时尚。所有结果SAE、悲伤和MRD 4注意头。同样Conv-TasNet模型使用提出的深度编码器和译码器gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个是训练有素的。SAE与原报告Conv-TasNet译码器的译码器缩写为卷积译码器(CD)简洁的一些结果。gydF4y2B一个
的结果gydF4y2B一个表6gydF4y2B一个表明,该组合的SAE悲伤或MRD导致更好的结果在所有指标的CSM RSM和学院下属的声学条件相比深PReLU基线。SAE的组合与该解码器执行在所有指标比SAE与原Conv-TasNet解码器。这意味着再次的最小的性能报告gydF4y2B一个表5gydF4y2B一个的MRD可能纯粹由于尼古拉斯译码器的初始化属性模型。此外,尼古拉斯编码器模型使用参数显著低于深PReLU模型以及提出结合SAE和悲伤的模型。gydF4y2B一个
表6gydF4y2B一个。尼古拉斯和编码器和解码器的比较深卷积编码器/解码器Cont-TasNet模型提出的gydF4y2B一个Kadıoğlu et al。(2020)gydF4y2B一个。大胆的表明表现最好的为每个声学条件和度量模型。gydF4y2B一个
5结论和未来的工作gydF4y2B一个
摘要小说尼古拉斯编码器和译码器网络提出了改善TasNet模型。提出的基于self-attention尼古拉斯编码器SISDR其他编码器基线显著提高,特别提款权,PESQ, STOI指标。三个尼古拉斯解码器,两个使用encoder-decoder注意方法和一个使用self-attention方法,提出了。性能相比原Conv-TasNet模型(gydF4y2B一个罗和Mesgarani, 2019年gydF4y2B一个)和深PReLU译码器(gydF4y2B一个Kadıoğlu et al ., 2020gydF4y2B一个)基线不同。深PReLU解码器通常表现在大多数声学条件下比encoder-decoder解码器。self-attention解码器坚固的表现好于其他所有的提议和基线解码器。单独使用尼古拉斯编码器产生更好的性能比任何更改与尼古拉斯编码器和译码器甚至尼古拉斯解码器。中间尼古拉斯特性的进一步分析self-attention编码器显示的证据表明,网络被更多的选择性特性了,许多的频道编码器可能主要是多余的。gydF4y2B一个
有许多途径的进一步研究提出了尼古拉斯编码器和解码器。尼古拉斯编码器证明可靠性能改善不显著增加模型大小在其他编码器和译码器网络提出了Conv-TasNet (gydF4y2B一个Kadıoğlu et al ., 2020gydF4y2B一个)。一个缺点在使用尼古拉斯层提出的任何实现gydF4y2B一个Vaswani et al。(2017)gydF4y2B一个是重要的内存使用和这些网络层的计算复杂度。最近的工作gydF4y2B一个Katharopoulos et al。(2020)gydF4y2B一个提出了线性层的关注。线性的注意力减少了二次连续的复杂性gydF4y2B一个
数据可用性声明gydF4y2B一个
公开的数据集进行分析。这些数据可以在这里找到:gydF4y2B一个https://wham.whisper.ai/gydF4y2B一个。gydF4y2B一个
作者的贡献gydF4y2B一个
WR主要作者提出使用编码器和解码器,尼古拉斯层和参与设计和实现通道排序算法。或者说是在第四节也实现所有的实验。SG导致论文写作,协助与模型分析部分和监管提供支持。TH提出了信道排序算法,编辑输入在这工作和监管提供支持。gydF4y2B一个
资金gydF4y2B一个
这项工作是支持的语音和语言技术的博士训练中心(SLT)和他们的应用程序由英国研究和创新(批准号EP / S023062/1)。本研究从3 M卫生信息系统收到资金,Inc .资助者没有参与研究设计、收集、分析、解释数据,本文的写作或决定提交出版。gydF4y2B一个
的利益冲突gydF4y2B一个
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2B一个
出版商的注意gydF4y2B一个
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。gydF4y2B一个
脚注gydF4y2B一个
1gydF4y2B一个在SpeechBrain Conv-TasNet实现:gydF4y2B一个https://github.com/speechbrain/speechbrain/blob/develop/speechbrain/lobes/models/conv_tasnet.pygydF4y2B一个。gydF4y2B一个
引用gydF4y2B一个
Bahdanau D。曹,K。,Beng我o,Y。(2015)。“神经由共同学习对齐和翻译,机器翻译”gydF4y2BaProc,第三学习国际会议上表示,ICLR 2015gydF4y2B一个,gydF4y2B一个圣地亚哥,加州,美国gydF4y2B一个。eds。y Bengio,勒存y。doi: 10.48550 / ARXIV.1409.0473gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Benesty, j . (2000)。gydF4y2B一个介绍语音信号的盲源分离gydF4y2B一个。美国:gydF4y2B一个Kluwer学术出版社gydF4y2B一个,321 - 329。gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Cauchi B。,Gerk米一个nn,T。,Doclo, S., Naylor, P., and Goetze, S. (2016). “Spectrally and Spatially Informed Noise Suppression Using Beamforming and Convolutive NMF,” inProc。AES 60反混响与混响的音频会议,音乐,演讲(比利时鲁汶)gydF4y2B一个。gydF4y2B一个
Cauchi B。,Kodr一个年代我,我。,Rehr, R., Gerlach, S., Jukić, A., Gerkmann, T., et al. (2015). Combination of MVDR Beamforming and Single-Channel Spectral Processing for Enhancing Noisy and Reverberant Speech.EURASIP j .放置信号的过程。gydF4y2B一个2015年,61年。doi: 10.1186 / s13634 - 015 - 0242 - xgydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
陈,J。,米一个o,问。,和l我u, D. (2020). Dual-Path Transformer Network: Direct Context-Aware Modeling for End-To-End Monaural Speech Separation.Interspeech。gydF4y2B一个,2642 - 2646。doi: 10.21437 / interspeech.2020 - 2205gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
数据集张家港基地,J。Pariente, M。,康奈尔,S。,Deleforge, A., and Vincent, E. (2020).Librimix:开源数据集可概括的语音分离gydF4y2B一个。gydF4y2B一个
邓,C。,Zhang, Y., Ma, S., Sha, Y., Song, H., and Li, X. (2020). Conv-TasSAN: Separative Adversarial Network Based on Conv-TasNet.Proc。InterspeechgydF4y2B一个,2647 - 2651。doi: 10.21437 / interspeech.2020 - 2371gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
说,D。,Gerk米一个nn,T。(2020). “A Multi-phase Gammatone Filterbank for Speech Separation via TasNet,” inICASSP 2020 - 2020年IEEE国际会议音响、演讲和信号处理gydF4y2B一个(gydF4y2B一个ICASSPgydF4y2B一个),36-40。doi: 10.1109 / icassp40776.2020.9053602gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Haeb-Umbach, R。海曼,J。柯克,L。,渡边。,Delcroix, M., and Nakatani, T. (2021). Far-field Automatic Speech Recognition.Proc。IEEEgydF4y2B一个109年,124 - 148。doi: 10.1109 / JPROC.2020.3018668gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
好时,j . R。陈,Z。,面粉糊,J。,渡边。(2016)。“深集群:歧视嵌入的细分和分离,”gydF4y2Ba2016年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2B一个,31-35。doi: 10.1109 / ICASSP.2016.7471631gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Isik Y。,面粉糊,j·L。陈,Z。,渡边。,好时,j . R。(2016)。“使用集群,单通道Multi-Speaker分离”gydF4y2BaProc。2016年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2B一个,545 - 549。doi: 10.21437 / interspeech.2016 - 1176gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Kadıoğlu B。Horgan, M。刘,X。,Pon年代,J., Darcy, D., and Kumar, V. (2020). “An Empirical Study of Conv-TasNet,” inICASSP 2020 - 2020年IEEE国际会议音响、演讲和信号处理gydF4y2B一个(gydF4y2B一个ICASSPgydF4y2B一个),7264 - 7268。doi: 10.1109 / ICASSP40776.2020.9054721gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Katharopoulos,。Vyas以及,。,P一个ppas, N., and Fleuret, F. (2020). “Transformers Are RNNs: Fast Autoregressive Transformers with Linear Attention,” in美国第37国际会议上机器学习gydF4y2B一个。编辑器h . d . III和a·辛格(manmohan Singh) 5156 - 5165。doi: 10.48550 / ARXIV.2006.16236gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Kolbaek, M。Yu, D。,T一个n,Z.-H., Jensen, J., Kolbaek, M., Yu, D., et al. (2017). Multitalker Speech Separation with Utterance-Level Permutation Invariant Training of Deep Recurrent Neural Networks.IEEE / ACM反式。朗音频讲话。过程。gydF4y2B一个25日,1901 - 1913。doi: 10.1109 / TASLP.2017.2726762gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
面粉糊,J。,好时,j . R。,Wen在ger,F。(2015). “Deep NMF for Speech Separation,” in2015年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2B一个,66 - 70。doi: 10.1109 / ICASSP.2015.7177933gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Lea C。,V我d一个l, R., Reiter, A., and Hager, G. D. (2016). “Temporal Convolutional Networks: A Unified Approach to Action Segmentation,” in计算机视觉——大会2016车间gydF4y2B一个。编辑g .华和h . Jegou (Cham:gydF4y2B一个施普林格国际出版gydF4y2B一个),47-54。doi: 10.1007 / 978 - 3 - 319 - 49409 - 8 - _7gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
李,C。,年代h我,J., Zhang, W., Subramanian, A. S., Chang, X., Kamo, N., et al. (2021). “ESPnet-SE: End-To-End Speech Enhancement and Separation Toolkit Designed for ASR Integration,” in2021年IEEE口语技术研讨会(SLT)gydF4y2B一个,785 - 792。doi: 10.1109 / SLT48900.2021.9383615gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
林,Z。,Feng,米。,Do年代年代一个nto年代, C., Yu, M., Xiang, B., Zhou, B., et al. (2017). “A Structured Self-Attentive Sentence Embedding,” in2017年美国学习国际会议上表示(ICLR 2017)gydF4y2B一个。doi: 10.48550 / ARXIV.1703.03130gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
罗,Y。,Chen,Z., Hershey, J. R., Le Roux, J., and Mesgarani, N. (2017). “Deep Clustering and Conventional Networks for Music Separation: Stronger Together,” in2017年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2B一个,61 - 65。doi: 10.1109 / ICASSP.2017.7952118gydF4y2B一个
《公共医学图书馆摘要》gydF4y2B一个|gydF4y2B一个CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
罗,Y。,Chen,Z., and Yoshioka, T. (2020). “Dual-path RNN: Efficient Long Sequence Modeling for Time-Domain Single-Channel Speech Separation,” inProc。2020 ICASSP, IEEE国际会议音响、演讲和信号处理gydF4y2B一个,46-50。doi: 10.1109 / ICASSP40776.2020.9054266gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
罗,Y。,米e年代g一个r一个n我,N。(2019)。 Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation.IEEE / ACM反式。朗音频讲话。过程。gydF4y2B一个27日,1256 - 1266。doi: 10.1109 / TASLP.2019.2915167gydF4y2B一个
《公共医学图书馆摘要》gydF4y2B一个|gydF4y2B一个CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
罗,Y。,米e年代g一个r一个n我,N。(2018). “Tasnet: Time-Domain Audio Separation Network for Real-Time, Single-Channel Speech Separation,” inProc。2018 ICASSP, IEEE国际会议音响、演讲和信号处理gydF4y2B一个,696 - 700。doi: 10.1109 / ICASSP.2018.8462116gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Maciejewski, M。Wichern, G。McQuinn E。,面粉糊,j·L。(2020)。“Whamr !:No我年代y和 Reverberant Single-Channel Speech Separation,” inICASSP 2020 - 2020年IEEE国际会议音响、演讲和信号处理gydF4y2B一个(gydF4y2B一个ICASSPgydF4y2B一个),696 - 700。doi: 10.1109 / ICASSP40776.2020.9053327gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
莫里茨,N。,一个d我loğlu, K., Anemüller, J., Goetze, S., and Kollmeier, B. (2017). Multi-channel Speech Enhancement and Amplitude Modulation Analysis for Noise Robust Automatic Speech Recognition.第一版。演讲& Lang。gydF4y2B一个46岁,558 - 573。doi: 10.1016 / j.csl.2016.11.004gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
落,T。,Delcroix, M., Ikeshita, R., Kinoshita, K., Nakatani, T., and Araki, S. (2020). “Beam-TasNet: Time-Domain Audio Separation Network Meets Frequency-Domain Beamformer,” inICASSP 2020 - 2020年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2B一个,6384 - 6388。doi: 10.1109 / ICASSP40776.2020.9053575gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Pariente, M。,Cornell, S., Deleforge, A., and Vincent, E. (2020). “Filterbank Design for End-To-End Speech Separation,” inICASSP 2020 - 2020年IEEE国际会议音响、演讲和信号处理gydF4y2B一个(gydF4y2B一个ICASSPgydF4y2B一个),6364 - 6368。doi: 10.1109 / ICASSP40776.2020.9053038gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
t·w·帕森斯(1976)。通过谐波分离干扰演讲的演讲的选择。gydF4y2B一个j . Acoust。Soc。点。gydF4y2B一个911 - 918。doi: 10.1121/1.381172gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
数据集Ravanelli, M。Parcollet, T。Plantinga, P。Rouhe,。,Cornell, S., Lugosch, L., et al. (2021). SpeechBrain: A General-Purpose Speech Toolkit. doi:10.48550/ARXIV.2106.04624ArXiv:2106.04624
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Reddy, c . k . A。Dubey, H。,Ko我年代h我d一个,K。,N一个我r, A., Gopal, V., Cutler, R., et al. (2021). “INTERSPEECH 2021 Deep Noise Suppression Challenge,” inProc。Interspeech 2021gydF4y2B一个(gydF4y2B一个捷克布尔诺)gydF4y2B一个,2796 - 2800。doi: 10.21437 / interspeech.2021 - 1609gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
一种音乐形式,a·W。,Beerend年代,J. G., Hollier, M. P., and Hekstra, A. P. (2001). “Perceptual Evaluation of Speech Quality (Pesq)-a New Method for Speech Quality Assessment of Telephone Networks and Codecs,” in2001年IEEE国际会议音响、演讲和信号处理。程序(猫。No.01CH37221)gydF4y2B一个,749 - 752。doi: 10.1109 / ICASSP.2001.941023gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
面粉糊,j·L。,W我年代do米,年代。,Erdogan, H., and Hershey, J. R. (2019). “SDR - Half-Baked or Well Done?” inProc。2019年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2B一个,626 - 630。doi: 10.1109 / ICASSP.2019.8683855gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Scheibler, R。Bezzam E。,Dok米一个n我c,我。(2018). “Pyroomacoustics: A python Package for Audio Room Simulation and Array Processing Algorithms,” inProc。2018年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2B一个,351 - 355。doi: 10.1109 / ICASSP.2018.8461310gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
施密特,m . N。,Olsson, R. K. (2006). “Single-channel Speech Separation Using Sparse Non-negative Matrix Factorization,” inProc。Interspeech 2006gydF4y2B一个。doi: 10.21437 / interspeech.2006 - 655gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
施,Y。,H一个我n,T。(2021)。“Two-Speaker环境,监督扬声器嵌入De-mixing”gydF4y2Ba2021年IEEE口语技术研讨会(2021年SLT)gydF4y2B一个。doi: 10.1109 / SLT48900.2021.9383580gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
施,Z。,l我n,H。,l我u, L., Liu, R., Han, J., and Shi, A. (2019). Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-parallel Convolutional Modules for End-To-End Monaural Speech Separation.Proc。InterspeechgydF4y2B一个,3183 - 3187。doi: 10.21437 / interspeech.2019 - 1373gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
短距起落,D。,Ewert年代。,D我xon,年代。(2018)。 “Wave-U-Net: A Multi-Scale Neural Network for End-To-End Audio Source Separation,” in19学报》国际社会对音乐信息检索会议,ISMIRgydF4y2B一个,334 - 340。doi: 10.48550 / ARXIV.1806.03185gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Subakan C。,R一个v一个nelli, M., Cornell, S., Bronzi, M., and Zhong, J. (2021). “Attention Is All You Need in Speech Separation,” inProc。2021年IEEE国际会议音响、演讲和信号处理(ICASSP)gydF4y2B一个21 - 25日。doi: 10.1109 / ICASSP39728.2021.9413901gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
塔阿尔,c . H。,Hendr我k年代,R。C。,Heusdens, R., and Jensen, J. (2010). “A Short-Time Objective Intelligibility Measure for Time-Frequency Weighted Noisy Speech,” in2010年IEEE国际会议音响、演讲和信号处理gydF4y2B一个,4214 - 4217。doi: 10.1109 / ICASSP.2010.5495701gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Vaswani)。,年代h一个zeer,N。,P一个r米ar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). “Attention Is All You Need,” in31日学报》国际会议上神经信息处理系统gydF4y2B一个(美国纽约红钩:gydF4y2B一个Curran Associates Inc .)gydF4y2B一个),6000 - 6010。doi: 10.5555/3295222.3295349gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
王,D。,陈,J。(2018)。监督语音分离基于深度学习:概述。gydF4y2B一个IEEE / ACM反式。朗音频讲话。过程。gydF4y2B一个26日,1702 - 1726。doi: 10.1109 / TASLP.2018.2842159gydF4y2B一个
《公共医学图书馆摘要》gydF4y2B一个|gydF4y2B一个CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
渡边。Hori T。,K一个r我t一个,年代。,H一个y一个年代h我, T., Nishitoba, J., Unno, Y., et al. (2018). ESPnet: End-To-End Speech Processing Toolkit.Proc。InterspeechgydF4y2B一个,2207 - 2211。doi: 10.21437 / interspeech.2018 - 1456gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
Wichern G。,一个ntogn在我,J., Flynn, M., Zhu, L. R., McQuinn, E., Crow, D., et al. (2019). WHAM!: Extending Speech Separation to Noisy Environments.Proc。InterspeechgydF4y2B一个,1368 - 1372。doi: 10.21437 / interspeech.2019 - 2821gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
杨,G.-P。,Tuan, C.-I., Lee, H.-Y., and Lee, L.-s. (2019). Improved Speech Separation with Time-And-Frequency Cross-Domain Joint Embedding and Clustering.Proc。InterspeechgydF4y2B一个,1363 - 1367。doi: 10.21437 / interspeech.2019 - 2181gydF4y2B一个
CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
宇轩王,Y。Narayanan,。,Del我一个ng王,D。(2014)。监督培训目标语音分离。gydF4y2BaIEEE / ACM反式。朗音频讲话。过程。gydF4y2B一个22日,1849 - 1858。doi: 10.1109 / TASLP.2014.2352935gydF4y2B一个
《公共医学图书馆摘要》gydF4y2B一个|gydF4y2B一个CrossRef全文gydF4y2B一个|gydF4y2B一个谷歌学术搜索gydF4y2B一个
关键词:gydF4y2B一个tasnet、语音分离、语音增强、编码器、译码器、注意力gydF4y2B一个
引用:gydF4y2B一个Ravenscroft W,戈艾滋和海T (2022) Att-TasNet:出席在时域的音频编码语音噪声分离,回响的演讲混合物。gydF4y2B一个前面。Proc团体。gydF4y2B一个2:856968。doi: 10.3389 / frsip.2022.856968gydF4y2B一个
收到:gydF4y2B一个2022年1月17日;gydF4y2B一个接受:gydF4y2B一个2022年4月13日;gydF4y2B一个
发表:gydF4y2B一个2022年5月11日。gydF4y2B一个
编辑:gydF4y2B一个
町村ItogydF4y2B一个日本,东京大学gydF4y2B一个版权gydF4y2B一个©2022 Ravenscroft戈艾滋和海。这是一个开放分布式根据文章gydF4y2B一个知识共享归属许可(CC)。gydF4y2B一个使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。gydF4y2B一个
*通信:gydF4y2B一个威廉•RavenscroftgydF4y2B一个jwravenscroft1@sheffield.ac.ukgydF4y2B一个