评论文章

前面。系统。医学杂志。,25 May 2022
秒。综合遗传学和基因组学
卷2 - 2022 | https://doi.org/10.3389/fsysb.2022.877717

简要回顾深度学习应用在基因组研究

晓曦沈 ¹,<我mg class="pr5" src="https://f96a1a95aaa960e01625-a34624e694c43cdf8b40aa048a644ca4.ssl.cf2.rackcdn.com/Design/Images/newprofile_default_profileimage_new.jpg" alt="www.雷竞技rebatfrontiersin.org">长江三峡²,<一个href="//www.thespel.com/people/u/311671" class="user-id-311671">

鸭绿江温 ³,<一个href="//www.thespel.com/people/u/1811436" class="user-id-1811436">

至岑溪李 ⁴和<一个href="//www.thespel.com/people/u/29471" class="user-id-29471">

清路 ²*

¹数学系,德克萨斯州立大学圣马科斯,TX,美国
²生物统计学、佛罗里达大学盖恩斯维尔,佛罗里达州,美国
³部门统计,奥克兰大学,奥克兰,新西兰
⁴流行病学和生物统计学,密歇根州立大学东兰辛,MI,美国

深度学习是一种强大的工具来捕获数据中复杂的结构。它拥有更大的潜力为基因组研究由于其学习复杂的功能基因组数据的能力。在本文中,我们提供了一个简短回顾深度学习技术和各种应用的深度学习基因组研究。我们还简要提及当前的挑战和未来的角度使用新兴深度学习正在进行的和未来的基因组研究的技术。

1介绍

深度学习取得了巨大的成功在许多计算机视觉和自然语言处理等领域。导致数据驱动的科学进入一个新时代由于其能力的学习复杂结构的数据而无需人工干预。与它的成功在许多地区,越来越多的兴趣在基因组研究中使用深度学习。基因组数据本质上是复杂的,复杂与响应之间的关系(例如,疾病的结果)。而经典方法(例如,线性回归)在基因组数据分析来检测常用的简单线性效应,深度学习可以学习从基因数据复杂的特性,这使得一个强大的方法,考虑非线性和交互影响。综述论文,我们提供了一个简短回顾深度学习的各种应用基因组研究。深度学习,作为一个阶级的机器学习方法,也可以分为监督学习和无监督学习。我们开始通过引入关键概念在监督学习,无监督learningand semi-supervised学习,然后回顾流行深度学习在基因组研究方法及其应用。由于大量的可用深度学习方法和有限的空间,审查主要集中在经典深度学习方法,尤其是那些有可能适用于基因组数据分析。

2 2监督、非监督和Semi-Supervised学习

2.1监督学习

统计数据显示,有监督学习的三要素:1)发电机的随机向量<我nline-formula id="inf1"> $X$ 从一个固定的未知分布<我nline-formula id="inf2"> $P (x)$ 2)主管(或老师)的回报<我nline-formula id="inf3"> $Y$ 对于每一个<我nline-formula id="inf4"> $X$ 根据条件分布<我nline-formula id="inf5"> $P (y | x)$ ,3)一个类的学习机器<我nline-formula id="inf6"> ${f (x, θ) : θ \in Θ}$ 。这个概念被引入<一个href="#B92">Vapnik, (1998)。问题是给定独立同分布(先验知识)对数据<我nline-formula id="inf7"> $(X_{1}, Y_{1}), \dots, (X_{n}, Y_{n})$ 通常被称为训练数据,从联合分布<我nline-formula id="inf8"> $P (x, y) = P (y | x) P (x)$ ,如何选择<我nline-formula id="inf9"> ${f (x, θ) : θ \in Θ}$ 一个<我nline-formula id="inf10"> $f$ 预测主管的反应<我nline-formula id="inf11"> $Y$ 在“最好”的方式。当<我nline-formula id="inf12"> $Y$ 是连续的,学习问题通常称为回归问题。在回归,我们寻求的最佳参数<我nline-formula id="inf13"> $θ$ 减少二次损失函数:

{\hat{θ}}_{1} = 参数 \underset{θ \in Θ}{最小值} \frac{1}{n} \sum_{我 = 1}^{n} {(Y_{我} - f (X_{我}, θ))}^{2} 。

当<我nline-formula id="inf14"> $Y$ 二分,学习问题称为分类或模式识别问题。在分类问题中,常用的损失函数是熵函数,

{\hat{θ}}_{2} = 参数 \underset{θ \in Θ}{最小值} \frac{1}{n} \sum_{我 = 1}^{n} (- Y_{我} 日志 f (X_{我}, θ) - (1 - Y_{我}) 日志 (1 - f (X_{我}, θ))] 。

当<我nline-formula id="inf15"> $f (x, θ) = x^{T} θ$ ,<我nline-formula id="inf16"> ${\hat{θ}}_{1}$ 成为了经典最小二乘线性回归估计量。同样的,<我nline-formula id="inf17"> ${\hat{θ}}_{2}$ 是在逻辑回归系数的估计量如果<我nline-formula id="inf18"> $f (x, θ) = {(1 + e^{- x^{T} θ})}^{- 1}$ 。

2.2神经网络

神经网络算法,试图模仿人类大脑的功能。一个神经网络感知器的集合。因此,神经网络的另一个常用的名字是多层感知器。一个感知器所示的基本结构<一个href="#F1">图1一个。在一个感知器(<一个href="#B70">Rosenblatt 1958),非线性激活函数应用于权重的线性组合生成一个输出和输入特性。常用的非线性激活函数神经网络和深度学习包括:

•算法(亥维赛)功能:<我nline-formula id="inf19"> $σ (u) = {\begin{matrix} 1 & 如果 u \geq 0 \\ 0 & 如果 u < 0 \end{matrix}$ ;

•不足(物流)功能:<我nline-formula id="inf20"> $σ (u) = {(1 + e^{- u})}^{- 1}$ ;

•双曲正切函数:<我nline-formula id="inf21"> $σ (u) = 双曲正切 u = \frac{e^{u} - e^{- u}}{e^{u} + e^{- u}}$ ;

•普通累积分布函数:<我nline-formula id="inf22"> $σ (u) = \int_{- \infty}^{u} \frac{1}{\sqrt{2 π}} e^{- \frac{t^{2}}{2}} dt$ ;和

•解决线性单元(ReLU)功能:<我nline-formula id="inf23"> $σ (u) = 马克斯 (0, u)$ (<一个href="#B38">Jarrett et al ., 2009;<一个href="#B60">奈尔和辛顿,2010年;<一个href="#B25">Glorot et al ., 2011)。

图1

图1。流行的机器学习和深度学习模型的结构。(一)一个感知器非线性激活函数(比如,一个算法函数)应用于输入和权值的线性组合预测的输出。(B)神经网络隐层,由多个感知器。蓝色的计算单位是隐藏的单位,所生成的应用非线性激活函数(例如,ReLU函数)输入和权值的线性组合。计算单元的输出层橙色所示,它使用一个激活(例如,乙状结肠或softmax函数)产生预测值。(C)与两个隐藏层深神经网络,计算单位在每个隐层应用非线性激活函数的线性组合权重从上一层和输出。(D)卷积神经网络(CNN),三个通道的输入是一个图像代表红色,绿色和蓝色。CNN的隐藏层包括两种类型的层:卷积层和汇聚层。卷积层由几种过滤器,具有相同数量的渠道作为输入数据。每个过滤器作为滑动窗口和非线性激活适用于过滤条目的线性组合和上一层的输出。这样的操作被称为卷积。池层是用来减少的大小表示加速计算,以及使检测功能更强劲。常用的池层叫做马克斯池,一个过滤器作为滑动窗口和从这部分产生的最大元素。经过几次卷积层和汇聚层,输出矢量化是一个完全连接的神经网络的输入。(E)一个递归神经网络,输入和输出都是序列长度相同。每个输入<我nline-formula id="inf24"> $x^{t}$ (例如,一个单词一个句子)和输出<我nline-formula id="inf25"> ${一个}^{t - 1}$ 从之前的神经网络用于预测<我nline-formula id="inf26"> ${\hat{y}}^{t}$ 并产生一个输出<我nline-formula id="inf27"> ${一个}^{t}$ ,然后是下一个神经网络的输入。典型结构的神经网络用于RNN RNN细胞或长短期记忆(LSTM)细胞中所示(F, G),分别。

而线性激活函数可用于输出层为回归类型的问题,重要的是在隐藏层使用非线性激活函数。非线性激活函数的使用使神经网络捕捉非线性输入数据和输出数据之间的关系。如果线性激活函数用于隐藏层,而不是一个线性回归神经网络然后崩溃或逻辑回归。<一个href="#F1">图1 b展示了一个通用的结构与一个隐层神经网络。从图中,我们可以看到不同感知器和神经网络隐层是一个附加层,称为隐层,位于输入层和输出层之间。隐层中的每个隐单元形成以同样的方式作为一个感知器处理器,这是由应用非线性激活函数的线性组合重量和输入。

神经网络的一个重要特征是万能逼近定理(<一个href="#B36">Hornik et al ., 1989)。这个定理说,带有一个隐层的神经网络可以近似一个连续函数定义在紧集<我nline-formula id="inf28"> $ℝ^{d}$ 任意只要隐藏单位的数量是足够大的。尽管如此,<一个href="#B30">Gyorfi et al。(2006)和<一个href="#B79">沈et al。(2019)发现隐藏的单位不能那样快速增长的数量随着样本量为了使神经网络估计达到统计上的一致性。因此,有一个差距理论和应用程序在这个话题,这可能值得进一步调查。

2.3深神经网络

深层神经网络是神经网络与不止一个隐藏层。<一个href="#F1">图1 c给出一个示例的神经网络有两个隐藏层。深度学习的一个优点是,它需要更少的隐藏单元学习复杂的特性,而更多的隐藏的单位可能需要浅神经网络。学习XOR(也就是一个例子。异或)功能。所示<一个href="#F2">图2,如果我们使用一个树状深层神经网络的学习功能,隐藏单位需要的数量<我nline-formula id="inf29"> $O (日志 n)$ 。隐藏的单位数量的增加呈指数与一个隐层神经网络,因为我们需要列举所有<我nline-formula id="inf30"> $2^{n}$ 输入位学习XOR的可能的配置功能。

图2

图2。树结构表示XOR(即深层神经网络。,exclusive or) function on the input data, where each input unit can only take two values, 0 and 1. By using a deep neural network, the depth of the network is<我nline-formula id="inf31"> $(日志 n)$ ,因此我们不需要大量的节点来近似XOR函数。然而,如果我们使用的近似函数只有一个隐藏层,然后在这个隐藏层单元的数量可以像我们需要枚举所有的指数大<我nline-formula id="inf32"> $2^{n}$ 可能的输入位配置。

在所有上述非线性激活函数,ReLU激活函数是使用最普遍的一项功能神经网络。其他非线性激活函数,函数值几乎不变,当输入值太大或太小。因此,当应用反向传播算法,梯度是接近于零,减缓了更新的参数(<一个href="#B72">Rumelhart et al ., 1988)。ReLU避免这消失的梯度问题,计算效率,这使得它适合深层神经网络训练与许多层。

除了众所周知的完全连接前馈神经网络,有两个其他类型的神经网络已经被广泛使用。一个被称为卷积神经网络(CNN) (<一个href="#B46">LeCun (1989),另一个是递归神经网络(RNN) (<一个href="#B72">Rumelhart et al ., 1988)。CNN等栅格数据结构是常用的图像,而RNN通常用于序列数据如DNA序列。CNN的主要特征是卷积操作用于矩阵乘法的地方(<一个href="#B26">格拉汉姆·古德费勒et al ., 2016)和卷积操作获取空间信息的数据。<一个href="#F1">图1 d提供了一个CNN的典型结构。CNN的隐藏层通常由两部分组成。一种类型的隐层是卷积层,几个过滤器拥有相同数量的渠道在哪里应用于上一层的输出。每个过滤器作为一个滑动窗口和一个非线性激活函数应用于滤波器的权重的线性组合和元素的“窗口”,来自前一层的输出。另一种隐藏层在CNN被称为池层。常用的池层被称为最大池层,一个过滤器在哪里担任滑动窗口和提取的最大元素从窗口。没有参数,需要在一个池层。池层是用来减少的大小表示,它能加速计算,使检测更健壮的特性。

而CNN可以用来获取空间信息的数据,RNN用于捕获数据的时序动态行为。<一个href="#F1">图1 e提供了一个RNN的例子。RNN的输入(例如,一个单词一个句子)结合的输出之前的最后一个隐层神经网络,作为输入连续下一个神经网络。常用的结构RNN细胞所示<一个href="#F1">图1 f。RNNs两个独特的特性是:

1)输入长度和输出长度可以不同。因为RNN通常是一个序列的输入和输出可以不同的序列或一个类标签,很可能的长度输入与输出的长度不同。RNN非常灵活的结构,使其可行的适应这样的场景。

2)在神经网络参数共享。在一个RNN,权重矩阵是所有神经网络共享,大大减少了参数的数量是估计的。

所示的一个经典RNN的问题之一<一个href="#F1">图1 e是它只使用序列中的早些时候的信息,可以通过使用双向RNN(来解决<一个href="#B77">舒斯特尔和Paliwal, 1997)。古典RNN的另一个缺点是,它可能会遇到一个梯度消失问题,这使得它难以捕捉长期依赖。为了解决这个问题,提出了两个修改古典RNN的细胞,一个是封闭的复发性单元(格勒乌)(<一个href="#B16">曹et al ., 2014),另一个是长期短期记忆(LSTM)单位(<一个href="#B74">Sak et al ., 2014)。<一个href="#F1">图1 g显示了一个LSTM单元的基本结构。蓝色的计算单元被称为忘记门,用于去除先前存储的内存值。橙色的计算单元被称为更新门。的细胞的更新过的值<我nline-formula id="inf33"> $c^{t} = Γ_{f}^{t} c^{t - 1} + Γ_{u}^{t} {\tilde{c}}^{t}$ ,它是由价值决定的,从更新门和忘记门。因此,更新门和忘记门控制细胞的更新值。

与越来越多的投入,大多数学习算法需要处理过学习问题。可以构建一个复杂的模型训练数据集训练误差小,但是这样一个模型可能没有好的普遍性。将该模型应用于不同的测试数据集时,该模型可以受到高泛化误差和测试误差。复杂的模型通常有低偏差但高方差。因此,过度学习的问题是一样的偏见方差统计的权衡。常用的方法解决深度学习的过学习问题包括正规化和辍学(<一个href="#B83">斯利瓦斯塔瓦et al ., 2014)。正则化方法,惩罚项通常是添加到损失函数来解决过度学习的问题。而模型增加其复杂性减少估计值和真实值之间的差异,它还可以增加惩罚。因此,最小化损失函数和惩罚项有助于保持偏差和方差之间的平衡。辍学是另一个普遍使用的神经网络方法。<一个href="#F3">图3提供了一个辍学方法的说明。在辍学,我们随机删除隐藏单位有一定的概率和删除所有相关的暂时性的边缘与隐藏的单位。辍学背后的直觉是,由于“输入”隐藏的单位可以随机辍学,“输出”隐藏的单位不能依赖任何一个功能。因此,权重必须缩小为零。在赌指出(<一个href="#B93">赌et al ., 2013),当应用于线性回归,辍学相当于经典l₂正则化。

图3

图3。辍学正规化的插图。每个隐藏单元随机删除一些概率,以X图中,时好时坏的边缘与那些隐藏的相关单位也会被删除。

2.4无监督学习

在监督学习中,有一个老师(即。,labeled responses) supervising the performance of the learning machine through some metric quantifying the discrepancy. In unsupervised learning, however, there are no labeled responses. Instead, we are more interested in data compression by extracting useful information from the input data. The dimension of extracted features is usually much smaller than the dimension of the original input data. By doing so, we can not only reduce the cost of data storage, but also make the downstream analyses more efficient.

常用的无监督学习算法是主成分分析(PCA)。有一个对应的PCA深层神经网络,称为autoencoder (<一个href="#B47">LeCun (1987;<一个href="#B7">Bourlard坎普,1988;<一个href="#B34">辛顿,泽梅尔1994年)。<一个href="#F4">图4一提供了一个autoencoder的插图。在一个autoencoder,从原始数据中提取重要特征。确定提取的特征代表了原始输入,我们重建了“原始数据”从提取的特性和使用重构数据和原始数据之间的差异作为指导原则来训练网络。

图4

图4。流行的无监督学习方法的结构。(一)autoencoder的基本结构。左边的三层代表编码过程,它从输入数据中提取重要特征和右边的两层代表解码过程,试图复制原始数据。一个autoencoder学习通常是通过最小化原始数据之间的差异和各自的复制数据。(B)深度信念网(DBN)和两个隐藏层。DBN的主要特点是,顶部两层之间的边缘是无向和所有其他层之间的边缘是直接指向最接近的数据层。(C)深玻耳兹曼机(DBM)是一个生成模型与DBN除了拥有类似的结构层之间的连接都是无向。(D)一个变分autoencoder (VAE)学习两个条件分布,一个是潜在的条件分布特性给定的输入数据<我nline-formula id="inf34"> $问_{φ} (z | x)$ 和输出给定的条件分布的特性<我nline-formula id="inf35"> $p_{θ} (x | z)$ ,这是目标分布用于生成新的样品。(E)生成对抗网络的一般结构(甘)。GAN始于一个简单的样本分布随机噪声等,并使用神经网络(发电机网络)学习样本的复杂的转换创建假输出和使用一个鉴别器网络,看看生成的输出是接近真实的数据。

无监督学习中最活跃的研究主题之一是生成模型。这些模型的目标是学习的模型分布数据,以便我们可以生成新的数据分布。这里有一些最常用的生成模型:

•波尔兹曼机(BM) (<一个href="#B22">Fahlman et al ., 1983;<一个href="#B33">辛顿et al ., 1984)提供了一种模型的联合分布大量的二进制随机变量。

•限制玻耳兹曼机(元)(<一个href="#B82">Smolensky 1986)是一个由两部分构成的无向图包含一个可见层和一个隐藏层。两层包含节点采取二进制值,模型用于近似任何二进制随机变量的联合分布。因此,遏制通常称为随机神经网络。

•深层信念网络(DBN) (<一个href="#B32">辛顿,2009)是生成模型,有多个层的潜在二进制变量。正如我们可以看到的<一个href="#F4">图4 b,前两个隐藏层之间的连接是无向,而其他层之间的连接是直接和指向层接近可见的数据。

•深玻耳兹曼机(DBMs) (<一个href="#B75">Salakhutdinov辛顿,2009)类似于深层的信念网络,除了所有的DBM是无向边,如图所示<一个href="#F4">图4 c。

•变分autoencoders (VAE) (<一个href="#B43">Kingma和湿润,2014autoencoders)是一个概率的版本,我们可以从模型中样本数据。VAE所示的结构<一个href="#F4">图4 d。在VAE,隐藏层代表了一些潜在的因素,用z在<一个href="#F4">图4 d,用于生成输入数据。VAE的目标是学习两个条件分布参数。第一个(即,<我nline-formula id="inf36"> $问_{φ} (z | x)$ 在<一个href="#F4">图4 d)是潜在的条件分布因素考虑到输入数据,另一个(例如,<我nline-formula id="inf37"> $p_{θ} (x | z)$ 在<一个href="#F4">图4 d)输出的条件分布的潜在因素,用于生成新的样本。

•生成对抗网络(GAN) (<一个href="#B27">格拉汉姆·古德费勒et al ., 2014)是受欢迎的方法,使我们从复杂的样本数据,甚至训练高维分布没有直接的方法。氮化镓所示的基本结构<一个href="#F4">图4 e。发电机使用网络学习样本的复杂的转换从一个简单的分布随机噪声和生产等假输出。然后鉴别器网络应用于假输出和真实数据。目的是训练网络,以便鉴别器网络无法区分虚假数据和真实数据。

2.5 Semi-Supervised学习

就像他的名字所暗示的,semi-supervised学习监督学习和无监督学习。在监督学习中,每个数据点的训练数据的标签,作为一个“老师”来指导预测的性能(<一个href="#B12">薛潘et al ., 2006;<一个href="#B103">朱2008)。在许多现实问题,没有标签也可能提供额外的数据点。semi-supervised学习的目标是构建一个学习者通过使用标记的训练数据和未标记数据来提高性能。虽然没有保证将改善预测性能将额外的无标号数据,实证研究已经显示一致的性能,与监管同行相比,通过使用semi-supervised基于神经网络学习方法。因此,semi-supervised使用深层神经网络学习方法已经广泛应用于基因组的研究,尤其是对程控使用单细胞RNA-seq数据分类。我们提供一个详细的调查在第五节这一主题。

范Engelen hoo, (2020)提供一个全面的调查semi-supervised学习,分类对semi-supervised学习方法分为两大类:归纳方法和转换方法。归纳方法的目标是监督学习的类似。薄弱的学习者,从输入空间到输出空间,映射。在监督学习中,只有使用带安全标签的数据时,在semi-supervised学习,使用标记数据和未标记数据。另一方面,转换方法的目标是完全预测无标号数据点的标签。

归纳方法共享相同的目标,监督学习方法,这些方法可用于任何监督学习者。不同的归纳方法使用不同的方法将无标号数据。例如,可以使用一个autoencoder提取重要特征的标记数据,并使用这些功能训练标记数据。这被称为无监督预处理<一个href="#B91">范Engelen hoo, (2020)。也可以训练一个分类器使用标记数据和创建pseudo-labels标记数据。然后重新训练分类器对标签数据集和pseudo-labeled数据集。这种方法被称为包装器方法根据<一个href="#B91">范Engelen hoo, (2020)。无标号数据也可以通过添加附加的条款中损失函数,这样的归纳方法被称为内在semi-supervised方法。

自无标号数据转换方法只关注预测标签没有训练一个分类器,几乎所有的转换方法是基于,主要包括三个步骤:1)构造图基于一些相似的措施,2)重边,3)图上的推理。

图5提供了一个框图显示出一些主要的深度学习方法将在以下部分中讨论。

图5

图5。一些主要深度学习方法的框图讨论其它地区的审查。

3监督深度学习的应用基因组研究

近年来,深度学习技术已经成功地应用于各种领域,如计算机视觉,自然语言处理,自动驾驶,等。从2015年开创性的研究,建立了适用性的深度学习DNA序列数据(<一个href="#B1">Alipanahi et al ., 2015;<一个href="#B102">周和Troyanskaya, 2015年;<一个href="#B21">Eraslan et al ., 2019),有一个在基因组研究中使用深度学习越来越浓的兴趣。所<一个href="#B63">公园和凯利斯(2015)以来,基因组研究深度学习拥有更大的潜力不同等级的和抽象的信息可以被不同的层深度学习。

完全连接深层神经网络不同的基因组研究中使用。例如,<一个href="#B67">Quang et al。(2014)丹,提出一个方法,使预测的deleteriousness使用深层神经网络的遗传变异。而常用的算法称为结合annotation-dependent损耗(CADD) (<一个href="#B44">柯切et al ., 2014),然后降低率相对误差19%。原因在于,CADD内核使用了一个线性支持向量机,只能从线性表示的数据。基因表达的深度学习应用程序的另一个领域是推理。D-GEX (<一个href="#B14">陈et al ., 2016),用深层神经网络预测目标基因的表达具有里程碑意义的基因的表达。D-GEX的相对性能,按照总体错误率,提高15.33%线性回归和D-GEX也达到误差低于线性回归gene-wise比较分析。

cnn是伟大的工具,用于分析数据与空间依赖性。它拥有更大的潜力为DNA序列数据,因为它可以考虑连锁不平衡。主要从事应用cnn基因组研究包括DeepBind (<一个href="#B1">Alipanahi et al ., 2015)、深海(<一个href="#B102">周和Troyanskaya, 2015年)和巴塞特(<一个href="#B40">凯利et al ., 2016)。由于DNA序列是一个一维数据,应用cnn时,一个炎热的编码通常是用来处理四个DNA碱基。例如,我们可以每个DNA碱基的代码一个= (1,0,0,0),G= (0,1,0,0),C= (0,0,1,0),T= [0,0,0,1],DNA序列现在变成了一个矩阵与四个列和一个古典CNN可以应用。如果有任何遗漏值的DNA编码,一个可能的解决方案是添加一个额外的列,缺失值相对应,在DNA上一个炎热的编码矩阵。分类的目的转录因子,在第一卷积过滤器层实际上是主题探测器,类似于位置权重矩阵不需要概率或log-odds比率的条目。

除了cnn, RNNs也被应用于基因组的研究。<一个href="#B66">Pouladi et al。(2015)使用矩阵分解和RNNs构造一个基因型归责和表型序列预测系统,达到更好的性能比长短期记忆和空间偏最小二乘回归模型。<一个href="#B8">Boža et al。(2017)提出DeepNano RNN-based方法,大大提高了基地调用奴才测序数据的准确性(<一个href="#B55">Mikheyev和锡,2014年)。RNN的结合,提出了粒子群优化<一个href="#B71">徐et al。(2007)来推断基因调控网络和产生有意义的见解在基因表达时间序列的非线性动力学。最近,ProLanGo (<一个href="#B11">曹et al ., 2017),一个RNN-based模型,提出了预测蛋白质的功能。

正如前面提到的,<一个href="#B21">Eraslan et al。(2019)应用深度学习的一个重要领域,基因组预测非编码区域的影响。98%的人类基因组非编码和93%确定疾病有关的变异来自1200多个全基因组关联研究位于非编码区域(<一个href="#B64">彭尼斯,2011)。深海(<一个href="#B102">周和Troyanskaya, 2015年)和DanQ (<一个href="#B68">广和谢,2016)是两个重要的工作在这一领域。深海是一个CNN的方法与卷积三层和两层最大池。DanQ的网络结构,如所示<一个href="#F6">图6,类似于深海。然而,而不是应用两个卷积层和马克斯池层,DanQ使用双向长期短期记忆RNN第一次卷积和最大池层。LSTM单元的输出然后DanQ夷为平地,致密层修正线性单元应用了多任务乙状结肠单位。两种方法获得伟大的表演在预测精度方面,虽然DanQ优于深海和其他方法(例如,逻辑回归)在其他几个指标。

图6

图6。DanQ的结构。在一个炎热的编码应用于原始的DNA序列。使用卷积神经网络,其次是双向递归神经网络的短期记忆单位。双向递归神经网络的输出被送入神经网络进行最终的预测。

使用深度学习的另一个领域是在遗传关联研究。在过去的十年中,全基因组关联研究(GWAS)发现了大量的遗传变异引起人类的特征和疾病(<一个href="#B17">财团,2007;<一个href="#B78">斯科特et al ., 2007;<一个href="#B81">Sladek et al ., 2007)。然而,大多数的识别变异与影响小,只占一小部分遗传(<一个href="#B52">马赫,2008)。的一部分失传现象可以解释为基因基因的相互作用或epistatis (<一个href="#B53">Manolio et al ., 2009)。虽然每个基因变异与一个小的效果,它可以与其他变体疾病上扮演重要的角色。这导致许多多位点相互作用研究为了了解联合多个位点对复杂疾病的影响(<一个href="#B18">2009年柯;<一个href="#B29">Gusareva et al ., 2014)。

由于大量的遗传标记在协会的研究中,基因基因交互推理是对大多数经典统计方法计算挑战。神经网络,另一方面,可以用来模拟复杂性状和遗传标记之间的关系,而无需列举所有可能的遗传标记之间的相互作用。研究人员利用神经网络遗传数据分析,但结果不一致(<一个href="#B51">Lucek奥特,1997;<一个href="#B50">Lucek et al ., 1998;<一个href="#B73">Saccone et al ., 1999;<一个href="#B19">柯蒂斯et al ., 2001;<一个href="#B54">Marinov和周,2001;<一个href="#B61">2003年,北等。)。一个可能的解释是存在多个局部最小值的神经网络结构优化和次优的选择。机器学习方法,如神经网络遗传规划(<一个href="#B58">Motsinger et al ., 2006)和语法进化神经网络(GENN) (<一个href="#B59">Motsinger-Reif et al ., 2008)已经发展到解决这些问题通过选择最好的神经网络架构基于给定的数据集。<一个href="#B58">Motsinger et al。(2006)已经证明,GENN权力高于经典使用反向传播神经网络。此外,<一个href="#B59">Motsinger-Reif et al。(2008)表明GENN的性能优于GPNN时存在高阶基因基因交互。除了古典神经网络、贝叶斯神经网络(<一个href="#B4">梁et al ., 2014)也被用来检测基因基因交互。研究表明,贝叶斯神经网络更强大的比其他广泛使用的方法,如<我nline-formula id="inf38"> $χ^{2}$ 测试和贝叶斯上位协会映射(<一个href="#B100">张、刘,2007年)。最近,<一个href="#B89">Uppu et al。(2016)和<一个href="#B90">Uppu et al。(2016 b)有深层神经网络应用于检测基因基因交互关联研究,取得了可喜的成果。

基于深度学习生存与基因表达谱预测最近成为一个新的研究领域。主要作品包括SurvivalNet (<一个href="#B105">Yousefi et al ., 2017),Cox-nnet (<一个href="#B15">Ching et al ., 2018)和鲑鱼(<一个href="#B106">黄et al ., 2019)。这些方法全部采用前馈神经网络输出的风险比在Cox比例风险模型中,并使用部分负对数似然作为网络训练的成本函数。不同的三种方法在网络设计中,正规化,基因表达数据的训练的。Cox-nnet和三文鱼都是单隐层神经网络,而SurvivalNet使用贝叶斯优化技术来确定网络的设计。SurvivalNet和Cox-nnet采用辍学(<一个href="#B83">斯利瓦斯塔瓦et al ., 2014)防止神经网络过度拟合,而鲑鱼套索点球(适用于<一个href="#B107">Tibshirani 1996)网络权重的成本函数。而不是使用原始基因表达值作为网络的输入,SurvivalNet和Cox-nnet做鲑鱼执行基因co-expression模块分析和使用结果eigengene矩阵基因co-expression模块的输入,大大减少了神经网络的参数数量。通过一种基于真实数据的实证研究,<一个href="#B106">黄et al。(2019)发现Cox-nnet和鲑鱼可比区别的能力和表现elastic-net Cox回归(<一个href="#B108">西蒙et al ., 2011)和随机森林生存(<一个href="#B109">Ishwaran et al ., 2008)。没有预测性能比较了这两个方法和SurvivalNet之间。令人惊讶的是,所有这些生存学习机器只输出一个预后指数,即风险比相对于基线,对于每一个问题,不是一个预测存活曲线,尽管这个缺点可以很容易地通过使用‘的估计量(<一个href="#B10">‘1974)来生成一个基线风险函数。同时,值得深神经网络扩展到其他受欢迎的生存模型如加速失效时间模型。

Bellot et al。(2018)之间的预测精度提供了一个综合的比较深的学习方法(如神经网络和cnn)和经典方法(例如,线性回归和贝叶斯岭回归)。他们采取这两种方法对UKBiobank (<一个href="http://www.ukbiobank.ac.uk/">www.ukbiobank.ac.uk)20221 80000个训练样本和测试样本。使用基因型数据,他们使用不同的方法来预测五个表型:人类身高、跟骨矿物质密度(BHMD),身体质量指数(BMI)、收缩压(SBP)、腰臀比(WHR)。他们发现,深度学习方法的性能依赖于深度学习的网络体系结构。根据特征,深度学习和古典方法可能有不同的表现。例如,对于人类的高度,高度多成因的特点与主要添加剂遗传基础,所有方法之间的性能差异不大。一个原因是,在这样的场景中,线性模型的工作很好。通过实证研究,他们也证明了cnn可比,稍微比线性方法更好的性能,除了人类的高度。因为CNN可以捕捉空间相关性的单核苷酸多态性由于连锁不平衡,他们建议未来的研究需要在基因研究CNN的性能预测。

为了方便起见,我们总结的部分中讨论的方法<一个href="#T1">表1。

表1

表1。总结回顾了遗传和基因组研究监督学习方法。

4无监督深度学习的应用基因组研究

除了监督深度学习方法的使用在基因组研究中,也有许多应用程序使用非监督学习方法在基因组学深处。例如,<一个href="#B76">朔尔茨et al。(2005)使用autoencoder代谢物估计缺失值数据和基因表达数据。他们的研究结果表明,autoencoders可以更好地估计缺失值非线性结构化数据与线性方法。同样的,<一个href="#B85">Tan et al。(2016);<一个href="#B86">谭et al。(2017);<一个href="#B87">谭et al。(2017 b)提出了一个方法称为格言,它使用autoencoders构建基因表达特征与生物学途径一致。通过分析KEGG通路、格言和流行的基因集富集分析(GSEA) (<一个href="#B110">萨勃拉曼尼亚et al ., 2005)检测到的五个途径。此外,格言发现九没有显著富集的通路GSEA。

也有一些应用程序使用生成模型的基因组。深变分autoencoder单细胞RNA序列数据(VASC) (<一个href="#B95">小王和顾,2018)开发模型辍学事件和发现非线性数据的分层特性表征。通过比较结果数据集与不同数量的细胞包括20日和测序协议使用,VASC优于其他如PCA降维方法,t-SNE ZIFA (<一个href="#B111">皮尔森和邱,2015)和SIMLR (<一个href="#B95">小王和顾,2018)。DeepSequence (<一个href="#B69">Riesselman et al ., 2018)使用VAE预测突变效果和结果明显优于现有方法。

氮化镓的第一个应用程序是由于基因组研究<一个href="#B23">Ghahramani et al。(2018)。他们应用GAN模拟单细胞RNA-seq数据。他们不仅可以提供他们的模型参数的生物学意义的解释,细胞状态扰动可以预测的影响。最近,<一个href="#B28">古普塔和邹(2019)提出了一种生成模型称为反馈GAN (FBGAN)生产合成基因序列所需的属性。在FBGAN函数分析仪是用于生产合成基因序列的分数产生的发电机在GAN和逐渐取代合成基因序列的真实数据与得分最高的函数分析仪。FBGAN被应用到生成基因编码抗菌肽以及优化合成的基因产生的多肽的二级结构。结果表明,蛋白质产生FBGAN有良好的生物物理属性。尽管其良好特性,应用GAN架构产生长和复杂的序列仍然是具有挑战性的,值得进一步的调查。DBNs也被用于基因组研究。例如,<一个href="#B24">Ghasemi et al。(2018)提议使用DBNs深神经网络初始化参数的定量结构活性关系(构象)研究。他们的研究结果表明,通过使用DBNs预测性能已得到改进。

在使用非监督学习方法在基因研究方面,<一个href="#B57">Montanez et al。(2018)用于堆放autoencoders (SAE)和深层神经网络分类极端肥胖和非肥胖的人。在SAE,一层的输出autoencoder用于火车第二autoencoder并多次重复的过程。最终的输出autoencoder用于pre-trained深神经网络的权重。基于特征选择的研究从一组2465个snp (p值< 1依照)并使用提取特性分类正常控制肥胖的样本通过深层神经网络样本,发现尽管验证集和测试集上的性能恶化根据分类精度50特征提取时,AUC仍超过85%,相对较低的研究中出现过度拟合。

直接应用DBM不是一个很好的选择在基因研究,单核苷酸多态性的数量往往超过个体的数量。为了克服这个问题,<一个href="#B31">赫斯et al。(2017)第一次使用阶梯的回归估计单核苷酸多态性之间的关系,其中每个SNP在所有其他的SNP退化,然后应用DBM SNP的小集群相关。这种方法被称为分区DBM。结果表明,分区DBM可以识别两倍数量的显著的单核苷酸多态性与单变量测试相比,虽然错误也可以控制。

最近,<一个href="#B98">Yelmen et al。(2021)表明,甘斯和遏制可以用于生成高质量的人工基因组和结果是有前途和生成的人造基因组可以继承genotype-phenotype关联。从GWAS通常需要大量的样品和大多数研究数据不公开由于隐私问题。生成高质量的人工基因组的成功提供了一个很好的替代那些私人数据库。

空间的发展解决了转录组(SRT)使基因表达分析和空间位置信息组织(<一个href="#B3">Asp et al ., 2020)。前一个重要的步骤在集群SRT的研究是进一步分析的斑点,这是完成许多最近的研究在深度学习的帮助。例如,一个工作流的SpaCell (<一个href="#B88">谭et al ., 2019)是由集成程控集群使用autoencoders象素浓度与基因表达值测量数据点在一个组织。StLearn (<一个href="#B65">范教授et al ., 2020)使用一个传输学习深层神经网络提取像素图像块的特征创建的苏木精和eosin-stained显微镜图像包含组织形态学信息。图卷积网络应用于SpaGCN (<一个href="#B48">李et al ., 2020)总从邻近的景点,然后检测基因表达信息空间变量基于聚合基因表达的基因。我们感兴趣的读者参考<一个href="#B37">胡锦涛et al。(2021)审查统计和机器学习SRT和组织学的方法。

还有其他各种各样的深度学习在基因组研究中的应用。我们有兴趣的读者参考审查论文主题(<一个href="#B2">Angermueller et al ., 2016;<一个href="#B39">琼斯等人。,2017年;<一个href="#B56">分钟et al ., 2017;<一个href="#B15">Ching et al ., 2018;<一个href="#B94">温伯格et al ., 2018;<一个href="#B99">悦和王出版社,2018年;<一个href="#B104">邹et al ., 2018;<一个href="#B21">Eraslan et al ., 2019)。<一个href="#T2">表2提供了一个简短的总结回顾了最近的无监督学习方法在应用基因组研究。

表2

表2。总结回顾了非监督学习方法的遗传和基因组研究。

5应用单细胞RNA-Seq Semi-Supervised学习的数据

新兴技术已经使人们有可能收集全球转录组分析在单个细胞水平。通过准确识别的细胞类型,复杂的器官和各种癌症的形成可以更好的理解(<一个href="#B41">金正日et al ., 2019)。然而,使用单细胞RNA-seq数据来准确地识别细胞类型仍然是一个挑战性的任务(<一个href="#B112">Stegle et al ., 2015)。最近,semi-supervised学习已成为技术普遍用于单细胞RNA-seq数据分析。<一个href="#T3">表3提供了一个列表单细胞RNA-seq semi-supervised学习方法的数据在这一节中讨论。

表3

表3。总结回顾了semi-supervised单细胞RNA-seq数据的学习方法。

之前完全深入semi-supervised学习方法用于细胞类型注解,值得提到单细胞变分推理(scVI) (<一个href="#B49">洛佩兹et al ., 2018)及其扩展单细胞注释使用变分推理(scANVI) (<一个href="#B97">徐et al ., 2021)。这两种方法都使用变分推理和深生成模型完全单细胞RNA-seq数据的分布特征。scANVI也可以用来标注细胞类型,并被用作基线方法最近提议的方法,如scSemiCluster (<一个href="#B13">陈et al ., 2021)和scNym (<一个href="#B42">Kimmel和凯利,2021)。

scReClassify提出的<一个href="#B41">金et al。(2019)使用主成分分析来执行原始的单细胞RNA-seq数据的降维,然后半监督学习方法应用于重新分类贴错了标签,人类造成的细胞类型检查。当最初的不当率很小,scReClassify可以重新分类标错了正确的细胞类型。然而,没有获得性能时最初的不当率很高。此外,scReClassify没有考虑不同细胞类型的大小在一个细胞RNA-seq数据集和细胞类型的non-randomness不当因细胞类型之间的亲缘关系位于模棱两可的地区。

Zhang et al。(2019)开发了SCINA细胞类型分类算法在单细胞RNA-seq数据。签名基因的先验知识是无监督评估过程中考虑。SCINA是第一个semi-supervised“signature-to-category”细胞类型为单身cell-RNA-seq数据分类算法。尽管如此,只需要签名基因考虑,其性能取决于大小的数据,数据和细胞类型的总数签名每个细胞的基因类型的数量。

scSemiCluster (<一个href="#B13">陈et al ., 2021)和CALLR (<一个href="#B96">魏,2021张)是两个新的细胞类型注释方法基于semi-supervised学习。比scANVI scSemiCluster计算速度,其性能将影响较小的假异常值参考类别和目标数据之间的对齐。然而,自参考数据集用于scSemiCluster作出预测,其性能取决于细胞类型中包含注释的参考数据。CALLR是文中针对图拉普拉斯算子矩阵构造”相结合的方法从所有的细胞稀疏的逻辑回归。虽然CALLR健壮的变化参数和标签的子集,它不能自动确定细胞类型的数量。

scNym (<一个href="#B42">Kimmel和凯利,2020)是一种最新的semi-supervised分析单细胞RNA-seq数据的方法。而不是依靠一个参考数据集注释类型的细胞,scNym使用一个敌对的网络来提高分类的性能。此外,scNym hyperparameter选择健壮,可以进一步提高精度通过学习生物可翻译的特点和综合来自多个数据源的信息。然而,当前的方法没有考虑多任务域,这使得它更有用,当有多个独立的变量。

6结论和观点

快速进步的图形处理单元(GPU)技术,复杂的深度学习算法可以在相当短的时间内完成,从而导致深度学习在许多领域的广泛应用。深度学习方法的优点之一是方便和易于访问的深度学习平台如Keras (<一个href="https://keras.io/">https://keras.io/),TensorFlow (<一个href="https://www.tensorflow.org/">https://www.tensorflow.org/)和PyTorch (<一个href="https://pytorch.org/">https://pytorch.org/)。受益于这些成熟的平台,研究人员可以实现深度学习算法不知道背后的数学细节,这使得它可行的研究人员更关注深度学习应用于自己的研究领域。

在本文中,我们回顾了一些重要的深度学习在基因组学的研究进展。尽管它伟大的改善预测性能相比其他经典统计方法(<一个href="#B45">勒存et al ., 2015),在这个研究领域仍有许多具有挑战性的问题。深度学习的一个挑战是缺乏可解释性。基因关联研究,识别和解释变异遗传标记主要兴趣。然而,深度学习被视为一个黑盒,阻碍了其在基因关联研究中的应用。<一个href="#B79">沈et al。(2019)和<一个href="#B35">Horel Giesecke, (2020)发展理论来解决这一问题,但实际数据应用程序的适用性的理论仍然是一个具有挑战性的任务。深度学习可判断的结果,DeepLIFT (<一个href="#B80">Shrikumar et al ., 2017)分配的重要性分数输入对于一个给定的响应来确定关键的特性。<一个href="#B84">Sundararajan et al。(2017)考虑灵敏度和实现不变性为两个基本公理和提出了一个集成的梯度方法将预测的网络输入。

另一方面,均方根误差(RMSE)和预测之间的相关性和原始数据通常用作测量比较不同方法的性能。然而,这样的测量可能过时由于双重血统的发现现象(<一个href="#B5">Belkin et al ., 2019)神经网络。只要网络已经训练了足够长的时间,训练误差将减小为零,而测试误差将再次增加,然后降低到一个更小的测试误差。双下降的现象表明,深层神经网络有可能实现RMSE接近零和相关性接近如果它已经训练了一个足够长的时期。因此,新测量的对比表现在未来需要提出不同的方法。

除了研究解释深度学习模型,传输学习(<一个href="#B62">锅和阳,2009年)是另一个有前景的研究领域。概括知识学习在一个设置(例如,变异发现从白人人口)到另一个设置(例如,其他少数族裔人口)的主要目标是学习转移。考虑到动物研究中获取知识,转移学习可以用来概括人类研究发现从动物研究。此外,自然语言处理方法如伯特(<一个href="#B20">Devlin et al ., 2019)表明,通过添加只有几层pre-trained网络和调优参数,可以实现更好的预测性能。给定深度学习算法的简单实现灵活的深度学习模型,我们相信,深度学习将起着重要的作用在未来基因组和遗传研究。

作者的贡献

XS, CJ, QL导致概念和设计的研究。XS和CJ写初稿的手稿。YW, CL, QL写的手稿。所有作者导致修订手稿、阅读和批准提交的版本。

资金

这项工作是由国家卫生研究院1 r01da043501-01和NIH 1 r01lm012848-01。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:<一个href="//www.thespel.com/articles/10.3389/fsysb.2022.877717/full">https://www.雷竞技rebatfrontiersin.org/articles/10.3389/fsysb.2022.877717/full补充材料

引用

Alipanahi B。德龙,。,Weirauch, M. T., and Frey, B. J. (2015). Predicting the Sequence Specificities of DNA- and RNA-Binding Proteins by Deep Learning.生物科技Nat。》。33岁,831 - 838。doi: 10.1038 / nbt.3300

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1038/nbt.3300">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Predicting+the+Sequence+Specificities+of+DNA-+and+RNA-Binding+Proteins+by+Deep+Learning&btnG=">谷歌学术搜索

Angermueller C。Parnamaa, T。,部分,L。,和Stegle, O。(2016). Deep Learning for Computational Biology.摩尔。系统。医学杂志。12日,878年。doi: 10.15252 / msb.20156651

《公共医学图书馆摘要》|<一个href="https://doi.org/10.15252/msb.20156651">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Deep+Learning+for+Computational+Biology&btnG=">谷歌学术搜索

Asp, M。,Bergenstråhle, J., and Lundeberg, J. (2020). Spatially Resolved Transcriptomes-Next Generation Tools for Tissue Exploration.BioEssays42 (10),1900221。doi: 10.1002 / bies.201900221

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1002/bies.201900221">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Spatially+Resolved+Transcriptomes-Next+Generation+Tools+for+Tissue+Exploration&btnG=">谷歌学术搜索

梁,a . L。,Motsinger-Reif, A., and Doyle, J. (2014). Bayesian Neural Networks for Detecting Epistasis in Genetic Association Studies.BMC Bioinforma。15日,368年。doi: 10.1186 / s12859 - 014 - 0368 - 0

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1186/s12859-014-0368-0">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Bayesian+Neural+Networks+for+Detecting+Epistasis+in+Genetic+Association+Studies&btnG=">谷歌学术搜索

贝尔金,M。许,D。妈,S。,和Mandal, S. (2019). Reconciling Modern Machine-Learning Practice and the Classical Bias-Variance Trade-Off.Proc。国家的。学会科学。美国116 (32),15849 - 15854。doi: 10.1073 / pnas.1903070116

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1073/pnas.1903070116">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Reconciling+Modern+Machine-Learning+Practice+and+the+Classical+Bias-Variance+Trade-Off&btnG=">谷歌学术搜索

Bellot, P。,delos Campos, G., and Pérez-Enciso, M. (2018). Can Deep Learning Improve Genomic Prediction of Complex Human Traits?遗传学210年,809 - 819。doi: 10.1534 / genetics.118.301298

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1534/genetics.118.301298">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Can+Deep+Learning+Improve+Genomic+Prediction+of+Complex+Human+Traits?&btnG=">谷歌学术搜索

Bourlard, H。,和Kamp, Y. (1988). Auto-association by Multilayer Perceptrons and Singular Value Decomposition.医学杂志。Cybern。59岁,291 - 294。doi: 10.1007 / bf00332918

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1007/bf00332918">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Auto-association+by+Multilayer+Perceptrons+and+Singular+Value+Decomposition&btnG=">谷歌学术搜索

Boža, V。,Brejová, B., and Vinař, T. (2017). DeepNano: Deep Recurrent Neural Networks for Base Calling in MinION Nanopore Reads.《公共科学图书馆•综合》12,e0178751。doi: 10.1371 / journal.pone.0178751

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1371/journal.pone.0178751">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=DeepNano:+Deep+Recurrent+Neural+Networks+for+Base+Calling+in+MinION+Nanopore+Reads&btnG=">谷歌学术搜索

Brechtmann F。莫特,C。,Matusevičiūtė, A., Yépez, V. A., Avsec, Ž., Herzog, M., et al. (2018). OUTRIDER: A Statistical Method for Detecting Aberrantly Expressed Genes in RNA Sequencing Data.点。j .的嗡嗡声。麝猫。103年,907 - 917。doi: 10.1016 / j.ajhg.2018.10.025

《公共医学图书馆摘要》|<一个href="https://doi.org/10.1016/j.ajhg.2018.10.025">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=OUTRIDER:+A+Statistical+Method+for+Detecting+Aberrantly+Expressed+Genes+in+RNA+Sequencing+Data&btnG=">谷歌学术搜索

‘:(1974)。审查生存数据的协方差分析。生物识别技术,89 - 99。doi: 10.2307 / 2529620

CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=Covariance+Analysis+of+Censored+Survival+Data&btnG=">谷歌学术搜索

曹,R。,Freitas, C., Chan, L., Sun, M., Jiang, H., and Chen, Z. (2017). ProLanGO: Protein Function Prediction Using Neural Machine Translation Based on a Recurrent Neural Network.分子22日,1732年。doi: 10.3390 / molecules22101732

《公共医学图书馆摘要》|<一个href="https://doi.org/10.3390/molecules22101732">CrossRef全文|<一个href="https://scholar.google.com/scholar?hl=en&as_sdt=0%2C5&q=ProLanGO:+Protein+Function+Prediction+Using+Neural+Machine+Translation+Based+on+a+Recurrent+Neural+Network&btnG=">谷歌学术搜索

薛潘,O。气,M。,和Zien, A. (2006).Semi-supervised学习。第1版。北京:麻省理工学院出版社。