跳转到主要内容

原始研究的文章

前面。控制中。,13December 2022
秒。人工智能和机器学习控制
卷3 - 2022 | https://doi.org/10.3389/fcteg.2022.1017256

监管网络通过暂时稀疏数据的推理

  • 东北大学电子与计算机工程系,美国波士顿,MA

基因组学的主要目标是正确捕获基因调控网络的复杂动态行为(入库单)。这包括推断基因之间复杂的相互作用,可用于广泛的基因组分析,包括疾病诊断或预后和寻找有效的治疗慢性疾病,如癌症。布尔网络已成为一个成功的模型来捕捉入库单的行为。在大多数实际的设置,推理的入库单应该通过有限和暂时稀疏的基因组数据。大量的基因在入库单导致大量可能的候选拓扑空间,通常不能详尽的搜索由于计算资源的限制。本文发展一个可伸缩的、高效的拓扑推断入库单使用贝叶斯优化和基于内核的方法。而不是一个详尽的搜索可能的拓扑结构,该方法构造了一个高斯过程(GP) topology-inspired核函数占似然函数的相关性。然后,使用后验分布的GP模型,贝叶斯优化有效地搜索可能性最高的拓扑之间的最优平衡勘探开发价值。该方法的性能是通过全面的数值试验证明使用众所周知的哺乳动物细胞循环网络。

1介绍

基因调控网络(入库单)发挥重要作用分子机制的潜在的生物过程,如应激反应、DNA修复等机制参与复杂的疾病,如癌症。拓扑推理的入库单在系统生物学是至关重要的,因为它可以生成有价值的假设进一步促进生物学研究。此外,这些生物过程的深刻理解是许多慢性疾病诊断和治疗的关键。高通量基因组和蛋白质组分析技术的进步为研究基因组学提供了新的平台。与此同时,单细胞基因表达测量允许捕获多个快照这些复杂的生物学过程。这些进步提供了一个机会寻求系统的方法来理解入库单的结构。

近年来,布尔网络模型已经成功地用于建模不同生物网络(永利et al ., 2012;Saadatpour和艾伯特,2013年;Abou-Jaoude et al ., 2016)。更具体地说,这些布尔网络已被广泛用于推断入库单(即从他们的状态。,基因)的数据(Pusnik et al ., 2022)。基因的状态值的布尔网络是由1和0,分别代表基因的激活和失活。有几种布尔网络模型,包括确定的布尔网络模型、布尔网络扰动,概率布尔网络模型、布尔控制网络(Lahdesmaki et al ., 2003;Shmulevich多尔蒂,2010年;程和赵,2011)。大多数这些模型占基因的特性转化,可以有效地捕获的动力通过相对较小times-series数据入库单。

推理的布尔网络模型的参数由学习模型给出所有可用的数据。一些进步在近年来布尔网络模型的推理。这些技术的目标是找到最适合可用的时间序列数据的模型。健身标准往往或可能性后,导致了著名的最大似然和最大归纳的推理技术(Shmulevich et al ., 2002;Lahdesmaki et al ., 2003)。尽管这些推理技术的最优性,缺乏可伸缩性限制了他们的应用程序小入库单。几种启发式方法已经开发规模布尔网络模型的推理;这些包括无标度和基于集群的方法(桥本et al ., 2004;酒吧间招待员,Kwon 2017)和方法建立在进化优化技术(谭et al ., 2020;酒吧间招待员,Kwon 2018)。前方法的目标是建立一个从已知种子节点拓扑根据多个启发式,而后者的使用进化优化技术,如遗传算法和粒子群算法在参数空间搜索。尽管这些方法的可伸缩性,他们的无能有效考虑时间变化数据和高效地通过网络搜索可能的模型会导致不可靠的推理过程。

本文侧重于开发一个系统方法的推理入库单使用布尔网络模型。两个主要挑战推理的入库单是:

大型拓扑候选人空间:建模包括评估大量的相互作用参数,代表了基因之间的联系,管理他们的动态。这需要在大量的拓扑搜索候选人和挑选最高的可能值给出可用的数据。大多数现有的开发一般非线性模型的推理方法来处理连续参数空间,如最大似然(约翰森et al ., 2008;Kantas et al ., 2015;Imani Braga-Neto, 2017;Imani et al ., 2020),期望最大化(赫泽勒拥有Kunsch, 1998;Godsill et al ., 2004;肖恩et al ., 2011;遗嘱et al ., 2013)和multi-fidelity (Imani et al ., 2019;Imani Ghoreishi, 2021)方法。然而,这些方法不能应用在大型离散参数空间推理,如入库单的候选人大型拓扑空间。在本文中,我们开发一个可伸缩的方法对未知数量的相互作用,有效地在大型拓扑搜索候选人的空间。更具体地说,我们的方法可以优化推理存在大量未知的规定为入库单数量相对较小的基因。

昂贵的可能性的评估:似然函数,它衡量的概率可用的数据来自每个拓扑候选人,通常是昂贵的评估。的原因,大量的基因在入库单,和稀疏数据,要求跨时间和系统的传播特性转化基因。由于计算资源的限制,似然函数的所有拓扑的评估候选人是不可能的,和一个需要找到最高的拓扑可能值和一些昂贵的可能性评估。

本文得出一个可伸缩的拓扑推断为入库单通过暂时稀疏的观察数据。拟议的框架模型expensive-to-evaluate(日志)似然函数用高斯过程(GP)回归structurally-inspired内核函数。拟议中的核函数利用入库单的结构有效地学习相关的拓扑结构,并支持所有拓扑对数似函数的贝叶斯预测候选人。然后,sample-efficient搜索在拓扑空间是通过贝叶斯优化政策,按顺序选择拓扑的可能性评估根据GP模型的后验分布。该方法最优平衡勘探开发,搜索全球解决方案不被困在当地的解决方案。的准确性和鲁棒性,提出了框架通过全面的数值实验演示了使用一个著名的哺乳动物细胞循环网络。

本文的其余部分组织如下。第二节提供了一个详细描述的入库单的入库单模型和拓扑推理。进一步,提出了拓扑优化框架介绍了第三节。第四部分提出了各种数值结果,并讨论了主要结论在第五部分。

2预赛

2.1入库单模型

本文采用摄动(BNp)的布尔网络模型捕捉动态的入库单(Shmulevich多尔蒂,2010年;Imani et al ., 2018;Hajiramezanali et al ., 2019)。以前,一些作品已经成功地使用BNp模型推理等不同的目的(多尔蒂和钱,2013;马歇尔et al ., 2007)和分类(Karbalayghareh et al ., 2018)。该模型正确捕获特性转化在入库单,来自内在的不确定性或未建模部分的系统。考虑一个入库单组成d基因。的状态的过程可以表示为{Xk;k= 0,1,…}Xk∈{0,1}d代表了基因的激活/失活状态的时间k。基因状态更新通过以下布尔信号在每个离散时间模型:

X k = f X k 1 n k , ( 1 )

k= 1,2,…,nk∈{0,1}d布尔过渡噪声在时间吗k、“⊕”表示特定组件的模2加和f代表了网络功能

网络功能情商。以组件形式表达了是吗f= (f1、…fd)。每个组件f:{0,1}d→{0,1}是一个布尔函数:

f x = 1 , j = 1 d c j x j + b > 0 , 0 , j = 1 d c j x j + b 0 , ( 2 )

= 1,…,d,在那里cij表示监管从组件的类型j组件;需要+ 1−1值如果有积极的和消极的规定从组件j组件如果组件分别和0j不是一个输入组件b组件是一个打破僵局的参数吗;这需要 + 1 2 如果一个相同数量的正负输入导致状态值+ 1和反向 1 2 。网络功能情商。也可以用矩阵表示形式为:

f X k 1 = C X k 1 + b ̄ , ( 3 )

在阈值操作符 v ̄ 地图的积极元素向量v1和负面元素为0,C是连接矩阵(C)ij=cijth行和jth列, b = ( b 1 , , b d ] T 代表偏差向量。的示意图表示监管网络模型所示图1

图1
www.雷竞技rebatfrontiersin.org

图1。监管网络模型的示意图表示。步功能映射输出1如果输入是正的,和0,否则。

情商。,噪声过程nk显示的特性转化一个布尔状态的过程。例如,nk(j)= 1,意味着jth基因在时间步的状态k翻转,不遵循布尔函数。然而,nk(j)= 0表明,这种状态是由网络功能。我们假设所有的nk组件是独立的,与参数(伯努利分布p),0≤p< 0.5指的特性转化的数量在每个状态变量(即。,基因)。

2.2监管网络的拓扑推断

在实践中,网络函数是未知或部分已知的,未知的参数需要通过数据来进行推断。未知的信息通常是连接矩阵的元素或偏见的单位。我们假设l元素连接矩阵的{c1、…cl}是未知的。鉴于每个元素的值在空间{+ 1,0,−1},将会有3l(即不同的模型。,connectivity matrices) denoted by parameter vectors: Θ = { θ 1 , , θ 3 l } ,在那里θj= (θj(1)、…θj(l)),θj()表示的类型未知的交互/参数下j模型。很明显,每个参数向量对应一个特定的拓扑/模型;因此,短语参数向量和拓扑/模型在本文交替使用。此外, C θ j 代表与参数相关联的连接矩阵向量θj,只有一个参数向量代表真正的底层系统拓扑结构。假设D1:T代表可用数据、推理过程可以被制定为:

θ * = argmax θ Θ P D 1 : T θ , ( 4 )

在哪里P(D1:Tθ的似然函数)是拓扑参数化θ。优化问题的解决方案,θ*在Eq。4,被称为最大似然的解决方案。注意,不失一般性,该方法,将在下一节中所描述的,可以应用于基于任意点的估计中,如最大归纳的。

应该注意的是,可能包括未知的参数偏差单元在网络模型情商。。根据监管网络,往往偏差单元 1 2 在正常情况下,网络而结合 + 1 2 1 2 在压力条件下通常代表了网络。因此,如果网络条件是未知的,同时估计参数的拓扑推断可能的目标连接矩阵和偏见的单位。

3拟议的框架

3.1可能性评估

{ x 1 , , x 2 d } 是一个任意的枚举可能的布尔状态向量(即。入库单,d组件)。可用的数据D1:T可以使用向量1:T= {1,…T},k指定相关的指数kth状态(0,如果状态在时间步k丢失)。例如, D 1 : 6 = { X ̃ 2 = x 9 , X ̃ 3 = x 3 , X ̃ 6 = x 11 } 包含信息的时间步骤2、3和6日表示,数据时间步骤1、4和5人失踪。在这种情况下,指标向量定义为1:6= {0 9 3 0 0,11}。

对于任何给定的模型θΘ,我们定义预测后验分布 ( Π k | k 1 θ ) 和后验分布 ( Π k | k θ ) 的状态为:

Π k | k 1 θ = P X k = x 1 : k 1 , θ , Π k | k θ = P X k = x 1 : k , θ , ( 5 )

= 1…2dk= 1,2,…。

我们定义的转移矩阵Mθ大小2d×2d入库单模型参数化θ通过以下符号:

θ j = P X r = x X r 1 = x j , θ = P n r = f θ x j x = p C θ x j + b ̄ x 1 1 p d C θ x j + b ̄ x 1 , ( 6 )

,j= 1…2d,第二和第三行情商。根据入库单模型获得的吗情商。

Π 0 | 0 θ ( ) = P ( X 0 = x θ ) ,因为= 1…2d初始状态分布。如果没有知识这个分布是可用的,这可以为代表 Π 0 | 0 θ ( ) = 1 / 2 d ,因为= 1…2d,θΘ。预测可以递归地计算后验分布为:

Π k | k 1 θ = θ Π k 1 | k 1 θ ( 7 )

在时间步状态的后验概率k可以根据预测计算后在时间步和可用的数据吗k。如果数据在时间步k丢失,即。k= 0,预测后变成了后,因为没有数据可用时的步骤k。这可以写成:

Π k | k θ j = P X k = x j 1 : k , θ = P X k = x j 1 : k 1 , k = 0 , θ = Π k | k 1 θ j , j = 1 , , 2 d ( 8 )

然而,如果状态是观察到时间步k,也就是说,k=,然后在时间步状态的后验概率k变成1的状态完整的知识Xk=x是可用的。本例中的后验概率可以表示为:

Π k | k θ = P X k = x 1 : k 1 , k = , θ = 1 , Π k | k θ j = P X k = x j 1 : k 1 , k = , θ = 0 , j ( 9 )

总而言之,任何国家的后可移植性k,即Xk=x可以通过以下表达式:

Π k | k θ = Π k | k 1 θ 如果 k = 0 , 1 如果 k = , 0 否则 ( 10 )

= 1…2dk= 1,2,…。

可能值的优化问题Eq。4可以用对数格式为:

l θ 日志 P D 1 : T θ = 日志 P 1 : T θ = k = 1 T 日志 P k 1 : k 1 , θ , ( 11 )

在哪里

P k 1 : k 1 , θ = Π k | k 1 θ k 如果 k 0 1 否则 ( 12 )

对数似值的计算对于任何给定的拓扑结构可以是巨大的大尺寸的过渡矩阵与22d元素。对数似评价的计算复杂度O(22dT),T时间范围。这种大量的计算负担(特别是在大量的系统组件)的动机是想出更有效的方法来解决问题了Eq。4

3.2贝叶斯优化拓扑优化

本文提出了一种可伸缩的监管网络的拓扑推理的贝叶斯优化方法通过暂时观察稀疏数据。贝叶斯优化(BO) (弗雷泽,2018)是一个众所周知的方法近年来已广泛应用于优化问题与昂贵的评估目标函数域。薄熙来显示巨大的希望在提高自动化和优化的质量任务(·沙希瑞遇刺一周年et al ., 2016)。在本文中,我们处理一个expensive-to-evaluate似然函数。采用传统的薄熙来的一个主要问题是它的能力处理连续搜索空间,而搜索空间在我们的问题是监管网络的拓扑结构,这需要一个大空间组合。因此,一些关键的变化需要被应用到原始波公式,以便它可以适应我们的问题。这种方法的主要概念是详细解释在以下段落。

3.2.1 GP模型对数似函数

转移矩阵(θ)7情商。使对数似函数评价方程式。4,11计算昂贵,尤其是在处理大规模监管网络。因此,它是至关重要的,搜索在拓扑空间的一种有效方法。在本文中,对数似函数l(.)使用高斯过程建模(GP)的回归。GP (拉斯穆森和威廉姆斯,2006年)主要是定义在连续空间,主要是由于定义内核函数模型相关的可能性在连续空间。在我们的例子中,参数是离散的交互(即。,parameters of the connectivity matrix that take +1, 0, or −1), which prevent constructing the GP model for representing the log-likelihood function over topology space.

本文利用拓扑结构的入库单,在连接矩阵编码(3),定义了以下GP模型:

l θ = G P μ θ , k θ , θ , ( 13 )

在哪里μ(.)展示了意味着功能,k(,)表明topology-inspired内核函数。均值函数,μ(。)Eq。13代表了之前的形状函数对数似所有拓扑。一个可能的选择是函数是常数是函数。这意味着函数带有一个hyperparameter,随着内核hyperparameters可以学到。

知道每个参数向量θ对应于一个连接矩阵Cθ,structurally-inspired内核函数定义为:

k θ , θ = σ f 2 经验值 C θ C θ 2 l , ( 14 )

在为V2是元素的平方和的V,CθCθ′表示连接矩阵相关的拓扑θθ′分别l是长度尺度, σ f 2 是hyperparameters规模因素。这些hyperparameters量化如何关闭拓扑。越相似(即两个拓扑。,less difference in the connectivity matrices), the more they are correlated, and the kernel function value will be higher for them. While, for more distinct topologies, the kernel will have smaller values.

图2代表了一些可能的拓扑结构的一个例子两个基因的入库单。这四个可能的拓扑结构不同在一个或两个交互。如果对数似值拓扑θ1计算,这些信息可以用于预测其他对数似值拓扑。这些拓扑结构的连接矩阵可以表示为:

C θ 1 = 0 1 1 0 , C θ 2 = 0 0 1 0 , C θ 3 = 0 1 1 0 , C θ 4 = 0 1 1 0 ( 15 )

图2
www.雷竞技rebatfrontiersin.org

图2。可能的模型(我的一个例子。e,拓扑)入库单有两个基因。

拓扑之间的关系θ1和所有上述拓扑,Θ= {θ1,θ2,θ3,θ4}计算基于Eq。14通过下面的内核,并表示向量:

K θ 1 , Θ = k θ 1 , θ 1 k θ 1 , θ 2 k θ 1 , θ 3 k θ 1 , θ 4 = σ f 2 σ f 2 经验值 1 σ f 2 经验值 4 σ f 2 经验值 16 , ( 16 )

的长度尺度hyperparameter假定为1。可以看出,拓扑θ1与自身的最大相关性,相关性比率降低,当我们从拓扑θ1θ4。这也可以理解之间的差异的相互作用参数,表示连接矩阵中Eq。15。拓扑结构θ2不同于θ1只有缺少互动从基因2 - 1。这个结果的相关性 k ( θ 1 , θ 2 ) = σ f 2 经验值 ( 1 ) 在这两个拓扑。此外,在Eq。15我们可以看到,从基因2 - 1模型的交互θ1抑制(−1),而相同的交互激活(+ 1)模型θ3。这导致较小的拓扑结构之间的相关性θ1θ3, k ( θ 1 , θ 3 ) = σ f 2 经验值 ( 4 ) 相比,拓扑之间的关系θ1θ2。最后,在Eq。15,可以看出θ1θ4有两个相反的类型的相互作用,导致了吗 k ( θ 1 , θ 4 ) = σ f 2 经验值 ( 16 ) ,这是最小的相关性θ1和所有其他的拓扑。

GP模型有能力提供的似然函数的贝叶斯表示拓扑空间。让θ1:t= (θ1、…θt)是第一个t样本参数空间(即。,samples from the topology candidates) with the associated log-likelihood values l 1 : t = ( l 1 , , l t ] T (例如,l1=l(θ1)Eq。11)。的后验分布 l ( θ ) Eq。13推导出:

l θ θ 1 : t , l 1 : t N μ θ t , Σ θ t , ( 17 )

在哪里 μ θ t Σ θ t 的均值和方差是一个特定的模型θΘ分别。这些值可以得到:

μ θ t = μ θ + K θ , θ 1 : t K θ 1 : t , θ 1 : t 1 l 1 : t μ θ 1 : t , Σ θ t = k θ , θ K θ , θ 1 : t K θ 1 : t , θ 1 : t 1 K θ , θ 1 : t T , ( 18 )

在哪里 μ ( θ 1 : t ) = ( μ ( θ 1 ) , , μ ( θ t ) ] T ,

K Θ , Θ = k θ 1 , θ 1 k θ 1 , θ r k θ l , θ 1 k θ l , θ r , ( 19 )

Θ= {θ1、…θl}, Θ = { θ 1 , , θ r } 。使用上述公式,GP构造对数似函数与协方差为贝叶斯代理模型k(,)。此外,在迭代t,对数似函数可以计算通过使用已经选择和评估对数似值拓扑θ1:t,也就是说,l1:t。代理模型的不确定性将降低我们对似然函数的拓扑。

GP hyperparameters,包括hyperparameters topology-inspired内核函数的均值函数,可以学到通过优化的边际似然函数在每个迭代通过GP模型:

l 1 : t θ 1 : t N μ θ 1 : t , K θ 1 : t , θ 1 : t ( 20. )

3.2.2连续的拓扑优化

高效的拓扑优化的概念是想出一个有效的方式来搜索所有拓扑空间,我们利用最小数量的计算昂贵的可能性的评估,最终找到最优拓扑,该收益率最大似然值。

正如3.1节中提到的,评价函数的对数似为每个拓扑是一个计算昂贵的任务。因此,在这里sample-efficient和连续的拓扑选择实现:

θ t + 1 = argmax θ Θ α t θ , ( 21 )

在哪里αt(θ)代表了获取函数在贝叶斯优化背景下,决定在GP模型在迭代后t。多个采集函数的上下文中存在贝叶斯优化。例如,概率提高(·沙希瑞遇刺一周年et al ., 2016)是一种最传统的采集功能,这使得选择增加BO的每次迭代改进的可能性。为收购功能包括其他的例子预期改善(莫卡斯et al ., 1978;琼斯等人。,1998年;Brochu et al ., 2010),上信心绑定(奥氏小体,2003),知识梯度(吴et al ., 2017;弗雷泽,2009),熵预测搜索(Henrandez-Lobato et al ., 2014)。在这项工作中,我们使用预期的改善采集功能,这是最常用的采集功能。这次收购功能平衡勘探开发的交换,而且有一个封闭形式的解决方案。预期的改进收购函数被定义为(莫卡斯et al ., 1978;琼斯等人。,1998年):

α t θ = μ θ t l 马克斯 t Φ μ θ t l 马克斯 t / Σ θ t + Σ θ t ϕ μ θ t l 马克斯 t / Σ θ t , ( 22 )

在哪里ϕ()和Φ()指的是概率密度函数和累积标准正态分布的密度函数, l 马克斯 t = 马克斯 { l 1 , l t } 最大对数似值,直到最近,然后呢 μ θ t Σ θ t 的均值和方差是GP模型在迭代t中定义的Eq。18

收购功能情商。拥有封闭的解,需要GP模型的均值和方差为任何给定的拓扑。来解决Eq。21对于大型监管网络与大量的未知的交互,我们可以实现一些启发式优化方法包括粒子群优化技术(进行肯尼迪和埃伯哈特,1995年)、遗传算法(安德森和费里斯,1994年;惠特利,1994)或广度优先本地搜索(bfl) (Atabakhsh 1991)获得模型最大的收购价值。在模型与最大的收购价值(θt+ 1选择),下一个对数似评价进行拓扑θt+ 1推导出对数似值lt+ 1。GP模型基于所有的新信息,然后更新定义为θ1:t+ 1= (θ1:t,θt+ 1), l 1 : t + 1 = ( l 1 : t , l t + 1 ] T

拟议中的贝叶斯拓扑优化继续顺序过程在所有的监管网络的拓扑空间固定数量的变化,或者直到最大对数似值无显著变化在连续的迭代中发现。优化结束时,拓扑选择可能性最大的评估值随着系统的拓扑结构,这意味着:

θ * θ * , 在哪里 * = argmax = 1 , , t + 1 l ( 23 )

推理过程由三个主要组件。图3代表了该方法的原理图。GP模型预测对数似值可能的拓扑候选人,用黑点图3。评估对数似红点表示的值选择拓扑当前迭代。使用GP模型的后验分布,下一个最高的拓扑选择采集功能,其次是对数似评价选择的拓扑。全科医生然后更新基于拓扑和评估选择对数似,这顺序过程持续进行直到满足停止条件。

图3
www.雷竞技rebatfrontiersin.org

图3。原理图的拓扑推断在入库单。

该推理方法的详细步骤中描述算法1Θ表示拓扑空间,D1:T表示可用的数据。3号线8号线的算法创建状态索引与数据相关联D1:T。连续的拓扑优化过程然后从线10到19日进行,在每个循环中,选择的一个拓扑对数似值提出了贝叶斯优化计算技术,其次是医生后更新和下一个拓扑的选择。最后,推理过程的终止,最大的拓扑选择对数似在第20行推断拓扑。对数似确定的复杂性的计算算法每一步的方法,这是O(22dT)。这意味着该方法的复杂性在每一步是一样的一个对数似评估。使用对数似评估每个迭代更新我们的知识(后),并帮助选择最好的候选人未来的迭代。

www.雷竞技rebatfrontiersin.org

算法1。该方法通过temporally-sparse数据推理的监管网络。

4数值实验

复制的代码存储库中已经包括了本文的数值实验数据可用性声明本文的末尾。著名的哺乳动物细胞循环网络(福尔et al ., 2006)是用来评估我们的方法的性能。图4介绍了该网络的路径图。这个网络的状态向量是假设如下x= (CycD, Rb p27、E2F CycE, CycA, Cdc20,背景,UbcH10, CycB)。哺乳动物细胞的分裂取决于有机体的整体增长,控制使用信号,激活细胞周期素D (CycD)细胞。可以看到状态向量,哺乳动物细胞循环网络包含10个基因(d= 10)。设置用于我们的实验如下:数据长度为100 (k0.1 = 100),过程噪声(p= 0.1),缺失数据的百分比(稀疏)的50%。此外,10规定的连接矩阵被认为是未知的(l= 10)和100年的最大可能性评估用于推理的过程。所有的参数表达的数值实验中使用表1

图4
www.雷竞技rebatfrontiersin.org

图4。细胞循环网络的路径图。

表1
www.雷竞技rebatfrontiersin.org

表1。哺乳动物细胞循环网络的参数值实验。

连接向量矩阵和偏见情商。对哺乳动物细胞循环网络可以写成:

C = + 1 0 0 0 0 0 0 0 0 0 1 0 + 1 0 1 1 0 0 0 1 1 0 + 1 0 1 1 0 0 0 1 0 1 + 1 0 0 1 0 0 0 1 0 1 + 1 + 1 1 1 0 0 0 0 0 1 0 + 1 0 + 1 1 1 1 0 0 0 0 0 0 0 1 0 0 + 1 0 0 + 1 0 0 1 + 1 0 0 1 0 0 0 0 0 + 1 + 1 1 + 1 + 1 0 0 0 0 0 0 1 1 0 0 , b = 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 T ( 24 )

在本节中,我们假设连接矩阵是不完全清楚。这个网络有10个基因,总共有210这个网络= 1,024种可能的状态。因此,转移矩阵的大小是210×210,这会导致计算昂贵的可能性评估任何可能的拓扑结构。使用我们的方法,我们表明,最优拓扑最大的对数似值可以推断出一些可能性的评估;因此,我们提供了一个有效的搜索在所有可能的拓扑。

在所有的实验中,未知的交互(10cij)被认为是。每一个未知的交互可以把值设置{+ 1,0,−1},导致310= 59,049种不同的可能的系统模型,即: Θ = { θ 1 , , θ 3 10 } 。10个随机选择未知的法规,连接矩阵的元素Eq。24,有:

c 2 1 = 1 , c 3 5 = 1 , c 3 10 = 1 , c 4 2 = 1 , c 5 4 = + 1 c 6 7 = 1 , c 6 9 = 1 , c 8 3 = + 1 , c 9 6 = + 1 , c 9 8 = 1 ( 25 )

我们也认为是一个统一的初始状态的先验分布,也就是说, Π 0 | 0 θ ( ) = 1 2 10 对所有θΘ= 1,2,…,210。此外,所有的实验都重复10独立运行,沿着信心范围和平均结果报告的所有数据。注意早期结果的随机性来自过程噪声(p),连续的拓扑优化的方法是在每次运行执行。

第一组实验,显示了该方法的性能使用两块图5。左边图代表的进步的对数似值推断模型对评估可能性的数量,这意味着它显示了在优化过程中获得的最大对数似值。大对数似值意味着选择模型可以更好地表示真正的模型(即。,可用的数据更可能来自模型值)的可能性更大。作为对比,我们也重复了同样的实验用遗传算法(GA) (安德森和费里斯,1994年;惠特利,1994),这是一个强大的、知名的非连续问题解决者。通过观察左侧的阴谋图5我们可以看到,该方法的推理,由固体蓝线表示,比GA方法(虚线红线)。这个优势可以看到的均值和置信区间图5。当我们评估更可能为不同的模型,该方法的推断模型的可能性接近最优对数似值,虚线红线所示。因此,我们提出的方法能够达到更好的对数似少数量的可能性评估和更有效的方式搜索了所有可能的模型。此外,95%置信区间中说明了同样的情节在这个实验两种方法。我们可以观察到该方法的信心间隔越来越小,大约在70年之后的评价,置信区间会零。这表明该方法的鲁棒性,在大约70次迭代之后,对数似得到其最优值在不同的独立运行。相比之下,GA的结果仍显示大的置信区间,即便100年评价,及其平均远低于最优对数似值。

图5
www.雷竞技rebatfrontiersin.org

图5。结果10未知的哺乳动物细胞循环网络交互。

正确的情节图5显示的进度优化过程中(即连接错误。,该方法获得的可能性评估)。让C*矢量化真正的连接矩阵表示Eq。24,Ct是矢量化的连接矩阵tth可能性评估。连接误差在迭代t被定义为为C*−Ct1。显然,我们将有一个更好的真实模型的估计误差接近零。正确的图,我们可以看到连接错误减少我们做更多的评估,评估可能性大约75后,误差为零,也就是说,我们成功地推断出真正的连接矩阵。此外,正如预期的那样,我们可以看到,95%置信区间变小,我们做更多的评估,最终接近零后约75评估。

在第二组实验中,我们的目标是调查缺失的数据百分比的影响该方法的性能。预计缺失的数据,这将是很难推断出系统的不同组件之间的关系;因此推断模型的连接误差会更大。对于这些实验,我们改变了缺失数据百分比从0%到90%,使用的是伯努利噪声值0.2。其他参数是固定的基础上表1。的均值推断模型的连接错误从这些实验获得,连同他们的68%置信区间作为酒吧的阴谋图6。正如所料,这些结果说明连接错误的意思是增加丢失的数据比例变大。

图6
www.雷竞技rebatfrontiersin.org

图6。该方法的性能对缺失数据的百分比。

最后一组的实验集中在伯努利噪声如何影响该方法的性能。在所有这些实验中,我们认为缺失的数据比例50%,我们改变了伯努利噪声从0.01到0.4。性能比较,推断模型的均值的连接错误来源于这些实验使用条形图所示图7。在这个酒吧的情节中,我们可以观察到伯努利的连接误差很大噪声为0.01。随着噪声的增加0.05和0.1,连接错误不断减少。然而,增加噪音0.2,0.3,0.4最后导致连续增加连接错误。这些结果证明网络特性转化和数据之间的关系informativity所需的推理过程。为一个小过程噪声(p= 0.01),网络通常是被困在吸引子状态,这也就排除了整个状态空间的观察。这导致的问题统计non-identifiability,指多个模型并不清晰可辨的情况使用可用的数据。一旦噪声值略有增加(p= 0.05,p= 0.1),网络变得更经常的吸引子状态,提高了推理过程的性能。最后,对于噪音太大过程值(p= 0.2,p= 0.3,p= 0.4),状态转换变得更加混乱,使它更加难以推断出真正的组件之间的关系。

图7
www.雷竞技rebatfrontiersin.org

图7。该方法的性能存在不同的伯努利噪音。

5的结论

本文提出一种高度可伸缩的基因调控网络拓扑推理方法(入库单)观察到通过暂时稀疏数据。布尔网络模型用于捕捉的动态入库单。推断的推理过程由基因或等同于选择拓扑结构之间的相互作用对系统中所有可能的拓扑可能性最高的价值。评估似然函数对于任何给定的拓扑是昂贵的,防止穷举搜索大可能的拓扑空间。该方法由高斯过程模型对数似函数与structurally-inspired内核函数(GP)模型。这个GP模型捕获不同的拓扑之间的关系并提供对数似函数的贝叶斯表示。使用GP模型的后验分布,贝叶斯优化用于有效地搜索在拓扑空间。

高性能显示我们的方法使用多个著名的哺乳动物细胞循环实验网络。我们也反复多次实验获得置信区间,进一步证明了我们的方法获得的准确性和鲁棒性的解决方案。在第一个实验中,我们认为哺乳动物细胞循环网络的拓扑推断未知10缺失的数据交互和50%。从比较的结果拓扑推理使用我们的方法和遗传算法,我们观察到,在搜索方法是更有效的拓扑空间,达到一个最优模型用更少的可能性评估。与此同时,小置信区间的方法合理解决方案的鲁棒性。第二个实验研究了缺失数据的影响提出的推理方法的性能。从结果,我们明白,正如所料,缺失数据,方法的准确性降低,推理误差变大。最后,在第三个实验中,我们研究了我们的方法的性能在不同的伯努利噪声(即。在该州特性转化过程)。结果表明,对于小特性转化,推理的准确性很低,因为系统大部分时间在几个州(即。吸引子)和系统的不同组件之间的交互是不区分。随着特性转化的增加,该方法的准确性增加(减少误差),直到某个时候,一遍后,准确性开始减少。 This is because too much stochasticity turns the system into a more chaotic form, making the inference of the true model more challenging.

数据可用性声明

在这项研究中提出的数据集可以在网上找到存储库。库的名称/存储库和加入号码可以找到(s)如下:https://github.com/imanilab/雷竞技rebatfrontiers - 2022

作者的贡献

马和MI导致概念化、方法验证、正式的分析,调查研究的。马负责编码、资源和数据管理的工作。监督和项目管理是由MI。两位作者为写作和编辑的手稿,他们已阅读并同意提交版本的手稿。

资金

这项工作一直在支持部分由美国国立卫生研究院奖1 r21eb032480-01,国家科学基金会奖iis - 2202395,陆军研究办公室奖W911NF2110299,甲骨文云学分和甲骨文的研究项目提供的相关资源。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

引用

Abou-Jaoude, W。Traynard, P。蒙泰罗,P。,Saez-Rodriguez, J., Helikar, T., Thieffry, D., et al. (2016). Logical modeling and dynamical analysis of cellular networks.前面。麝猫。7日,94年。doi: 10.3389 / fgene.2016.00094

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

安德森,e . J。,Ferris, M. C. (1994). Genetic algorithms for combinatorial optimization: The assemble line balancing problem.ORSA j .第一版。6,161 - 173。doi: 10.1287 / ijoc.6.2.161

CrossRef全文|谷歌学术搜索

Atabakhsh, h (1991)。一项调查基于约束的调度系统使用一个人工智能方法。Artif。智能。Eng。6日,58 - 73。0954 - 1810 . doi: 10.1016 / (91) 90001 - 5

CrossRef全文|谷歌学术搜索

奥氏小体,p . (2003)。使用置信界限exploitation-exploration权衡。j·马赫。学习。Res。3,397 - 422。

谷歌学术搜索

酒吧间招待员,S。,Kwon, Y.-K. (2017). A novel mutual information-based boolean network inference method from time-series gene expression data.《公共科学图书馆•综合》12,e0171097。doi: 10.1371 / journal.pone.0171097

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

酒吧间招待员,S。,Kwon, Y.-K. (2018). A boolean network inference from time-series gene expression data using a genetic algorithm.生物信息学34岁i927-i933。doi: 10.1093 /生物信息学/ bty584

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Brochu E。,Cora, V. M., and de Freitas, N. (2010). A tutorial on bayesian optimization of expensive cost functions, with application to active user modeling and hierarchical reinforcement learning. arxiv. doi:10.48550/ARXIV.1012.2599

CrossRef全文|谷歌学术搜索

程,D。,Zhao, Y. (2011). Identification of boolean control networks.自动化47岁,702 - 710。doi: 10.1016 / j.automatica.2011.01.083

CrossRef全文|谷歌学术搜索

多尔蒂,E。,Qian, X. (2013). Validation of gene regulatory network inference based on controllability.前面。麝猫。4、272。doi: 10.3389 / fgene.2013.00272

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

福尔,一个。,Naldi, A., Chaouiya, C., and Thieffry, D. (2006). Dynamical analysis of a generic Boolean model for the control of the mammalian cell cycle.生物信息学22日,e124-e131。doi: 10.1093 /生物信息学/ btl210

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

弗雷泽,p (2009)。Knowledge-gradient统计学习的方法。普林斯顿,纽约:运筹学和金融工程系,普林斯顿大学。论文。

谷歌学术搜索

弗雷泽,p . i (2018)。对贝叶斯优化教程。出来了。doi: 10.48550 / ARXIV.1807.02811

CrossRef全文|谷歌学术搜索

Godsill, s . J。下去,。,West, M. (2004). Monte Carlo smoothing for nonlinear time series.j。统计协会。99年,156 - 168。doi: 10.1198 / 016214504000000151

CrossRef全文|谷歌学术搜索

Hajiramezanali E。,Imani M。,Braga-Neto, U., Qian, X., and Dougherty, E. R. (2019). Scalable optimal Bayesian classification of single-cell trajectories under regulatory model uncertainty.BMC基因组学20日,435年。doi: 10.1186 / s12864 - 019 - 5720 - 3

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

桥本,r F。金,S。,Shmulevich,我。张,W。,Bittner, M. L., and Dougherty, E. R. (2004). Growing genetic regulatory networks from seed genes.生物信息学20岁,1241 - 1247。doi: 10.1093 /生物信息学/ bth074

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Henrandez-Lobato, j . M。霍夫曼,m . W。,Ghahramani, Z. (2014). “Predictive entropy search for efficient global optimization of black-box functions,” in学报》第27届国际会议上神经信息处理系统,918 - 926。

谷歌学术搜索

赫泽勒拥有,M。,Künsch, H. R. (1998). Monte Carlo approximations for general state-space models.j .第一版。图。统计数据7,175 - 193。doi: 10.1080 / 10618600.1998.10474769

CrossRef全文|谷歌学术搜索

Imani M。,Braga-Neto, U. M. (2017). Maximum-likelihood adaptive filter for partially observed Boolean dynamical systems.IEEE反式。信号的过程。65年,359 - 371。doi: 10.1109 / tsp.2016.2614798

CrossRef全文|谷歌学术搜索

Imani M。,Ghoreishi, S. F. (2021). Two-stage Bayesian optimization for scalable inference in state space models.IEEE反式。神经。学习。系统。33岁,5138 - 5149。doi: 10.1109 / tnnls.2021.3069172

CrossRef全文|谷歌学术搜索

Imani M。,Dehghannasiri, R., Braga-Neto, U. M., and Dougherty, E. R. (2018). Sequential experimental design for optimal structural intervention in gene regulatory networks based on the mean objective cost of uncertainty.癌症正无穷。17日,117693511879024。doi: 10.1177 / 1176935118790247

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Imani M。,Ghoreishi, S. F., Allaire, D., and Braga-Neto, U. (2019). MFBO-SSM: Multi-fidelity Bayesian optimization for fast inference in state-space models.Proc。AAAI相依Artif。智能。33岁,7858 - 7865。doi: 10.1609 / aaai.v33i01.33017858

CrossRef全文|谷歌学术搜索

Imani M。,多尔蒂,E。,Braga-Neto, U. (2020). Boolean Kalman filter and smoother under model uncertainty.自动化111年,108609年。doi: 10.1016 / j.automatica.2019.108609

CrossRef全文|谷歌学术搜索

约翰森,a . M。下去,。,Davy, M. (2008). Particle methods for maximum likelihood estimation in latent variable models.Stat。第一版。18日,47-57。doi: 10.1007 / s11222 - 007 - 9037 - 8

CrossRef全文|谷歌学术搜索

琼斯·d·R。,Schonlau, M., and Welch, W. J. (1998). Efficient global optimization of expensive black-box functions.j .水珠。Optim。13日,455 - 492。doi: 10.1023 /: 1008306431147

CrossRef全文|谷歌学术搜索

Kantas, N。,Doucet, A., Singh, S. S., Maciejowski, J., and Chopin, N. (2015). On particle methods for parameter estimation in state-space models.统计科学。328 - 351年。doi: 10.1214 / 14-sts511

CrossRef全文|谷歌学术搜索

Karbalayghareh,。Braga-neto U。,多尔蒂,E。R. (2018). Intrinsically bayesian robust classifier for single-cell gene expression trajectories in gene regulatory networks.BMC系统。医学杂志。12,23-10。doi: 10.1186 / s12918 - 018 - 0549 - y

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

肯尼迪,J。,Eberhart, R. (1995). “Particle swarm optimization,” inICNN学报》95 -神经网络(IEEE)国际会议上,1942 - 1948。

谷歌学术搜索

Lahdesmaki, H。,Shmulevich,我。,Yli-Harja, O. (2003). On learning gene regulatory networks under the boolean network model.马赫。学习。52岁,147 - 167。doi: 10.1023 /: 1023905711304

CrossRef全文|谷歌学术搜索

马歇尔。Yu, L。,X我ao, Y., and Dougherty, E. R. (2007). Inference of a probabilistic boolean network from a single observed temporal sequence.Eurasip j . Bioinforma。系统。医学杂志。2007年,1 - 15。doi: 10.1155 / 2007/32454

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

莫卡斯,J。,T我esis, V., and Zilinskas, A. (1978). The application of Bayesian methods for seeking the extremum.水珠。Optim。2、2。

谷歌学术搜索

Pusnik, Z。穆拉兹,M。,Zimic, N., and Moskon, M. (2022). Review and assessment of boolean approaches for inference of gene regulatory networks.Heliyon8,e10222。doi: 10.1016 / j.heliyon.2022.e10222

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

拉斯穆森,c, E。,Williams, C. (2006).高斯过程机器学习。剑桥,美国:麻省理工学院出版社

谷歌学术搜索

Saadatpour,。,Albert, R. (2013). Boolean modeling of biological regulatory networks: A methodology tutorial.方法62年,3 - 12。doi: 10.1016 / j.ymeth.2012.10.012

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

肖恩,t . B。遗嘱,。,N我nness, B. (2011). System identification of nonlinear state-space models.自动化47岁的39-49。doi: 10.1016 / j.automatica.2010.10.013

CrossRef全文|谷歌学术搜索

B·沙希瑞遇刺一周年。Swersky, K。王,Z。,Adams, R. P., and de Freitas, N. (2016). Taking the human out of the loop: A review of bayesian optimization.Proc。IEEE104年,148 - 175。doi: 10.1109 / jproc.2015.2494218

CrossRef全文|谷歌学术搜索

Shmulevich,我。,多尔蒂,E。R. (2010).概率布尔网络:基因调控网络的建模和控制。费城,美国:暹罗

谷歌学术搜索

Shmulevich,我。,多尔蒂,E。R., and Zhang, W. (2002). From Boolean to probabilistic Boolean networks as models of genetic regulatory networks.Proc。IEEE90年,1778 - 1792。doi: 10.1109 / jproc.2002.804686

CrossRef全文|谷歌学术搜索

棕褐色,Y。,Neto, F. L., and Braga-Neto, U. (2020). Pallas: Penalized maximum likelihood and particle swarms for inference of gene regulatory networks from time series data.IEEE / ACM反式。第一版。医学杂志。Bioinform。19日,1807 - 1816。doi: 10.1109 / tcbb.2020.3037090

CrossRef全文|谷歌学术搜索

惠特利,d . (1994)。遗传算法教程。Stat。第一版。4,65 - 85。doi: 10.1007 / bf00175354

CrossRef全文|谷歌学术搜索

遗嘱,。,肖恩,t . B。Ljung, L。,N我nness, B. (2013). Identification of hammerstein–wiener models.自动化49岁,70 - 81。doi: 10.1016 / j.automatica.2012.09.018

CrossRef全文|谷歌学术搜索

吴,J。,Poloczek, M., Wilson, A. G., and Frazier, P. (2017). “Bayesian optimization with gradients” in先进的神经信息处理系统(Curran Associates Inc .)30)。

谷歌学术搜索

永利,m . L。,Consul, N., Merajver, S. D., and Schnell, S. (2012). Logic-based models in systems biology: A predictive and parameter-free network analysis method.中国。医学杂志。4、1323。doi: 10.1039 / c2ib20193c

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:拓扑推理、最大似然估计、基因调控网络、布尔动力系统,贝叶斯优化

引用:Alali Imani M(2022)监管网络通过暂时稀疏数据的推理。前面。控制。Eng。3:1017256。doi: 10.3389 / fcteg.2022.1017256

收到:2022年8月11日;接受:2022年11月15日;
发表:2022年12月13日。

编辑:

Mahyar Fazlyab美国约翰霍普金斯大学,

审核:

撒拉族Fattahi美国密歇根大学
瓦伦蒂娜Breschi意大利米兰理工大学,

版权©2022 Alali和Imani。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:穆罕默德·Alalialali.m@northeastern.edu

下载