跳转到主要内容

原始研究的文章

前面。Bioinform。,21February 2023
秒。基因组分析
卷3 - 2023 | https://doi.org/10.3389/fbinf.2023.1127341

蛋白质域提供了一个新图层的信息分类人类罕见疾病的变化

www.雷竞技rebatfrontiersin.org梅勒妮Corcuff1,www.雷竞技rebatfrontiersin.orgMarc Garibal1,www.雷竞技rebatfrontiersin.orgjean - pierre Desvignes1,www.雷竞技rebatfrontiersin.org席琳Guien1,www.雷竞技rebatfrontiersin.orgCoralie Grattepanche1,www.雷竞技rebatfrontiersin.orgGwenaelle Collod-Beroud 1,www.雷竞技rebatfrontiersin.org埃斯特尔Menoret1,www.雷竞技rebatfrontiersin.org大卫·萨尔加多 1www.雷竞技rebatfrontiersin.org克利斯朵夫Beroud 1、2*
  • 1Aix马赛大学、INSERM MMG、生物信息学和基因,法国马赛
  • 2Laboratoire de Genetique医学研究院,友谊医院APHM d 'Enfants de la Timone,法国马赛

作品简介:使用ACMG-AMP指南解释序列变异,它仍然难以满足相关的标准蛋白质域,PM1、分配在只有10%的情况下,而标准相关变异频率,PM2 / BA1 / BS1, 50%的病例报道。改善人类的错义变体使用蛋白质域的分类信息,我们开发了海豚系统(https://dolphin.mmg-gbit.eu)。

方法:我们使用真核生物的方式来定义包含了海豚分数来确定蛋白质域残留物和变异,产生重大影响。在平行,我们丰富gnomAD变异频率为每个域的残渣。这些都是使用ClinVar数据进行验证。

结果:我们这个方法适用于所有潜在的人类记录的变异,导致30.0%被分配一个PM1标签,而33.2%的人有资格获得一个新的良性支持标准,BP8。我们还表明,海豚提供一个推断频率变异的31.8%,相比于原始频率可用gnomAD 7.6%的人。

讨论:总的来说,海豚可以简化使用PM1标准,扩大应用PM2 / BS1标准和创建一个新的BP8标准。海豚能促进蛋白质的氨基酸替换分类领域,覆盖近40%的蛋白质和代表大多数致病变种的网站。

介绍

高通量测序技术的可用性,成千上万的变异得到识别每一个病人进行了分析。多达50%的编码变量对应于非同义变化,目前公认的解释最困难的部分分子诊断过程。改善这个过程,确保一致的数据解释,提出了各种指南(Gelb et al ., 2018;示et al ., 2020;Baumgartner-Parzer et al ., 2020),依靠收集致病性证据的收集人口数据,计算和预测数据,功能数据,隔离数据,和其他的水平,如ACMG-AMP指南(理查兹et al ., 2008;理查兹et al ., 2015)。尽管他们的简单,实验室已报告之间的不一致的分类(Yorczyk et al ., 2015;金正日et al ., 2019),主要是相关程度的主观性和不确定性所允许的ACMG-AMP指南。他们建议使用28在解释过程中区分标准:良性的,可能良性的,未知的意义(VUS开头),可能致病性和致病变种。然而,只有一个子集的这些标准在临床实践和一个带注释的收藏的变体是至关重要的。提供这样一个资源,开发了许多计划,包括ClinVar (它et al ., 2016),ClinGen (Savatt et al ., 2018),VarSome (Kopanos et al ., 2019)和InterVar (李,王,2017年)。这些从专家收集数据和各种资源,可以为未报告的提供一个解释变量。然而,这种自动化的过程有时会产生不当的结果和数据要谨慎对待。

如果我们关注分类证据,一方面,最具挑战性的标准之一是PM1”位于一个突变热点和/或关键的和完善的功能域(例如,一种酶的活性部位)没有良性的变化”,这是用于报告病例的10%左右(Amendola et al ., 2016)。提取这些信息,自动化系统主要依靠UniProt (2017年Uniprot财团。)和“dbnsfp31a_interpro”,这是一个从dbNSFP域信息(数据库刘et al ., 2011;刘et al ., 2016)和InterPro (米切尔et al ., 2019),包含蛋白质的家庭信息,域,和功能的网站。其他项目已经开发使用保守域数据库(CDD) (Marchler-Bauer et al ., 2015),比如subRVIS分数(Gussow et al ., 2016),旨在评估变异基因条件的不宽容。一般来说,PM1标准与广泛的功能性突变的区域集群。然而,很难使用,因为这个聚类定义和不好理解,说明了它的各种解释在Vasome (Kopanos et al ., 2019)和InterVar (李,王,2017年)。也可以高度偏见在人类疾病基因的利益,因此分类的数量变化。

另一方面,最常用的证据是PM2 / BA1 / BS1”变体缺席人口数据库或一个等位基因频率过高的疾病”报道在大约50%的情况下(Amendola et al ., 2016)。假设这一标准很简单:如果一个变体据报道高频率一般人群,它不能是一个罕见的致病变种,否则这种疾病的频率会更高;如果从来没有报道一个变体,或者非常低的频率,然后它可以是一个罕见的致病性变异。这个信息从大规模基因组/外显子组测序项目,大多数人从gnomAD收集这些信息(科赫,2020)或特定人群数据库,如ABraOM(巴西人)(Naslavsky et al ., 2017),TogoVar(日本人)(Mitsuhashi et al ., 2022大中东地区)或Variome(中东人口)(斯科特et al ., 2016)。然而,人类进化的基因组饱和度不允许变异,其中一些是非常罕见的在人群中由于遗传漂变(巴赫,2019)。的确,机会出现一个中立变异不受选择力将最有可能导致其失踪后几代人口是否足够大,和只有少数将固定的人群中。因此,虽然认识到50到100新创人类变异出现每一代,大多数这些事件已经失去了在进化过程中,解释了为什么不是所有中性替换存在在我们的基因组。另一种观点是基于一个简单的假定,50到100新创变异在每个生产的78亿生活人类应该每个核苷酸改变兼容的生活(衬衫et al ., 2016)。只有所有人类基因组的可用性会让我们认为这两种观点是否正确或者是否真相介于两者之间。

怎样的证据PM1和PM2 / BA1 / BS1有关吗?我们希望是这样的情况,因为蛋白质领域中包含的信息可以用来阐明。我们假设对齐的蛋白质域将识别关键残基参与这些领域的结构或功能和识别变异强烈影响这些属性,在每个位置,替换的频率在所有同源域将丰富我们的解释变异的频率。

从蛋白质中提取这些信息域,我们开发了海豚“域标志蛋白对人类信息”系统和评估其好处使用ClinVar变体至少二星级的质量为用例。人类所有的数据替换位于蛋白质域都可以在海豚网站:https://dolphin.mmg-gbit.eu

材料和方法

通过位置得分矩阵替代分数为特定领域

所有蛋白质域信息从数据库(包含中提取芬恩et al ., 2016)。我们使用的33.1版本包含了2020年5月,包含18259个条目。在这些领域中,我们使用18101年Pfam-A子集策划领域进一步分析(Sonnhammer et al ., 1997)。每个对齐过滤删除信息从古生菌,细菌,病毒和其他从真核生物序列只保留数据。总的来说,他们从1161种包含从27077043域信息。人类蛋白质域提取规范化Uniprot记录用于包含和代表5168776个氨基酸的12871017氨基酸在人类蛋白质(40.2%)。

对于每个残留物,然后我们计算一个氨基酸值使用以下步骤:创建数矩阵,纠正的频率矩阵,相对频率修正矩阵,位置得分矩阵。

计算矩阵

首先,我们创建了一个脚本计算每个氨基酸的出现在每个位置的校准和数据转移到数矩阵:C (p l)。让多个长度对齐和ψ有限字母表(单字母编码的氨基酸)。数矩阵C代表对齐是一个矩阵表示为L×|ψ|这样对任何字母L∈ψ和任何位置p∈{0…L - 1},索引元素p L和C表示C (p L)被定义为出现的次数的字母L p(多个对齐的位置。

修正频率矩阵

从数矩阵,我们创建了一个修正频率矩阵。目标是不再观察值等于0通过添加pseudo-count起始频率。让ψ有限字母表(单字母编码的氨基酸),C数矩阵,l一封信∈ψ,p的位置∈{0…l - 1}, C pseudo-count和fl信的期望频率l。修正频率矩阵表示F′和被定义为下面的公式:

F p , l = C p , l + c × f l l ψ C p , l + c

我们任意选择一个pseudo-count“c”等于1,这个值被计算矩阵的值相比可以忽略不计。关于“fl”的期望频率氨基酸,从Uniprot / Swissprot(我们使用数据http://www.uniprot.org/statistics/Swiss-Prot%202013_04)。

修正后的相对频率矩阵

这个矩阵是单个频率的目的。让ψ有限字母表(单字母编码的氨基酸),L一个自然数,F′频率修正矩阵,L一封信∈ψ,p的位置∈{0…L - 1}和fl信的期望频率L l ψ f l = 1。修正后的相对频率矩阵F”来标示并被定义为下面的公式:

F p , l = F p , l f l

score-position矩阵

最后,纠正相对频率矩阵修改得到score-position矩阵。为此,使用修正后的相对频率的对数。让F”是一个纠正相对频率矩阵,ψ有限字母表(单个字母编码的氨基酸)和L是一个自然数。score-position矩阵M是一个矩阵表示为L×|ψ|这样对任何字母L∈ψ和任何位置p∈{0…L - 1},的元素指数L和M表示M p (p L)是由以下公式:

p , l = ln F p , l

这个矩阵允许我们从添加剂的乘法模型。通常情况下,这种类型的矩阵决定当主题的频率大于上下文(的频率反之亦然)。这里,我们稍微转移这一原则计算“∆”分数减去野生型(wt)得分从突变(傻瓜)氨基酸使用公式:

= p u t , l u t p w t , l w t

给定替换的频率在一个特定的蛋白质域

所有替换频率(52774671个蛋白质错义变异)提取dbNSFP 4.1版(2020年6月16日),为所有潜在的非同义SNVs提供信息(和剪切位点SNVs)在人类基因组中(刘et al ., 2020)。我们使用的等位基因频率列gnomAD v2.1.1 (科赫,2020从125748年外)包含数据。对于每一个错义变化在一个特定的领域,我们选择最常见的突变事件导致替换所有蛋白质包含域。例如,NP_000129.3: p。的Thr2032Ser变体FBN1基因对应于第135届残留物包含“钙结合EGF蛋白”(PF07645)域。这个特定的残渣的海豚频率设置为2.41×10−5提取NP_001989.2: p。的Thr784Ser变体FBLN2基因影响这一领域的第135残留。数据被存储在一个替换频率表。

在R k - means聚类

预测是否替换涉及的关键残基功能域使用海豚“wt”和“∆”分数,我们一般使用非监督机器学习算法:k - means聚类与r k - means聚类评估一个点之间的距离和集群的中心。点到最近的k-center相关联,那么集群计算重力中心,成为新中心。这些步骤重复若干次迭代,直到达到稳定。最优数量的集群是由计算k - means聚类算法使用不同的k-clusters值和WSS(内平方的总和)是基于集群的数量。扭结的位置在情节表明适当数量的集群。

这种方法用于ClinVar变化从2020年7月28日版中提取ClinVar (它et al ., 2016)。所有类1、2、4和5错义变异位于蛋白质域被选中,只有那些质量至少有两颗恒星被用于进一步分析。它们含有9121个选择变异(4382致病性或可能致病变种和4739个良性或可能良性变异)。

海豚数据库和网站

海豚使用PostgreSQL数据库开发版本11 (postgresql.org)。Laravel框架的web界面创建版本6 (“http://www.laravel.com”)。的对齐标志得到Skylign工具(惠勒et al ., 2014)。最终用户可以查询系统基因转录,或蛋白质,然后选择一个特定的变体。直观的图形显示和表方便检索嗯标志,比对,预测,以及频率变异蛋白质域(补充图S1)。

海豚允许快速访问数据,一个API也可以。Il允许检索的基因符号,变化使用HGVS发布p .术语,包含条目名称、位置变化的蛋白质域、引用和替代氨基酸,海豚“wt”、“变异”和∆分数,PM1和PM2 / BS1预测,以及域符号和名称,从单个蛋白质替代本地化的域名(补充图S2)。

结果

确定的阈值替换分类使用海豚“wt”和“∆”分数

使用“分数”矩阵,我们确定为每个ClinVar变体(它et al ., 2016)“wt”和“∆”分数,这是代表的一个关键的和重要的氨基酸改变残留的分别(图1)。结合这两个的信息允许我们定义一个特定的替换是否可以注释与PM1证据表示一个错义变化显著改变一个关键残留的蛋白质域。k - means聚类方法允许我们区分4集群,集群包含92%的致病性变异,B组80%,集群和集群C 45%,而D包含良性变异的81%。这些集群被个性化与阈值线(补充图S3)。集群C是一个区域的重叠的致病性和良性变异,不允许有效的歧视。因此,海豚系统仅标签变异位于地区PM1 A和B。

图1
www.雷竞技rebatfrontiersin.org

图1。9121 ClinVar变体的分布质量至少两颗恒星位于蛋白质域。X设在=海豚“wt”分数;Y设在=海豚“∆”分数。红色的三角形= ClinVar类4和5的变化(n= 4382)。绿点= ClinVar类1 & 2的变化(n= 4739)。水平和垂直的乐队XY设在代表相应的“wt”和“∆”值的变化根据其类型:红色为致病性变异为中性(类4和5)和绿色(类1 & 2)变化。

比较的海豚PM1证据InterVar PM1信息

评估的好处提供的新的PM1证据海豚,我们结果与InterVar系统相比,生成一个自动分类的变体使用18标准包括PM1证据(李,王,2017年)(补充表S1)。

如果我们假设致病变种中包含蛋白质域有一个高概率的影响域结构和/或功能,我们希望他们与PM1带注释的证据。所示表1,InterVar和海豚提供统计不同PM1注释,分别为0.64和0.82的准确性。假阳性的主要区别是在利率(2654和461)和真正的阳性(3707和2379)。InterVar假阴性对应主要局部变化在蛋白质域包含至少一个插图的良性变异致病变种NP_000426.2: p。Cys1061Tyr (NOTCH3)。在其他情况下,它们对应于蛋白质域缺席Uniprot插图的致病性变异NP_000536.6: p。Pro447Leu (HNF1A)包含域(PF04812)的本地化HNF-1B UniProt没有匹配(表2,补充数据S4A, B1)。InterVar假阳性对应于蛋白质变异本地化领域没有良性的变化当变异本身不涉及关键域残渣。这是说明了良性变异NP_000242.1: p。Thr564Ala (MSH2)和NP_000359.1: p。Phe285Val (TSC1)(表2,图自己补充,D)。海豚假阴性(如致病性变异NP_714915.3: p。Leu349Ser (TMEM67)和NP_001186036.1: p。Arg242Cys (TBC1D24))和假阳性(例如,良性变异NP_000240.1: p。Glu600Gly (一种)和NP_009225.1: p。Val1804Asp (BRCA1)海豚)都位于C区,致病性和良性变化重叠的地方(表3,补充图S5)。

表1
www.雷竞技rebatfrontiersin.org

表1。PM1 ClinVar变异本地化的蛋白质分类领域。TP = True阳性;TN = True底片;FP =假阳性;FN =假阴性;SPE =特异性;森=感性;ACC =精度;MCC = Matthews相关系数。

表2
www.雷竞技rebatfrontiersin.org

表2。假阴性和假阳性InterVar基于InterVar PM1注释,海豚和Varsome。AA =氨基酸。

表3
www.雷竞技rebatfrontiersin.org

表3。假阴性和假阳性的基于海豚,海豚PM1注释InterVar Varsome。AA =氨基酸;英国=未知。

因为ClinVar分类考虑所有ACMG标准,很有可能一些错义的变化分为病原可能确实影响拼接,从而表现为假阴性当考虑海豚的分数。评估这一假设,我们使用从GenOmnis HSF Pro系统(genomnis.com)(Desmet et al ., 2009)在所有假阴性变异位于区域C和d。我们发现,在2003个变异,61影响剪接(总共100在整个数据集),314年有潜在影响,820年可能最后808没有影响(没有影响补充图S6)。

报告的频率蛋白质域的变化

18101独立域提取Pfam-A子集包含从人类基因组105178域信息(6533独特的领域)。总的来说,这些域含有5168776个氨基酸的12871017,代表appoximately 40.2%的人类蛋白质在考虑UniProt条目名称包含了使用。52774671潜在的替换提取dbNSFP (4.1刘et al ., 20163990680年蛋白质域,在gnomAD注释(科赫,2020)(7.6%)。海豚提供推断为16764498个氨基酸替换频率信息(31.8%)。

海豚的注释,我们提取两组变量:A)那些频率≥5%,B)与频率的1%和5%之间高度相关的注解为BA1或BS1 ACMG分类的证据。我们发现398443年至228844年期间,这些变种,分别。386934年(97.1%)和221073年(96.6%)分别被报道gnomAD较低频率,如图所示图2

图2
www.雷竞技rebatfrontiersin.org

图2。局部变化与海豚蛋白质域频率大于5%,在gnomAD报告。X设在(对数刻度)= gnomAD频率;Y设在=海豚的频率。注意,只有少数变异(2.4%)有相同的频率在两个数据集。

647年A组以前报道ClinVar (0.16%)。六百三十七年被注解为良性或可能良性(98.5%)。其中,614年以前报道在gnomAD加≥0.05,而22日报道平均频率(1.5 10 0.57%±1%−2-4.8%)。三个剩下的4变种被报道在ClinVar可能致病或致病(1.1%)。B组,489年以前报道ClinVar(0.21%),其中481报告为良性或可能是良性的(98.4%)。

蛋白质域信息从海豚与保护

许多在网上致病性预测工具使用蛋白质保护信息从发布的100个物种保护UCSC使用phyloP (波拉德et al ., 2009)和phastCons (Siepel et al ., 2005)基于“multiz100way”所产生的多重序列比对(MSA) Multiz软件(布兰切特et al ., 2004)。评估是否氨基酸给定的蛋白质在不同物种的保护提供了不同的信息保护这些氨基酸在蛋白质域,我们使用了9121个ClinVar变异。所示补充图S7斯皮尔曼等级相关系数,使用,我们获得了中度正相关(ρ= 0.50)。这种差异如下保护的不均匀分布,54%的残留物种之间表现出很高的保护(> 85%)只有3.6%的人表现出很高的保护域内。

这种差异的例子可以说明了第37 (补充图S8A)和10 (补充图S8B)重复“钙结合EGF-like域”(PF07645) fibrillin-1蛋白质,其中包含37这些域包含了。

讨论

真核基因组的基因编码部分的演变导致了多个蛋白质,其中许多共享蛋白质域(Bagowski et al ., 2010)。根据定义,这些领域的特点是守恒的,功能独立或过程配体结合的蛋白质序列使用中央结构主题(Bagowski et al ., 2010)。每个域共享通用功能和结构在各种蛋白质和物种。在进化、变异影响了这些元素,受到遗传漂变或选择。来自多个物种的研究领域提供了一种新的层的信息,可以用来促进人类变异的分类。它利用存在的各种各样的变异率在不同生物由于其人口数量,生成营业额,不同的新陈代谢,与环境的互动,和生殖策略,允许结论得出关于进化的蛋白质域更长时间不仅仅是人类进化。因此我们不仅建立了海豚系统注释残留在关键蛋白质域还完善人口替换频率。这两种变体的ACMG-AMP指南分类至关重要的研究和诊断罕见的人类遗传疾病或癌症(理查兹et al ., 2008;理查兹et al ., 2015)通过PM1和PM2 / BS1标准。

各种资源开发为变体使用蛋白质域信息分类,比如MetaDome (由et al ., 2017;由et al ., 2019)或Prot2HG系统(斯坦内克et al ., 2020)。两只使用人类的变化和不受益于所有可用信息在真核生物像海豚。蛋白质域信息的重要性也被分类的探索体细胞突变通过“以域为中心”的方法用于OncoDomain (彼得森et al ., 2017)考虑体细胞变异的癌症基因组图谱(TCGA)。我们相信选择压力在考虑不同体细胞事件癌细胞生殖系事件及其影响整个有机体。海豚OncoDomain因此互补。

今天,自动分类器,比如InterVar VarSome,不分配PM1则以同样的方式,尽管他们都使用相同的数据参考数据库(例如,InterPro)。因此,InterVar排除所有蛋白质域包含变异注解为良性或常见等位基因频率(> 5%),不考虑热点。VarSome认为蛋白质域包含至少一个带注释的致病性变异如果致病性变异的比率非致病性的执行和的vu变异在50%以上。此外,两种方法依靠人工注释的变体,介绍了一种偏见,因为只有少数的观察变异目前分类。相比之下,海豚,只使用残留保护在真核生物中,是免费的从注释的变异和存在/缺乏良性的变体。为此,它使用“wt”和“∆”位于蛋白质域分数为每个变体。ClinVar数据库中基于变异位于蛋白质域和k - means聚类方法中,我们表明,海豚可以有效地分配一个PM1标签。这是扩展到所有潜在变异在人类转录,导致15841959个变异(30.0%)被分配PM1标签。我们因此提出限制PM1标准这个子集的变异由一个标准化的方法提供的海豚,一致的协调目标ACMG-AMP建议。

我们相信,与突变热点相关的信息应被分别处理。事实上,这些元素,一方面,独立于蛋白质域和,另一方面,只提供间接信息变体通过回答这个问题:它是坐落在一个小地区许多致病性变异存在?这些信息可以提出较低的体重(“支持”)?

除了使用海豚分数标签PM1变体,这些数据也可以用于标签一个变体作为蛋白质残渣没有显著影响。我们因此建议创建一个BP8准则”位于功能域残而不影响关键”。这个新标签可以分配给17523715个变异(33.2%)使用相同的标准化方法通过海豚。总的来说,海豚将提供一个PM1 BP8标签63.2%蛋白质域的局部变化。可以说,BP8是可以重叠BP4计算准则提供的标准在网上工具。我们相信BP8不应视为计算证据,而是观察性证据。

与此同时,Amendola et al。(2016)报告中,使用最广泛的标准变体的分类PM2 / BA1 / BS1”变体缺席人口数据库或一个等位基因频率过高的疾病”。随着越来越多的基因组测序和数据共享中心数据库gnomAD (科赫,2020),他们的变异频率内容是直接关系到人类的进化与遗传漂变和选择压力。因此,即使数以千万计的样本,这些进化力量可能会限制这些信息。绕过这个限制的一种方法是提供的信息访问另一层蛋白质域。因为这些领域存在于多个蛋白质,它们代表一段更长的进化为一个更大的人口,并提供更多的信息。比较gnomAD和海豚的数据显示,3990680年前提供信息(7.6%)残留的52774671潜在的蛋白质域替换,而后者提供了16764498个氨基酸替换频率(31.8%)。

我们充分认识到,在海豚并没有提供精确的频率信息的频率给定的氨基酸替换在给定的蛋白质残渣,不像gnomAD,而是特定的最高频率替换所有相应的蛋白质域在任何人类的蛋白质。证明这个新信息是有价值的,我们选择所有替换的频率在海豚大于5%(398443个变异),理论上对应" BA1证据”ACMG / AMP和那些频率在1%和5%之间(386934)对应于“BS1证据”。分别为98.5%和98.4%的人报告ClinVar可能被归类为良性或良性,证明海豚频率高于1%强烈与良性的变化。

因为海豚的频率是一个变种的真实频率的推断,我们认为这些信息,当它大于或等于1%,用作BS1标准。当它是空的(从来没有观察到任何一个变体相应的蛋白质域),它可以注释PM2标准。据美国,这个注释特异性高于gnomAD以来只有63.2%的海豚有这个标签中包含的变体与GnomAD 92.4%。

尽管海豚使用的标准化方法,一些限制依然存在。例如,它是不可能作为PM1注释或BP8位于C-zone模棱两可的变异。此外,像大多数系统利用蛋白质水平信息,海豚可能不正确的标签替换影响mRNA水平。这使我们提出分类BS1只海豚频率高的变异(> 5%),理论上应该归类为BA1。事实上,这种“蛋白质”频率可以来自不同的核苷酸上下文比原来的变体。

总之,我们开发了一个新的系统叫做海豚从蛋白质域提取信息。这些数据都是免费的海豚网站https://dolphin.mmg-gbit.eu按照开放科学建议(https://en.unesco.org/science-sustainable-future/open-science/recommendation)。我们能够证明这个系统允许的重新评估PM1和PM2 / BS1标准和创建一个新的BP8分类标准协议的标准化方法的目标协调ACMG-AMP建议。我们相信,它允许一个简单的分类的氨基酸替换代表近40.2%的蛋白质和蛋白质域构成大多数致病突变的网站(伊克巴尔et al ., 2020)。

数据可用性声明

在这项研究中提出的数据集可以在网上找到存储库。库的名称/存储库和加入号码可以找到(s)如下:https://dolphin.mmg-gbit.eu

作者的贡献

CB:概念化。MC, MG, J-PD CEG,齿轮,GC-B EM和CB:数据管理。MC和CB:正式的分析。答:融资收购。MC和CB:方法。DS和CB:项目管理。MC, MG和CB:资源。MC, MG, J-PD, CEG:软件。DS和CB:监督。MC、GC-B和CB:验证。 MC, MG, J-PD, CEG, DS, and CB: Visualization. MC and CB: Writing-original draft. MC, MG, J-PD, CEG, COG, GC-B, EM, DS, and CB: Writing-review and editing.

资金

齿轮是由格兰特博士从美尼斯(Ministere de l 'Education国家,de l 'Enseignement特级Et de la矫揉造作的)。这项工作已经从欧盟的资金支持的地平线2020研究和创新计划在欧洲罕见疾病联合项目(EJP-RD) COFUND-EJP N°825575;从国家卫生和医学研究所(国家卫生研究所et de la医学研究院,INSERM)黄金横切项目“健康和疾病基因组变异”项目;从Aix和马赛大学。生物信息学平台是附属于法国生物信息学研究所。开放获取的资金费用:(INSERM)。

确认

我们非常感谢迈克Mitchel校对英语文章。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/fbinf.2023.1127341/full补充材料

引用

Amendola, l . M。、贾维克g P。狮子座,m . C。,米cLaughlin, H. M., Akkari, Y., Amaral, M. D., et al. (2016). Performance of ACMG-AMP variant-interpretation guidelines among nine laboratories in the clinical sequencing exploratory research Consortium.点。j .的嗡嗡声。麝猫。98 (6),1067 - 1076。doi: 10.1016 / j.ajhg.2016.03.024

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

巴赫,j . f . (2019)。遗传漂变在哺乳动物。阿德莱德大学的胸罩Cienc。91年,e20190339。0001 - 3765201920190339 . doi: 10.1590 /

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Bagowski, c·P。棕熊,W。,和Te Velthuis, A. J. (2010). The nature of protein domain evolution: Shaping the interaction network.咕咕叫。基因组学11 (5),368 - 376。doi: 10.2174 / 138920210791616725

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Baumgartner-Parzer, S。,Witsch-Baumgartner, M., and Hoeppner, W. (2020). EMQN best practice guidelines for molecular genetic testing and reporting of 21-hydroxylase deficiency.欧元。j .的嗡嗡声。麝猫。28 (10),1341 - 1367。doi: 10.1038 / s41431 - 020 - 0653 - 5

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

布兰切特,M。肯特,w·J。Riemer C。,Elnitski, L., Smit, A. F., Roskin, K. M., et al. (2004). Aligning multiple genomic sequences with the threaded blockset aligner.基因组Res。14 (4),708 - 715。doi: 10.1101 / gr.1933104

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Desmet, f . O。Hamroun D。拉兰得,M。,Collod-Béroud, G., Claustres, M., and Béroud, C. (2009). Human splicing finder: An online bioinformatics tool to predict splicing signals.核酸Res。37 (9),e67。doi: 10.1093 / nar / gkp215

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

芬恩,r D。,Coggill, P., Eberhardt, R. Y., Eddy, S. R., Mistry, J., Mitchell, A. L., et al. (2016). The Pfam protein families database: Towards a more sustainable future.核酸Res。44 (D1), D279-D285。doi: 10.1093 / nar / gkv1344

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Gelb, b D。洞穴,H。,Dillon, M. W., Gripp, K. W., Lee, J. A., Mason-Suares, H., et al. (2018). ClinGen’s RASopathy expert panel consensus methods for variant interpretation.麝猫。地中海。。j。科尔。地中海,麝猫。20 (11),1334 - 1345。doi: 10.1038 / gim.2018.3

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Gussow, a, B。,Petrovski, S., Wang, Q., Allen, A. S., and Goldstein, D. B. (2016). The intolerance to functional genetic variation of protein domains predicts the localization of pathogenic mutations within genes.基因组医学杂志。17 (1),9。doi: 10.1186 / s13059 - 016 - 0869 - 4

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

伊克巴尔,S。,Pérez-Palma, E., Jespersen, J. B., May, P., Hoksza, D., Heyne, H. O., et al. (2020). Comprehensive characterization of amino acid positions in protein structures reveals molecular effect of missense variants.Proc。国家的。学会科学。117 (45),28201 - 28211。doi: 10.1073 / pnas.2002660117

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

金,y E。,Ki, C. S., and Jang, M. A. (2019). Challenges and considerations in sequence variant interpretation for mendelian disorders.安。实验室。地中海。39 (5),421 - 429。doi: 10.3343 / alm.2019.39.5.421

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

科赫,l (2020)。探索与gnomAD人类基因组多样性。Nat,启麝猫。21日(8),448年。doi: 10.1038 / s41576 - 020 - 0255 - 7

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Kopanos C。,Tsiolkas, V., Kouris, A., Chapple, C. E., Albarca Aguilera, M., Meyer, R., et al. (2019). VarSome: The human genomic variant search engine.雷恩j . Bioinforma。35 (11),1978 - 1980。doi: 10.1093 /生物信息学/ bty897

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

它,m . J。李,j . M。本森,M。、棕色、G。曹国伟,C。,Chitipiralla, S., et al. (2016). ClinVar: Public archive of interpretations of clinically relevant variants.核酸Res。44 (D1), D862-D868。doi: 10.1093 / nar / gkv1222

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

李,问。,和Wang, K. (2017). InterVar: Clinical interpretation of genetic variants by the 2015 ACMG-AMP guidelines.点。j .的嗡嗡声。麝猫。100 (2),267 - 280。doi: 10.1016 / j.ajhg.2017.01.004

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

刘,X。,Jian, X., and Boerwinkle, E. (2011). dbNSFP: A lightweight database of human nonsynonymous SNPs and their functional predictions.嗡嗡声。Mutat。32 (8),894 - 899。doi: 10.1002 / humu.21517

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

刘,X。,Li, C., Mou, C., Dong, Y., and Tu, Y. (2020). dbNSFP v4: a comprehensive database of transcript-specific functional predictions and annotations for human nonsynonymous and splice-site SNVs.基因组医学。12 (1),103。doi: 10.1186 / s13073 - 020 - 00803 - 9

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

刘,X。,Wu, C., Li, C., and Boerwinkle, E. (2016). dbNSFP v3.0: A one-stop database of functional predictions and annotations for human nonsynonymous and splice-site SNVs.嗡嗡声。Mutat。37 (3),235 - 241。doi: 10.1002 / humu.22932

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Marchler-Bauer,。,Derbyshire, M. K., Gonzales, N. R., Lu, S., Chitsaz, F., Geer, L. Y., et al. (2015). Cdd: NCBI’s conserved domain database.核酸Res。43 (D1) D222-D226。doi: 10.1093 / nar / gku1221

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

米切尔,a . L。,Attwood, T. K., Babbitt, P. C., Blum, M., Bork, P., Bridge, A., et al. (2019). InterPro in 2019: Improving coverage, classification and access to protein sequence annotations.核酸Res。47 (D1) D351-D360。doi: 10.1093 / nar / gky1100

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Mitsuhashi, N。Toyo-Oka, L。片,T。,Kawashima, M., Kawashima, S., Miyazaki, K., et al. (2022). TogoVar: A comprehensive Japanese genetic variation database.嗡嗡声。基因组Var。9(1),44岁。doi: 10.1038 / s41439 - 022 - 00222 - 9

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Naslavsky, m . S。,Yamamoto, G. L., de Almeida, T. F., Ezquina, S. A. M., Sunaga, D. Y., Pho, N., et al. (2017). Exomic variants of an elderly cohort of Brazilians in the ABraOM database.嗡嗡声。Mutat。38 (7),751 - 763。doi: 10.1002 / humu.23220

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

彼得森,t。,Gauran, I. I. M., Park, J., Park, D., and Kann, M. G. (2017). Oncodomains: A protein domain-centric framework for analyzing rare variants in tumor samples.公共科学图书馆第一版。医学杂志。13 (4),e1005428。doi: 10.1371 / journal.pcbi.1005428

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

波拉德,K。,Hubisz, M., and Siepel, A. (2009). Detection of non-neutral substitution rates on mammalian phylogenies.基因组研究》出版。在线10月。26日,110110 - 110121。doi: 10.1101 / gr.097857.109: gr。

CrossRef全文|谷歌学术搜索

理查兹,c . S。贝尔,S。,Bellissimo, D. B., Das, S., Grody, W. W., Hegde, M. R., et al. (2008). ACMG recommendations for standards for interpretation and reporting of sequence variations: Revisions 2007.麝猫。地中海。10 (4),294 - 300。doi: 10.1097 / GIM.0b013e31816b5cae

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

理查兹,S。阿齐兹,N。贝尔,S。比克,D。Das, S。,Gastier-Foster, J., et al. (2015). Standards and guidelines for the interpretation of sequence variants: A joint consensus recommendation of the American College of medical genetics and genomics and the association for molecular pathology.麝猫。地中海。17 (5),405 - 424。doi: 10.1038 / gim.2015.30

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Savatt, j . M。,Azzariti, D. R., Faucett, W. A., Harrison, S., Hart, J., Kattman, B., et al. (2018). ClinGen’s GenomeConnect registry enables patient-centered data sharing.嗡嗡声。Mutat。39 (11),1668 - 1676。doi: 10.1002 / humu.23633

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

斯科特·e·M。黑尔,。Itan, Y。,Spencer, E. G., He, Y., Azab, M. A., et al. (2016). Characterization of Greater Middle Eastern genetic variation for enhanced disease gene discovery.Nat,麝猫。48 (9),1071 - 1076。doi: 10.1038 / ng.3592

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

示,Y。,Ceccherini, I., Rowczenio, D., Aksentijevich, I., Arostegui, J., Ben-Chetrit, E., et al. (2020). ISSAID/EMQN best practice guidelines for the genetic diagnosis of monogenic autoinflammatory diseases in the next-generation sequencing era.中国。化学。66 (4),525 - 536。doi: 10.1093 / clinchem / hvaa024

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

衬衫,b . H。,Pritchard, C. C., and Walsh, T. (2016). Family-specific variants and the limits of human genetics.趋势地中海摩尔。。22 (11),925 - 934。doi: 10.1016 / j.molmed.2016.09.007

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Siepel,。,Bejerano, G., Pedersen, J. S., Hinrichs, A. S., Hou, M., Rosenbloom, K., et al. (2005). Evolutionarily conserved elements in vertebrate, insect, worm, and yeast genomes.基因组Res。15 (8),1034 - 1050。doi: 10.1101 / gr.3715005

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Sonnhammer, e . L。艾迪,s R。,和Durbin, R. (1997). Pfam: A comprehensive database of protein domain families based on seed alignments.蛋白质28 (3),405405 - 405420。doi: 10.1002 / (sici) 1097 - 0134 (199707) 28:3 < 405:: aid-prot10 > 3.0.co; 2 l

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

•斯坦内克D。,Bis-Brewer, D. M., Saghira, C., Danzi, M. C., Seeman, P., Lassuthova, P., et al. (2020). Prot2HG: A database of protein domains mapped to the human genome.数据库(牛津)2020年,baz161。doi: 10.1093 /数据库/ baz161

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

UniProt财团(2017)。UniProt:通用的蛋白质知识库。核酸Res。45 (D1), D158-D169。doi: 10.1093 / nar / gkw1099

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

惠勒·t·J。克莱门茨,J。,和芬恩,r D。(2014). Skylign: A tool for creating informative, interactive logos representing sequence alignments and profile hidden markov models.BMC Bioinforma。15 (1)7。doi: 10.1186 / 1471-2105-15-7

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

由,L。,Baakman, C., Gilissen, D., Veltman, J. A., and Vriend, G. (2019). MetaDome: Pathogenicity analysis of genetic variants through aggregation of homologous human protein domains.嗡嗡声。Mutat。40 (8),1030 - 1038。doi: 10.1002 / humu.23798

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

由,L。,Venselaar, H., Veltman, J. A., Vriend, G., and Gilissen, C. (2017). Aggregation of population-based genetic variation over protein domain homologues and its potential use in genetic diagnostics.嗡嗡声。Mutat。38 (11),1454 - 1463。doi: 10.1002 / humu.23313

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Yorczyk,。,Robinson, L. S., and Ross, T. S. (2015). Use of panel tests in place of single gene tests in the cancer genetics clinic.中国。麝猫。88 (3),278 - 282。doi: 10.1111 / cge.12488

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:ACMG指南,变异分类、PM1、PM2 BS1 BP8、蛋白质域

引用:Corcuff M, Garibal M, Desvignes j], Guien C, Grattepanche C, Collod-Beroud G, Menoret E,萨尔加多D和Beroud C(2023)蛋白域提供了一个新图层的信息分类人类罕见疾病的变化。前面。Bioinform。3:1127341。doi: 10.3389 / fbinf.2023.1127341

收到:2022年12月19日;接受:2023年2月01;
发表:2023年2月21日。

编辑:

伊丽莎白鹭爱尔兰,都柏林三一学院

审核:

Paola Turina意大利博洛尼亚大学
布鲁诺干草Mele意大利那不勒斯大学费德里科•二世

版权©2023 Corcuff、Garibal Desvignes、Guien Grattepanche, Collod-Beroud, Menoret,萨尔加多和Beroud。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:克利斯朵夫Beroud,christophe.beroud@inserm.fr

下载