病毒感染的全基因组关联研究-一个成功的实验和统计分析的简短指南
- 1Instituto de Biología系统集成研究所(I2SysBio), CSIC-Universitat de València, Parc Científic UV,帕特纳,西班牙
- 2圣菲研究所,圣菲,NM,美国
全基因组关联研究(GWAS)在过去十年中越来越受欢迎,因为它们为许多疾病相关特征的遗传结构提供了新的见解。GWAS是基于常见疾病常见变异假设,允许鉴定与大多数常见传染病(如艾滋病、普通感冒、流感等)的易感性和症状学相关的等位基因。它取决于宿主种群的自然变异,这可以帮助确定负责病毒疾病相关特征的遗传变异。考虑到病毒在生态系统中的流行及其社会负担,识别潜在的耐药位点或治疗靶点是非常有意义的。在这里,我们强调了成功的病毒性传染病GWAS所必需的最重要的要点,重点是研究设计和使用的各种统计方法。最后,我们用人类免疫缺陷病毒1型和萝卜花叶病毒的研究来举例说明这一应用。
简介
纵观历史,病毒感染总是对我们的社会产生深远的影响。天花、脊髓灰质炎、埃博拉、流感、艾滋病以及最近的COVID-19大流行病毒在历史上肆虐人类社会(Behbehani 1983;科恩等人,2008年;世卫组织埃博拉应对小组Aylward等人,2014年;Spreeuwenberg等人,2018;Sankaran和Weiss, 2021年).流行病和大流行病不仅直接而且间接地给我们的社会造成负担,因为它们还会影响农场动物和农作物的生产。农场和野生动物病毒的例子包括:非洲猪瘟、蓝舌病、犬瘟热、口蹄疫、禽流感或牛瘟(巴雷特和罗西特,1999年;汤普森等人,2002年;拉什顿·马基奥尼等人,2015;Sankaran和Weiss, 2021年).作物植物的例子有:黄瓜花叶病毒、番茄黄曲叶病毒、柑橘叶枯病病毒、大麦黄矮病毒或马铃薯Y病毒(琼斯,2021).病毒引起的挑战需要进一步研究宿主的防御和抵抗或易感机制。更好地了解宿主防御和病毒感染的遗传基础将导致新的抗病毒策略和自然抗性物种的发现。由于物种内遗传变异数据的快速增加,全基因组关联研究(GWAS)现在可以用于识别涉及病毒感染易感性或耐药性的潜在位点。
GWAS确定表型与单核苷酸多态性(SNPs)或个体间不同的单碱基变化之间的关联强度。snp可能非常常见,也可能非常罕见,从而导致人群中的不同频率(Dehghan和Evangelou, 2018).常见的疾病会受到常见基因变异的影响常见疾病常见变异假设(布什和摩尔,2012年;Uitterlinden 2016;Chang等人,2018;Dehghan和Evangelou, 2018).这一原则也适用于传染病,因为传染病很普遍,影响很多人。从今以后,GWAS也将成为检测导致病毒感染耐药性或易感性的常见遗传变异的一种选择方法。
统计、计算和基因分型方法的迅速发展使得GWAS很容易用于遗传分析。它已被证明在识别与疾病相关的基因方面非常成功,而之前关于因果变异的信息很少(非候选基因方法),并允许识别宿主抗性或易感性的遗传决定因素(费莱等人,2007年;butkoviic等人,2021;乔杜里等人,2019年;2019冠状病毒病宿主遗传学倡议,2021年;Crosslin等,2015;阿德巴莫沃等人,2020年;弗赖斯曼等人,2016;冯等,2019;Liu等,2021;Garcia-Etxebarria等人,2015;Montes等人,2021年;Pimenta等人,2020年;卢比奥等人,2019年;田等,2017;肖等,2019;Yang等,2019;Zhang等,2020;Zignego等人,2014).这些一般的GWAS步骤,从潜在变异的识别到后续研究,在图1.
图1.GWAS中所采取的步骤流程图。在对具有或不具有感兴趣性状的个体进行表型和基因分型(SNP阵列)后,进行统计分析,并在曼哈顿图中可视化与表型相关的显著SNP。计算一个显著性阈值,所有snp与−logp高于这个阈值的值被认为是重要的。因果变异可以进一步分析通过后续研究如QTL、诱变和转基因分析。
在这篇综述中,我们将通过专注于仔细的研究设计和统计分析,给出成功的病毒性传染病GWAS所必需的一般指南。我们将不详细介绍GWAS的SNP基因分型步骤,因为这一信息已用于大量模式生物。相反,我们将提供简短的一般指南,以便在为GWAS选择适当的基因分型方法时牢记。
在GWAS中很重要的步骤
由于GWAS需要大量的采样和表型个体,因此最好在开始之前预防潜在的陷阱。在这里,我们提出的一般准则,应考虑到一个良好的GWAS的病毒性传染病。
研究设计
基因分型
在选择合适的基因分型方法时,足以进行GWAS的snp数量、成本和基因组覆盖是主要决定因素。三种最常用的方法是全基因组测序(WGS),基因分型测序(GBS)和SNP阵列。WGS的目标是捕捉全基因组变异,比其他两种方法更昂贵。该方法可以捕获常见和罕见的变体,从而允许精细的变体映射(Höglund等,2003).GBS在测序前使用限制性内切酶,以降低基因组的复杂性和价格,这导致低覆盖率(帕万等人,2020年).它特别适用于患有缓慢腐烂的LD的人群,其中较低数量的基因型snp及其不均匀的基因组分布不会影响GWAS的问题。Imputation可以弥补GBS的低覆盖率,尽管它在纯合子群体中效果最好。SNP阵列是GWAS中最流行的基因分型方法,因为它们通常成本低,SNP密度高,能够对大量个体进行测序(帕万等人,2020年).一个主要缺点是依赖于群体中存在的标记,即用作阵列开发的参考,这意味着在对新群体进行测序时,该群体中不存在的snp将被遗漏。总的来说,测序成本正在降低,产生更长的读取序列的方法正变得越来越流行(太平洋生物科学公司(PacBio)和牛津纳米孔技术公司(ONT)),因为它们可以发现基因组中隐藏的变异(De Coster等人,2021年).使用哪种方法在很大程度上取决于成本,但一般来说,WGS、SNP阵列和长读取方法被证明是病毒感染性疾病GWAS的良好选择。
GWAS的生物选择
GWAS可用于研究任何宿主物种中的病毒-宿主相互作用。尽管在进行GWAS时,模式生物通常比非模式生物(例如人类)有更多的优势,因为不同的个体:我)可以通过近亲繁殖来维持,例如拟南芥或秀丽隐杆线虫,2)可以在受控环境下仔细观察和生长3)可以接种已知的病毒剂量,可以在遗传和表型上得到很好的定义。这些都突出了利用遗传和环境背景不可控的非模式宿主和病原生物进行研究的主要缺点。的一个重要优势答:芥,和许多其他植物,是自我受精,其中相同的基因型个体可以保持一段时间,从而允许重复表型(科尔特等人,2012年).主要的缺点是由于不同的繁殖策略导致了广泛的种群结构和随后的关联分析中的虚假命中(莫兹等人,2018).幸运的是,这可以通过适当使用统计模型来纠正,例如考虑到总体结构的线性混合模型,从而最大限度地减少虚假命中,并导致恢复更有意义的关联(利珀特等人,2011;Zhou和Stephens, 2012;利珀特等人,2014).总之,选择一种生物进行GWAS应取决于感兴趣的物种和现有的信息。
样本大小
当谈到在病毒感染GWAS中使用的个体数量时,一般的指导方针应该是越多越好。然而,由于成本或无法招募大量人员,这并不总是可行的。这可以表示为样本量和效应量之间的反比关系。大样本量研究比小样本量研究更能检测出较小的关联(威特,2010).当然,由于遗传多样性、重组和倍性(Genissel等人,2017).例如,对于一些非常好的敏感性和有意义的结果可以通过约100行答:芥;然而,在人体研究的情况下,可能需要成千上万的个体(威康信托病例控制联盟,2007年;Manolio等人,2009年;科尔特和法洛,2013年;butkoviic等人,2021).这种差异可以用解释大多数表型多样性的基因座数量来解释。在一些答:芥性状,少数位点解释感兴趣的性状和多样性可以通过较少的个体的基因分型捕获。而在人类研究中,许多小的效应位点解释了一种特征,并需要对数千个个体进行基因分型以检测它们(威康信托病例控制联盟,2007年;科尔特和法洛,2013年;Genissel等人,2017).到目前为止,在传染病GWAS中,样本量的增加确定了更有意义的关联(麦克拉伦等人,2015;butkoviic等人,2021;butkoviic等人,2022).由于病毒性传染病非常普遍,并且由常见的变异所控制,因此样本量的适度增加应该会导致足够的统计能力来确定有意义的关联。然而,如果有罕见的等位基因负责所研究的性状,他们将不会在中等样本量的研究中被确定,并将需要更大数量的样本(威康信托病例控制联盟,2007年;Hong and Park, 2012).足够的样本量可以在遗传功率或气体功率计算器(网上很容易获得)的帮助下估计,主要用于病例对照研究(Purcell等人,2003年;约翰逊和Abecasis, 2017年).总而言之,样本量应该与目标物种、被研究的特定性状以及之前任何类似主题的研究直接相关,这些研究甚至可能提供适当样本量的原始估计。通常,显著性阈值需要调整通过校正方法,如邦费罗尼校正。随着样本量的增大,小的效应位点变得更容易检测,建议采用更严格的显著性阈值来减少假阳性的数量(法迪斯达等人,2016;普利特等人,2017;吴等,2017).
地理分布与亲缘程度
另一个重要的选择标准是样本的地理分布和亲缘关系。更多的异质样本可以增加遗传变异性,允许在独立群体中复制,并可能在混合群体中检测到与感兴趣性状相关的snp (科尔特和法洛,2013年;李和基廷,2014年).使样本更加异构也有缺点,因为这会降低恢复显著变异的能力;导致非因果性标记变得比因果性标记更重要,并导致在异质人群中处理连锁不平衡的问题(科尔特和法洛,2013年;李和基廷,2014年).例如,一个自然产生的植物种群可能先前暴露于一种病毒,并获得抗性等位基因,而其他种群则缺乏它们。这种差异可能导致高估这些抗性等位基因在全球多样性面板中的影响,因为在比较不同种群时,它们将变得显著。为了避免种群异质性可能引起的所有问题,一种解决办法是对当地种群进行密集的基因分型。虽然这种方法会导致一些可能与全球表型多样性相关的感兴趣的变异的代表性不足或缺失(科尔特和法洛,2013年).此外,如果人口规模较小,只关注当地人口可能会导致统计能力不足。同样,在选择样本在地理上或亲缘关系上的多样性时,没有黄金法则,答案主要取决于GWAS的目标。例如,地理上异质性较高的样本可以绘制与全球感染反应相关的变异,而异质性较低的样本可以绘制特定于特定人群的变异。但应考虑适当的措施,以避免误报。例如,执行主成分分析将解释种群之间的遗传差异,这些差异随后可以作为协变量纳入关联分析(Price等,2006;威康信托病例控制联盟,2007年;库克和莫里斯,2016年).另一个可以使用的很好的测量方法是混合映射,这是一种试图根据不同人群之间的祖先信息将等位基因与疾病联系起来的方法。Shriner 2013).
表现型
在开始GWAS之前,必须确定要研究的感染相关特征和病毒传递方法。在测量病毒感染时,通常会测量特定时间段内症状的发展、受感染个体的频率、病毒积累或与感染相关的症状的存在/不存在(费莱等人,2007年;butkoviic等人,2021;乔杜里等人,2019年;2019冠状病毒病宿主遗传学倡议,2021年;Crosslin等,2015;阿德巴莫沃等人,2020年;弗赖斯曼等人,2016;冯等,2019;Liu等,2021;Garcia-Etxebarria等人,2015;Montes等人,2021年;Pimenta等人,2020年;卢比奥等人,2019年;田等,2017;肖等,2019;Yang等,2019;Zhang等,2020;Zignego等人,2014).所有这些特征都可以分为分类(二元病例对照研究,将患病个体与无病对照组进行比较,或将疾病症状类别进行从无症状到死亡的范围内的比较)或定量测量(感染个体的频率或百分比,病毒积累)。一般来说,定量特征是首选的,因为它们可以提高GWAS的效力,并且可以更好地解释,而病例对照研究可能导致较大的测量误差(布什和摩尔,2012年).
必须有专门知识才能辨别感染症状,而不是其他类似的症状。病毒积累不是一个视觉特征,因此,不依赖于训练有素的观察者的眼睛,使其更容易测量。虽然病毒积累并不总是与症状的强度直接相关,并且可能不涉及两个特征的相同变体。如果GWAS的目标是发现与宿主有害症状发展相关的遗传区域,这是特别有趣的。视觉检测感染个体时的一个常见问题是无症状感染,主要是由于接种程序中的错误引起的,而不是没有表型症状的耐药个体。目视评估症状的另一个问题是耐药性(无症状且无病毒繁殖)、耐受性(尽管病毒积聚但仍预防症状发作)或观察期间个体从感染中恢复,这可能使观察者感到困惑并导致不正确的测量。处理这些问题的一种可能的方法是检测病毒的存在(RT-PCR, RT-qPCR, PCR…),以确认或拒绝个体的感染状态。
导致症状发展的一个重要因素是接种程序。有许多不同的方法接种个体,例如,在植物中使用机械接种(使用研磨材料摩擦)和农杆菌递送,将病毒感染的培养基添加到细胞培养中,以及载体扩散。除病媒传播外,所有方法都可控制病毒量的使用,并消除个体之间初始病毒浓度的巨大差异所造成的偏差(Gokhale和Bald, 1987年).尽管如此,与自然感染方式相比,这些接种方法可能导致植物对病毒的不同反应,在解释结果时应该考虑到这一点。
遗传力是一个很好的预测性状在多大程度上是由遗传因素解释的指标(Zaitlen和Kraft, 2012).由于存在许多小的效应或罕见的变异、上位性和表型可塑性,不可能用任何选择的方法来确定影响一个复杂性状的所有成分(弗雷泽等人,2009年;Aschard et al., 2012).解决这个问题的一个方法可能是在环境背景下研究感兴趣的性状,这可能解释了一些缺失的遗传性。
统计分析
统计分析有多种方法可供选择(补充表S1),这里将讨论最常见的病毒感染GWAS。单变量GWAS方法分析单个表型性状与遗传多态性之间的关联,多变量GWAS方法评估多个相关表型性状与遗传多态性之间的关联(Höglund等,2003).这两种方法都将人口结构包括在模型中,从而降低假阳性率。在使用单变量或多变量模型进行性状分析之前,应检查和转换表型数据的分布(对数、平方根或Box-Cox)以达到正态,因为这有助于避免由异常值(Dehghan和Evangelou, 2018).
GWAS中最常用的方法是单变量统计模型。有不同类别的单变量GWAS,我们将介绍最常用的病毒感染GWAS。中介绍了使用它们的方法补充表S1:
逻辑回归是一种线性模型,用于模拟感染/非感染个体的二进制数据评分,例如病例/对照研究,因为这些数据不是正态分布,不能用线性回归(秃顶,2006;甘平格等人,2018).
线性混合模型(LMM)是GWAS中最常用的定量特征模型(病毒积累量、症状强度、每接种人数中的受感染人数、疾病随时间的进展),多年来已越来越受欢迎。它们需要高斯分布残差,并结合固定和随机效应来解释表型变异、遗传变异、协变量(固定效应)和遗传相似性(亲缘关系)或噪声(高斯分布后的随机效应)(秃顶,2006;甘平格等人,2018).
多元混合模型评估两个或多个表型与遗传变异之间的关联,当因果位点之间存在强烈的连锁不平衡,或由于多效性和共享环境(在同一基因型组中对不同病毒株进行表型分析或将同一病毒的不同表型组合在一起)而测量的表型相关时,它可能是比单变量模型更好的选择(Höglund等,2003;Yang等,2014).通过在统计GWAS模型中考虑这些相关性,可以提高分析的威力。有相当多的软件程序实现了这种方法(补充表S1): gcta (Yang等,2011),杰玛(Zhou和Stephens, 2012), emmax (Zhou和Stephens, 2014), limix (利珀特等人,2014),或MTMM (Höglund等,2003).这两种方法绝不应该相互竞争;相反,在寻找因果关系时,它们应该被用作补充。
在对数据进行统计分析后,必须选择显著关联。为了实现这一点,p-低于显著性阈值的值(与性状相关的变体有多强)被选择。通常,显著性水平设置为0.05,这在近5%的情况下会导致错误关联(皮尔逊和马诺里奥,2008年;布什和摩尔,2012年).问题是,这种假阳性率在进行单一统计测试时是正确的;然而,GWAS分析通常涉及数千到数百万个测试。如此大量的测试增加了假阳性率,并要求调整显著性阈值以考虑多次测试(Manolio等人,2009年;布什和摩尔,2012年;Tam等人,2019年),其中Bonferroni校正(布什和摩尔,2012年)是GWAS中最常用的校正方法。
总之,GWAS的每个阶段都有不同的方法和在线资源,从而使其成为一项简单而可用的壮举。最常用的关联分析方法是lmm,它们已被证明是GWAS中不可或缺的工具。有许多可用的软件选项可以实现这些方法(补充表S1),而选择合适的软件则取决于所回答的问题、使用的简易程度和计算的速度。由于运行GWAS分析需要大量的计算,最近涌现的在线工具克服了这一负担,使得GWAS分析更加容易(如.、GWA-Portal、easyGWAS、GWASPro或GWAPP)。
GWAS在病毒感染中的应用
GWAS已成为许多病毒感染性疾病耐药或易感位点调查的有用工具(费莱等人,2007年;butkoviic等人,2021;乔杜里等人,2019年;2019冠状病毒病宿主遗传学倡议,2021年;Crosslin等,2015;阿德巴莫沃等人,2020年;弗赖斯曼等人,2016;冯等,2019;Liu等,2021;Garcia-Etxebarria等人,2015;Montes等人,2021年;Pimenta等人,2020年;卢比奥等人,2019年;田等,2017;肖等,2019;Yang等,2019;Zhang等,2020;Zignego等人,2014).确定病毒感染中的重要因素对于了解疾病动态和预防至关重要,因为有证据表明感染结果取决于宿主-病原体相互作用(关于宿主-病原体相互作用和毒性的全面回顾,请参阅(Casadevall和Pirofski, 2000;Casadevall和Pirofski, 2001))。
我们希望通过关注人类病毒病原体——人类免疫缺陷病毒1型(HIV-1;物种人类免疫缺陷病毒1型,属慢病毒逆转录病毒科)和植物病原体萝卜花叶病毒(TuMV;物种萝卜花叶病毒,属Potyvirus, pottyvirus科)。这些研究强调了选择明确的表型、样本量、宿主遗传学、病毒株、环境和检测小效应量变异的能力的重要性。
人类基因参与HIV-1发病机制
首次报告了该病毒的病毒感染特征的GWAS (费莱等人,2007年),其中发现了与HIV-1 RNA病毒载量相关的宿主遗传变异,作为疾病进展的决定因素。这项研究对486名欧洲人进行了研究,发现了两个显著的病毒载量多态性和七个疾病进展多态性。在病毒载量的情况下,第一个是SNP rs2395029附近人白细胞抗原(HLA)复杂的P5(HCP5)基因定位在主要组织相容性复合体(MHC) I类区域。这个SNP已知处于强连锁不平衡HLA-B基因等位基因57:01,先前被描述为与限制HIV-1病毒复制和低病毒载量相关(米格尔斯等人,2000;Altfeld et al., 2003).另一个重要SNP rs9264942位于转录起始位点35 kb处HLA-C基因和156 KBPHCP5并可能参与控制HIV-1疾病的进展(费莱等人,2007年;托马斯等人,2009年;Kulkarni等人,2011).对于疾病进展,Fellay et al. (费莱等人,2007年)发现了7个显著的snp无名指蛋白39而且含锌带畴可以影响HIV-1疾病进展的基因。后续研究,Fellay等(费莱等人,2009年)对2500多人重复了GWAS。他们证实了这种联系HCP5Gene和35 KBPHLA-C以及MHC区域的其他一些独立基因座。然而,Fellay等人的两项研究都未能识别出先前已知的HIV-1抗性基因,如5型CC趋化因子受体(CCR5) (Lodowski和Palczewski, 2009),transportin-3(Rodríguez-Mora等,2019),这可能是由于GWAS中严格的统计标准,几十个snp只能解释一小部分方差,罕见变异的存在或病例和对照的错误分类(费莱等人,2009年;塞巴斯蒂安等人,2009年).尽管如此,CCR5在6,315人的荟萃分析中发现了HLA相关性(麦克拉伦等人,2015).此外,随后的研究证实了先前确定的关联(费莱等人,2007年;费莱等人,2009年),并在血清转换器中发现了与HIV-1血浆水平相关的新基因(Dalmasso等人,2008年)、快速进展(Limou et al., 2009)及爱滋病不会恶化(Le Clerc等人,2009年).对HIV-1进行的研究证明了样本量和正确标记病例和对照的重要性,在这种情况下,更大规模的研究能够发现更有意义的关联。
答:芥参与TuMV感染的基因
TuMV在全球范围内造成芸苔科作物的重大损失,是全球最具破坏性的蔬菜病毒之一(汤姆林森,1987;沃尔什和詹纳,2002年).它会引起褪绿、发育不良和坏死等多种症状(butkoviic等人,2021).
到目前为止,有三个GWAS集中在TuMV上,其中两项研究使用了GWAS答:芥(卢比奥等人,2019年;butkoviic等人,2021),还有一个用的是大白菜(芸苔属植物定ssp。学报) (Zhang等,2020)作为东道主。在这些研究中,个体数量差异很大,Zhang等人。Zhang等,2020)使用83个白菜品种在受控实验环境中,通过RT-qPCR检测病毒载量。卢比奥等人(卢比奥等人,2019年)使用了317份样本,在自然环境中使用UK1分离物测量了2年的病毒积累、感染植物的频率和症状学。布特科维奇等人(butkoviic等人,2021)在受控的实验环境中使用了450份材料,其中包括来自YC5分离物的一般菌株和专业菌株,测量疾病进展、症状严重程度和受感染植物的百分比。在所有三项研究中,重要snp的基因区域之间存在重叠,但也有许多差异:如butkoviic等和Zhang等发现了在核苷酸结合位点富亮氨酸重复序列(NBS-LRR)蛋白中定位的SNPs.F-box家族蛋白的snp由Zhang等绘制.以及卢比奥等人.其余的重要变异被定位在具有多种功能的基因中,其中大多数以前被描述为与抗病或易感性有关。有趣的是,布特科维奇等人.首次在基因内描述了一个与症状严重程度相关的因素AT2G14080,为NBS-LRR类蛋白。这些蛋白质识别特定的病原体结构域并导致耐药性或超敏免疫反应,从而导致细胞死亡或坏死(Marone et al., 2013).这三个GWAS是一个很好的例子,说明了病毒的进化史、选择的特征、环境和宿主选择如何影响与病原体相关的遗传变异。与HIV-1相比,在答:芥可以很好地恢复有意义的联想。在规划或分析传染病GWAS结果时,应考虑除宿主和病原体遗传外的其他因素的影响。
讨论及未来展望
GWAS已被证明是病毒感染性疾病遗传研究中越来越有用的工具,因为它具有广泛的适用性,可以分析数千到数百万个具有感兴趣表型的遗传变异之间的关联,所使用的方法可用性和基本假设的简单性。基于这个假设常见基因常见变体,它可以识别与疾病相关的常见遗传变异,可以在后续研究中得到证实。GWAS中使用的基因分型阵列方法廉价、可靠,并能提供良好的基因组覆盖。有多种开放访问的计算GWAS方法可供选择(补充表S1),在许多情况下不需要强大的计算能力,因为它们可以在网上获得。GWAS可以作为一项初步研究,提供有关性状遗传结构的信息,并允许对可能的QTL、诱变和转基因研究的候选对象进行知情选择(图1).病毒学家应该从中受益,因为他们能够阐明许多病毒性疾病的遗传学基础。GWAS的另一个优势是可以将实验中的分析进行比较和整合,从而提高统计能力(Seren et al., 2013;Seren等人,2017;李和李,2018;布尼洛等人,2019年;Kim等人,2019年;Togninalli等人,2019年).
作者的贡献
AB,概念化,撰写初稿和编辑。SE,写作和编辑。所有作者最终同意出版,并同意对所做的工作负责。
资金
AB由Valenciana Generalitat grant GRISOLIAP/2018/005和Foundation pour la Recherche Mèdicale SPF202110014092博士后资助。SE得到了PID 2019-10399 GB-I00(西班牙Estatal de Investigación-FEDER)和PROMETEU 2019/012 (Valenciana Generalitat)的资助。
致谢
作者感谢Rubén González对手稿的批判性阅读。
利益冲突
作者声明,这项研究是在没有任何商业或财务关系的情况下进行的,这些关系可能被解释为潜在的利益冲突。
出版商的注意
本文中所表达的所有主张仅代表作者,并不代表他们的附属组织,也不代表出版商、编辑和审稿人。任何可能在本文中评估的产品,或可能由其制造商提出的声明,都不得到出版商的保证或认可。
补充材料
本文的补充资料可在以下网址找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/fsysb.2022.1005758/full#supplementary-material
参考文献
阿德巴莫沃,S. N.,阿德耶莫,A. A.,罗蒂米,C. N.,奥拉尼扬,O.,奥菲昂,R.,阿德巴莫沃,C. A.等。h3非洲ACCME研究小组(2020)。流行和持续宫颈高危人乳头瘤病毒(HPV)感染的全基因组关联研究BMC医学,Genet。21日,231年。doi: 10.1186 / s12881 - 020 - 01156 - 1
阿尔特菲尔德,阿多,M. M.,罗森博格,E. S.,赫克特,F. M.,李,P. K.,沃格尔,M.等人(2003)。HLA-B57对急性HIV-1感染临床表现和病毒控制的影响艾滋病17日,2581 - 2591。doi: 10.1097 / 00002030-200312050-00005
Aschard, H., Chen, J., Cornelis, M. C., Chibnik, L. B., Karlson, E. W.和Kraft, P.(2012)。包含基因-基因和基因-环境相互作用不太可能显著改善复杂疾病的风险预测。点。j .的嗡嗡声。麝猫。90年,962 - 972。doi: 10.1016 / j.ajhg.2012.04.017
世卫组织埃博拉应对小组Aylward, B., Barboza, P., Bawo, L., Bertherat, E., Bilivogui, P.等人(2014)。西非的埃博拉病毒病——疫情的前9个月和远期预测。心血管病。j .地中海。371年,1481 - 1495。doi: 10.1056 / NEJMoa1411100
巴雷特,T.和罗西特,p.b.(1999)。牛瘟:疾病及其对人类和动物的影响。Adv.病毒决议。53岁,89 - 110。doi: 10.1016 / s0065 - 3527 (08) 60344 - 9
Behbehani, a.m.(1983)。天花的故事:一种古老疾病的生与死。Microbiol。牧师。47岁,455 - 509。doi: 10.1128 / mr.47.4.455 - 509.1983
白德伯里、张志强、克鲁恩、卡斯蒂文斯、张志明、兰多斯、杨、巴克勒(2007)。流苏:用于不同样本中复杂性状关联映射的软件。生物信息学23日,2633 - 2635。doi: 10.1093 /生物信息学/ btm308
布尼洛,A.,麦克阿瑟,J. A. L.,塞雷佐,M.,哈里斯,L. W.,海赫斯特,J.,马兰格尼,C.等(2019)。NHGRI-EBI GWAS目录,包括2019年发表的全基因组关联研究、靶向阵列和汇总统计数据。核酸测定。47岁的D1005-D1012。-D1012。doi: 10.1093 / nar / gky1120
butkoviic, A, González, R., Rivarez, m.p.s.,和Elena, s.f.(2021)。一项全基因组关联研究证实了这一点拟南芥导致两种感染结果差异的基因萝卜花叶病毒不同进化历史和宿主专业化程度的菌株。病毒的另一个星球。30, veab063。veab063。doi: 10.1093 / / veab063
布特科维奇,A.,埃利斯,T. J., González, R.,耶格尔,B.,诺德堡,M.和埃琳娜,S. F.(2022)。拟南芥(预印本)biorxiv中全球分布的主要病毒抗性关联。www.biorxiv.org/content/10.1101/2022.08.02.502433v1.doi: 10.1101 / 2022.08.02.502433
Casadevall, A.和Pirofski, L.(2000)。宿主-病原体相互作用:微生物共生、定植、感染和疾病的基本概念。感染。Immun。68年,6511 - 6518。doi: 10.1128 / iai.68.12.6511 - 6518.2000
Chang, c.c. ., Chow, c.c. ., Tellier, l.c. ., Vattikuti, S., Purcell, s.m., and Lee, j.j.(2015)。第二代PLINK:迎接更大、更丰富数据集的挑战。Gigascience4、7。doi: 10.1186 / s13742 - 015 - 0047 - 8
蔡尔兹,L. H.,利塞克,J.和瓦尔特,D.(2012)。Matapax:一个在线高通量全基因组关联研究管道。植物杂志。158年,1534 - 1541。doi: 10.1104 / pp.112.194027
乔杜里,S.,拉金,P.,徐,R.,海登,M.,福雷斯特,K., Meinke, H.等(2019)。全基因组关联研究揭示小麦抗大麦黄矮病毒的新QTL。BMC基因组学20日,891年。doi: 10.1186 / s12864 - 019 - 6249 - 1
科恩,M. S.,赫尔曼,N.,列维,J. A.,德科克,K.和兰格,J.(2008)。HIV-1的传播、治疗和预防:全球流行病的演变。j .中国。投资。118年,1244 - 1254。doi: 10.1172 / JCI34706
库克,j.p.,莫里斯,a.p.(2016)。多民族全基因组关联研究发现2型糖尿病易感性的新位点。欧元。j .的嗡嗡声。麝猫。24岁,1175 - 1180。doi: 10.1038 / ejhg.2016.17
克洛斯林,D. R.,卡雷尔,D. S.,伯特,A.,金,D. S.,安德伍德,J. G.,汉娜,D. S.等(2015)。HLA区域的遗传变异与带状疱疹易感性相关。Immun基因。16日,1 - 7。doi: 10.1038 / gene.2014.51
Dalmasso, C., Carpentier, W., Meyer, L., Rouzioux, C., Goujard, C., Chaix, M-L。,等人(2008)。不同的遗传位点控制HIV-1感染的血浆HIV-RNA和细胞HIV-DNA水平:ANRS全基因组协会01研究《公共科学图书馆•综合》3, e3907。doi: 10.1371 / journal.pone.0003907
De Coster, W., Weissensteiner, M. H.和Sedlazeck, F. J.(2021)。面向种群规模的长读测序。Nat. Rev. Genet。22日,572 - 587。doi: 10.1038 / s41576 - 021 - 00367 - 3
法蒂斯塔,J.,曼宁,A. K.弗洛雷斯,J. C.和格鲁普,L.(2016)。著名的GWAS p值阈值对低频变量进行了重新审视和更新。欧元。j .的嗡嗡声。麝猫。24岁,1202 - 1205。doi: 10.1038 / ejhg.2015.269
Fellay, J., Ge, D., Shianna, K. V., Colombo, S., Ledergerber, B., Cirulli, E. T.等(2009)。人类常见的基因变异和HIV-1的控制公共科学图书馆麝猫。5, e1000791。doi: 10.1371 / journal.pgen.1000791
费雷,J.,希安娜,K. V.,葛,D.,科伦坡,S.,莱德格伯,B., Weale, M.等(2007)。HIV-1宿主控制主要决定因素的全基因组关联研究。科学317年,944 - 947。doi: 10.1126 / science.1143767
康,冯,Z H,李米,邹,L,王,X。,赵,J。,et al。(2019)。通过全基因组关联研究鉴定水稻黑条矮缩病毒病新品种及抗性位点大米12日,49。doi: 10.1186 / s12284 - 019 - 0310 - 1
弗赖斯曼,B. J.,奥利弗,R. E.,杰克逊,E. W.,赵,S.,阿鲁达,M. P.和科尔布,F. L.(2016)。春燕麦(Avena sativa L.)大麦黄矮病毒耐受性的全基因组关联图谱。《公共科学图书馆•综合》11日,e0155376。doi: 10.1371 / journal.pone.0155376
弗雷泽,K. A.,默里,S. S.,肖克,N. J.,托波尔,E. J.(2009)。人类遗传变异及其对复杂性状的贡献。Nat. Rev. Genet。10日,241 - 251。doi: 10.1038 / nrg2554
Garcia-Etxebarria, K., Bracho, M. A, Galán, J. C., Pumarola, T., Castilla, J., Ortiz de Lejarazu, R.等(2015)。2009年甲型H1N1流感的严重程度没有主要宿主遗传危险因素的影响。《公共科学图书馆•综合》10, e0135983。doi: 10.1371 / journal.pone.0135983
詹尼塞尔,A.,康费斯,J.,勒布伦,M-H。,以及Gout, L.(2017)。植物病原体的关联遗传学:注意自然变异与分子功能之间的差距。前面。植物科学。8, 1301。doi: 10.3389 / fpls.2017.01301
郭凯莱,D. V.和Bald, J. G.(1987)。植物病毒浓度与传染性的关系:“生长曲线”模型。j .性研究。方法18日,225 - 232。0166 - 0934 . doi: 10.1016 / (87) 90084 - x
格林,D. G.,罗奎罗,D., Salomé, P. A., Kleeberger, S., Greshake, B.,朱,W.等(2017)。easyGWAS:一个基于云的平台,用于比较全基因组关联研究的结果。植物细胞29日,5-19。doi: 10.1105 / tpc.16.00551
甘平格,A. C.,罗奎罗,D.,格林,D. G.和博格沃特,K. M.(2018)。“全基因组关联研究的方法和工具”p 93-136.in计算细胞生物学,分子生物学中的方法.编辑L. von Stechow和A. Santos Delgado(纽约,纽约州:施普林格纽约).
Höglund, J., Rafati, N., Rask-Andersen, M., Enroth, S., Karlsson, T., Ek, W. E.等(2003)。在炎症生物标志物的全基因组关联研究中,全基因组测序数据的能力和精度得到了提高。科学。代表。9日,16844年。doi: 10.1038 / s41598 - 019 - 53111 - 7
Hong E. P., Park J. W.(2012)。遗传关联研究的样本量和统计能力计算。基因组学正无穷。10日,117 - 122。doi: 10.5808 / GI.2012.10.2.117
约翰逊,j.l, Abecasis, G. R.(2017)。GAS功率计算器:基于web的遗传关联研究功率计算器(预印本)biorxiv,https://www.biorxiv.org/content/10.1101/164343v1.生物信息学.doi: 10.1101/164343
Kim B., Dai X., Zhang W., Zhuang Z., Sanchez, d.l ., Lübberstedt, T.,等(2019)。GWASpro:高性能全基因组关联分析服务器。生物信息学35岁,2512 - 2514。doi: 10.1093 /生物信息学/ bty989
Korte, A., Vilhjálmsson, B. J., Segura, V., Platt, A., Long, Q., and Nordborg, M.(2012)。结构化群体中相关性状的全基因组关联研究的混合模型方法。Nat,麝猫。44岁,1066 - 1071。doi: 10.1038 / ng.2376
Kulkarni, S., Savan, R., Qi, Y., Gao, X., Yuki, Y., Bass, S. E,等(2011)。差异microRNA对HLA-C表达的调控及其与HIV控制的关系自然472年,495 - 498。doi: 10.1038 / nature09914
勒克拉克,S.,利姆,S.,库朗斯,C.,卡彭迪埃,W.,迪娜,C.,泰恩,L.等人(2009)。快速进展队列的全基因组关联研究确定了新的艾滋病易感性等位基因(ANRS全基因组关联研究03)。j .感染。说。200年,1194 - 1201。doi: 10.1086/605892
Limou, S., Le Clerc, S., Coulonges, C., Carpentier, W., Dina, C., Delaneau, O., Labib, T., Taing, L., Sladek, R., Deveau, C., Ratsimandresy, R., Montes, M., Spadoni, J., Lelièvre, J., Lévy, Y., Therwath, A., Schächter, F., Matsuda, F., Gut, I., Froguel, P., Delfraissy, J., Hercberg, S.和Zagury, J. anrs基因组组(2009)。全基因组关联研究的艾滋病-非进展队列强调作用HLA基因(ANRS全基因组关联研究02)。j .感染。说。199年,419 - 426。doi: 10.1086/596067
利珀特,C.,利斯加滕,J.,刘,Y.,凯迪,C. M.,戴维森,R. I.和海克曼,D.(2011)。全基因组关联研究的FaST线性混合模型。Nat方法。8, 833 - 835。doi: 10.1038 / nmeth.1681
问刘,局域网,G。,朱,Y。,陈,K,沈,C,赵,X。,et al。(2021)。水稻黑条矮缩病抗性的全基因组关联研究水稻黑条矮缩病毒.工厂说。105年,607 - 615。doi: 10.1094 / pdi - 10 - 19 - 2263 re
Lodowski, D. T.和Palczewski, K.(2009)。趋化因子受体和其他G蛋白偶联受体。咕咕叫。当今。艾滋病4, 88 - 95。doi: 10.1097 / COH.0b013e3283223d8d
马诺里奥,T. A.,柯林斯,F. S.,考克斯,N. J.,戈尔茨坦,D. B.,辛多夫,L. A.,亨特,D. J.等(2009)。寻找复杂疾病的缺失遗传性。自然461年,747 - 753。doi: 10.1038 / nature08494
Marone, D., Russo, M., Laidò, G., De Leonardis, A., and Mastrangelo, A.(2013)。植物核苷酸结合位点-富亮氨酸重复序列(NBS-lrr)基因:宿主防御反应中的积极守护者。Int。理学。14日,7302 - 7326。doi: 10.3390 / ijms14047302
McLaren, P. J., Coulonges, C., Bartha, I., Lenz, T. L., Deutsch, A. J., Bashirova, A.等人(2015)。大效应的多态性解释了宿主遗传对HIV-1病毒载量变化的大部分贡献。Proc。国家的。学会科学。美国。112年,14658 - 14663。doi: 10.1073 / pnas.1514867112
米格尔斯,S. A.,萨巴吉安,M. S.,舒珀特,W. L.,贝蒂诺蒂,M. P.,马林科拉,F. M.,马蒂诺,L.等人(2000)。HLA B*5701与hiv感染长期无进展亚组中病毒复制受限高度相关。Proc。国家的。学会科学。美国。97年,2709 - 2714。doi: 10.1073 / pnas.050567397
Montes, N., Cobos, A., Gil-Valle, M., Caro, E., Pagán, I.(2021)。拟南芥相关基因黄瓜花叶病毒毒性及其与病毒种子传播的联系。微生物9日,692年。doi: 10.3390 / microorganisms9040692
Mozzi, A., Pontremoli, C.和Sironi, M.(2018)。传染病的遗传易感性:全基因组方法的现状和未来展望。感染。麝猫。另一个星球。66年,286 - 307。doi: 10.1016 / j.meegid.2017.09.028
帕万,S., Delvento, C., Ricciardi, L., Lotti, C., Ciani, E., and D 'Agostino, N.(2020)。作物全基因组关联研究中选择基因分型方法和质量控制最佳实践的建议。前面。麝猫。5, 447。doi: 10.3389 / fgene.2020.00447
Pimenta, R. J. G., Aono, A. H., Villavicencio Burbano, R. C., Coutinho, A. E., da Silva, C. C., dos Anjos, I. A.等人(2020)。甘蔗黄叶病毒抗性相关标记和基因鉴定的全基因组方法。科学。代表。11日,15730年。doi: 10.1038 / s41598 - 021 - 95116 - 1
Price, a.l., Patterson, n.j., Plenge, r.m., Weinblatt, m.e., Shadick, n.a.,和Reich, D.(2006)。主成分分析校正了全基因组关联研究中的分层。Nat,麝猫。38岁,904 - 909。doi: 10.1038 / ng1847
普里特,德·威斯,德·巴克尔,p.i.w.(2017)。重置标准:基于全基因组测序的全球人群关联研究的统计学意义。麝猫。论文。41岁,145 - 151。doi: 10.1002 / gepi.22032
Purcell, S., Cherny, S. S.和Sham, p.c.(2003)。遗传功率计算器:复杂性状的连锁和关联遗传作图研究的设计。生物信息学19日,149 - 150。doi: 10.1093 /生物信息学/ 19.1.149
Rodríguez-Mora, S., De Wit, F., García-Perez, J., Bermejo, M., López-Huertas, M. R., Mateos, E.等(2019)。导致肢带肌营养不良1F的转运蛋白3基因突变诱导了对HIV-1感染的保护。公共科学图书馆Pathog。15日,e1007958。doi: 10.1371 / journal.ppat.1007958
卢比奥,B.,科森,P.,卡巴列罗,M.,里弗斯,F.,伯格尔森,J.,鲁克斯,F.等人(2019)。全基因组关联研究揭示了涉及的新位点拟南芥而且萝卜花叶病毒(TuMV)在现场的相互作用。新植醇。221年,2026 - 2038。doi: 10.1111 / nph.15507
拉什顿·马基奥尼,F.,切鲁奇,L.,托拉卡,B.(2015)。蓝舌病的经济影响:对生产影响的综述。兽医。斜体字。51岁,401 - 406。doi: 10.12834 / VetIt.646.3183.1
桑卡兰,N.和韦斯,R. A.(20212021)。病毒:对科学和社会的影响。Encycl。病毒学, 2021 671-680。doi: 10.1016 / b978 - 0 - 12 - 814515 - 9.00075 - 8所示
Sebastiani, P., Timofeev, N., Dworkis, D. A., Perls, T. T.和Steinberg, M. H.(2009)。全基因组关联研究和复杂性状的遗传解剖。点。j .内科杂志。84年,504 - 515。doi: 10.1002 / ajh.21440
塞古拉,V., Vilhjálmsson, B. J.,普拉特,A.,科尔特,A.,塞伦,Ü。, Long, Q.,等(2012)。结构化人群中全基因组关联研究的高效多位点混合模型方法。Nat,麝猫。44岁,825 - 830。doi: 10.1038 / ng.2314
塞伦,U。,Grimm, D., Fitz, J., Weigel, D., Nordborg, M., Borgwardt, K., et al. (2017). AraPheno: A public database for拟南芥表型。核酸测定。45, D1054-D1059-D1059。doi: 10.1093 / nar / gkw986
塞伦,U。,Vilhjálmsson, B. J., Horton, M. W., Meng, D., Forai, P., Huang, Y. S., et al. (2013). Gwapp: A web application for genome-wide association mapping in arabidopsis.植物细胞24岁,4793 - 4805。doi: 10.1105 / tpc.112.108068
Spreeuwenberg, P., Kroneman, M., and Paget, J.(2018)。重新评估1918年流感大流行造成的全球死亡负担。点。j .论文。187年,2561 - 2567。doi: 10.1093 / aje / kwy191
Tam, V., Patel, N., Turcotte, M., Bossé, Y., Paré, G., Meyre, D.(2019)。全基因组关联研究的好处和局限性。Nat. Rev. Genet。20岁,467 - 484。doi: 10.1038 / s41576 - 019 - 0127 - 1
Thomas, R., Apps, R., Qi, Y., Gao, X., Male, V., O 'hUigin, C.等(2009)。HLA-C细胞表面表达和HIV/AIDS控制与HLA-C上游变异相关。Nat,麝猫。41岁,1290 - 1294。doi: 10.1038 / ng.486
汤普森,D. K.,穆丽尔,P.,罗素,D.,奥斯本,P.,布罗姆利,A.,罗兰,M.等人(2002)。2001年英国爆发口蹄疫的经济代价。启科学。技术。21日,675 - 687。doi: 10.20506 / rst.21.3.1353
田,C., Hromatka, B. S., Kiefer, A. K., Eriksson, N., Noble, S. M., Tung, J. Y.等(2017)。全基因组关联和HLA区域精细定位研究确定了多种常见感染的易感位点。Commun Nat。8, 599。doi: 10.1038 / s41467 - 017 - 00257 - 5
托尼纳利,M.,瑟伦,Ü。,Freudenthal, J. A., Monroe, J. G., Meng, D., Nordborg, M., et al. (2019). AraPheno and the AraGWAS catalog 2020: A major database update including RNA-seq and knockout mutation data for拟南芥.核酸测定。48岁的D1063-D1068-D1068。doi: 10.1093 / nar / gkz925
威特,J. S.(2010)。全基因组关联研究及其他研究。为基础。公共卫生31,9 - 20 4 p以下20。doi: 10.1146 / annurev.publhealth.012809.103723
吴勇,郑智,Visscher, P. M, Yang J.(2017)。利用全基因组测序数据量化全基因组关联研究的作图精度。基因组医学杂志。18日,86年。doi: 10.1186 / s13059 - 017 - 1216 - 0
肖晟,王斌,刘勇,苗涛,张宏,温鹏等(2019)。水稻黑条矮缩病毒病抗性的全基因组关联研究及连锁分析。摩尔。品种。73年39岁。doi: 10.1007 / s11032 - 019 - 0980 - 9
杨杰,扎特伦,n.a.,戈达德,m.e., Visscher, p.m.,和Price, a.l.(2014)。混合模型关联方法应用的优势与缺陷。Nat,麝猫。46岁,100 - 106。doi: 10.1038 / ng.2876
杨旭,Sood, S., Luo, Z., Todd, J., Wang, J.(2019)。全基因组关联研究确定甘蔗对橙锈病和黄叶病毒病的抗性位点(糖spp)。植物病理学109年,623 - 631。doi: 10.1094 /发朵- 08 - 18 - 0282 r
Zaitlen, N.和Kraft, P.(2012)。全基因组关联时代的遗传力。嗡嗡声。麝猫。131年,1655 - 1664。doi: 10.1007 / s00439 - 012 - 1199 - 6
刘,张,R C,歌曲,X。,太阳,F。,,,,Y。,et al。(2020)。无头大白菜萝卜花叶病毒抗性的全基因组关联研究。3生物技术。10日,363年。doi: 10.1007 / s13205 - 020 - 02344 - 9
Zhou, X., and Stephens, M.(2014)。用于全基因组关联研究的高效多元线性混合模型算法。Nat方法。11日,407 - 409。doi: 10.1038 / nmeth.2848
关键词:GWAS,宿主遗传变异,前病毒基因,抗病毒基因,感染
引用:butkoviic A和Elena SF(2022)病毒感染的全基因组关联研究——成功实验和统计分析的简短指南。前面。系统。医学杂志。2:1005758。doi: 10.3389 / fsysb.2022.1005758
收到:2022年7月29日;接受:2022年11月30日;
发表:2022年12月12日。
编辑:
Riyan程加州大学圣地亚哥分校,美国审核:
郭本,默克,美国版权©2022布特科维奇和埃琳娜。这是一篇开放获取的文章,根据创作共用授权(CC BY)。在其他论坛上的使用、分发或复制是允许的,前提是原作者和版权所有者注明出处,并按照公认的学术惯例引用本刊上的原始出版物。不得使用、分发或复制不符合这些条款的内容。
*通信:Anamarija Butković,anamarija.butkovic@pasteur.fr
__Anamarija butkovic,orcid.org/0000 - 0002 - 1435 - 0912;圣地亚哥·f·埃琳娜orcid.org/0000 - 0001 - 08249 - 5593
‡现在地址:巴斯德研究所,古菌病毒学单位,巴黎,法国