跳转到主要内容

原始研究的文章

前面。Bioinform。,08 February 2023
秒。基因组分析
卷2 - 2022 | https://doi.org/10.3389/fbinf.2022.1062328

评估生物信息学工具人类内源性逆转录病毒的检测在短内容插入基因组测序数据

www.雷竞技rebatfrontiersin.org哈利·鲍尔斯 1,www.雷竞技rebatfrontiersin.orgRenata Kabiljo1、2,www.雷竞技rebatfrontiersin.orgAhmad Al Khleifat 1,www.雷竞技rebatfrontiersin.org阿什利·琼斯1,www.雷竞技rebatfrontiersin.org约翰·p·奎因3,www.雷竞技rebatfrontiersin.org理查德·j·b·多布森 2、4、5、6所示,www.雷竞技rebatfrontiersin.org乍得m . Swanson7,www.雷竞技rebatfrontiersin.orgAmmar Al-Chalabi1,8www.雷竞技rebatfrontiersin.org阿尔弗雷多Iacoangeli 1、2、4*
  • 1基础和临床神经科学、伦敦国王学院,莫里斯·沃尔临床神经科学研究所,研究所精神病学、心理学和神经科学,伦敦,英国
  • 2生物统计学和健康信息学,伦敦国王学院精神病学研究所的,心理学和神经科学,英国伦敦
  • 3药理学和治疗,研究所的系统,分子和综合生物学、利物浦大学、英国利物浦
  • 4NIHR生物医学研究中心在伦敦南部和Maudsley NHS信托基金会和伦敦国王学院,伦敦,英国
  • 5卫生信息学研究所、伦敦大学学院、伦敦,英国
  • 6NIHR生物医学研究中心,伦敦大学学院医院NHS信托基金会、英国伦敦
  • 7传染病、免疫学和微生物科学学院,伦敦国王学院,伦敦,英国
  • 8神经病学、国王学院医院,英国伦敦

越来越多的兴趣研究人类内源性逆转录病毒(HERVs)考虑到大量的证据,这其中牵扯到他们在许多人类疾病。虽然他们的基因组特征提出了许多技术挑战,下一代测序(上天)检测显示潜力HERV插入和人类的多态性。目前,大量的计算工具来检测它们在短内容门店数据存在。为了设计最优分析管道,一个独立评估可用的工具是必需的。我们评估了一组这样的工具的性能使用各种实验设计和数据集。其中包括50人短内容全基因组测序样品,匹配的长和短内容测序数据,模拟短内容门店数据。我们的研究结果强调一个伟大的工具在整个数据集的性能变化,表明不同的工具可能适用于不同的研究设计。然而,专门的工具专门用来检测人体内源性逆转录病毒一贯优于多面手转位因子的检测更广泛的工具。我们建议,如果足够的计算资源可用,使用多个HERV检测工具来获取一组一致的插入位点可能是理想的。此外,考虑到假阳性发现率在8%和55%之间的工具不同的工具和数据集,我们推荐的湿实验室验证预测插入DNA样本是否可用。

1介绍

内源性逆转录病毒(erv)集成到脊椎动物的基因组的古代外源性感染。他们入侵所有脊椎动物包括人类的生殖细胞系,成为不可或缺的一部分生殖系,因此以孟德尔方式复制传播(吉福德Tristem, 2003)。人类内源性逆转录病毒(HERVs)包括∼8%的基因组,而蛋白质编码基因只占1% - -2% (皮萨诺et al ., 2019)。虽然他们占人类基因组的一个引人注目的部分,他们中的大多数是不活跃的突变的积累和DNA甲基化(Belshaw et al ., 2005)。的HML-2 HERV-K小组包括一些最近的HERV集成,被发现为全长(或接近全长度)序列在超过80个不同的位点(萨勃拉曼尼亚et al ., 2011)。虽然有几个完整的基因组中HERV-K的副本,都可能会产生一种传染性病毒(鲍勒et al ., 2008)。HERV-K序列可以完整的前病毒,独自长末端重复或2-LTR序列和多态在人口(Garcia-Montojo et al ., 2018)。一个完整长度ERV前病毒由长末端重复(公升)侧翼病毒基因(呕吐,pro,波尔和env)。在大多数元素定义为HERV位点,只有公升现在和这些包含启动子和增强子区域(克拉弗Berkhout, 1994)(图1)。

图1
www.雷竞技rebatfrontiersin.org

图1。这显示了一个完整长度的总体结构示意图表示与近似HERV-K碱基对为每个部分的长度。中给出的LTR长度是LTR5_Hs DFAM数据库(加入= DF0000558),内部基因长度来自HERVK11内部区域(加入DFAM = DF0000189) (仓库保管员et al ., 2021)。gag基因编码的多蛋白裂解产生的结构蛋白病毒粒子。箴基因编码病毒蛋白酶而波尔编码所需的病毒酶逆转录和整合酶。env基因编码病毒包膜蛋白介导病毒进入靶细胞。基因产品需要平移乳沟,例如,职业劈开呕吐多蛋白进入“矩阵”,“衣壳”和“核衣壳”单元。大多数HERV-K位点只包含的LTR区域包含增强剂和调节转录启动子序列。

HERVs被归类为转座的元素(te)但HERVs之间有明显的差异和其他测试工程师。HERVs普遍低于运算器和线条(长点缀的核元素)和一个完整的长度HERV-K前病毒长度约为10 kb,而完整的长度线6 kb的长度,虽然Alu插入大约300个基点(付款人,烧伤,2019)。线具有很强的换位和运算器可以劫持行机制相同的结束,事实上运算器是最丰富的转座因子在人类基因组中。相比之下,HERVs普遍缺乏转座子函数,尽管他们可以转录RNA (Dolei et al ., 2019)。进一步区别在于HERVs旁边LTR序列,含有启动子和增强子区域,未找到的行或运算器(拉森et al ., 2018)。上海广电(正弦VNTR Alu)是另一个TE转座子函数依赖LINE1和是一个复合TE包含Alu和HERV LTR序列。HERVs相比,大多数股东价值分析元素是完整而大多数HERVs只包含侧翼公升(Hancks和室外,2010)。

描述HERV基因组景观是具有挑战性的。长,高度重复HERVs数以千计的基地。这意味着短内容基因组测序不能描述HERVs序列中不存在参考基因组,超越有限数量的基地(尤因,2015)。此外,从重复读取区域可以引入模糊映射步骤的基因组排列有多个公认的比赛(Teissandier et al ., 2019)。这个问题延伸到生物转位因子的测试,设计针对特定的TE短寡核苷酸位点可能坐在多个基因组上的位置(Bourque et al ., 2018)。

HERV-Ks和转位因子相关,与广泛的疾病,包括癌症和神经退行性疾病,如肌萎缩性脊髓侧索硬化症(ALS),通过多种机制。例如,他们插入到人类基因组可能改变基因表达或破坏阅读框架(Buzdin et al ., 2003);据报道他们调节生物样本中人们受到神经退行性疾病和癌症的影响(Garcia-Montojo et al ., 2020;Dervan et al ., 2021;琼斯等人。,2021年);此外,他们的表达可能是有毒等特定细胞类型的运动神经元(李et al ., 2015)。给他们提出广泛的作用在人类疾病中,我们集中在HERV-Ks工作。

最新进展在下一代测序(上天)测序大DNA分子遗传研究的惯例,允许多种变种的调查单核苷酸变异大结构性变异(Iacoangeli et al ., 2019 a)。这项技术也被用于研究HERVs (雪et al ., 2020 a)。是建立HERVs可以表达RNA可以捕捉到门店实验。例如,核糖核酸测序实验量化HERV RNA在健康和肿瘤细胞系(雷et al ., 2021),凸显了HERV RNA作为细胞多能性的生物标志物Santoni et al ., 2012)。Chip-seq实验强调HERV-H的作用位点在染色质重组细胞分化(Zhang et al ., 2019)。全基因组甲基化研究可能被证明是非常有用的理解HERV监管hypomethylation HERVs与增加表达式(Chiappinelli et al ., 2015)。

目前,许多生物信息学工具HERV插入位点的识别短内容全基因组测序(SR-WGS)数据存在,主要是基于分割的剥削和不和谐的读取,揭示了存在的潜在HERV插入(图2)。这些工具已经开发检测一系列的测试,包括HERVs,运算器和线,而另一些则专门针对HERV检测。由于缺乏一个全面的和独立的评估他们的表现,评估当前的工具HERV检测大大设计所需的最优分析管道和促进讨论科学界建立最佳实践所必需的协议。在此基础上,我们设计了一组实验基准广泛使用的计算工具和协议的检测HERVs SR-WGS数据(短读= 50 - 200个基点)。我们假设专家HERV工具可以执行比一般TE探测器和我们的目标是量化的好处和限制使用通才或专门的工具来研究HERVs在门店。考虑他们提出的作用在人类疾病中,我们集中我们的实验识别HERV-K插入不出现在人类的参考基因组(非引用HERV-Ks)。我们测试了6个广泛使用的工具在三个短内容顺序数据集:一个大型短内容全基因组测序(SR-WGS)数据集样本(50人),一个模拟SR-WGS数据集,和六个SR-WGS样本匹配的读测序数据是可用的。

图2
www.雷竞技rebatfrontiersin.org

图2。在标准Illumina公司paired-end SR-WGS, DNA样本第一次剪成小碎片。然后,两端的片段测序,配对阅读。读映射是通过调整参考基因组的读取。HERVs存在于样本而不是参考,不能完全一致,在很大程度上仍未映射,这意味着它们在基因组分析经常被忽视。专门的生物信息学工具使用映射,分裂和不和谐的阅读预测非引用HERVs。

2方法

2.1测试工具的概述

融化,融化扫描WGS数据集群的不和谐的阅读对和分裂。分裂和不和谐的阅读可以被映射到一个用户提供的参考序列插入元素,允许特定的插入类型的检测。它还可以参考移动元素(基因型加德纳et al ., 2017)。融化曾被用于集成TE插入和癌症中TE表达数据行(克莱顿et al ., 2016TE)和阐明进化机制的多样性(Rishishwar et al ., 2018)。根据其文档,融化并不是检测HERV检测在原来的出版,作者预测,它可能表现不佳LTR元素相比non-LTR转座的元素(比如运算器)。然而,融化已经被用于检测HERVs (桑坦德银行et al ., 2017;陈和李。,2019年;Feusier et al ., 2019)。

匪徒:这个工具也使用不和谐的读取与分裂读取和一个插入的参考序列预测特定插入站点。匪徒也被用来强调te癌症的作用(克莱顿et al ., 2016),被用来显示一个协会的te和自闭症之间(Borges-Monroy et al ., 2021)。当匪徒被释放,作者报道,不能够识别HERV插入。然而,他们测试了它仅使用两个WGS paired-end样品和自2014年首次出版以来,匪徒已经全面升级,获得了相当的受欢迎程度。我们包括在我们的实验中,测试了其更新版本在一个更大的样本和使用不同的HERV-K模板序列,用于作者的基准测试工作(Thung et al ., 2014)。

Retroseq: Retroseq使用不和谐的阅读对识别假定的插入站点和过滤器读对引用的利益一致(基恩et al ., 2013)。Retroseq转位因子已被用于映射在进化研究(Dennenmoser et al ., 2019)和广泛采用更先进的管道的起点(陈和李,2019年)。

牛排:牛排注释引用和非引用移动元素。与其他工具时,它首先识别读取部分映射到目标HERV参考序列。假定这些读取地图的边缘插入。映射的碎片被读取,图书馆主机创建参考旁边读和配偶。这些读取映射到人类基因组参考识别参考和非引用HERV位点的存在(桑坦德银行et al ., 2017)。牛排已经广泛使用低于融化,暴徒和Retroseq,尽管它已经与PCR扩增结合使用映射HERV-K位点在基因组(雪et al ., 2020 b)和经常用作基准比较新工具的出版物。

ERVcaller:工具提取错误映射读双分裂读取识别可能插入网站,,然后对齐到一个参考序列,以便检测特定的插入类型(陈和李,2019年)。ERVcaller被用于结合chip-seq和RNAseq分析量化的贡献te表观遗传调节(Groza et al ., 2022)。

Retroseq +:这个管道是我们内部实现的协议被Wildschutte et al。它使用Retroseq作为预测的基础HERV-K插入位点。然后改进结果通过插入结结的重建和二次扫描HERV-K RepeatMasker序列。因为这个协议不可用一个自动生物信息学管道,我们实现了它自己,跟随作者的描述(Wildschutte et al ., 2016;Kabiljo et al ., 2022)。

这些选择工具包括广泛应用,建立了TE探测器(匪徒,融化和Retroseq)以及新工具专门开发HERV检测(ERVcaller,牛排,Retroseq +)。我们不包括工具用于分析肿瘤细胞系,或工具旨在分析数据短内容以外的门店,或进化方面的HERVs下跌超出我们的测试工具的检测范围的生殖系非引用HERV-K插入短内容门店数据。脚本可用这些工具辅料如流程图详细解释每个工具。

2.2基准实验概述

为了评估这些工具的性能,我们设置了四个实验:我)我们估计的性能工具使用模拟门店数据;ii)使用50 HERV-K调用SR-WGS样本,我们试图验证工具,量化预测的比例HERV-K插入以前文献报道;iii)上使用的工具50 SR-WGS样本,我们测量工具之间的协议;iv)最后,我们评估每个工具的特异性通过读数据的验证HERV-K电话匹配短内容数据。

2.3模拟短内容WGS分析

这个测试的目的是评估每个工具使用模拟数据的敏感性和特异性与一个已知的插入。模拟试验,短内容paired-end Illumina公司WGS数据模拟hg19参考序列使用DWGSIM(参数表1)(荷马,2010)。Hg19据报道66年HERV-K (HML-6)全长前病毒的基因座(2),我们随机抽取15 LTR3A型作为目标公升(S4补充文件)。此外,为了测试工具是否能够区分LTR类型,我们还随机选择四个LTR3B类型HML-6前病毒的基因座(S5补充文件)。LTR3A和LTR3B HML6插入但已被证明单独集群系统发育分析(皮萨诺et al ., 2019)。我们预计,包括子类型在我们的测试可以提供更高程度的分辨率的评估工具的准确性。

表1
www.雷竞技rebatfrontiersin.org

表1。自定义参数用于生成的模拟数据。所有参数不包括在这张桌子保留默认值。

来模拟这些HERV-K网站作为小说插入,生成WGS数据后,我们删除这些前病毒从hg19参考使用Bedtools屏蔽其次是面具的删除(昆兰和大厅,2010)。模拟FASTQ文件然后对齐到编辑使用BWA-MEM hg19。因此,模拟数据包含19个已知HERV-K插入没有出现在我们的编辑参考基因组,这些插入是唯一非引用HERV元素模拟样品。每个工具被应用于模拟WGS。只有LTR3A序列作为目标参考序列模板,这意味着每个工具应该只检测到15 LTR3A位点,而不是4 LTR3B位点。这让我们看到每个工具如何辨别特定插入类型以及评估一般灵敏度。我们定义灵敏度的比例,非引用插入成功检测到:真正的阳性/(真阳性和假阴性)。我们精确定义为积极成果的比例是正确的:真正的阳性/(真阳性+假阳性)。

2.4与之前报道HERVs重叠分析和比较

每个工具应用于WGS 50 ALS患者的数据来自英国项目矿山数据集(项目我ALS测序联盟,2018年;Iacoangeli et al ., 2019 b)。这WGS生成血液样本,使用Illumina公司Hiseq 2000平台。结果WGS读过样品长度等于100个基点平均深度报道40 x (paired-end读取)。我们一致他们使用burrows - wheeler对齐hg19参考基因组,BWA-MEM (李,2013)。预测插入网站所有基因组多态特征比较的列表40井HERV-K插入以前文献中描述(补充文件S1) (Kahyo et al ., 2017)。他们也比所有参考HERV位点(HERV-Ks和其他HERV / LTR子组)通过浏览器使用RepeatMasker UCSC的表(RMSK)跟踪hg19基因组构建。下面的标识符是用于检索HERV-K参考位点:LTR5_Hs, LTR5A, LTR5B, HERV-K和HERV-K-int (S2补充文件);而所有引用的集合HERVs获得通过整个UCSC RMSK hg19跟踪和提取那些有标识符“ERV”或“LTR”(S3)补充文件。HML-2 HERV-Ks类型,有针对性的分析可以subclassified基于他们的LTR序列。LTR5_Hs LTR5B是过去的古老HML-2 LTR是年轻和人类具体。

重叠被定义为一个预测插入在一个已知的500个碱基对ERV轨迹。的数量参考HERV-Ks和HERVs每百万基地在人类染色体所示图3 a - c

图3
www.雷竞技rebatfrontiersin.org

图3。概述HERV位点的密度在人类基因组中。(一)每一人类染色体的每百万基地HERV-Ks数量(UCSC的RMSK给定的表)。高HERV密度chr19之前已经报道过(Katzourakis et al ., 2007转座因子)和其他元素也浓缩在这条染色体(Gianfrancesco et al ., 2019)。(B)HERVs和LTR序列在每个人每百万基地chromosome-Data来自UCSC RMSK表。(C)这个面板显示HERV-K的分布在每一个染色体,用红线指示HERV-K LTR的存在。这些结果来自LTR5 / HERV-K UCSC RMSK表。

这个测试让我们量化预测的每个工具插入的比例匹配已知和验证HERV-Ks假设这样的呼吁更可能是真正的阳性,因此工具显示比例更可靠。

每个工具也比较的结果,给每个其中之一,其结果的比例也预测的每一个其他工具。的牛排和融化的参考结果过滤掉的总结果使用UCSC的RMSK表hg19参考HERV-K位点(补充表S2)。这个协议允许我们量化工具。

2.5读测序数据

我们使用一组六个样本王et al .,短期和读基因组测序数据(王et al ., 2019)(GIAB数据id: HG002、HG003 HG004, HG005, HG006, HG007)。短暂,短内容数据(来源于血液)测序使用Illumina公司Hiseq 2500给105个基点配对结束读报道深度介于15.6倍和18.8倍。漫长的读取顺序使用PacificBio续集系统版本2。之间的这些样品读取长度是10 KB和18 KB和样本的平均深度报道范围之间的28.5倍和69倍。

读测序(读取长度> 10000碱基对)可以捕捉大量过剩,如果不是全部,HERV-K允许他们的准确识别(楚et al ., 2021;楚et al ., 2021;Troskie et al ., 2021)。我们每个工具适用于短内容WGS数据来预测LTR5_Hs HERV-K插入和读数据用于验证如下。对于每个预测插入,我们提取长读取映射匹配相应的轨迹从读WGS样本。这些长读然后组装成叠连群使用wtdbg2 (阮和李,2020年)。RepeatMasker (坦普尔,2012)可以检测和分类在基因组序列重复的元素。这是应用于读重叠群装配确认的存在HERV-K LTR5_Hs序列在每个预测轨迹。

如果重叠群,在给定轨迹基于短内容预测,与RepeatMasker HERV-K当阳性分析,预测HERV-K插入被认为是真实的。每个工具的比例的预测成功验证工具的准确性是一个指标。

2.6计算效率报告

每个工具的计算效率是一个重要的因素,特别是如果用户有有限的资源和大型数据集。这个测试的目的是量化每个工具所需的计算资源。

我们测试了每个工具所花费的时间和内存使用运行在单个WGS样本项目我的数据集。在HPC Linux平台上粘了很多调度系统用于这个项目。粘有很多自己的时间脚本和命令(sacct)评估内存使用。每个工具被应用到一个单一的WGS样本项目我和sacct用于报告内存和cpu使用的工具。确定中间文件的大小由每个工具,“嘟”命令运行在一个循环,执行每一秒,每个工具目录中运行。之间的差异开始目录大小和最大目录大小由“嘟”报道。

3的结果

3.1模拟的数据结果

每个工具应用于一组四个模拟WGS样本,与已知HERV插入不同类型(LTR3A和LTR3B)。每个工具被LTR3A目标元素。这允许我们评估每个工具的灵敏度和精度。精度和灵敏度高跨工具不同,介于0.56 - -0.92,-0.80和0.20分别高质量样品(32 x和读取150个基点)。HERV专家虽然表现最好的工具是ERVcaller工具没有执行始终比多面手工具,和牛排显示基因组所有模拟精度和灵敏度最低。所有工具表现糟糕,深度阅读(较低的样品表2)。例如,Retroseq发现11/15 LTR3A插入在32 x样本但只有7/15 LTR3A插入10.5倍和7倍的样品。然而,每个工具阅读深度影响的程度不同。ERVcaller在32和10.5 x表现同样发现12的15 LTR3A插入和样品,在7 x这个示例中,它仍然发现了10个插入。的唯一工具误检测Retroseq LTR3B插入。灵敏度和精度大大不同的工具。例如牛排和ERVcaller平均精度最高(0.9),而Retroseq +平均精度最低(0.63)。然而,牛排平均灵敏度最低(0.13),而ERVcaller最高(0.77)。暴徒在这个实验中没有发现任何插入。

表2
www.雷竞技rebatfrontiersin.org

表2。模拟WGS数据分析的结果。每一行对应一个不同的工具。表报告正确的数量确定LTR3A插入(目标插入,15模拟基因组位点),LTR3B插入的数量(4模拟基因组位点)错误地分类为LTR3A插入,预测插入的总数,包括那些没有对应的19模拟插入位点,为每个样本。

3.2分析50短内容WGS样本

每个工具应用于50 SR-WGS样品和结果合并。表3显示的比例预测HERV-K插入映射到一个已知的HERV轨迹。与较高的预测工具插入匹配记录之前报道的位点预计将有更高的准确性因此插入更可能是真正的优点。同样重要的是要考虑位点的数量由每个工具,因为它们可能牺牲敏感性增加真阳性。与之前报道的位点总数的预测和重叠大大不同跨工具(表3图4),但两个HERV特定工具(Retroseq +和ERVcaller)似乎预测插入的比例最高,与之前报道的重叠。值得注意的是,牛排给最多的预测和84%的这些结果匹配之前记录HERV位置。Retroseq预测的39%和52%的融化的预测以前报道。ERVcaller和Retroseq +生成集的位点预测,极大匹配之前报道的(分别为81%和97.6%)(Kahyo et al ., 2017)。匪徒无法发现任何HERV-Ks在这个示例。HERV-Ks的比例存在内含子、外显子和基因间区域广泛一致的工具,与先前的研究结果一致(补充表S1)。我们也报告的频率HERV-K集成为每个工具(补充表S2)。

表3
www.雷竞技rebatfrontiersin.org

表3。“多态”列显示HERV-K插入位点预测匹配的比例从文学HERV-Ks多态(补充表S1)。“UCSC的HERV-K”和“UCSC HERV”列显示的比例匹配hg19参考HERV-Ks和HERVs UCSC表给出的浏览器(补充文件S2,S3补充文件)。总之前报道显示百分比的比例预测,存在多态设置或在UCSC的集。“完全没有。预测”是总数的预测在所有50个基因组。*有一个重叠非引用多态HERV-Ks和“UCSC的HERV / LTR ",这就解释了为什么“总%之前报道”专栏小于大多数工具这两列的总和。最低执行和执行工具分别以蓝色和红色突出显示。

图4
www.雷竞技rebatfrontiersin.org

图4。概述小说插入预测的工具在一个圆形50基因组染色体阴谋。同心圆的顺序从外面的场景:圆1(蓝色点)——即非引用插入;圈2(红点)——即引用插入;圆3(黄色):Retroseq预测;圆4(橙色):Retroseq +预测;圈5(绿色):牛排预测;圈5(紫色)ERVcaller预测,圆6(红色):融化的预测。颜色的强度和乐队的每个点的高度成正比的插入的预测与深色和更高的位置对应于一个更大的数量。

工具(之间的协议图5)大大不同,介于2.8%(牛排调用的比例也称为融化)和63% (Retroseq比例+调用,牛排也被调用)。插入预测的数量介于296 (Retroseq +)和13770之间(牛排)。

图5
www.雷竞技rebatfrontiersin.org

图5。热图报告的比例插入行上发现的工具也列上发现的工具。例如:比例(牛排,ERVcaller)代表的比例牛排调用被ERVcaller也叫。因此,请注意(牛排,ERVcaller)不等于(ERVcaller、牛排)。参考HERV-Ks已经过滤掉。

3.3分析匹配短和读测序样品

我们每个工具六SR-WGS样品和匹配读测序数据用于验证(表4)。始终与其他测试工具的性能变化。通常,HERV特定工具比多面手的工具在该测试中,尽管Retroseq稍高的比例比ERVcaller确认电话。Retroseq +了最小数量的预测,然而,78%的预测轨迹长度> 850 bp的LTR5_Hs阳性样本对应的读。我们特别感兴趣的更大的插入,因为他们认为一个完整的LTR(968基地),将最有可能包含地区LTR启动子和增强子等生物的重要性。绝大多数的位点预测工具被证实含有ERV序列中读数据。然而,只考虑预测正确插入,包含LTR5_Hs(目标HERV-K元素),工具的性能变化很大。例如,78%的插入被Retroseq + LTR5_Hs,而只有13%的电话是LTR5_Hs融化。大多数Retroseq +调用(94%)> 850基地,相当比例的位点被其他工具是较小的。此外,预测插入的数量也不同,介于18 (Retroseq +)和481年(ERVcaller)。 Notably, Steak identified a large number of long LTR5_Hs insertions but over two-thirds were reference loci and Steak showed a substantially higher precision for reference loci (>77%) than for non-reference loci (41%). Supplementary table 4 shows the proportion of predicted loci for which RepeatMasker reports either HERV-K internal gene sequence or an SVA of at least 50 bps in length. ERVcaller has the highest number of SVA positive loci (61%) while Retroseq+ and Steak have the highest proportion of HERV-K internal gene positive loci (11% and 12% respectively).

表4
www.雷竞技rebatfrontiersin.org

表4。这个表显示结果的比例每个工具在短内容预测的样本,是积极的HERV序列相关的读数据。每一列显示了阳性结果的比例HERV-K (LTR5_Hs目标HERV子群)或读的一般HERV序列重叠群数据。结果是分层的长度HERV序列中发现读叠连群数据。牛排结果报告包括和丢弃参考HERV位点。参考HERV位点被移除所有其他工具。最低执行和执行工具分别以蓝色和红色突出显示。

3.4时间和CPU使用率

最后,工具运行在一个短内容全基因组测序样本项目我量化他们的内存,CPU使用和存储效率。时间、记忆和空间使用记录(表5)。这是通过使用内置粘HPC很多调度系统。所有的工具都有一个相对类似CPU时间(平均=跑CPU时间)和硬盘使用(意味着= 2 GB)除了ERVcaller有更高的CPU时间(真理CPU小时)和使用更多的存储空间(87 GB)。这与当年ERVcaller文件的结果表明,ERVcaller比Retroseq更快,融化。一个关键的区别是,在我们的测试中,ERVcaller两个cpu上运行,但在原始论文12上运行。如果用户有大量的样本,或有限的计算资源,ERVcaller可能不合适。

表5
www.雷竞技rebatfrontiersin.org

表5。此表显示了每个工具如何使用内存。CPU时间等于CPU的数量*。马克斯VM规模最大虚拟内存使用在任何一个时间任何工作的一部分。输入文件的大小列报告输入排序数据的大小在每个工具所需的格式。马克斯临时文件大小显示所需的最大临时存储每个工具在运行。工具哪里有一个选项来删除临时文件(清理),这个选项是不习惯。执行工具是用红色突出显示的最低。

4讨论

本研究比较了六计算工具的性能检测HERV位点在全基因组测序数据。三个我们测试的工具,ERVcaller牛排和Retroseq +开发专门HERVs来识别,而其他三个,Retroseq,暴徒和融化,是为了确定一个广泛的测试。我们的研究结果提供的证据在SR-NGS数据集高度可变的性能,然而,在所有实验HERV专业工具通常在调用HERVs表现比多面手TE呼叫者。

第一个测试每个工具应用到模拟WGS有关。为了模拟潜在的现实(病毒)插入,我们首先生成WGS样品使用hg19不同长度和覆盖深度阅读。然后我们使用一份hg19我们移除一组已知的参考HERV位点,为阅读模拟样本的映射和HERV检测。因此,这个实验让我们评估阅读长度和覆盖深度影响工具的性能和量化工具的精度和灵敏度(表3)。正如预期的那样,这些工具的表现要好于高质量的WGS数据(32 x和读取150个基点)。牛排的敏感度低于其他工具在所有模拟检测插入基因组(≤20%)。尽管显然令人吃惊的是,这个结果是一致的另一个独立评估牛排(陈和李,2019年)。

这之后,每个工具应用于50 WGS样本的个人ALS队列。这允许我们量化工具和结果的比例之间的协议匹配HERV-K位点(表2)。在这个实验中匪徒不能识别任何HERV插入确认其无法检测这种类型的元素是由作者在原来的基准分析。工具介于3%和63%之间,之间的协议和插入预测的数量介于296 (Retroseq +)和13770之间(牛排)。这种可变性的一部分可以用这一事实来解释牛排旨在检测参考和非引用HERV插入的存在,然而,工具的准确性也可能贡献显著。事实上,尽管65%的牛排的预测匹配参考HERV位点,只有1.7%与特征高度重叠,非引用,多态位点。查看插入的比例相匹配的非引用HERV-Ks之前报道的文献中可以通知我们的质量所做的预测工具。我们有更大的信心,这些已知HERV-Ks真相比小说HERV-Ks以前没有报道或验证。

工具也测试6个公开的基因组,经历了长期和短内容排序(表4)。给定的长度长读(> 10 kbs),这个数据集允许我们确认使用long-reads插入称为短内容数据。在这个实验中所有插入的大多数(> 92%)的预测被证实HERVs读数据的工具。然而,只有Retroseq +插入在很大程度上(78%)证实LTR5_Hs(目标HERV-K元素),而其他工具显示较低的能力区分不同HERV公升(13% - -41%)。

最后,测试的工具在一个WGS样本,和时间、记忆和空间用于临时文件记录。所有的工具都有一个相对类似的CPU时间和硬盘使用除了ERVcaller有更高的CPU时间(真理CPU小时)和更多的存储空间用于临时文件(87 GB)。这与原始ERVcaller纸的结果显示,ERVcaller速度比Retroseq和融化(陈和李,2019年)。

总之,我们的分析表明,工具和协议开发专门为HERV-Ks的检测,如ERVcaller Retroseq +,和牛排,通常比多面手工具如暴徒和融化。这一趋势是清晰可见的补充表S3报告的概述关键的所有基准测试的实验结果。这一发现是一致的融化文档和支持由妞妞et al。(最近的一篇论文妞妞et al ., 2021)。妞妞和他的同事们发现,HERV-K集成被融化了23%错误发现率(罗斯福)当使用PCR检测,这是一个比另一个更高的罗斯福转座的元素。基于融化HERV-K插入数据库中,包括广泛使用GNOMAD-SV (科赫,2020)和新HMEID数据库(妞妞et al ., 2021),很可能是不可靠的用于HERV-K集中研究。

此外,实验强调重要特征的工具,用户应该考虑在设计分析管道:协议的实现由Wildschutte和他的同事们(Retroseq +)产生的最可靠的预测也最小的数(296预测50基因组,表2);牛排是唯一的工具能够全面捕捉参考HERVs的存在对参考HERVs但其性能大大高于非引用HERVs;ERVcaller Retroseq显示,一个好的检测到插入数量和质量之间的平衡,然而,在实验中他们的表现大大不同。例如,他们在模拟数据显示精度高、灵敏度(表3),但当应用于实际数据,预计将包括大量的其他类型的插入(初始SR-WGS大数据集和匹配的短和读数据,表2,4),他们两人显示灵敏度高,但特异性较低。

鉴于所有工具的优点和缺点,我们建议用户的选择是基于需求和目标的研究和考虑组合多个工具和共识,如果计算上可行。例如,对于罕见遗传疾病常见的多态性和罕见的颠覆性变异导致基因,如ALS和其他神经退行性疾病,可以把牛排叫参考HERVs的能力,使用另一个工具显示非引用插入更高的性能。此外,根据湿实验室生物样品的可用性验证,可能会选择一个更保守的调用者如Retroseq +或工具(如ERVcaller更加敏感。

本研究的一个限制是它是集中在检测非引用HERV插入和它不考虑HERV注释。HERV注释可以提供关键的信息如HERV家庭,亚型,启动子和增强子区域的位置,基因型,截断和其他多态性,以及他们是否有潜在的转录。这些对他们的研究和生物解释至关重要(大人物et al ., 2021;贾et al ., 2022)。然而,尽管这种类型的可以参考HERV位点进行分析,这是不可能的在短内容发现非引用HERV总会考虑到这技术不允许read-length以外的插入序列的特征。

在解释我们的结果,重要的是要注意,我们的数据可能源于hg19参考基因组的使用。结果使用hg38可能稍有不同,因为它包含更多的交替序列以及修正测序文物(施耐德et al ., 2017)。然而,在调用HERVs包罗万象的挑战依然存在,无论使用引用,如短内容捕捉大型插入测序提供了内在的局限性。这一挑战适用于大多数类型的变异大于一些数万碱基对和共识方法显示潜力,例如Gnomad SV (科赫,2020)。读测序可以提供一个更好的解决方案来检测大型插入和使用在上升,分析短内容测序数据大变异仍然是高度相关的考虑到这种类型的数据的可用性和高/基础测序决议。

数据可用性声明

最初的贡献提出了研究中都包含在本文的补充材料,可以针对相应的作者进一步询问。补充材料,包括所有补充表、数据和脚本运行分析,可在GitHub上:https://github.com/KHP-Informatics/tools_assessment_hervk_SR-WGS

作者的贡献

概念化、人工智能、计算机科学、金桥AJ和AAC格式;方法,人工智能,HB, RK;软件、人工智能、HB、RK和RD;验证、人工智能、HB和RK;正式的分析、人工智能、HB和RK;调查、人工智能、HB、RK和CS;资源、人工智能和RD;数据管理、人工智能、AAC,正义与发展党,AJ, RD;原创作品草稿准备、人工智能、HB、RK;writing-review和编辑、CS、AI,金桥; visualization, HB and RK; supervision, AI, AAC, CMS, JQ; project administration, AAC, AI; funding acquisition, AI, AAC. All authors have read and agreed to the published version of the manuscript.

资金

英国研究和创新;医学研究理事会;伦敦南部与马氏NHS信托基金会;MND苏格兰;运动神经元疾病协会;Rosetrees信任;国家卫生研究所;中国学术委员会;痉挛性截瘫的基础。开放获取的资金费用:UKRI。 AI is funded by the Motor Neurone Disease Association, MND Scotland, Spastic Paraplegia Foundation, Darby Rimmer MND Foundation, Rosetrees Trust and the National Institute for Health Research (NIHR) Biomedical Research Centre at South London and Maudsley NHS Foundation Trust and King’s College London. RK is funded by the MND Scotland. This is an EU Joint Programme-Neurodegenerative Disease Research (JPND) project. The project is supported through the following funding organizations under the aegis of JPND-https://www.neurodegenerationresearch.eu/先生(英国医学研究理事会/ L501529/1 AC,首席研究员/ R024804/1 AC先生(π)和(π);经济和社会研究理事会ES / L008238/1 AC (co-PI)]和通过运动神经元疾病协会。这项研究代表了独立研究部分由国家卫生研究所(NIHR)生物医学研究中心伦敦南部与马氏NHS信托基金会和伦敦国王学院。前工作这份出版物是由欧洲共同体的地平线2020计划(h2020 - phc - 2014两个阶段;格兰特633413)。作者的观点是(s)和不一定NHS, NIHR,伦敦国王学院、健康与社会保健。AK党是由ALS协会弥尔顿Safenowitz研究奖学金、运动神经元疾病协会(MNDA)奖学金,Darby轮辋基金会和NIHR马氏生物医学研究中心。这项研究得到了美国国家卫生研究所(NIHR)基于生物医学研究中心的家伙的圣托马斯NHS信托基金会和伦敦国王学院。

确认

我们承认使用研究的计算设施伦敦国王学院,罗莎琳德(https://rosalind.kcl.ac.uk),这是在伙伴关系与美国国家卫生研究所(NIHR)生物医学研究中心伦敦南部&毛德斯莱和人的圣托马斯的NHS信托基金会和部分资本设备赠款Maudsley慈善奖(980年)和人的圣托马斯慈善(TR130505)。我们也想感谢所有MND患者及其家庭造成的全基因组测序数据生成的研究。

的利益冲突

交流是灯塔的首席研究员2审判Triumeq ALS。

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

作者免责声明

作者的观点是,不一定NHS, NIHR或卫生部。

引用

Belshaw, R。,Dawson, A. L. A., Woolven-Allen, J., Redding, J., Burt, A., and Tristem, M. (2005). Genome wide screening reveals high levels of insertional polymorphism in the human endogenous retrovirus family HERV-K(HML2): Implications for present-day activity.j .病毒学79 (19),12507 - 12514。doi: 10.1128 / jvi.79.19.12507 - 12514.2005

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

鲍勒,K。,Schönfeld, K., Lischer, S., Fischer, N., Hoffmann, A., Kurth, R., et al. (2008). Human endogenous retrovirus HERV-K113 is capable of producing intact viral particles.普通病毒学j .89 (2),567 - 572。doi: 10.1099 / vir.0.83534-0

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Borges-Monroy, R。楚,C。,Dias, C., Choi, J., Lee, S., Gao, Y., et al. (2021). Whole-genome analysis reveals the contribution of non-coding de novo transposon insertions to autism spectrum disorder.暴徒。DNA12(1),四连败。doi: 10.1186 / s13100 - 021 - 00256 - w

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Bourque G。,Burns, K. H., Gehring, M., Gorbunova, V., Seluanov, A., Hammell, M., et al. (2018). Ten things you should know about transposable elements.基因组医学杂志。19 (1),199 - 212。doi: 10.1186 / s13059 - 018 - 1577 - z

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Buzdin, A。,Lebedev, YuB., and Sverdlov, E. D. (2003). Human genome-specific HERV-K intron LTR genes have a random orientation relative to the direction of transcription, and, possibly, participated in antisense gene expression regulation.拉斯。j . Bioorg。化学。29 (1),103 - 106。doi: 10.1023 /: 1022294906202

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

陈,X。,和Li, D. (2019). ERVcaller: Identifying polymorphic endogenous retrovirus and other transposable element insertions using whole-genome sequencing data.生物信息学35 (20),3913 - 3922。doi: 10.1093 /生物信息学/ btz205

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Chiappinelli, k B。,Strissel, p . L。Desrichard,。李,H。,Henke, C., Akman, B., et al. (2015). Inhibiting DNA methylation causes an interferon response in cancer via dsRNA including endogenous retroviruses.细胞162 (5),974 - 986。doi: 10.1016 / j.cell.2015.07.011

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

楚,C。,Lee, S., Borges-Monroy, R., Viswanadham, V. V., Li, H., Lee, E. A., et al. (2021). Comprehensive identification of transposable element insertions using multiple sequencing technologies.Commun Nat。12日,3836 - 3912。doi: 10.1038 / s41467 - 021 - 24041 - 8

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

克莱顿,大肠。王,L。,Rishishwar, L。王,J。,McDonald, J. F., and Jordan, I. K. (2016). Patterns of transposable element expression and insertion in cancer.前面。摩尔。Biosci。3,76。doi: 10.3389 / fmolb.2016.00076

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Dennenmoser, S。,Sedlazeck, F. J., Schatz, M. C., Altmüller, J., Zytnicki, M., and Nolte, A. W. (2019). Genome-wide patterns of transposon proliferation in an evolutionary young hybrid fish.摩尔。生态。28 (6),1491 - 1505。doi: 10.1111 / mec.14969

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Dervan E。,Bhattacharyya, D. D., McAuliffe, J. D., Khan, F. H., and Glynn, S. A. (2021). Ancient adversary–HERV-K (HML-2) in cancer.前面。肿瘤防治杂志。11日,658489年。doi: 10.3389 / fonc.2021.658489

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Dolei,。,Ibba, G., Piu, C., and Serra, C. (2019). Expression of HERV genes as possible biomarker and target in neurodegenerative diseases.Int。j .摩尔。科学。20(15),3706年。doi: 10.3390 / ijms20153706

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

尤因,公元(2015)。转座因子检测从全基因组序列数据。暴徒。DNA6 (1),24-29。doi: 10.1186 / s13100 - 015 - 0055 - 3

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Feusier, J。,Watkins, W. S., Thomas, J., Farrell, A., Witherspoon, D. J., Baird, L., et al. (2019). Pedigree-based estimation of human mobile element retrotransposition rates.基因组Res。29 (10),1567 - 1577。doi: 10.1101 / gr.247965.118

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Garcia-Montojo, M。,Doucet-O’Hare, T., Henderson, L., and Nath, A. (2018). Human endogenous retrovirus-K (HML-2): A comprehensive review.暴击。启Microbiol。44 (6),715 - 738。doi: 10.1080 / 1040841 x.2018.1501345

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Garcia-Montojo, M。,Rodriguez-Martin, E., Ramos-Mozo, P., Ortega-Madueño, I., Dominguez-Mozo, M. I., Arias-Leal, A., et al. (2020). Syncytin-1/HERV-W envelope is an early activation marker of leukocytes and is upregulated in multiple sclerosis patients.欧元。j . Immunol。50 (5),685 - 694。doi: 10.1002 / eji.201948423

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

加德纳·e·J。Lam诉K。,Harris, D. N., Chuang, N. T., Scott, E. C., Pittard, W. S., et al. (2017). The mobile element locator tool (MELT): Population-scale mobile element discovery and biology.基因组Res。27 (11),1916 - 1929。doi: 10.1101 / gr.218032.116

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Gianfrancesco, O。,Geary B。,Savage, A. L., Billingsley, K. J., Bubb, V. J., and Quinn, J. P. (2019). The role of SINE-VNTR-alu (SVA) retrotransposons in shaping the human genome.Int。j .摩尔。科学。20 (23),5977。doi: 10.3390 / ijms20235977

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

吉福德,R。,和Tristem, M. (2003). The evolution, distribution and diversity of endogenous retroviruses.病毒基因26 (3),291 - 315。doi: 10.1023 /: 1024455415443

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

大人物,N。,皮萨诺,m . P。Pessiu E。,Scognamiglio, S., and Tramontano, E. (2021). HERV-K (HML7) integrations in the human genome: Comprehensive characterization and comparative analysis in non-human primates.生物学10(5),439年。doi: 10.3390 / biology10050439

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Groza C。,陈,X。,Pacis, A., Simon, M. M., Pramatarova, A., Aracena, K. A., et al. (2022). Genome graphs detect human polymorphisms in active epigenomic state during influenza infection. bioRxiv. 2021–2109.

谷歌学术搜索

Hancks, d . C。,和Kazazian, H. H. (2010). SVA retrotransposons: Evolution and genetic instability.癌症杂志研讨会。20 (4),234 - 245。doi: 10.1016 / j.semcancer.2010.04.001

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

荷马:(2010)。为下一代测序Dwgsim:全基因组模拟器。0.1.13版本。可以在:https://github.com/nh13/DWGSIM

谷歌学术搜索

Iacoangeli,。,Al Khleifat, A., Jones, A. R., Sproviero, W., Shatunov, A., Opie-Martin, S., et al. (2019). C9orf72 intermediate expansions of 24–30 repeats are associated with ALS.Acta Neuropathol。Commun。7 (1),115 - 117。doi: 10.1186 / s40478 - 019 - 0724 - 4

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Iacoangeli,。,Al Khleifat, A., Sproviero, W., Shatunov, A., Jones, A. R., Morgan, S. L., et al. (2019). DNAscan: Personal computer compatible NGS analysis, annotation and visualisation.BMC Bioinforma。20 (1),213 - 310。doi: 10.1186 / s12859 - 019 - 2791 - 8

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

贾,L。,Liu, M., Yang, C., Li, H., Liu, Y., Han, J., et al. (2022). Comprehensive identification and characterization of the HERV-K (HML-9) group in the human genome.Retrovirology19(1),11到18门。doi: 10.1186 / s12977 - 022 - 00596 - 2

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

琼斯,a。R。,Iacoangeli,。阿迪,b . N。鲍尔斯,H。,Shatunov, A., Troakes, C., et al. (2021). A HML6 endogenous retrovirus on chromosome 3 is upregulated in amyotrophic lateral sclerosis motor cortex.科学。代表。11 (1),14283 - 14310。doi: 10.1038 / s41598 - 021 - 93742 - 3

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Kabiljo, R。,Bowles, H., Marriott, H., Jones, A. R., Bouton, C. R., Dobson, R. J., et al. (2022). RetroSnake: A modular pipeline to detect human endogenous retroviruses in genome sequencing data.Iscience25(11),105289年。doi: 10.1016 / j.isci.2022.105289

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Kahyo, T。,Yamada, H., Tao, H., Kurabe, N., and Sugimura, H. (2017). Insertionally polymorphic sites of human endogenous retrovirus-K (HML-2) with long target site duplications.BMC基因组学18 (1),487。doi: 10.1186 / s12864 - 017 - 3872 - 6

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Katzourakis,。佩雷拉,V。,和Tristem, M. (2007). Effects of recombination rate on human endogenous retrovirus fixation and persistence.j .病毒学81 (19),10712 - 10717。doi: 10.1128 / jvi.00410-07

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

基恩,t . M。黄,K。,和Adams, D. J. (2013). RetroSeq: Transposable element discovery from next-generation sequencing data.生物信息学29 (3),389 - 390。doi: 10.1093 /生物信息学/ bts697

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

的卡B。,和Berkhout, B. (1994). Comparison of 5'and 3'long terminal repeat promoter function in human immunodeficiency virus.j .病毒学68 (6),3830 - 3840。doi: 10.1128 / jvi.68.6.3830 - 3840.1994

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

科赫,l (2020)。探索与gnomAD人类基因组多样性。Nat,启麝猫。21日(8),448年。doi: 10.1038 / s41576 - 020 - 0255 - 7

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

拉森,p。,Hunnicutt, K. E., Larsen, R. J., Yoder, A. D., and Saunders, A. M. (2018). Warning SINEs: Alu elements, evolution of the human brain, and the spectrum of neurological disease.染色体Res。26 (1),93 - 111。doi: 10.1007 / s10577 - 018 - 9573 - 4

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

李(2013)。调整顺序读取,克隆序列和组装与BWA-MEM重叠群。arXiv: 13033997。

谷歌学术搜索

李,W。,Lee, M-H., Henderson, L., Tyagi, R., Bachani, M., Steiner, J., et al. (2015). Human endogenous retrovirus-K contributes to motor neuron disease.科学。Transl。地中海。307 ra153。(互联网)。doi: 10.1126 / scitranslmed.aac8201

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

妞妞,Y。,Teng, X., Shi, Y., Li, Y., Tang, Y., and Zhang, P.1. (2021). Genome-wide analysis of mobile element insertions in human genomes. bioRxiv.

谷歌学术搜索

付款人,l . M。,和Burns, K. H. (2019). Transposable elements in human genetic disease.Nat,启麝猫。20 (12),760 - 772。doi: 10.1038 / s41576 - 019 - 0165 - 8

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

皮萨诺,m . P。大人物,N。,Cadeddu, M., Blomberg, J., and Tramontano, E. (2019). Comprehensive characterization of the human endogenous retrovirus HERV-K(HML-6) group: Overview of structure, phylogeny, and contribution to the human genome.j .病毒学93 (16),e00110。doi: 10.1128 / jvi.00110-19

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

项目我ALS测序联盟(2018年)。项目我:大规模全基因组测序的研究设计和试验分析研究肌萎缩性脊髓侧索硬化症。欧元。j .的嗡嗡声。麝猫。26 (10),1537 - 1546。doi: 10.1038 / s41431 - 018 - 0177 - 4

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

昆兰,a。R。,和Hall, I. M. (2010). BEDTools: A flexible suite of utilities for comparing genomic features.生物信息学26 (6),841 - 842。doi: 10.1093 /生物信息学/ btq033

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

雷,s D。,Hayward, J. A., Norden, S., Pedersen, J., Mills, J., Hearps, A. C., et al. (2021). HERV-K gag RNA and protein levels are elevated in malignant regions of the prostate in males with prostate cancer.病毒13(3),449年。doi: 10.3390 / v13030449

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Rishishwar, L。王,L。王,J。,Soojin, V. Y., Lachance, J., and Jordan, I. K. (2018). Evidence for positive selection on recent human transposable element insertions.基因675年,69 - 79。doi: 10.1016 / j.gene.2018.06.077

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

阮,J。,和Li, H. (2020). Fast and accurate long-read assembly with wtdbg2.Nat方法。17 (2),155 - 158。doi: 10.1038 / s41592 - 019 - 0669 - 3

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

桑坦德银行c G。Gambron, P。马奇E。,Karamitros, T., Katzourakis, A., and Magiorkinis, G. (2017). Steak: A specific tool for transposable elements and retrovirus detection in high-throughput sequencing data.病毒的另一个星球。3 (2),vex023。doi: 10.1093 / / vex023

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Santoni, f。Guerra, J。,和Luban, J. (2012). HERV-H RNA is abundant in human embryonic stem cells and a precise marker for pluripotency.Retrovirology9 (1),111 - 115。doi: 10.1186 / 1742-4690-9-111

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

施耐德,诉。,Graves-Lindsay, T., Howe, K., Bouk, N., Chen, H. C., Kitts, P. A., et al. (2017). Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly.基因组Res。27 (5),849 - 864。doi: 10.1101 / gr.213611.116

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

仓库保管员,J。,Hubley, R., Rosen, J., Wheeler, T. J., and Smit, A. F. (2021). The Dfam community resource of transposable element families, sequence models, and genome annotations.暴徒。DNA12 (1),2 - 14。doi: 10.1186 / s13100 - 020 - 00230 - y

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

萨勃拉曼尼亚,r . P。,Wildschutte, j . H。罗威,C。,和Coffin, J. M. (2011). Identification, characterization, and comparative genomic distribution of the HERV-K (HML-2) group of human endogenous retroviruses.Retrovirology8 (1),90。doi: 10.1186 / 1742-4690-8-90

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Teissandier,。仆人,N。,Barillot, E., and Bourc’his, D. (2019). Tools and best practices for retrotransposon analysis using high-throughput sequencing data.暴徒。DNA10 (1),52-12。doi: 10.1186 / s13100 - 019 - 0192 - 1

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

坦普尔,美国(2012年)。使用和理解RepeatMasker。摩尔。生物方法。859年,29岁。doi: 10.1007 / 978 - 1 - 61779 - 603 - 6 - _2

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Thung, d . T。,de Ligt, J., Vissers, L. E., Steehouwer, M., Kroon, M., de Vries, P., et al. (2014). Mobster: Accurate detection of mobile element insertions in next generation sequencing data.基因组医学杂志。488年5月15日(10)。doi: 10.1186 / s13059 - 014 - 0488 - x

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Troskie rl。Jafrani, Y。,Mercer, T. R., Ewing, A. D., Faulkner, G. J., and Cheetham, S. W. (2021). Long-read cDNA sequencing identifies functional pseudogenes in the human transcriptome.基因组医学杂志。221年,146 - 215。doi: 10.1186 / s13059 - 021 - 02369 - 0

CrossRef全文|谷歌学术搜索

王,Y-C。,Olson, N. D., Deikus, G., Shah, H., Wenger, A. M., Trow, J., et al. (2019). High-coverage, long-read sequencing of Han Chinese trio reference samples.科学。数据6 (1),91。doi: 10.1038 / s41597 - 019 - 0098 - 2

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Wildschutte, j . H。威廉姆斯,z . H。Montesion, M。,萨勃拉曼尼亚,r . P。基德,j . M。,和Coffin, J. M. (2016). Discovery of unfixed endogenous retrovirus insertions in diverse human populations.Proc。国家的。学会科学。113 (16),E2326-E2334。doi: 10.1073 / pnas.1602336113

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

天雪,B。,Sechi, L. A., and Kelvin, D. J. (2020). Human endogenous retrovirus K (HML-2) in health and disease.前面。Microbiol。11日,1690年。doi: 10.3389 / fmicb.2020.01690

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

天雪,B。,Zeng, T., Jia, L., Yang, D., Lin, S. L., Sechi, L. A., et al. (2020). Identification of the distribution of human endogenous retroviruses K (HML-2) by PCR-based target enrichment sequencing.Retrovirology17 (1),10 - 15。doi: 10.1186 / s12977 - 020 - 00519 - z

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

张,Y。李,T。,Preissl, S., Amaral, M. L., Grinstein, J. D., Farah, E. N., et al. (2019). Transcriptionally active HERV-H retrotransposons demarcate topologically associating domains in human pluripotent stem cells.Nat,麝猫。51 (9),1380 - 1388。doi: 10.1038 / s41588 - 019 - 0479 - 7

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:herv-k、基准、全基因组测序,逆转录病毒、生物信息学

引用:鲍尔斯H, Kabiljo R, Al Khleifat,琼斯,奎因JP,多布森RJB, Swanson厘米,Al-Chalabi Iacoangeli的生物信息学工具(2023)评估人类内源性逆转录病毒的检测在短内容插入基因组测序数据。前面。Bioinform。2:1062328。doi: 10.3389 / fbinf.2022.1062328

收到:2022年10月05;接受:2022年12月12日;
发表:2023年2月08年。

编辑:

理查德·艾伦怀特三世美国夏洛特,北卡罗莱纳大学

审核:

艾玛·费伊哈丁澳大利亚新南威尔士大学
罗伯特·詹姆斯·吉福德英国格拉斯哥大学
斯蒂芬·弗朗西斯加州大学,旧金山,美国

版权©2023·鲍尔斯、Kabiljo Al Khleifat琼斯,奎因,多布森,Swanson, Al-Chalabi Iacoangeli。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:阿尔弗雷多Iacoangeli,alfredo.iacoangeli@kcl.ac.uk

下载