代表细菌具有独特的基因签名gydF4y2Ba
- 孟菲斯大学计算机科学系,孟菲斯,TN、美国gydF4y2Ba
分类或识别细菌宏基因组样本在宏基因组数据的分析是一个重要的问题。这个任务可以计算昂贵,因为微生物群落通常包含成百上千的环境微生物物种。我们提出了一种新的方法用于表示细菌微生物群落利用基因组特征的细菌。对微生物群落,每个细菌的基因签名是独一无二的,细菌;他们不存在于社区的其他细菌。进一步,因为细菌的基因组特征远小于其基因组大小,该方法允许微生物群落的压缩表示。这种方法使用一个修改布隆过滤器存储短k-mers每个细菌都有其独特的散列值。我们表明,大多数细菌在许多微生物可以表示独特的使用提出了基因签名。这种方法铺平了道路向新方法分类细菌宏基因组样本。gydF4y2Ba
1。介绍gydF4y2Ba
宏基因组研究分析环境样品中包含的基因组。最近的宏基因组研究发现,在人类肠道微生物组成的知识显示某些疾病的复杂机制的人类健康(gydF4y2Ba待价而沽et al ., 2007gydF4y2Ba),比如糖尿病、抑郁症和风湿性关节炎。虽然失调已经被证明与胃肠道(gydF4y2BaEloe-Fadrosh Rasko, 2013gydF4y2Ba),它可以在任何暴露面或粘液膜,如皮肤或呼吸道系统。这种变化可以影响人类健康(gydF4y2Ba集市́ın et al ., 2014gydF4y2Ba)。一个挑战在宏基因组是由大而复杂的宏基因组数据的识别和分类细菌微生物群落由成千上万或更多环境微生物物种(gydF4y2BaTeeling Fo, 2012gydF4y2Ba;gydF4y2Ba夏普顿2014gydF4y2Ba)。许多方法已经被开发出来,包括对齐读取参考基因组分析分类学的有益的基因标记,聚类序列、基因组序列组装和使用基于k-mer方法。在任何方法,它需要一套参考基因组数据库或索引。在对齐方法中,metagenome序列(或读)从环境到参考基因组数据库保持一致。在基于k-mer方法中,创建一个索引的k-mers参考基因组,这个指数是用于识别或分析。虽然对齐方法已被证明是准确的,他们需要大量的时间和资源。有很多方法,介绍了利用基因标记或k-mer减少运行时间,同时实现精度高(gydF4y2BaLindgreen et al ., 2016gydF4y2Ba)。gydF4y2Ba
布隆过滤器是一种概率数据结构,提供了非常快的会员查询。这个有用的数据结构被用于多个应用程序在生物信息学和宏基因组。流式细胞仪(gydF4y2BaStranneheim et al ., 2010gydF4y2Ba)创建了一个为每个参考基因组和布隆过滤器插入所有k-mers过滤器。稍后查询,k-mer如果找到匹配,匹配分数计算,超过一个阈值被分类到参考基因组。BFCounter (gydF4y2BaMelsted和普里查德,2011gydF4y2Ba)介绍了布隆过滤器的应用程序计算k-mers效率。BioBloom工具(gydF4y2Ba楚et al ., 2014gydF4y2Ba)应用布隆过滤器创建一个基于过滤器sequence-screening工具声称超过BWA,领结2和流式细胞仪。另一个研究构建布鲁姆过滤器(gydF4y2Ba·赔了咯et al ., 2017gydF4y2Ba与单边k-mers),双面k-mers和稀疏k-mers数据结构提高了布隆过滤器的性能,这将是有用的在基因组组装,序列比较和序列搜索应用程序。序列开花树(gydF4y2Ba所罗门和沉重,2016年gydF4y2Ba布隆过滤器),另一个应用程序,是一个方法查询成千上万的短内容排序为表达亚型RNA-seq实验。这种方法可以搜索大量RNA-seq实验对于一个给定的成绩单数量级速度比现有的方法。gydF4y2Ba
现有的大部分工作使用一个布隆过滤器对于每个基因组,这可能不会有效地代表微生物或社区。在这项工作中,我们介绍一个方法,使用一个修改布隆过滤器存储独特的签名的细菌。因此,它可用于提供独特的微生物中的细菌的代表。我们还表明,该方法可用于检索在两个微生物物种。gydF4y2Ba
2。方法gydF4y2Ba
类似于其他现有分析方法,我们的方法包括两个程序。第一个过程构建一个gydF4y2Ba指数gydF4y2Ba基于所有可能存在的细菌的基因组在宏基因组样本。该指数商店独特的微生物组中的每个基因组的基因特征。一旦建立一个索引,它可以用来识别、分类或概要宏基因组样本。读入一个宏基因组样本,第二个程序,被称为gydF4y2Ba查询相gydF4y2Ba,使得每次读取一个查询来识别哪些细菌基因组可能来自阅读。gydF4y2Ba
2.1。设置会员决心与布鲁姆过滤器gydF4y2Ba
布隆过滤器是一种空间概率数据结构用于设置会员查询。从技术上讲,布隆过滤器是一种gydF4y2Ba米gydF4y2Ba位数组gydF4y2BaBgydF4y2Ba最初,这是零,一套在一起gydF4y2BangydF4y2Ba哈希函数。准备一个布隆过滤器标识元素的宇宙元素,每个元素gydF4y2BaxgydF4y2Ba我gydF4y2Ba是散列来获得gydF4y2BangydF4y2Ba散列值gydF4y2BahgydF4y2Ba1gydF4y2Ba(gydF4y2BaxgydF4y2Ba我gydF4y2Ba)、⋯gydF4y2BahgydF4y2BangydF4y2Ba(gydF4y2BaxgydF4y2Ba我gydF4y2Ba)。每个条目gydF4y2BaBgydF4y2Ba(gydF4y2BahgydF4y2BajgydF4y2Ba(gydF4y2BaxgydF4y2Ba我gydF4y2Ba)被设置为1。gydF4y2Ba
检查是否一个项目gydF4y2BaygydF4y2Ba存在于gydF4y2BaBgydF4y2Ba,gydF4y2BangydF4y2Ba散列值gydF4y2BahgydF4y2Ba1gydF4y2Ba(gydF4y2BaygydF4y2Ba)、⋯gydF4y2BahgydF4y2BangydF4y2Ba(gydF4y2BaygydF4y2Ba)计算。如果所有的值是1,查询的答案是正确的。如果不是,它是假的。gydF4y2Ba
在会员查询,布隆过滤器不假阴性。查询一个元素在宇宙中,存储在过滤器,总是正确地返回True。然而,假阳性可能发生。由于只是所有散列条目设置为1的本质在滤波器构建阶段,可能查询的一个元素gydF4y2BazgydF4y2Ba这并不是存储在过滤器实际上返回True。众所周知,误报的概率降到最低,哈希函数的最优数量gydF4y2Ba,在那里gydF4y2BabgydF4y2Ba的大小(位数)过滤器,然后呢gydF4y2Ba米gydF4y2Ba是存储在过滤器的元素数量(gydF4y2Ba布鲁姆1970gydF4y2Ba)。gydF4y2Ba
2.2。发现k-mers genome-unique散列值gydF4y2Ba
给定一组引用的可能存在的细菌的基因组的基因变体的环境利益,一个索引,gydF4y2BaFgydF4y2Ba,这是一个修改布隆过滤器,是建立存储每个基因组的独特基因签名。gydF4y2Ba
该指数,gydF4y2BaFgydF4y2Ba,是一个数组gydF4y2Ba米gydF4y2Ba条目。在参考基因组的处理,从这些基因组k-mers散列gydF4y2BaFgydF4y2Ba使用gydF4y2BangydF4y2Ba随机生成的哈希函数。一个k-mergydF4y2BaxgydF4y2Ba散列到gydF4y2BangydF4y2Ba条目gydF4y2BahgydF4y2Ba1gydF4y2Ba(gydF4y2BaxgydF4y2Ba)、⋯gydF4y2BahgydF4y2BangydF4y2Ba(gydF4y2BaxgydF4y2Ba)gydF4y2BaFgydF4y2Ba。毕竟处理参考基因组,一个条目gydF4y2BaFgydF4y2Ba与一个积极的价值gydF4y2BaggydF4y2Ba对应于一个k-mer的散列值是独一无二的基因组gydF4y2BaggydF4y2Ba。这允许gydF4y2BaFgydF4y2Ba使用方式类似的布隆过滤器来检测基因组中宏基因组样本。的建设gydF4y2BaFgydF4y2Ba包含两个主要阶段。在每个阶段,所有基因组顺序处理gydF4y2Ba算法1gydF4y2Ba。在这两个阶段,gydF4y2Ba算法1gydF4y2Ba共享一个共同的目标:它试图k-mers认同特有的基因组的散列值。它通过每个基因组的k-mer和标记gydF4y2BangydF4y2Ba位置(由gydF4y2BangydF4y2Ba散列值)与脏或基因组id。位置是脏(设置为1)如果两个k-mers在两个不同的基因组会散列。如果位置不是脏,它存储着一些基因组的id。如果一个k-mergydF4y2BaxgydF4y2Ba的基因组gydF4y2BaggydF4y2Ba1gydF4y2Ba散列一个条目,拥有另一个基因组的id,说什么gydF4y2BaggydF4y2Ba2gydF4y2Ba,那gydF4y2BaxgydF4y2Ba不是独一无二的,所有条目吗gydF4y2BahgydF4y2Ba1gydF4y2Ba(gydF4y2BaxgydF4y2Ba)、⋯gydF4y2BahgydF4y2BangydF4y2Ba(gydF4y2BaxgydF4y2Ba)gydF4y2BaFgydF4y2Ba将脏。如果gydF4y2BaxgydF4y2Ba被认为是独一无二的,基因组id存储在所有这些条目。假设第一阶段后,基因组gydF4y2BaggydF4y2Ba1gydF4y2Ba⋯,gydF4y2BaggydF4y2BalgydF4y2Ba在此订单处理顺序。条目gydF4y2BaFgydF4y2Ba与价值观gydF4y2BaggydF4y2Ba1gydF4y2Ba可能不对应k-mers具有独特的散列值。看到这,假设k-mergydF4y2BaxgydF4y2Ba出现在两个gydF4y2BaggydF4y2Ba1gydF4y2Ba,k-mergydF4y2BaygydF4y2Ba出现在gydF4y2BaggydF4y2Ba2gydF4y2Ba的散列值gydF4y2BaxgydF4y2Ba和gydF4y2BaygydF4y2Ba都是一样的。因为gydF4y2BaggydF4y2Ba2gydF4y2Ba处理后gydF4y2BaggydF4y2Ba1gydF4y2Ba,所有的条目对应的散列值gydF4y2BaygydF4y2Ba将脏,但并非所有的条目对应的散列值吗gydF4y2BaxgydF4y2Ba将脏。gydF4y2Ba
算法1gydF4y2Ba。ProcessGenome (gydF4y2BaFgydF4y2Ba,gydF4y2BagidgydF4y2Ba,gydF4y2Ba阶段gydF4y2Ba)。gydF4y2Ba
然而,它是重要的理解,第一阶段后,条目gydF4y2BaFgydF4y2Ba与价值观gydF4y2BaggydF4y2BalgydF4y2Ba实际上对应于基因组k-mers吗gydF4y2BaggydF4y2BalgydF4y2Ba以散列值独特的基因组。自gydF4y2BaggydF4y2BalgydF4y2Ba处理,如果一个条目在吗gydF4y2BaFgydF4y2Ba是有价值的gydF4y2BaggydF4y2BalgydF4y2Ba,这意味着一些k-mergydF4y2BaggydF4y2BalgydF4y2Ba散列值,不与任何其他基因组k-mer相撞,已经处理。因此,这种k-mer散列值是独一无二的;没有其他k-mer其他基因组股其中一个散列值。因此,当处理一个基因组gydF4y2Ba算法1gydF4y2Ba毕竟其他基因组已经被处理,所有基因组k-mers具有独特的散列值的正确标记gydF4y2BaFgydF4y2Ba。这意味着在第二阶段后,当所有基因组再次处理gydF4y2Ba算法1gydF4y2Ba,所有k-mers具有独特的散列值在所有基因组将正确的标记gydF4y2BaFgydF4y2Ba。gydF4y2Ba
2.3。查询阶段:读取处理gydF4y2Ba
由于读取从宏基因组样本,主要任务是识别哪些细菌存在于样品。这可以归结为处理读取和决定哪些他们最有可能属于细菌基因组。尽管所有现有的方法我们都知道过程中的所有读取宏基因组样本,该方法过程足够读细菌基因组的一小部分。这通常会选择一个小的随机读取样品进行处理。gydF4y2Ba
如果一个处理阅读属于一个基因组gydF4y2BaggydF4y2Ba还包含一个k-mergydF4y2BaxgydF4y2Ba具有独特的散列值存储在gydF4y2BaFgydF4y2Ba很有可能,会标明正确的性质属于阅读gydF4y2BaggydF4y2Ba。如果k-mer读不认可gydF4y2BaxgydF4y2Ba有一个测序错误或基因变异。可能发生基因变异,因为样品中细菌的基因组可能不是相同的参考基因组的细菌用于创建gydF4y2BaFgydF4y2Ba。gydF4y2Ba
处理读不属于基因组gydF4y2BaggydF4y2Ba也可能错误地识别属于gydF4y2BaggydF4y2Ba如果它有一个测序错误或基因变异导致k-mer与散列值(s)碰撞的k-mers之一gydF4y2BaggydF4y2Ba存储在gydF4y2BaFgydF4y2Ba。gydF4y2Ba
给定一个读要处理,所有k-mers传入k-mer处理对其进行分类gydF4y2BaggydF4y2Ba我gydF4y2Ba。让gydF4y2BaVgydF4y2Ba被分类的集合gydF4y2BaggydF4y2Ba我gydF4y2Ba的所有k-mers阅读。如果gydF4y2BaVgydF4y2Ba只包含0或1,然后读就会被丢弃。然而,如果gydF4y2BaVgydF4y2Ba包括积极的价值观,即。,genome ids, then one of three different strategies can be used to determine which genome the read belongs to.
2.3.1。多数gydF4y2Ba
如果有一个正数,gydF4y2BaggydF4y2Ba,在gydF4y2BaVgydF4y2Ba频率大于50%gydF4y2BaggydF4y2Ba预计的基因组包含阅读。如果没有这样的号码,那么读就会被丢弃。这种策略是有效的在大量的测序错误和/或基因变异。在这种情况下,读的k-mer可以被误认为是一个独特的k-mer不同的细菌。但是如果没有太多这样的错误,大部分积极识别可以识别正确的基因组。gydF4y2Ba
2.3.2。第一次走进gydF4y2Ba
K-mers按顺序处理。当第一个k-mer有积极的散列值,gydF4y2BaggydF4y2Ba,遇到,没有额外的k-mers处理。gydF4y2BaggydF4y2Ba预计的基因组包含阅读。这种策略是k-mers存储时有效gydF4y2BaFgydF4y2Ba非常独特的这第一个打击是最有可能正确。gydF4y2Ba
2.3.3。One-or-nothinggydF4y2Ba
如果gydF4y2BaVgydF4y2Ba只有一个积极的价值,gydF4y2BaggydF4y2Ba,然后gydF4y2BaggydF4y2Ba预计的基因组包含阅读。如果情况不是这样,阅读就会被丢弃。这种策略是高度保守的。如果有分歧,也就是说。,two genomes identified by different k-mers of the reads, the read is discarded from consideration.
图1gydF4y2Ba给出一个示例对每个策略分类阅读参考基因组。gydF4y2Ba
为了优化查询的运行时间阶段,读取分布到不同的处理器进行处理。gydF4y2Ba
3所示。结果gydF4y2Ba
3.1。实验装置gydF4y2Ba
评估性能的方法,我们使用两个微生物群落,分别与参考基因组包括457年和2850年。第一个社区457参考基因组,名为S1,结合三个基因组所使用gydF4y2Ba曼德et al。(2012)gydF4y2Ba在研究宏基因组组装。创建一组参考基因组,我们这三个基因组提取加入数据读入。这个信息让我们从NCBI检索参考基因组的细菌,读取的。第二个社区,名为S2,包括基因组用于卡米挑战(gydF4y2BaSczyrba et al ., 2017gydF4y2Ba)。gydF4y2Ba
首先,我们展示一些统计每个参考基因组的索引集。第二,我们在不同的查询策略比较结果。最后,我们也显示不同的索引在使用不同数量的哈希函数。gydF4y2Ba
3.2。使用独特的签名代表细菌gydF4y2Ba
我们现在报告两种微生物群落可以用独特的基因签名。第一组的细菌基因组S1,我们使用两个哈希函数,k-mer 31长度和索引的大小是8 gb。索引是建立在两个阶段。所有457个基因组有独特的签名。签名的总数是248758006。最小数量的独特的独特的签名签名是152,最大数量是1720014。gydF4y2Ba
作为哈希函数用于建立索引越多,越散列值计算为每个k-mer越独特。但这也会减少的数量为每个基因组k-mers具有独特的散列值。虽然大的基因组有足够数量的k-mers独特的散列值,较小的基因组k-mers只有几个这样的独一无二的。对于这组细菌基因组S2,我们构建两个索引k-mer大小和索引大小相同,只有不同的哈希函数的数量比较对查询性能的影响在不同数量的哈希函数用于构建索引。索引是建立在1阶段。所有的基因组有独特的签名。gydF4y2Ba表1gydF4y2Ba显示总、最小和最大数量的每个索引的签名。我们发现3-hash-function指数比2-hash-function指数有更少的签名。这可能是因为更多的散列值计算,有更大的几率在碰撞散列值。gydF4y2Ba图2gydF4y2Ba显示每个基因组的分布数量的独特的签名在基因组S2的哈希函数的变化在构建指数集S2。gydF4y2Ba
3.3。查询gydF4y2Ba
为了评估我们两个索引的检索功能,查询我们下载两个模拟样品。我们用10种数据集gydF4y2Ba曼德et al。(2012)gydF4y2Ba由基因组读取从10基因组在S1和RH_S001数据集gydF4y2BaSczyrba et al。(2017)gydF4y2Ba包括302个基因组从S2。我们将把这些数据集称为10物种和RH_S001在随后的讨论。读取来自10个物种和RH_S001 paired-end模拟Illumina公司测序技术特性的长度为75和150个基点,分别。10种数据集是用于查询细菌在S1, S2的查询RH_S001。gydF4y2Ba
性能测量的精度、召回和F1-score预测过程的准确性。精确计算正确查询细菌的数量除以总数量的预测细菌。回忆是正确查询细菌的数量除以实际存在于样品的细菌总数。F1-score调和平均数的精度和召回。gydF4y2Ba
指数的10种示例查询集合S1使用多数策略。我们可以查询所有10个物种,导致召回的100%。然而,有许多不正确的查询,这将导致低精度为2.6%。F1-score是5%。我们也评估不同的查询策略的性能。如前所述,大多数查询策略着眼于所有k-mers和接基因组显示在所有k-mers至少50%。one-or-nothing查询策略选择一个基因组只有唯一一所有k-mers基因组预测的阅读。首次突破策略选择的第一个基因组预测的一些k-mer阅读。每个这些策略都有自己的优点和缺点。和最合适的策略取决于数据集。gydF4y2Ba表2gydF4y2Ba显示了三种查询的性能结果的策略。gydF4y2Ba
我们发现三个查询策略的性能是非常相似的。多数和首次突破策略精度较低,但高于one-or-nothing的回忆。One-or-nothing,通过设计,更保守,因此,应该有更少的假阳性,精度高于其他两个策略。gydF4y2Ba
RH_S001示例查询的索引设置S2使用大多数策略。有162的302个基因组正确预测。只有5基因组在示例中失踪,可能已经测序错误读取其他基因组导致错误的预测。另一个原因是,没有阅读的独特的签名在索引中。这导致26%的精度,召回97%和F1-score是41%。gydF4y2Ba
表3gydF4y2Ba显示了对查询性能的影响在两个或三个哈希函数用于构建索引。我们发现,使用两个哈希函数构建索引导致稍微比使用3哈希函数更好的整体性能。虽然召回率相似,精确率高2使用哈希函数。在这个实验中,我们使用了多数策略,和有更多的签名可以用作这个查询策略以减少假阳性,这提高了精度。gydF4y2Ba
4所示。讨论gydF4y2Ba
我们引入了一个代表细菌微生物群落的独特方法。我们表明,我们的方法可以用来查询读取宏基因组样本。方法有效地代表细菌微生物群落将用于后处理为了有一个准确的鉴定细菌,这就需要更多的分析以及数据解释查询输出。由于微生物和健康之间的密切关系,提高细菌鉴定的准确性将有助于使宏基因组分析更有意义在理解人类微生物组在健康和疾病。有房间找到参数,可以提高查询的性能阶段。同时,额外的改进可以在未来确定不同条件下这些选择更适当。gydF4y2Ba
与大多数其他基于k-mer方法类似,当数据库包含成千上万的参考基因组,是具有挑战性的方法获得独特的签名对于某些基因,特别是基因组很小。然而,这种方法可以为微生物有前途不太大,例如,皮肤、口腔、肠道微生物组。gydF4y2Ba
数据可用性声明gydF4y2Ba
公开的数据集进行分析。这些数据可以发现:illumina公司10种gydF4y2Bahttp://www.bork.embl.de/曼德/ simulated_data /gydF4y2Ba;高复杂性示例1gydF4y2Bahttps://edwards.flinders.edu.au/cami-challenge-datasets/gydF4y2Ba。gydF4y2Ba
作者的贡献gydF4y2Ba
D-TP和副设计的方法和实验,写论文。D-TP写代码,下载数据,运行实验。两位作者的文章和批准提交的版本。gydF4y2Ba
的利益冲突gydF4y2Ba
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2Ba
出版商的注意gydF4y2Ba
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。gydF4y2Ba
引用gydF4y2Ba
绽放,b . h (1970)。空间/时间的权衡与许用哈希编码错误。gydF4y2BaCommun。ACMgydF4y2Ba。13日,422 - 426。doi: 10.1145/362686.362692gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
楚,J。,Sadeghi, S., Raymond, A., Jackman, S. D., Nip, K. M., Mar, R., et al. (2014). Biobloom tools: fast, accurate and memory-efficient host species sequence screening using bloom filters.生物信息学gydF4y2Ba3402 - 3404年。doi: 10.1093 /生物信息学/ btu558gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Eloe-Fadrosh,大肠。,和Rasko, D. A. (2013). The human microbiome: from symbiosis to pathogenesis.为基础。启地中海gydF4y2Ba。64年,145年。doi: 10.1146 / annurev -地中海- 010312 - 133513gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
待价而沽,J。Tiedje, J。,Alvarez-Cohen, L., Ashburner, M., Cann, I., Delong, E., et al. (2007). “The new science of metagenomics: Revealing the secrets of our microbial planet,” in国家研究委员会(美国)委员会宏基因组:挑战和功能的应用程序gydF4y2Ba(华盛顿特区:美国国家科学院出版社)。gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Lindgreen, S。阿黛尔,K。,和Gardner, P. (2016). An evaluation of the accuracy and speed of metagenome analysis tools.科学。代表gydF4y2Ba。6、19233。doi: 10.1038 / srep19233gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
马丁,R。,米我quel, S., Langella, P., and Bermúdez-Humarán, L. G. (2014). The role of metagenomics in understanding the human microbiome in health and disease.毒性gydF4y2Ba5,413 - 423。doi: 10.4161 / viru.27864gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Melsted, P。,和Pritchard, J. K. (2011). Efficient counting of k-mers in dna sequences using a bloom filter.BMC BioinformgydF4y2Ba。12、1 - 7。doi: 10.1186 / 1471-2105-12-333gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
门迪人,d R。,Waller, A. S., Sunagawa, S., Järvelin, A. I., Chan, M. M., Arumugam, M., et al. (2012). Assessment of metagenomic assembly using simulated next generation sequencing data.《公共科学图书馆•综合》gydF4y2Ba7,e31386。doi: 10.1371 / journal.pone.0031386gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
·赔了咯,D。,F我l我ppova, D., and Kingsford, C. (2017). Improving bloom filter performance on sequence data using k-mer bloom filters.j .计算。医学杂志gydF4y2Ba。24岁,547 - 557。doi: 10.1089 / cmb.2016.0155gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Sczyrba,。,Hofmann, P., Belmann, P., Koslicki, D., Janssen, S., Dröge, J., et al. (2017). Critical assessment of metagenome interpretation–a benchmark of metagenomics software.Nat方法。gydF4y2Ba14日,1063 - 1071。doi: 10.1038 / nmeth.4458gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
夏普顿,t (2014)。介绍了猎枪宏基因组数据的分析。gydF4y2Ba前面。植物科学gydF4y2Ba。5,209。doi: 10.3389 / fpls.2014.00209gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
所罗门,B。,和Kingsford, C. (2016). Fast search of thousands of short-read sequencing experiments.Nat。gydF4y2Ba。34岁,300 - 302。doi: 10.1038 / nbt.3442gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Stranneheim, H。粗铁,M。,Allander, T., Andersson, B., Arvestad, L., and Lundeberg, J. (2010). Classification of dna sequences using bloom filters.生物信息学gydF4y2Ba26日,1595 - 1600。doi: 10.1093 /生物信息学/ btq230gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
Teeling, H。,和Fo, G. (2012). Current opportunities and challenges in microbial metagenome analysis-a bioinformatic perspective.简短。BioinformgydF4y2Ba。13日,728 - 742。doi: 10.1093 /龙头/ bbs039gydF4y2Ba
《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba
关键词:gydF4y2Ba宏基因组,布隆过滤器、细菌检测、门店分析k-mersgydF4y2Ba
引用:gydF4y2Ba范教授蒸和表象V代表细菌具有独特的基因签名(2022)。gydF4y2Ba前面。大数据gydF4y2Ba5:1018356。doi: 10.3389 / fdata.2022.1018356gydF4y2Ba
收到:gydF4y2Ba2022年8月13日;gydF4y2Ba接受:gydF4y2Ba2022年10月31日;gydF4y2Ba
发表:gydF4y2Ba2022年11月16日。gydF4y2Ba
编辑:gydF4y2Ba
Prashanti曼达岛gydF4y2Ba北卡罗莱纳大学格林斯博罗,美国gydF4y2Ba版权gydF4y2Ba©2022范教授和表象。这是一个开放分布式根据文章gydF4y2Ba知识共享归属许可(CC)gydF4y2Ba。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。gydF4y2Ba
*通信:gydF4y2BaVinhthuy表象,gydF4y2Bavphan@memphis.edugydF4y2Ba