信息检索使用机器学习生物标志物Exposome-Explorer帘
- 1LASIGE, Departamento de Informatica Faculdade de Ciencias葡京大学,葡萄牙里斯本
- 2国际癌症研究机构,法国里昂
摘要目的:2016年,国际癌症研究机构,世界卫生组织的一部分,释放了Exposome-Explorer,第一个数据库致力于环境疾病危险因素的暴露的生物标志物。数据库内容是手工文献检索了8500多个引用,但只有一小部分的出版物都是用于最终的数据库。手动管理费时,需要专业领域数据库收集相关数据分散在数以百万计的文章。这项工作提出了一个监督机器学习管道协助手工文献检索过程。
方法:科学出版物中使用的手工检索语料库Exposome-Explorer被用作训练集和测试集的机器学习模型(分类)。几个参数和算法进行评估来预测文章的相关性基于不同数据集的标题、摘要和元数据。
结果:顶部的性能分类器建立了逻辑回归算法使用标题和摘要集,实现F2-score 70.1%。此外,我们从这些文章中提取1143实体与生物标志物实体识别的分类器训练。这些,我们手动验证45新候选人数据库条目。
结论:我们的方法降低了文章的数量由数据库管理员手动筛选了近90%,而只有分类22.1%的相关文章。我们预计,这种方法也可以应用于类似的生物标记的数据集或适合于协助人工管理过程相似的化学或疾病数据库。
1介绍
体内生物标志物生物参数客观测量指标的正常生理条件下,环保的生活方式,病理条件下,或治疗反应(Strimbu塔维尔酒,2010)。它们可以被化学物质、代谢产物、酶或其他生化物质,同类产品之间的交互的化合物和目标分子或细胞类型。描述生物标志物和可能的生物结果之间的关系是至关重要的正确预测临床反应,屏幕监视和诊断在临床试验中患者和提高效率。生物标志物在风险评估发挥重要作用,因为他们允许一个识别危险和将反应与疾病或暴露的概率结果。
接触生物标志物是一个特定类型的生物标志物,反映了个体的暴露环境因素(如饮食、污染物或传染性病原体)会影响疾病的病因。化合物可以通过吸收进入生物接触,吸入或摄入然后要么是代谢,存储或取消。这种接触可以发现通过分析biospecimens,如血液或尿液,或通过测量浓度和描述外源性物质,其代谢产物或其产品与目标分子的交互。
Exposomics研究的全部暴露特定个人的一生,从组学的角度来看。近年来,一些研究主要集中在研究exposome,因为这个新的模式生物医学信息学(马丁·桑切斯et al ., 2014)。例如,Kiossoglou et al。(2017)提出一个基于词频统计方法分析exposome研究和本体概念。他们应用方法的一组261摘要,和确定术语、概念和本体描述当前人类exposome知识。Lopez-Campos et al。(2019)扩展这种方法更多的文档,翻了一倍,发现exposomics研究和文学两年(2016 - 2018),和确定相关的本体。
Exposome-Explorer是第一个数据库致力于生物标志物的暴露在2016年发布的环境风险因素疾病(内沃et al ., 2016更新)和2020年(内沃et al ., 2020国际癌症研究机构)为基础,世界卫生组织的一部分。Exposome-Explorer是一个高度策划资源exposomics领域由经验丰富的研究人员。数据库内容是手工文献检索了8500多个引用,但只有一小部分的出版物都是用于最终的数据库。手动管理费时,需要专业领域数据库收集相关数据分散在数以百万计的文章。这项工作提出了一个监督机器学习管道,基于现有的培训管理工作要用新信息更新资源使用文献检索机制和人工管理。
收集相关的数据分散在数以百万计的文章从文本存储库是一项非常耗时的任务需要专业人员手工检索和文章中的注释相关的信息。保持生物数据库更新新的论文被释放,以及收集新数据,同样具有挑战性的和费时。这样的任务将会从中受益与文本挖掘工具辅助。据我们所知,没有信息检索(IR)解决方案协助文献关于接触生物标志物筛选使用机器学习。
研究已进行了改善IR使用机器学习任务或执行实体识别(ER)和信息提取(IE)在生物标记数据。然而,没有一个想法的方法适用于暴露的生物标志物。阿尔梅达et al。(2014)开发了一个机器学习系统支持生物人工管理文学的第一个任务的过程,称为分类,包括识别很少有关文件在一组更大的文件。他们正在寻找相关的文章特点lignocellulose-active真菌来源的蛋白质牧师mycoCLAP数据库(摩根et al ., 2015)。他们比较各种分类模型的性能,通过实验数据集采样因素和一组特性,以及三个不同的机器学习算法(朴素贝叶斯、支持向量机和物流模型树)。最合适的模型来进行文本分类抽象使用域相关特性,从PubMed得到一个under-sampling技术和物流模型树算法,相应F-measure 0.575。杠杆et al。(2019)使用监督学习方法来开发一个IE-based方法提取句子包含相关关系涉及生物标志物PubMed抽象和PubMed中央开放获取全文论文。通过这种方法,他们建造CIViCmine知识库,包含超过90992个生物标记与基因有关,药物和癌症。他们的目标是减少手动牧师数据库所需的时间,如癌症的临床解释变异(公民)知识库(格里菲斯et al ., 2017),方便社区管理员,编辑,与内容作出贡献。
以下之前的方法,这项工作旨在减少时间,精力和资源保证Exposome-Explorer数据库更新新发表的文章,通过使用一个监督机器学习方法来自动分类相关的出版物和自动识别候选生物标记物是由策展人。策展人的数据库的方法包括在发展中搜索查询来检索相关的出版物,然后手动分析每一个。然而,出版物的数量仍然太大屏幕手动检索每个其中之一。这项工作提出了一个系统,可以在Github (https://github.com/lasigeBioTM/BLiR),进一步缩小文献保存重要信息暴露的生物标志物。现有的手动策划数据用于开发Exposome-Explorer数据库被用来训练和测试模型(分类)。我们还提供文章分类的语料库系统相关的,随着生物标记自动注释这些文章的摘要。当给定一个新的出版物,这些分类器可以预测这个出版物是否数据库和相关注释候选标志物在提到文档。
2方法
2.1 Exposome-Explorer数据集
这项工作是使用数据用于建立和发展Exposome-Explorer,其中包括:
−查询用于搜索引用信息科学饮食和污染物生物标记在Web(我们),提供额外的数据;
−我们搜索结果基于前面的查询,与8575年引用用于手动屏幕包含生物标志物的相关文章信息;
−480出版物用于提取生物信息数据库。
图1显示了我们的管道的一般工作流程。在这种情况下,我们可以从第一个版本的数据库,如Exposome-Explorer的情况。用于开发数据库的文档可以用来训练分类器能够预测其他相关文件,而条目名称可用于培训实体识别分类器预测新的候选条目。
2.2数据收集
所有480出版物列出的数据库将用于牧师从我们8575年的引文检索。然而,只有396人在场:84年的出版物缺席我们数据库查询结果另外标识的注释而筛选文献相关的文章。这84篇科学论文被排除在数据集用于构建模型,因为我们不能复制原工作流如果我们包括他们。
这个数据库的主要目的是收集信息关于人类biospecimens生物标记的值在不同浓度和关联值之间的膳食摄入量和生物标志物浓度。因此,论文使用牧师数据库反映这个标准。版本的数据库中用于此数据集,查询的搜索结果与饮食相关生物标志物探索更详尽,因此提供更加一致的标签。策展人添加的出版物,提到生物标志物之间的相关性测量和食物或饮食化合物摄入量,因此建立一个更定义类型的相关文章。因为这个原因我们只考虑一个场景:论文与饮食相关的生物标志物,和所有类型的文件被认为是。
上面列出的,现有的数据集是缺少一些功能,我们想探索构建模型,如引用次数和PubMed ID。出于这个原因,PubMed被用来提取标题、摘要和元数据(出版日期、作者的名字,这篇文章被引用的次数和期刊名称)。PMIDs PubMed搜索和检索的标题、摘要和元数据进行了E-utilities,一个公共API可以在NCBI Entrez系统。一些出版物被发现通过DOI PMID (PubMed ID)转换器和其他人通过结合搜索标题和第一作者的名字。由此产生的语料库的文章由7083年的出版物。
2.3数据预处理
检索标题后,抽象和元数据对于每一篇文章,有必要准备的文本数据作为输入使用机器学习模型(分类)。这个任务包括:
1。标签分配给每一篇文章:监督式学习的方法被用来构建分类器,这意味着每一篇文章(文档)有一个已知的类分配给它。标签每一篇文章,396篇文章的列表用于牧师数据库相互参照语料库与7083年的出版物。如果他们出现在396年名单数据库的文章,他们被认为是相关和分配标签1。如果他们不在列表中,因为他们不是用于提取生物标记的信息,他们被认为是无关紧要的,因此分配标签0;
2。文本预处理和标记:文本分为单词(令牌)。所有单词相同的根被减少到一个常见(阻止)和停止所有的话都删除。令牌是小写,然后组合成字格,一个连续的序列n项目从一个给定的文本或语音样本。例如,对于n= 2,从句子”的特性硫氰酸确定血清水平”,被合并成三个字格:“determin thiocyan”、“thiocyan血清”和“血清水平;“
3所示。文本数据转换成数字数据:机器学习模型预计数值数据作为输入。然而,标题、摘要和元数据以文本格式。为此,每个不同的令牌出现在文档映射到一个数字标识符,和数字是指令牌,而不是令牌本身;
4所示。构建矩阵:每个特性代表了一列和每个文档表示矩阵的一行。根据所选择的类型的矩阵,这个矩阵包含语法项(每学期发生在每个文档的次数)或TFIDF(术语frequency-inverse文档频率)特性(语法是多么重要文档在文档的集合)。添加了一个额外的列的训练和测试数据,与相应的标签。分类器的目标是预测这一列在应用到一个新的数据。
每篇文章的元数据处理略有不同的标题和摘要。因为它已经数值属性(出版日期和数量的引用),两列的矩阵成立致力于这些特性,而不是每年一列和引文的数量。作者的名字被加入到一个单一的词(华莱士RB→WallaceRB),组合成字格也经历了遏制和停止词删除阶段。《华尔街日报》的名字没有特别的预处理。
阻止了使用类SnowballStemmer nltk的模块。NLTK包茎(洛佩尔和鸟,2002)。步骤(2)、(3)和(4)使用Scikit-learn (Pedregosa et al ., 2011)类CountVectorizer sklearn和TfidfVectorizer模块。feature_extraction.text。两个类之间的主要区别是,首先将原始文本文档的集合转换为矩阵的令牌数和最后一个的矩阵TFIDF特性。三种不同的组合参数测试数据进行预处理,从而导致不同的矩阵用于构建分类器,因此,不同的结果。测试的参数有:
−ngram_range (min_n max_n): n为不同字格的上下边界提取。测试值范围n= {1},n= {1,2}n= {1,3};
−min_df:忽略所有- gram文档频率低于给定的阈值。如果min_df = 2,那么术语只出现在一篇文章中(文件)将被忽略。min_df范围从2到23日的值取决于n的值用于ngram_range参数([1 +n−克21 +n−克]);
−类型的矩阵,矩阵的令牌数或TFIDF特性。
最后,我们70%的数据集分为训练集和测试集的30%,同时保持同样比例的积极的和消极的两类的子集。火车被用来优化参数设置通过10倍交叉验证(CV)和测试集伸出被用来获得结果数据。
2.4机器学习模型
红外的目标任务是减少屏幕的文章所需的时间,通过缩小文献提供给一组出版物提供可靠的信息资源,在这个特定的例子中,有关暴露的生物标志物。因此,在这种情况下,我们可以模拟红外任务分类的任务,我们必须决定是否相关文档。
2.4.1构建分类器
机器学习模型,也称为分类器,分别训练和测试使用标题、摘要、标题+摘要和标题+元数据,来评估这部分的文章更适合预测其相关性。我们研究了标题和元数据的结合,因为我们的初步结果表明,元数据本身不会获得合理的结果。然而,这些初步结果还表示,结合抽象与元数据将导致比仅使用抽象的平等或更糟的结果。出于这个原因,我们没有探索相结合的选择与元数据抽象,或结合这三个。
六个机器学习算法进行了探讨:
•决策树(利润率et al ., 1998分数):特性分支代表条件应用到每个实例;
•逻辑回归(沃克和邓肯,1967):学习一个逻辑函数执行二进制分类;
•朴素贝叶斯(张,2004):假设的独立性特征和概率模型用于确定最可能的标签为每个实例;
•神经网络Rumelhart et al ., 1986):该算法可以学习非线性函数通过引入隐藏层之间的输入特性和输出标签;
•随机森林(Breiman 2001):结合各种树估计训练样本训练数据;
•支持向量机议会和Vapnik, 1995):数据表示为点在一个超平面和之间的划分算法试图建立一个明显的实例相同的标签。
Scikit-learn包是用来运行这些算法。大部分的参数用于每个算法都是默认的,然而,少数的改变来更好的适应数据(class_weight,解算器,内核,γ,引导,n_estimators),其他的性能最大化模型(C,α,max_depth min_samples_leaf),和一个保证确定性行为在拟合(random_state)。参数的值改变最大化模型的性能被发现通过网格搜索简历在火车上设置与10倍。表1总结了Scikit-learn功能使用和每个算法的参数改变。
2.4.2整体学习
当测试不同分类器使用抽象,标题,标题+抽象或标题+元数据集,预测每个模型使得某些文章可能有所不同。标题+元数据模型可以正确识别出版是相关的,而抽象模型未能这样做。出于这个原因,我们探索的各个分类器了解如果我们能检索更相关的出版物。
我们使用两种合奏的方法加入多个模型的结果。第一个是装袋,相同的算法用于训练分类器随机训练数据的子集,然后结果结合(Breiman 1996)。第二是叠加,由多个分类器在训练和使用它们的输出训练最后一个模型预测类(沃伯特,1992)。通过这种方法,可以指定每一个一级分类器,以及最终的分类器。因此,我们使用所有前面提到的算法作为一级分类器,然后试着他们每个人最终的估计量。装袋的方式,我们也试着前面提到的每一个算法。在这两种情况下,我们使用中指定的参数表1使用Scikit-learn实现和BaggingClassifier和StackingClassifier类的默认参数。
2.5绩效评估
在数据预处理任务中,标签是给每一篇文章:0无关(消极的)和一个相关的(积极的)。这些标签被认为是标准和代表的实际类出版物。
在文档分类任务中,所有分类器建立优化使用Scikit-learn简历函数(sklearn.model_selection.cross_validate)。这个模型优化技术提供了更准确的估计模型的性能,因为它评估模型将如何执行在看不见的数据。此外,我们选择了一个测试集来评估参数优化后的模型。
简历函数的参数决定了有多少组数据将被分成。在这项工作中,简历= 10,这意味着数据分为10组,每一个使用9倍一次训练集和测试集。十个不同模型建成使用相同的参数,不同的训练集。每次训练模型应用于测试数据,它生成一个向量与预测类的文档。通过比较测试的预测的黄金标准,可以单独的文件分为四大类:
−真阳性(TP):文档正确地贴上积极;
−假阳性(FP):文档不正确地贴上积极;
−真正底片(TN):文档正确地贴上消极;
−假阴性(FN):文档不正确地贴上消极。
这种分类允许计算精度和召回,两个常用指标评估工具的性能通过测量结果质量的相关性。精确的比例(P)是真正的阳性项目所有项目系统贴上积极。回忆(R)是真正的阳性项目所有项目的比例,应该被贴上积极。
F1-score是0和1之间,结合测量精度和召回。高值的指标表明,系统的大部分商品分类正确的类别,因此在低数量的FP和FN。
此外,我们还考虑F1-score的变体,F2-score,更重了回忆的地方:
这个指标是重要的对我们的评价,因为我们想避免低召回值,这将意味着许多文件被错误地归类为不相关的。我们的目标是减少文档手册策展人分析,但不丢失重要的信息,因此喜欢假阳性假阴性。这种评价策略也被用于其他文档管理研究(同性恋et al ., 2005;阿尔梅达et al ., 2014;Rae et al ., 2019)。
估计真阳性之间的平衡率(召回)和假阳性率,我们还计算了AUC (ROC曲线下的面积),使用Scikit-learn实施这一措施,计算曲线下的面积绘制的真阳性率和假阳性率在不同的阈值。
2.6生物标志物识别
我们对文件进行生物标志物识别分为积极表现最佳分类器。这个任务的目的是演示如何使用文档分类器来帮助管理过程。通过自动为生物标志物筛选的文章,策展人可以关注自己感兴趣的文章,提到实体和帮助他们从这些文章中提取信息。
尼珥分类器训练,需要有一个数据集相对应的单词感兴趣的实体是注释。因为我们没有这种类型的生物标记的数据集,我们开发自己的训练集的基于生物标志物Exposome-Explorer数据库。我们确定了所有的生物标志物使用MER名称的数据库文档,最小实体识别工具(库托和Lamurias, 2018)。这个工具返回一个列表的实体识别的文本,包括他们的确切位置和独特的标识符,如果可用。由此产生的数据集将不会作为黄金标准,然而这些自动生成的数据集已经被证明是足够的培训信息提取模型在某些情况下(Rebholz-Schuhmann et al ., 2010;苏萨et al ., 2019)。此外,我们训练我们的模型使用一个变压器架构(Vaswani et al ., 2017),基于生物医学领域(pre-trained模型顾et al ., 2021)。这样我们只需要微调pre-trained模型在生物标志物数据集的实体。
我们评估了尼珥分类器类似于文档分类器,使用F1-score,精度和召回,尽管我们只计算了测试集。我们训练了10世纪变压器的使用默认参数库1。之后,我们在文件上运行训练模型,并没有用来创建数据库,为了找到潜在候选条目可能已经错过了。
3的结果
3.1数据收集和预处理
数据收集后,Exposome-Explorer数据集包括标题、摘要和元数据7083出版物。其中,6687年被认为是无关紧要的,因为没有生物标记是Exposome-Explorer从中提取信息数据库。其余396出版物被认为是相关的,因为他们被用来构建数据库。
一开始,所有文章的所有类型的生物标记数据集被使用,但是,这种方法产生了不良的结果。努力改善结果,获得的数据仅限于文章使用查询特定饮食生物标记,因为它们被馆长处理更用心。3016年的新数据集包括出版物(2860 + 156)有关无关。
3.2文档分类
3.2.1饮食生物标志物的出版物
我们的第一个目标是训练分类模型,文章从一个搜索查询Exposome-Explorer相关数据库。我们优化的参数用于预处理饮食训练数据(ngram、最小频率,vectorizer),以及hyperparameters每个算法,使用网格search-CV。对于每个算法,我们测试了几种组合和选择训练模型,实现了简历上的每一个指标的得分最高的评价。
最大值的算法可能达到这些指标,使用优化的预处理和算法参数,进行了总结表2。每个指标最高,完整的值以及所使用的参数,可以额外的文件1中找到。例如,0.701的最大F2-score LR算法得到使用设置的标题+抽象min_df 5, ngram_range(1、3)和一个令牌数矩阵。我们可以看到,所有除了决策树算法可以实现高值的各种数据子集,虽然只使用标题,LR算法在大多数指标取得更高的分数。参数和算法用于最大化每个特性集的F2-score可以找到表4。
表2。饮食生物标记文档分类结果。精度最高、召回、F1-score F2-score, AUC通过每个算法:决策树(DT),逻辑回归(LR),朴素贝叶斯(NB),神经网络(NN),随机森林(RF)和支持向量机(SVM)。每个指标在每个特性的最高价值类型是粗体。
除了探索单分类器,我们也探索了两种合奏的方法:装袋和叠加。我们训练了一个多层分类器结合最好的个体模型(表1),然后再应用作为最终分类器的算法之一。表3显示最大精度,召回,F1-Score F2-score和AUC算法,使用叠加和装袋方式,只在摘要+标题子集和培训,提供最好的结果最个人的模型。通过这种方式,我们可以直接比较的结果表2。每一个指标的值的全套也提供额外的文件1。
表3。饮食生物标记物系综分类器的结果。精度最高、召回、F2-score和AUC达到每个算法:决策树(DT),逻辑回归(LR),朴素贝叶斯(NB),神经网络(NN),随机森林(RF)和支持向量机(SVM)。NB算法没有使用叠加的方法。
然后我们F2-score最高的前表的分类器应用到测试组中我们并没有使用网格search-CV 5。伸出的数据集,我们想要观察如果训练集的分类器被overfitted由于参数优化过程。
3.2.2所有生物标志物的出版物
量化多少限制饮食生物标记的数据集已经改善结果,新模型与整个语料库训练7083出版物的所有生物标记使用相同的算法和参数,最大化的回忆分数膳食生物标志物。精确的值之间的比较,回忆和f值可以找到表6。
3.3生物实体识别
我们训练有素的生物标志物的尼珥模型使用银本位语料库,我们提供的代码。在伸出的一组30%的句子,我们获得一个F1-score 0.6735, 0.5574和0.8507召回的精度。然而,这个评价是由自动注释数据,因此极有可能,一些假阳性,降低了精度是由实体银标准中没有注释。
然后应用该模型对7444份文件,并不用于开发数据库,我们有标题和摘要。我们聚合实体中提取,过滤掉实体已经在Exposome-Explorer条目并手动验证前100名的实体出现更频繁。我们观察到45这些实体的生物标志物的名字不是已经存在于数据库中。这些实体构成新的候选条目,连同证明文件从他们被发现的地方。
4讨论
F2-score最高(0.701)得到了使用单一分类器的逻辑回归算法(LR)摘要和标题设置,使用交叉验证(表2)。在905年膳食出版物用来测试分类器,365年被列为积极,这可能减少90%(比例的文章分为积极)发现77.9%所需的时间(记得分数)相关的文章,并且只有22.1%的相关文章将丢失。看标题和元数据的结果集,在全球范围内较低的值相比,得到抽象集。使用标题和摘要的特点导致了更好的F2-scores几乎在每一个算法,与单独使用它们。这表明,类似于它是如何进行人工管理期间,标题和摘要应考虑当评估的相关性的一篇文章到数据库。LR算法获得最佳的性能在许多指标,虽然SVM算法获得更高的召回使用标题和标题和摘要,和随机森林获得最高的AUC在同一组。神经网络算法获得最高精度使用摘要,标题和摘要和标题和元数据集。
之间的平衡精度和召回是一个重要的主题在这种类型的考虑方法。我们包括平衡分数F1和F2分数,既已用于其他文档管理研究。然而,我们不能确定平衡,预计馆长。虽然理想没有相关文档应该被排除在外的分类器(假阴性),将使策展人任务困难如果提出了许多无关的文档(假阳性)。图2说明了只有一个算法可以获得一系列的P / R权衡。用同样的算法(朴素贝叶斯),我们可以训练一个分类器更偏向精密或召回。用户研究有助于理解什么是平衡更理想的数据库管理员。
评估加入最好的模型是否会提高成绩,我们应用两个集合的抽象方法:包装和堆放。在某些情况下,使用装袋方法导致更好的成绩不仅仅是模型本身,例如,比较分数的决策树分类器。然而,在大多数情况下,使用一个分类器提供了更好的结果。叠加的方法也取得更好的成绩在某些情况下,包括最大召回0.890使用逻辑回归和支持向量机分类器。然而这种方法花了更多的时间来训练,因为它需要训练一个模型与前面提到的算法,以及额外的模型来预测基于类的其他模型的预测成绩。此外,两套方法导致类似或更差的结果比单一分类器。这可能是由于这些模型的复杂性不断增加,这可能是不适应新数据由于过度拟合训练数据。
在表5,我们可以看到交叉验证的效果评价相比,测试集验证。尽管一些分数较低,LR算法达到平衡的最高分数和神经网络达到最高的精度。叠加算法达到一个高的召回,但代价较低的精度。虽然平衡指标较低的测试集测试集评价相比,我们认为,不同的是不相关的,因为交叉验证结果平均在5迭代,和测试集的结果显示只有一个运行。
表5。饮食生物标记物在测试集分类器。精度,还记得,F2-score和AUC每个算法:决策树(DT),逻辑回归(LR),朴素贝叶斯(NB),神经网络(NN),随机森林(RF)和支持向量机(SVM),以及装袋和叠加方法,使用组合实现F2-score最高。
4.1误差分析
为了解释结果的差距在训练集和预测得到的分类器在每个交叉验证迭代,LR分类器构建的标题进行了分析。这个分类器有一个类似的回忆分数抽象,但标题是短的,他们更容易解释。我们注意到一个有趣的模式,几乎所有标题的单词“食物频率问卷”列为相关。正如前面2.2节中提到的,这关系到文章如何饮食被选出的生物标记被包括在数据库中。从包含这些话,共有82个标题只有2被列为无关(都有单词如“钙”、“水”和“能量”,大多是在不相关的文章);29 TP,其余51被错误地贴上相关。
标题“脚趾甲硒作为指标的硒摄入量较低的中年男子在一个区域土壤硒”被归类为负,当它实际上是用于数据库(FN)。39的40个标题使用的词“硒”没有在数据库中,因此标签无关紧要:这个比例的特性可能是分类器的原因未能分类本文相关虽然硒注释器被认为是感兴趣的。
同样重要的是要强调论文插入数据库中分析了考虑到全文。这意味着文件标记为“相关”的分类器和/或手动,随后可以被注释器,因为各种各样的原因包括“纸是没有在线,”或“论文中的数据不是在接受数据库的一种方式。“这些文件将被认为是假阳性的分类器,因为它们出现在引用的语料库,但从数据库中缺席。
限制饮食生物标记引用的分析提供了更好的指标比当使用的所有数据从数据库(饮食、污染物和再现性值)(表6)。当限制分析引用描述不同类型的生物标记物的污染,模型的性能更低(初步结果未显示)。这种差异在性能的差异可以解释自然搜索的数据注释器的不同的生物标志物。饮食生物标志物,重点是出版物提供膳食摄入量和生物标志物之间的相关性值以人类biospecimens和主要描述验证研究生物标志物的饮食问卷调查。污染物的生物标记物,重点描述了论文集中在人类biospecimens污染物生物标记的值。此外,由于缺乏时间和人力资源,并不是所有的潜在相关出版物Exposome-Explorer污染生物标记插入,而饮食生物标志物更用心处理。因此,饮食生物标记的条目占了几乎一半的数据库。所有这些可以解释为什么膳食生物标记的模式似乎表现得更好。在仔细看看分类器获得的假阳性的污染物可能是一个好方法检查模型是否在饮食生物标记也可以应用于污染物,并确定新的相关论文语料库的污染物。这也意味着,当我们获得一个更全面的语料库为其他类别的生物标记物,我们的机器学习解决方案的性能也会提高。
4.2生物标志物识别
证明生物标志物识别也可以用于数据库管理,我们训练一个模型基于实体和文件,我们已经在数据库中,为了找到生物标记和文件可能已经错过了在管理过程中。我们共有7444中提取实体,然而这些实体是不完整的或重复的。然后我们看着最常出现的前100名实体,包括实体名称已经在数据库中,并发现45潜在的新条目,我们提供补充资料表。其中,我们强调蔗糖,它被描述为一个生物标志物以及果糖(Tasevska et al ., 2005)。尽管果糖存在于Expose-Explorer,蔗糖失踪了。尼珥模型像我们训练可以避免这个问题。另一个例子是Julin et al。(2011)一篇文章,研究镉的作用作为生物标志物,也错过了数据库的开发过程中。
5的结论
手动Exposome-Explorer数据库正在策划,没有任何援助从机器学习工具。随着科学论文数量的持续增长,文本挖掘工具可以帮助很大帮助文档的分类包含信息暴露的生物标志物,保持数据库的更新。
为此,创建几个机器学习模型的使用不同的组合预处理参数和算法。这些分类器训练使用出版物的摘要、标题和元数据。最高的模型F2-score(70.1%)建成使用的LR算法和预测的一篇论文标题和摘要的相关性。我们也从抽象提取的命名实体,获得总共45候选生物标志物。
将这种方法应用到数据库管理管道,IR的任务将包括两个步骤。在第一个,文章将对我们使用查询搜索检索,针对特定领域的出版物。然后,分类器可以用来缩小出版物更多,和命名实体识别工具可用于提供候选人数据库条目。人工管理仍然是必要的,从全文中提取生物标记的信息。
在未来,我们将工作在提高分类器的结果,使用元数据集。例如,作者通过分配不同的权重,根据他们出现的位置,或者通过创建新特性,结果所有作者之间的组合在同一篇文章。我们还将研究公认的生物标志物的影响在检索分类。在分析为什么模型分类错误的一些出版物,一些化学物质,比如“钙”和“硒”与不相关的文章密切相关。探索的一个想法是替代化学标记所属类别,如“化学”,看看它是否可以提高分类器的精度和召回。这应该在训练集上。此外,避免过学习的原因,我们将改善这个黄金标准添加更多类型的生物标记物,也可以分类非饮食生物标志物来达到。探索的另一个想法是火车深度学习模型文档分类,尽管这将需要更多的训练数据和将需要更长的时间来训练比本文中所使用的算法。最后,这个数据集上训练分类器的性能时应用于其他搜索查询将探索的结果。
数据可用性声明
在这项研究中提出的数据集可以在网上找到存储库。库的名称/存储库和加入号码可以找到(s)如下:https://github.com/lasigeBioTM/BLiR。
作者的贡献
铝、SJ、VN、RS和FC导致概念和设计的研究。艾尔和SJ写代码和运行分析。SJ写了初稿的手稿。,VN、RS和FC写的手稿。所有作者导致修订手稿、阅读和批准提交的版本。
资金
这项工作通过FCT支持资金的桌子:深层语义薄铁片项目,ref。PTDC CCI-BIO / 28685/2017,和LASIGE研究单位,ref。UIDP / 00408/2020 / 00408/2020和ref选答。
作者免责声明
作者在哪里确认为国际癌症研究机构的人员/世界卫生组织,作者仅负责在这篇文章中表达的观点和他们不一定代表决定,政策或观点的国际癌症研究机构/世界卫生组织。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
确认
作者承认马里亚纳的帮助Lourenco生物标志物的验证实体。
补充材料
本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frma.2021.689264/full补充材料
脚注
1https://github.com/huggingface/transformers
引用
阿尔梅达,H。,Meurs, M. J., Kosseim, L., Butler, G., and Tsang, A. (2014). Machine Learning for Biomedical Literature Triage.《公共科学图书馆•综合》9,e115892-21。doi: 10.1371 / journal.pone.0115892
利润率,C。,Damerau, F., Weiss, S. M., Apte, C., Damerau, F., and Weiss, S. (1998). “Text Mining with Decision Trees and Decision Rules,” in自动化会议上学习和发现,美国卡内基-梅隆大学、PA,1998年6月。
库托,f M。,和Lamurias, A. (2018). Mer: a Shell Script and Annotation Server for Minimal Named Entity Recognition and Linking.j . Cheminform10日,58岁。doi: 10.1186 / s13321 - 018 - 0312 - 9
同性恋,c W。,Kayaalp, M., and Aronson, A. R. (2005). Semi-automatic Indexing of Full Text Biomedical Articles.AMIA物质。计算机协会。Proc。2005年,271 - 275。
格里菲斯,M。,Spies, N. C., Krysiak, K., McMichael, J. F., Coffman, A. C., Danos, A. M., et al. (2017). CIViC Is a Community Knowledgebase for Expert Crowdsourcing the Clinical Interpretation of Variants in Cancer.Nat,麝猫。49岁,170 - 174。doi: 10.1038 / ng.3774
顾,Y。,Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., et al. (2021). Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing.arXiv预印本arXiv: 2007.15779。
Julin, B。,Vahter, M., Amzal, B., Wolk, A., Berglund, M., and Åkesson, A. (2011). Relation between Dietary Cadmium Intake and Biomarkers of Cadmium Exposure in Premenopausal Women Accounting for Body Iron Stores.环绕。健康10日,105 - 106。doi: 10.1186 / 1476 - 069 x - 10 - 105
Kiossoglou, P。Borda,。、灰色、K。,Martin-Sanchez, F., Verspoor, K., and Lopez-Campos, G. (2017). Characterising the Scope of Exposome Research: A Generalisable Approach.钉。健康抛光工艺。通知。245年,457 - 461。doi: 10.3233 / 978-1-61499-830-3-457
杆,J。,Jones, M. R., Danos, A. M., Krysiak, K., Bonakdar, M., Grewal, J. K., et al. (2019). Text-mining Clinically Relevant Cancer Biomarkers for Curation into the CIViC Database.基因组医学。11日,78年。doi: 10.1186 / s13073 - 019 - 0686 - y
洛佩尔,E。,和Bird, S. (2002). “NLTK: The Natural Language Toolkit,” inACL研讨会上有效的工具和方法教学自然语言处理及计算语言学,2002年7月费城,63 - 70。
Lopez-Campos G。Kiossoglou, P。Borda,。,Hawthorne, C., Gray, K., and Verspoor, K. (2019). Characterizing the Scope of Exposome Research through Topic Modeling and Ontology Analysis.钉。健康抛光工艺。通知。264年,1530 - 1531。doi: 10.3233 / SHTI190519
马丁·桑切斯F。、灰色、K。,Bellazzi, R., and Lopez-Campos, G. (2014). Exposome Informatics: Considerations for the Design of Future Biomedical Research Information Systems.j。地中海,通知。Assoc。21日,386 - 390。doi: 10.1136 / amiajnl - 2013 - 001772
内沃,V。,Nicolas, G., Salek, R. M., Wishart, D. S., and Scalbert, A. (2020). Exposome-explorer 2.0: an Update Incorporating Candidate Dietary Biomarkers and Dietary Associations with Cancer Risk.核酸Res。48岁的D908-D912。doi: 10.1093 / nar / gkz1009
内沃,V。,Moussy, A., Rouaix, H., Wedekind, R., Pon, A., Knox, C., et al. (2016). Exposome-explorer: a Manually-Curated Database on Biomarkers of Exposure to Dietary and Environmental Factors.核酸Res。45,D979-D984。doi: 10.1093 / nar / gkw980
Pedregosa F。,Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., et al. (2011). Scikit-learn: Machine Learning in python.j .机器学习。Res。12日,2825 - 2830。doi: 10.5555/1953048.2078195
雷,a。R。,Savery, M. E., Mork, J. G., and Demner-Fushman, D. (2019). A High Recall Classifier for Selecting Articles for Medline Indexing.AMIA物质。计算机协会。Proc。2019年,727 - 734。
Rebholz-Schuhmann D。耶佩斯,a·J·J。,Van Mulligen, E. M., Kang, N., Kors, J., Milward, D., et al. (2010). Calbc Silver Standard Corpus.j . Bioinform。第一版。医学杂志。08年,163 - 179。doi: 10.1142 / s0219720010004562
Rumelhart d E。辛顿,g . E。,和Williams, R. J. (1986). “Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Vol. 1,” in章的学习误差传播的内部表示(美国马萨诸塞州,剑桥:麻省理工学院出版社),318 - 362。
苏萨,D。,Lamurias, A., and Couto, F. M. (2019). “A Silver Standard Corpus of Human Phenotype-Gene Relations,” inA2019北美协会的年度会议上对计算语言学,明尼阿波利斯,美国,2019年6月,1487 - 1492。doi: 10.18653 / v1 / n19 - 1152
《K。,McDonnell, E., Nyaga, C., Wu, M., Wu, S., Almeida, H., et al. (2015). Mycoclap, the Database for Characterized Lignocellulose-Active Proteins of Fungal Origin: Resource and Text Mining Curation Support.数据库(牛津)2015年,bav008。doi: 10.1093 /数据库/ bav008
Strimbu, K。,和Tavel, J. A. (2010). What Are Biomarkers?.咕咕叫。当今。艾滋病5,463 - 466。doi: 10.1097 / coh.0b013e32833ed177
Tasevska, N。,Runswick, S. A., McTaggart, A., and Bingham, S. A. (2005). Urinary Sucrose and Fructose as Biomarkers for Sugar Consumption.癌症的论文。生物标志物上一页。14日,1287 - 1294。doi: 10.1158 / 1055 - 9965. - epi - 04 - 0827
Vaswani)。,Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). “Attention Is All You Need,” in31日会议上的神经信息处理系统,美国加利福尼亚州长滩,2017年12月。
沃克,s . H。,和Duncan, D. B. (1967). Estimation of the Probability of an Event as a Function of Several Independent Variables.生物统计学54岁,167 - 179。doi: 10.1093 / biomet / 54.1 - -2.167
关键词:机器学习、文本挖掘、信息检索、接触生物标志物、数据库管理
引用:Lamurias,耶稣的年代,内沃V,库托Salek RM和调频(2021)信息检索使用机器学习生物标志物Exposome-Explorer帘。前面。Metr >,肛交。6:689264。doi: 10.3389 / frma.2021.689264
收到:2021年3月31日;接受:2021年8月02;
发表:2021年8月19日。
编辑:
艾哈迈德Abdeen哈米德诺里奇大学美国版权©2021 Lamurias,耶稣,内沃,库托Salek和。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:Andre Lamuriasalamurias@lasige.di.fc.ul.pt