人工智能的抗病毒药物发现低的资源设置:一个视角
- 1布埃亚大学化学系,布埃亚、喀麦隆
- 2Ersilia开源倡议,剑桥,英国
- 3威斯塔研究所,宾夕法尼亚州的费城,宾夕法尼亚州,美国
- 4学院制药、马丁·路德大学Halle-Wittenberg哈雷(Saale),德国
目前的抗病毒药物发现工作中面临许多挑战,包括开发新药物暴发期间,由于迅速积累应对耐药性病毒突变。新兴的人工智能和机器学习(AI /毫升)方法可以加速抗感染药物发现和有可能降低整体开发成本低和中等收入国家(LMIC),这反过来又有助于开发新的和/或访问疗法对传染性疾病在这些国家。目前市场上提供大量的数据驱动的AI /毫升工具,迄今为止大多数的上下文中已经开发非传染性疾病,如癌症、和几个障碍限制了翻译现有的工具对传染性疾病药物的发现。在这里,我们提供了一个视角的利益,限制,和陷阱的AI /毫升工具发现的小说关注抗病毒药物治疗。我们还讨论和新兴数据共享模型包括知识property-preserving AI /毫升。此外,我们回顾了现有的数据源和平台,并提供例子为低成本和方便的筛选方法和其他virus-based生物适合中低收入国家建设AI / ML-based程序的实现。最后,我们引入一个新兴AI / ML-based中心在喀麦隆(非洲中部)目前开发方法和工具,促进本地的,独立的药物发现和代表一个在全球LMIC模型可以复制。
介绍
即使有广泛获取资源、资金和人才,药物的研究与开发是一个复杂的,昂贵的,耗时的奋进号。尽管进步对药物发现过程,结合传统和现代方法,大多数药物未能获得监管机构的批准和进入市场,这种现象称为磨损(华林,et al ., 2015)。目前,超过90%的药物候选人失败在第一阶段临床试验和监管部门的批准,导致重大损失的金融投资和资源(弗莱明,2018)。
药物发现的传统方法包括发现和验证一种公认的药物靶标,其次是靶向性生物测定的发展和确定一个铅化合物与目标有重大活动。通常在这个阶段,达到化合物进行轮hit-to-lead优化来提高稳定性,活动,和选择性毒性等参数。此外,化合物被检查了一批化验测试他们的能力产生相同的观察反应在活的动物(在活的有机体内)或孤立的生活组织(体外)(休斯et al ., 2011)。
一个途径降低成本和持续时间的药物发现是使用在网上协议的早期药物研发管道。在网上方法可以降低流失率通过识别与预测合适的候选药物治疗活动和不含化合物与不良性状如预测毒性或不良的药物动力学(贝雷斯福德et al ., 2004;休斯j . d . et al ., 2008;休斯l . d . et al ., 2008;Gawwehn et al ., 2016;Zhang et al ., 2017)。工作方法和分子对接和定量构效关系(构象)建模用于标识打在虚拟复合图书馆以及预测和优化分子生物活性(Golbraikh et al ., 2016)。预测可以取得和测试精度的实验包括物理化学性质(如logP和溶解度)和绑定模式的配体(小分子/蛋白质)到目标(蛋白质)。预测ligand-protein交互,高分辨率的蛋白质结构是必要的,理想与先前知识的其他配体结合到目标结合位点。细粒度的分子动力学模拟/放松方式,例如,可以用来理解原子论的理想ligand-protein复杂的细节,进而导致数量减少的建议最终分子实验(即。,药物化学家和生物学家),可能有更好的活动相比,开始/参考化合物。然而,尽管现代的基于物理对接和分子动力学模拟等计算方法能够模拟特定ligand-target交互,电流计算药物发现的挑战在表型和生理复合效应的建模,以提高翻译水平在活的有机体内实验,相关问题疗效和药物吸收、分布、代谢排泄,和毒性(ADMET)可能会出现(Cherkasov et al ., 2014)。这些预测是由数据驱动的方法,最终依赖于概念相似的分子倾向于有类似的活动。限制这样的预测是追溯到小训练集来构建模型,(赵,2017),狭窄的化学空间由这些训练集(Stouch et al ., 2003),实验数据错误(Fourches et al ., 2010),缺乏前瞻性的实验验证(Tropsha 2010)。此外,类似的化合物的假设将有类似的活动只能是有限的,如果根据化学结构和目标活动(Zhang et al ., 2017),可能会导致不准确的预测的活动悬崖(Stumpfe et al ., 2019)。
数据驱动的药物发现,特别是人工智能和机器学习的应用(AI /毫升)工具,已被认为是有前途的战略模型化合物的影响,不能单独与基于物理模拟方法(施耐德et al ., 2020;Jayatunga et al ., 2022),以及设计复杂,更健壮,生物相关化合物之间的相似性度量(Fernandez-Torras et al ., 2022 a)。从实用的角度来看,AI /毫升方法定量构效关系模型,可以被认为是一组预定义的物化或分子结构描述符(分子量、氢键捐助者、数量等)作为预测变量的一个活动的兴趣(如细胞生长抑制)。通常情况下,这些模型需要大量的预先存在的实验知识(巴斯金2019),这限制了他们可能产生真正新颖的化学反应或适用于本次疾病领域。相比之下,现代人工智能/ ML算法,包括那些可以被训练,只有一些训练样本(Altae-Tran et al ., 2017),自学成才和/或可以同时学习多个数据集(斯坦利et al ., 2021)。现代人工智能/ ML算法可以提供一个可行的数据驱动的解决方案在低数据运营机制。此外,AI /毫升的药物发现模式可以执行任务超出了生物活性预测,包括一系列的技术来捕获复杂的“组学”档案,retrosynthesis通路的设计,通过生成hit-to-lead优化模型,和其他很多(施耐德et al ., 2020)。
原则上,AI /毫升药物发现方法可以应用到任何疾病领域,从非传染性疾病如癌症和阿尔茨海默氏病等传染病病毒和细菌感染。为此,对生物和化学数据的访问是必要的(古普塔et al ., 2021)。功能结构特性,基因表达水平和/或基因测序,亚细胞位置和网络拓扑特性可以用来识别或预测药物目标(胡锦涛等人。,2019年)以及估计毒性等因素,溶解度,选择性和动力学(布朗,2020)。目前,大多数的AI /毫升工具研究团体一直在训练有素的历史(公共)从大型化学和生物活性数据库收集的数据,以及“组学”资源和生物医学知识库。因此,AI /毫升模型的可用性和性能是有偏见的,在很大程度上,对疾病领域,历来受到更多的关注和更丰富的数据集的结果可用。事实上,传染病的研究由于缺乏验证目标,可怜的病原体和缺乏大型的分子特征筛选数据集(De Rycker et al ., 2018)。
特定疾病可用的数据量是紧密地绑定到研究领域投资。在药物发现的内在成本和风险投资造成制药公司和研究资助机构关注疾病的动机高,即非传染性疾病,影响全球北或高收入国家(嗝)。目前,只有15%的药物开发针对传染病(2022年,),有效地忽视的需求低,低中等收入国家(LMIC),带着世界上大部分的传染性疾病的负担。例如,截至2016年,批准了抗病毒药物的目标只有10 200多个已知感染人类的病毒(2016年德Clercq和李),几个挑战阻碍了抗病毒药物发现管道,不仅包括缺乏资金,但也缺乏知识病毒生物学(亚当森et al ., 2021)。同样,需要新颖的抗菌和抗真菌治疗(完美的,2017;De Rycker et al ., 2018)。许多LMIC政府无法优先考虑投资在科学创新,与大多数国家将不到0.5%的国内生产总值来研究和开发活动(2020年联合国教科文组织)。可以说,AI /毫升方法能产生最大的影响在设置成本和时间进行有效的实验仍然高昂。矛盾的是,然而,这些方法没有被开发在这些设置,因为现有的数据集和激励几乎是不存在的。此外,缺乏技能和训练数据科学、计算机科学、chemoinformatics和生物信息学LMIC进一步妨碍了AI /毫升方法的发展在资源缺乏的国家。结果,研究不等式,是药物发现(即加大对非传染性疾病,影响到全球的投资北部和糟糕的投资在传染病影响全球南)延伸到AI /毫升的研究。
综述文章,我们将讨论现有的和潜在的试图扭转这些趋势关注抗病毒药物发现在非洲大陆。特别是,我们讨论现有可用的数据来源和其局限性而强调非洲天然产物数据库、新颖的化学结构的未开发的资源。此外,我们描述数据共享新模式,并强调一组AI / ML-based举措促进全球访问计算工具。最后,我们提供了一个新兴项目主要药物研发中心位于非洲中部,将利用这些计算工具对传染病和传染病提供具有成本效益的药物。
为抗病毒药物的发现可用的数据
可用性质量好,特定于任务的数据可能是最重要的成功的AI /毫升建模要求。应用抗病毒药物发现涉及病毒蛋白质的知识目标和他们的配体,以及在感染细胞表型响应测量。人类知识的目标也可能是相关的,特别是对于host-directed宿主-病原体相互作用治疗和破坏。一般来说,小分子的公开数据库及其生物活性和人类目标(ChEMBL (门德斯et al ., 2019),PubChem (金正日et al ., 2022)和DrugBank (Wishart et al ., 2018))为实验测试提供起点和AI / ML模式培训。研究执行上下文中的LMIC,三个特定区域的化学空间很有趣:天然产品(NP)数据库(尤其是特有植物和海洋生物)(纽曼和克拉格,2020年;Ebob et al ., 2021),已知的抗病毒目录和批准/先进的实验药物数据库用于药物再利用(Duran-Frigola et al ., 2017)。值得注意的是,表1总结了最引人注目的数据库NP-based药物的发现,以及antiviral-oriented数据库。在表2我们奉献给你们一组精选的药品数据库,与潜在的药物再利用,以及目标资源。
所示表1,有越来越多的开放数据库,为抗病毒药物的发现提供良好的起点,包括丰富的自然产品。例如,许多这些NPs显示抗病毒能力与SARS-CoV-2浓度小于10µM (Ebob et al ., 2021)。
然而,一些挑战需要解决简化这些和其他数据集计算药物发现管道(Krallinger et al ., 2015;Tetko et al ., 2016)。首先,可用不同数据库之间的数据冗余可能导致偏见从数据库提取的信息和随后的分析(Yonchev et al ., 2018)。第二,质量差阻碍解释可用的元数据信息(威廉姆斯et al ., 2012;拉米et al ., 2020),缺乏计算机可读的标准格式使信息提取困难(Bauer-Mehren et al ., 2009)。最后,目标——和pathogen-centered数据库链接通常缺乏,创建一个脱节chemistry-centered和biology-centered资源。
数据共享的新模型
尽管目前科学界努力收集实验数据的抗感染的分子,公开数据的缺乏等疾病感兴趣的抗病毒药物阻碍小说AI /毫升工具的发展。克服这种局限性的一个途径是利用多年来积累的知识的制药公司。虽然抗的发现可能没有很多公司的首要任务,很明显,他们仍然珍惜在这一领域的大多数数据,有时会导致显著的举措像葛兰素史克非常章开放实验室或被忽视疾病药物项目(DNDi)。虽然制药公司经常在科学出版物发表他们的研究成果,他们只分享的一个小子集的分子筛选,可以理解的是,保护行业的知识产权(IP)。这一趋势尤为突出在初级筛查,成千上万的化合物可能是测试。不完整的披露这些实验妨碍了数据驱动的药物发现的完整实现(默文et al ., 2015)。尽管大型开源药物发现项目存在(Antonova-Koch et al ., 2018),这些都是相对罕见,仍可能找到IP约束当私人利益相关者。
AI /毫升提供了一个独特的机会来开发药物筛选的结果没有披露专有化学库的身份。所谓的保护隐私AI /毫升方法提出IP-sensitive数据可以有效地提供AI /毫升的形式模型,保留训练数据的基本属性,但不透露身份的化合物用于训练模型。这种方法的一个基本的例子是MELLODDY联盟(Burki 2019),策划10制药公司之间的数据共享,从而编制最大的化合物和生物活性端点集合在一个IP-protected设置。MELLODDY方法的一个关键特性是分散的数据,其次是一个培训方案,预测AI /毫升模型,防止接触专有信息。AI /毫升模型开发的MELLODDY财团可能产生重大影响的学术科学界因为他们捕捉以前由制药公司拥有一个强大的的数据量(https://www.melloddy.eu/)。已经设计了类似的财团在医学信息领域,目标以提高诊断AI /毫升模型通过访问大型病人数据库,同时保持机密性(Warnat-Herresthal et al ., 2021)。在这条线,AI /毫升模型工具加密都在蓬勃发展,提供数据共享数据科学家操作工具箱在私人和公共利益相关者之间的交集(Graepel et al ., 2013)。研究人员基于LMIC预计将在新数据共享模型的最大受益者,因为他们将获得从外部来源收集的数据,否则是难以或无法负担。
数据集成工具,用于药物发现
除了更大的可用性的数据覆盖抗病毒药物发现的差距,有必要设计数据集成工具能够产生的输入为AI /毫升建模。在非传染性疾病的背景下,特别是在抗癌药物发现领域,大量的数据集成协议已经提出,应用在药物再利用(罗et al ., 2021)、虚拟表型筛选(Sharifi-Noghabi et al ., 2021),和目标的发现(罗德里格斯和伯纳德,2020),等等。所有这些数据集成方法的基本原理是,从多个来源收集的数据可以统一和统一在一个单一的资源,可以作为人工智能相关的输入数据/毫升建模。必要的资源来构建综合工具的例子包括基因中心数据库,数据库和疾病注释,尤其是chemical-protein交互数据(表2)。今天,一个最喜欢的结构为一个统一的资源是一个所谓的生物医学知识图。早期综合知识图的例子包括HetioNet (银行et al ., 2017)和Harmonizome (Rouillard et al ., 2016),数据相关基因/蛋白质、小分子,细胞,疾病,等等。是集中在一个大型网络包含数千个节点和数以百万计的边缘代表ligand-protein交互,疾病基因关联,基因表达谱等现代版本的这些生物医学知识图可以包含多达约一亿边(桑托斯et al ., 2022),因此一个相当富裕的起点AI /毫升建模在许多疾病领域。此外,一些资源极大地简化数据包含在这些知识图的适应到矢量的数学表示,可以插到传统AI / ML算法。例如,Bioteque包含预计算嵌入(即现成的矢量表示),成千上万的生物实体,捕捉信息包含在一个巨大的知识图(Fernandez-Torras et al ., 2022 b)。两年前,一个专注于小分子,化学检查器(Duran-Frigola et al ., 2020)出版,提供前所未有的标准化和集中处理数据,数值向量的形式,发现近一百万生物活性化合物在公共领域。
不过,不幸的是,所有主要的综合知识图敏锐地以人为中心的,这意味着他们大部分包含人类基因和细胞的信息。系统集成的病原体基因组和生物目前缺乏。因此,传染性疾病生物学与现有的资源很难捕捉。虽然几次已经由宿主-病原体分子相互作用的映射(特别是COVID-19流行的背景下)(戈登et al ., 2020),可用的数据仍然是远不相称的数据与非传染性疾病,特别是癌症数据的强大的基因和表型筛选实验已经进行。从方法论的角度来看,开发知识图包含病毒或细菌数据不会有很大的不同从现有方法提出的资源像Bioteque,因为图嵌入技术相对域无关,可以应用于广泛的数据类型(Cai et al ., 2018)。病原体的主要挑战在于将数据图的知识。病原生物学疾病的更好的描述,包括基因功能、代谢途径和信号网络,和一个更详细的描述宿主-病原体相互作用的机制,是实现生物医学知识的关键图,代表非传染性和传染病以同样的深度和范围。
现成的AI /毫升
尽管越来越多的AI /毫升药物发现方法,很多都是收费或无法访问在一个用户友好的方式。有限的资金和访问数据科学的专业知识,这带来了一个真正的障碍采用LMIC研究者。近年来,“模型中心”的概念已经成为流行由于项目如HuggingFace (狼et al ., 2020),PyTorch中心(https://pytorch.org/hub/)或TensorFlow中心(https://www.tensorflow.org/hub)。简而言之,这些平台提供丰富的现成的AI /毫升模型,是将自然语言处理和图像分析的领域。AI /毫升行业的主要利益相关者(包括科技企业、学术团体和数据科学中心)正在积极贡献他们的模型对这些中心。因此,用户可以运行先进的人工智能/毫升模型以最小的努力,促进了夹杂物的AI /毫升资产为范围广泛的学科和实际应用。不过,不幸的是,这些资源的范围是多面手,表现较差的计算生物学和化学目录。在生物医学领域,一些开源项目,如Kipoi (Avsec et al ., 2019)和ModelHub。人工智能(Hosny et al ., 2019)旨在传播pre-trained AI /毫升模型特定于特定的基因组学或医学图像分析等领域,尽管引用资源包括大量的药物发现AI /毫升模型仍然缺乏。
除了提供开箱即用的实验人员通过模型预测中心,新的资源包含现成的AI /毫升建模数据集在药物发现的建模是一个很好的起点。特别相关的是最近出版的治疗数据共享(TDC) (黄et al ., 2021),一个策划纲要的数据集覆盖药物发现的主要阶段。TDC与游戏排行榜的概念,所以研究人员可以测试他们的AI / ML算法和基准。其他基准包括MoleculeNet (吴et al ., 2018),摩西(Polykovskiy et al ., 2020),一些Kaggle (https://kaggle.com)比赛,梦想挑战(https://dreamchallenges.org)。最近,开源药物发现项目开源疟疾等(威廉姆森et al ., 2016;谢霆锋et al .,。2021年)和开源抗生素(https://github.com/opensourceantibiotics)组织AI / ML-oriented挑战作为实验周期的一部分,提供一个真正的协作环境科学家和实验数据。
最后,AI /毫升社区投入了重大努力简化模型训练过程,促进主管AI /毫升的创建模型不需要高级的数据科学技能。总的来说,自动化AI /毫升(AutoML)方法如AutoGluon (埃里克森et al ., 2020),AutoSklearn (感到et al ., 2022),AutoKeras (金et al ., 2019),FLAML (王et al ., 2021),和其他人,可能会扮演一个关键的角色在采用人工智能/毫升建模能力,把用户从算法和hyperparameter搜索和优化。在资源缺乏的环境中,数据科学技能通常稀缺,AutoML功能可以提供开箱即用的解决方案与竞争力的性能。已经做了一些努力,为药物发现提供AutoML功能(沈et al ., 2021),尽管大量的现有的AI /毫升,这一领域的研究仍然是高度专业化的工作的结果。更大的可用性这样的AutoML工具是必要的,以确保公司的AI /毫升迅速在药物研发周期,而不需要具体化模型创建步骤。
生物化验生成AI /毫升AI /毫升的预测模型和功能验证
中低收入国家建设的另一面药物开发包括功能验证预测的挑战在虚拟环境中生成的。虽然AI / ML-based方法可以减少和优先级的数量需要验证,化验,可以把功能测试与高通量仍然是必要的。NP和药物再利用集合,作为例证表1和2,以及病原体盒子的分布式项目,比如疟疾药品事业(MMV;https://mmv.org)可能提供必要的化学物质来执行这些实验中低收入国家建设,再加上化学系列的发展在一个相对有限的吞吐量在当地合成化学实验室。
也帮助解决这些挑战的例证抗病毒疗法,我们小组开发了新的和杠杆现有LMIC化验可以转移到实验室的独立研究。例如,公开细胞系如J-Lat T细胞(约旦et al ., 2003),包含一个诱导但非传染性艾滋病毒克隆编码绿色荧光蛋白的记者,可以探测监控化学线索对艾滋病毒的影响延迟反转或抑制HIV病毒转录(Tietjen et al ., 2018;Divsalar et al ., 2020)。如果当地活病毒的传播,infection-based化验,包括使用公开、lab-adapted亚型B (足立et al ., 1986)和C亚型(Ndung 'u et al ., 2000)艾滋病病毒毒株成为可能在replication-competent细胞系或locally-acquired外周血单核细胞(Leteane et al ., 2012;Tietjen et al ., 2015)。如果蛋白质的表达兴趣的目标反式影响细胞的生存能力,另一种有吸引力的选择包括酵母生长修复试验(Balgi Roberge说道,2009年),multicopy DNA质粒编码蛋白质的目标利益放在一个诱导GAL1启动子的控制下。酵母中表达了半乳糖的存在时,这种蛋白质的表达目标然后抑制酵母生长随着时间的推移,作为衡量文化浊度,进而可以恢复co-incubation化学抑制目标。这种方法,例如,让我们来验证新的甲型流感M2抑制剂viroporin最初发现的虚拟筛选方法(邓肯et al ., 2020)。如果中断蛋白质-蛋白质之间的关系,另一个新兴的但有吸引力的选择是使用AlphaScreen或同质时间分辨荧光(HTRF)的方法标记蛋白质的兴趣在哪里绑定到各自的供体和受体的珠子。当一个绑定事件发生在体外、发光、荧光的产生,进而可以通过绑定抑制抑制剂(Yasgar et al ., 2016)。这种方法被我们使用,例如,确定块相互作用的天然产物SARS-CoV-2飙升糖蛋白与宿主受体(ACE2条目Tietjen et al ., 2021;Ivernizzi et al ., 2022)。化学线索也可以随时评估使用colorimetric-based试剂对细胞生存能力或毒性的影响像(3 - (4 5-dimethylthiazol-2-yl) 2, 5-diphenyltetrazolium溴化(MTT) (Leteane et al ., 2012)。如果病毒感染导致广泛的细胞病变效应和减少细胞的可行性在体外,这些试剂可以用于监控病毒感染和修复细胞生存能力的病毒抑制剂(Tietjen et al ., 2021)。这些化验也适合被扩大到96 -格式提高筛查吞吐量在NP或其他化学库以及打击优先AI /毫升的方法。虽然这些化验需要一定程度的细胞培养和分子生物学基础设施、发光和荧光板的读者,流式细胞术和理想的访问,这些类型的设备的成本迅速降低。大学与合成或药物化学专业知识也将处于有利地位发展化学导致即使有相对简单的合成策略。
然而,挑战许多LMIC包括确保适当的AI /毫升方法或生物科学专业在当地大学和延续,需要化验基础设施优化维护。迈向解决这些挑战的一个潜在的选择包括引入一系列的反复出现,密集、劳动力和动手开发实验室培训和指导会议,类似于威斯塔研究所的生物医学技术培训项目(https://wistar.org/education-training/biomedical-technician-training-program),旨在培养有前途的学生来自欠发达或相关社区成为研究技术人员,可以随时满足就业需求的地方学术机构和健康科学行业。类似的项目可以执行LMIC一旦适应训练学生在计算技术。另外,设备技术员嗝可以参与这些项目不仅培养学生对仪器使用和维护,还修复和证明当地设备。这种改变范式的科学协作嗝和LMIC之间知识共享,和能力建设嵌入在整个项目设计是至关重要的持续和永久增加LMIC意义的研究能力。这种承诺开发能力LMIC有别于“直升机研究”,科学家们嗝联系合作者LMIC只是协调数据收集或提取本地资源。
当地能力建设在AI /毫升为抗病毒药物的发现
布埃亚大学的一致目标上面所讨论的,在喀麦隆正在发起一个药物研发中心(UB-CeDD)专注于多个药物发现管道包括小说植物抗病毒药物的发现(图1),等等。建立一个综合中心的药物发现在非洲中部的发展关键是卫生研究和开发在该地区,类似于什么H3D中心已经成功地证明了在非洲南部(眨眼et al ., 2022)。UB-CeDD的总体目标是发现新型抗病毒化合物基于NP的核心结构。初始抗病毒感兴趣的目标包括蛋白质从人类免疫缺陷病毒(HIV)和严重急性呼吸系统综合症冠状病毒2 (SARS-CoV-2),尽管其他目标追求。UB-CeDD将结合,实现一个虚拟筛选过程,夫妻AI /毫升模型和基于物理方法如分子对接和分子动力学模拟。主要将由机器学习识别,这些将停靠,停靠的姿势使用几个protein-ligand评分算法。我们的目标是开发一个基于云计算的虚拟筛选平台,允许化合物筛选是计算从非洲天然产物数据库和其他(ANPDB,Ntie-Kang et al ., 2017;Simoben et al ., 2020)。开发高效的AI /毫升模型,我们将生成、数据集的化合物在抗病毒化验测试在同一实验室条件。因为这些数据目前稀缺,我们筛选几百天然和合成的化合物从合作伙伴实验室通过小说的自然发现抗病毒药物(NiDNA)网络。筛选的化合物,例如,对于他们的抑制能力对重要SARS-CoV-2药物靶点的主要蛋白酶和绑定病毒高峰的血管紧张素转换酶2 (ACE2)和反向延迟在艾滋病毒感染细胞的潜力。重要的是,这些化验转移到LMIC实验室参与协作。更多的化合物进行测试分析,更健壮的模型将生成的AI /毫升。在一个LMIC喀麦隆、生成的模型将会很长一段路要训练研究生和博士后研究人员在学术环境下如何实现AI /毫升。这将加快这一进程对发现抗病毒铅化合物包含在植物中包含的个人经历和合成基于药效团NPs并最终指导小说类似物的合成具有高强度和缺乏潜在的毒性影响。一些网络工具,可以用于开发毫升模型一直在总结表3。
表3。短的和说明性的现成的在线列表AI / ML,覆盖药物发现过程的几个阶段。请注意,列表并不全面。检查资源像Ersilia模型中心(https://ersilia.io/model-hub)一个更大的纲要。
结论
在这篇文献回顾中,我们已经讨论了当前在缺医少药的研究应用人工智能/毫升技术的机会设置。我们专注于抗病毒药物的发现,LMIC缺医少药治疗领域的重视。建立毫升模型,并使用人工智能预测候选药物的生物活性,有需要的数据。这些数据将包括化学结构与已知的生物活性分子(通常包含在数据库)。这些数据可以包含在一个广泛的ML模型,进行预测。是这种情况与开放平台中可用的数据/模型。数据库中已知的药物靶点的NPs也被包含在这个调查。也有现成的模型和基于web的工具,只需要用户用自己的数据填充模型(来自内部化学库)或通过与制药公司的合作关系。综述,我们一直专注于复合图书馆和ML可能有用的工具来生成预测工具,用于抗病毒药物先导化合物的发现在中低收入国家建设学术机构等经济有限的设置。我们认为AI /毫升可以提供一个具有成本效益的解决方案,虽然更好地获取病毒化验数据和更好的数据集成协议需要有效的AI /毫升工具采用。 We also describe some antiviral assays we plan to conduct and are already conducting in partner laboratories to include in the generation of ML predictions. We propose that a fluent research cycle involving data collection, computational prediction and experimental testing can be implemented in-country, and we propose the emerging CeDD in Buea as an exemplary case for Western and Central Africa.
作者的贡献
概念:MD-F FN-K, SE和它;代的初步数据:它,CTN-N, CVS, FN-K, LM, GT, SE, MD-F;写初稿的CVS, CTN-N, GT,, MD-F, FN-K;编辑和批准的最终版本CVS, CTN-N, GT,,, MD-F, FN-K液体喷射加工。
资金
金融支持是承认比尔和梅林达•盖茨基金会通过Calestous Juma科学领导奖学金授予FN-K(奖号码:发票- 036848)。液体喷射加工,它由罗伯特·雅各布斯。费城基金会的基金;团体支持的赫伯特·基恩,医学博士、家庭教授。
确认
作者承认Kelly Chibale和沃尔夫冈Sippl丰硕的科学讨论。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
引用
足立,。,Gendelman, H. E., Koenig, S., Folks, T., Willey, R., Rabson, A., et al. (1986). Production of acquired immunodeficiency syndrome-associated retrovirus in human and nonhuman cells transfected with an infectious molecular clone.j .性研究。59 (2),284 - 291。doi: 10.1128 / jvi.59.2.284 - 291.1986
亚当森,c . S。Chibale, K。戈斯,r . J。Jaspars, M。,纽曼,d J。,和Dorrington, R. A. (2021). Antiviral drug discovery: Preparing for the next pandemic.化学。Soc。牧师。50 (6),3647 - 3655。doi: 10.1039 / d0cs01118e
•艾哈迈德。,史密斯,r D。,Clark, J. J., Dunbar, J. B., and Carlson, H. A. (2015). Recent improvements to binding MOAD: A resource for protein–ligand binding affinities and structures.核酸Res。43 (1)D465-D469。doi: 10.1093 / nar / gku1088
Altae-Tran, H。,Ramsundar, B., Pappu, A. S., and Pande, V. (2017). Low data drug discovery with one-shot learning.ACS分钱。科学。3 (4),283 - 293。doi: 10.1021 / acscentsci.6b00367
Antonova-Koch Y。迈斯特,S。亚伯拉罕,M。、Luth m R。、Ottilie年代。,Lukens, A. K., et al. (2018). Open-source discovery of chemical leads for next-generation chemoprotective antimalarials.科学362 (6419),eaat9446。doi: 10.1126 / science.aat9446
AvsecŽ。,Kreuzhuber, R., Israeli, J., Xu, N., Cheng, J., Shrikumar, A., et al. (2019). The Kipoi repository accelerates community exchange and reuse of predictive models for genomics.生物科技Nat。》。37 (6),592 - 600。doi: 10.1038 / s41587 - 019 - 0140 - 0
Balgi, a D。,和Roberge, M. (2009). Screening for chemical inhibitors of heterologous proteins expressed in yeast using a simple growth-restoration assay.摩尔。生物方法。486年,125 - 137。doi: 10.1007 / 978 - 1 - 60327 - 545 - 3 - _9
巴纳吉,P。,Erehman, J., Gohlke, B. O., Wilhelm, T., Preissner, R., and Dunkel, M. (2015). Super natural II—A database of natural products.核酸Res。43 (1)D935-D939。doi: 10.1093 / nar / gku886
巴雷特,T。,Wilhite, S. E., Ledoux, P., Evangelista, C., Kim, I. F., Tomashevsky, M., et al. (2012). NCBI geo: Archive for functional genomics data sets—update.核酸Res。41 (1)D991-D995。doi: 10.1093 / nar / gks1193
鲍尔高梅伦谈到。弗隆,l . I。,和Sanz, F. (2009). Pathway databases and tools for their exploitation: Benefits, current limitations and challenges.摩尔。系统。医学杂志。5 (1),290。doi: 10.1038 / msb.2009.47
Burki, t (2019)。制药blockchains用于药物开发的人工智能。《柳叶刀》393 (10189),2382。doi: 10.1016 / s0140 - 6736 (19) 31401 - 1
伯利,美国K。,Bhikadiya, C., Bi, C., Bittrich, S., Chen, L., Crichlow, G. V., et al. (2022). RCSB Protein Data Bank: Celebrating 50 years of the PDB with new tools for understanding and visualizing biological macromolecules in 3D.蛋白质科学。31日,187 - 208。doi: 10.1002 / pro.4213
Cai, H。,Zheng, V. W., and Chang, K. C. C. (2018). A comprehensive survey of graph embedding: Problems, techniques, and applications.IEEE反式。"。数据中。30 (9),1616 - 1637。doi: 10.1109 / TKDE.2018.2807452
c . y . c (2011)。中医database@台湾:世界最大的药物筛选中药数据库在网上。《公共科学图书馆•综合》6 (1),e15939。doi: 10.1371 / journal.pone.0015939
陈,J。,Si, Y. W., Un, C. W., and Siu, S. W. (2021). Chemical toxicity prediction based on semi-supervised learning and graph convolutional neural network.j . Cheminformatics13 (1),93。doi: 10.1186 / s13321 - 021 - 00570 - 8
Cherkasov,。,Muratov, E. N., Fourches, D., Varnek, A., Baskin, I. I., Cronin, M., et al. (2014). QSAR modeling: Where have you been? Where are you going to?j .地中海,化学。57 (12),4977 - 5010。doi: 10.1021 / jm4004285
科斯塔r . p . O。,卢塞纳,胜选的l F。,Silva, L. M. A., Zocolo, G. J., Herrera-Acevedo, C., Scotti, L., et al. (2021). The SistematX web portal of natural products: An update.j .化学。正无穷。模型。61 (6),2516 - 2522。doi: 10.1021 / acs.jcim.1c00083
De Clercq E。,和Li, G. (2016). Approved antiviral drugs over the past 50 years.中国。Microbiol。牧师。29 (3),695 - 747。doi: 10.1128 / CMR.00102-15
De Rycker M。,Baragaña, B., Duce, S. L., and Gilbert, I. H. (2018). Challenges and recent progress in drug discovery for tropical diseases.自然559 (7715),498 - 506。doi: 10.1038 / s41586 - 018 - 0327 - 4
迪亚洛,B。,Glenister, M., Musyoka, T. M., Lobb, K., and Tastan Bishop, Ö. (2021). Sancdb: An update on South African natural compounds and their readily available analogs.j . Cheminform。13(1),37岁。doi: 10.1186 / s13321 - 021 - 00514 - 2
Divsalar, d . N。,Simoben, c V。,Schonhofer, C., Richard, R., Sippl, W., Ntie-Kang, F., et al. (2020). Novel histone deacetylase inhibitors and HIV-1 latency-reversing agents identified by large-scale virtual screening.前面。杂志。11日,905年。doi: 10.3389 / fphar.2020.00905
邓肯,m . C。,Ogunéné, P. A., Kihara, I., Nebangwa, D. N., Naidu, M. E., Williams, D. E., et al. (2020). Virtual screening identifies chebulagic acid as an inhibitor of the M2(S31N) viral ion channel and influenza A virus.分子25(12),2903年。doi: 10.3390 / molecules25122903
Duran-Frigola, M。马特奥,L。,和Aloy, P. (2017). Drug repositioning beyond the low-hanging fruits.咕咕叫。当今。系统。医学杂志。3,95 - 102。doi: 10.1016 / j.coisb.2017.04.010
Duran-Frigola, M。保罗,E。,Guitart-Pla, O., Bertoni, M., Alcalde, V., Amat, D., et al. (2020). Extending the small-molecule similarity principle to all levels of biology with the Chemical Checker.生物科技Nat。》。38 (9),1087 - 1096。doi: 10.1038 / s41587 - 020 - 0502 - 7
Ebob, o . T。,Babiaka, S. B., and Ntie-Kang, F. (2021). Natural products as potential lead compounds for drug discovery against SARS-CoV-2.Bioprospect Nat。刺激。11 (6),611 - 628。doi: 10.1007 / s13659 - 021 - 00317 - w
埃里克森,N。,Mueller, J., Shirkov, A., Zhang, H., Larroy, P., Li, M., et al. (2020).AutoGluon-Tabular:健壮和准确AutoML结构化数据。arXiv预印本arXiv: 2003.06505。doi: 10.48550 / arXiv.2003.06505
Fernandez-Torras,。,Comajuncosa-Creus, A., Duran-Frigola, M., and Aloy, P. (2022a). Connecting chemistry and biology through molecular descriptors.咕咕叫。当今。化学。医学杂志。66年,102090年。doi: 10.1016 / j.cbpa.2021.09.001
Fernandez-Torras,。Duran-Frigola, M。,据M。,Locatelli, M., and Aloy, P. (2022b). Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque.Commun Nat。13 (1),5304。doi: 10.1038 / s41467 - 022 - 33026 - 0
Fourches D。,Muratov, E., and Tropsha, A. (2010). Trust, but verify: On the importance of chemical structure curation in cheminformatics and QSAR modeling research.j .化学。正无穷。模型。50 (7),1189 - 1204。doi: 10.1021 / ci100176x
感到,M。,Eggensperger, K., Falkner, S., Lindauer, M., and Hutter, F. (2022).通过元学习Auto-sklearn 2.0:免提AutoML。ArXiv预印本arXiv: 2007.04074。doi: 10.48550 / arXiv.2007.04074
Gawehn E。,Hiss, J. A., and Schneider, G. (2016). Deep learning in drug discovery.摩尔。正无穷。35 (1),3 - 14。doi: 10.1002 / minf.201501008
Gilson m K。刘,T。,Baitaluk, M., Nicola, G., Hwang, L., and Chong, J. (2016). BindingDB in 2015: A public database for medicinal chemistry, computational chemistry and systems pharmacology.核酸Res。44 (D1), D1045-D1053。doi: 10.1093 / nar / gkv1072
Golbraikh,。王,x。、朱、H。,和Tropsha, A. (2016). Predictive QSAR modeling: Methods and applications in drug discovery and chemical risk assessment.Handb。第一版。化学。2016年,1。
戈登·d·E。张成泽,g M。,Bouhaddou, M., Xu, J., Obernier, K., White, K. M., et al. (2020). A SARS-CoV-2 protein interaction map reveals targets for drug repurposing.自然583 (7816),459 - 468。doi: 10.1038 / s41586 - 020 - 2286 - 9
Graepel是T。,Lauter, K., and Naehrig, M. (2013). “ML confidential: Machine learning on encrypted data,” in信息安全与密码学- ICISC 2012。编辑t . Kwon m·k·李和d Kwon(柏林,海德堡:施普林格),7839年。在计算机科学的课堂讲稿。doi: 10.1007 / 978 - 3 - 642 - 37682 - 5 _1
Gupta, R。,Srivastava, D., Sahu, M., Tiwari, S., Ambasta, R. K., and Kumar, P. (2021). Artificial intelligence to deep learning: Machine intelligence approach for drug discovery.摩尔。潜水员。25 (3),1315 - 1360。doi: 10.1007 / s11030 - 021 - 10217 - 3
银行,d S。Lizee,。,Hessler, C., Brueggeman, L., Chen, S. L., Hadley, D., et al. (2017). Systematic integration of biomedical knowledge prioritizes drugs for repurposing.eLife6,e26726。doi: 10.7554 / eLife.26726
Hosny,。,Schwier, M., Berger, C., Örnek, E. P., Turan, M., Tran, P. V., et al. (2019).Modelhub。人工智能:传播深度学习平台模型。arXiv预印本arXiv: 1911.13218。doi: 10.48550 / arXiv.1911.13218
胡,Y。,Zhao, T., Zhang, N., Zhang, Y., and Cheng, L. (2019). A review of recent advances and research on drug target identification methods.咕咕叫。药物金属底座。20岁,209 - 216。doi: 10.2174 / 1389200219666180925091851
黄,K。傅,T。,Gao, W., Zhao, Y., Roohani, Y., Leskovec, J., et al. (2021).治疗数据共享:机器学习的数据集和药物发现和开发任务。arXiv预印本arXiv: 2102.09548。doi: 10.48550 / arXiv.2102.09548
黄,L。谢,D。Yu, Y。,Liu, H., Shi, Y., Shi, T., et al. (2018). Tcmid 2.0: A comprehensive resource for TCM.核酸Res。46 (1)D1117-D1120。doi: 10.1093 / nar / gkx1028
休斯,j . D。布拉格,J。,Price, D. A., Bailey, S., DeCrescenzo, G. A., Devraj, R. V., et al. (2008a). Physiochemical drug properties associated with在活的有机体内毒理学结果。Bioorg。地中海,化学。列托人。18 (17),4872 - 4875。doi: 10.1016 / j.bmcl.2008.07.071
休斯,j . P。里斯,S。,Kalindjian, S. B., and Philpott, K. L. (2011). Principles of early drug discovery.Br。j .杂志。162 (6),1239 - 1249。doi: 10.1111 / j.1476-5381.2010.01127.x
休斯,l D。,Palmer, D. S., Nigsch, F., and Mitchell, J. B. (2008b). Why are some properties more difficult to predict than others? A study of qspr models of solubility, melting point, and log P.j .化学。正无穷。模型。48 (1),220 - 232。doi: 10.1021 / ci700307p
Ianevski,。,Simonsen, R. M., Myhre, V., Tenson, T., Oksenych, V., Bjørås, M., et al. (2022). DrugVirus. Info 2.0: An integrative data portal for broad-spectrum antivirals (BSA) and BSA-containing drug combinations (BCCs).核酸Res。50 (1),W272-W275。doi: 10.1093 / nar / gkac348
Ibezim,。,Debnath, B., Ntie-Kang, F., Mbah, C. J., and Nwodo, N. J. (2017). Binding of anti-trypanosoma natural products from african flora against selected drug targets: A docking study.地中海,化学。Res。26 (3),562 - 579。doi: 10.1007 / s00044 - 016 - 1764 - y
Ivernizzi, L。莫约,P。,Cassel, J., Isaacs, F. J., Salvino, J. M., Montaner, L. J., et al. (2022). Use of hyphenated analytical techniques to identify the bioactive constituents of Gunnera perpensa L., a South African medicinal plant, which potently inhibit SARS-CoV-2 spike glycoprotein-host ACE2 binding.肛交。Bioanal。化学。414 (13),3971 - 3985。doi: 10.1007 / s00216 - 022 - 04041 - 3
Jayatunga m K。谢,W。,Ruder, L., Schulze, U., and Meier, C. (2022). AI in small-molecule drug discovery: A coming wave.Nat。启药物。21日,175 - 176。doi: 10.1038 / d41573 - 022 - 00025 - 1
金,H。,Song, Q., and Hu, X. (2019). Auto-keras: An efficient neural architecture search system."第25届ACM SIGKDD学报》国际会议上知识发现和数据挖掘,安克雷奇美国正义与发展党,2019年8月4 - 8日。ACM
乔丹,一个。,Bisgrove, D., and Verdin, E. (2003). HIV reproducibly establishes a latent infection after acute infection of T cells在体外。EMBO J。22 (8),1868 - 1877。doi: 10.1093 / emboj / cdg188
跳投,J。,Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., et al. (2021). Highly accurate protein structure prediction with AlphaFold.自然596 (7873),583 - 589。doi: 10.1038 / s41586 - 021 - 03819 - 2
Katz, K。,Shutov, O., Lapoint, R., Kimelman, M., Brister, J. R., and O’Sullivan, C. (2022). The sequence read archive: A decade more of explosive growth.核酸Res。D387-D390。doi: 10.1093 / nar / gkab1053
Kawabe Y。,和Kamihira, M. (2022). Novel cell lines derived from Chinese hamster kidney tissue.《公共科学图书馆•综合》17日,e0266061。doi: 10.1371 / journal.pone.0266061
金,S。,Cheng, T., He, S., Thiessen, P. A., Li, Q., Gindulyte, A., et al. (2022). PubChem protein, gene, pathway, and taxonomy data collections: Bridging biology and chemistry through target-centric views of PubChem data.j·摩尔,杂志。434 (11),167514。doi: 10.1016 / j.jmb.2022.167514
Krallinger, M。莱特纳,F。雷保,O。,Vazquez, M., Oyarzabal, J., and Valencia, A. (2015). Chemdner: The drugs and chemical names extraction challenge.j . Cheminformatics7 (1),S1。doi: 10.1186 / 1758 - 2946 - 7 - s1 - s1
拉米,j·B。,Berthelot, H., Favre, M., and Tsopra, R. (2020). “Limits and variability in drug databases: Lessons learnt from drug comparisons,” in数码个性化健康和医学(阿姆斯特丹:IOS的新闻),1329 - 1330。doi: 10.3233 / SHTI200426
Leteane, M . M。,Ngwenya, B. N., Muzila, M., Namushe, A., Mwinga, J., Musonda, R., et al. (2012). Old plants newly discovered: Cassia sieberiana D.C. And Cassia abbreviata oliv. Oliv. Root extracts inhibit在体外HIV-1c复制在外周血单核细胞(PBMCs)不同的行动模式。j . Ethnopharmacol。141 (1),48-56。doi: 10.1016 / j.jep.2012.01.044
罗,H。,Li, M., Yang, M., Wu, F. X., Li, Y., and Wang, J. (2021). Biomedical data and computational models for drug repositioning: A comprehensive review.简短。Bioinform。22 (2),1604 - 1619。doi: 10.1093 /龙头/ bbz176
曼加尔,M。,Sagar, P., Singh, H., Raghava, G. P., and Agarwal, S. M. (2013). Npact: Naturally occurring plant-based anti-cancer compound-activity-target database.核酸Res。41 (1)D1124-D1129。doi: 10.1093 / nar / gks1047
马丁,H。,Melo-Filho, C., Korn, D., Eastman, R., Rai, G., Simeonov, A., et al. (2022). Small molecule antiviral compound collection (SMACC): A database to support the discovery of broad-spectrum antiviral drug molecules.bioRxiv。(预印本)。doi: 10.1101 / 2022.07.09.499397
门德斯,D。,Gaulton, A., Bento, A. P., Chambers, J., de Veij, M., Félix, E., et al. (2019). ChEMBL: Towards direct deposition of bioassay data.核酸Res。47岁的D930-D940。doi: 10.1093 / nar / gky1075
默文,l . H。,Afzal, A. M., Drakakis, G., Lewis, R., Engkvist, O., and Bender, A. (2015). Target prediction utilising negative bioactivity data covering large chemical space.j . Cheminform。7日,51。doi: 10.1186 / s13321 - 015 - 0098 - y
Moret, M。,Friedrich, L., Grisoni, F., Merk, D., and Schneider, G. (2020). Generative molecular design in low data regimes.Nat,马赫。智能。2 (3),171 - 180。doi: 10.1038 / s42256 - 020 - 0160 - y
Moumbock, a F。、高、M。,Qaseem, A., Li, J., Kirchner, P. A., Ndingkokhar, B., et al. (2021). StreptomeDB 3.0: An updated compendium of streptomycetes natural products.核酸Res。49岁的D600-D604。doi: 10.1093 / nar / gkaa868
Ndung 'u, T。,Renjifo, B., Novitsky, V. A., McLane, M. F., Gaolekwe, S., and Essex, M. (2000). Molecular cloning and biological characterization of full-length HIV-1 subtype C from Botswana.病毒学278 (2),390 - 399。doi: 10.1006 / viro.2000.0583
纽曼,d J。,和Cragg, G. M. (2020). Natural products as sources of new drugs over the nearly four decades from 01/1981 to 09/2019.j . Nat,刺激。83 (3),770 - 803。doi: 10.1021 / acs.jnatprod.9b01285
镍,J。,Gohlke, B. O., Erehman, J., Banerjee, P., Rong, W. W., Goede, A., et al. (2014). SuperPred: Update on drug classification and target prediction.核酸Res。42岁的W26-W31。doi: 10.1093 / nar / gku477
Ntie-Kang F。,Amoa Onguéné, P., Fotso, G. W., Andrae-Marobela, K., Bezabih, M., Ndom, J. C., et al. (2014b). Virtualizing the p-ANAPL library: A step towards drug discovery from african medicinal plants.《公共科学图书馆•综合》9 (3),e90655。doi: 10.1371 / journal.pone.0090655
Ntie-Kang F。,Nwodo, J. N., Ibezim, A., Simoben, C. V., Karaman, B., Ngwa, V. F., et al. (2014a). Molecular modeling of potential anticancer agents from African medicinal plants.j .化学。正无穷。模型。54 (9),2433 - 2450。doi: 10.1021 / ci5003697
Ntie-Kang F。,Telukunta, K. K., Döring, K., Simoben, C. V., Moumbock, A., Aurélien, A. F., et al. (2017). Nanpdb: A resource for natural products from northern african sources.j . Nat,刺激。80 (7),2067 - 2076。doi: 10.1021 / acs.jnatprod.7b00283
Ntie-Kang F。Zofou D。,Babiaka, S. B., Meudom, R., Scharfe, M., Lifongo, L. L., et al. (2013). AfroDb: A select highly potent and diverse natural product library from african medicinal plants.《公共科学图书馆•综合》8 (10),e78085。doi: 10.1371 / journal.pone.0078085
Onguene, p。,Ntie-Kang F。孟巴,j。,Lifongo, L. L., Ndom, J. C., Sippl, W., et al. (2014). The potential of anti-malarial compounds derived from african medicinal plants, part III: An在网上评估药物代谢与药物动力学分析。Org。地中海,化学。列托人。4 (1),6。doi: 10.1186 / s13588 - 014 - 0006 - x
Pilon, a . C。瓦利,M。,Dametto, A. C., Pinto, M. E. F., Freire, R. T., Castro-Gamboa, I., et al. (2017). NuBBEDB: An updated database to uncover chemical and biological information from Brazilian biodiversity.科学。代表。7日,7215年。doi: 10.1038 / s41598 - 017 - 07451 - x
Polykovskiy D。Zhebrak,。,Sanchez-Lengeling, B., Golovanov, S., Tatanov, O., Belyaev, S., et al. (2020). Molecular sets (MOSES): A benchmarking platform for molecular generation models.前面。杂志。11日,565644年。doi: 10.3389 / fphar.2020.565644
库雷希,。,Thakur, N., Tandon, H., and Kumar, M. (2014). AVPdb: A database of experimentally validated antiviral peptides targeting medically important viruses.核酸Res。42 (D1) D1147-D1153。doi: 10.1093 / nar / gkt1191
罗德里格斯,T。,和Bernardes, G. J. (2020). Machine learning for target discovery in drug development.咕咕叫。当今。化学。医学杂志。56岁的16 - 22。doi: 10.1016 / j.cbpa.2019.10.003
荣,Y。,Bian, Y., Xu, T., Xie, W., Wei, Y., Huang, W., et al. (2020). Self-supervised graph transformer on large-scale molecular data.放置神经Inf。过程。系统。33岁,12559 - 12571。doi: 10.48550 / arXiv.2007.02835
Rouillard, a D。,Gundersen, G. W., Fernandez, N. F., Wang, Z., Monteiro, C. D., McDermott, M. G., et al. (2016). The harmonizome: A collection of processed datasets gathered to serve and mine knowledge about genes and proteins.数据库2016年,baw100。doi: 10.1093 /数据库/ baw100
Rutz,。,Sorokina, M。,Galgonek, J., Mietchen, D., Willighagen, E., Gaudry, A., et al. (2022). The LOTUS initiative for open knowledge management in natural products research.eLife11日,e70780。doi: 10.7554 / eLife.70780
Rutz,。,Sorokina, M。,Galgonek, J., Mietchen, D., Willighagen, E., Graham, J., et al. (2021).开放的天然产物研究:管理和传播通过wikidata生物出现的化学结构。bioRxiv,预印本。doi: 10.1101 / 2021.02.28.433265
桑托斯。,Colaço, A. R., Nielsen, A. B., Niu, L., Strauss, M., Geyer, P. E., et al. (2022). A knowledge graph to interpret clinical proteomics data.生物科技Nat。》。40 (5),692 - 702。doi: 10.1038 / s41587 - 021 - 01145 - 6
施耐德,P。,Walters, W. P., Plowright, A. T., Sieroka, N., Listgarten, J., Goodnow, R. A., et al. (2020). Rethinking drug design in the artificial intelligence era.Nat。启药物。19 (5),353 - 364。doi: 10.1038 / s41573 - 019 - 0050 - 3
Scotti, m . T。,Herrera-Acevedo, C., Oliveira, T. B., Costa, R. P. O., Santos, S. Y. K. O., Rodrigues, R. P., et al. (2018). SistematX, an online web-based cheminformatics tool for data management of secondary metabolites.分子23 (1),103。doi: 10.3390 / molecules23010103
Sharifi-Noghabi, H。,Jahangiri-Tazehkand, S., Smirnov, P., Hon, C., Mammoliti, A., Nair, S. K., et al. (2021). Drug sensitivity prediction from cell line-based pharmacogenomics data: Guidelines for developing machine learning models.简短。Bioinform。22 (6),bbab294。doi: 10.1093 /龙头/ bbab294
沈,w . X。,曾庆红,X。、朱、F。秦,C。棕褐色,Y。,Jiang, Y. Y., et al. (2021). Out-of-the-box deep learning prediction of pharmaceutical properties by broadly learned knowledge-based molecular representations.Nat,马赫。智能。3 (4),334 - 343。doi: 10.1038 / s42256 - 021 - 00301 - 6
Simoben, c V。Qaseem,。,Moumbock, a F。,Telukunta, K. K., Günther, S., Sippl, W., et al. (2020). Pharmacoinformatic investigation of medicinal plants from East Africa.摩尔。正无穷。39岁,2000163。doi: 10.1002 / minf.202000163
Singla D。,Sharma, A., Kaur, J., Panwar, B., and Raghava, G. P. (2010). BIAdb: A curated database of benzylisoquinoline alkaloids.BMC杂志。10、4。doi: 10.1186 / 1471-2210-10-4
史密斯,r D。,Clark, J. J., Ahmed, A., Orban, Z. J., Dunbar, J. B., and Carlson, H. A. (2019). Updates to binding MOAD (mother of all databases): Polypharmacology tools and their utility in drug repurposing.j·摩尔,杂志。431 (13),2423 - 2433。doi: 10.1016 / j.jmb.2019.05.024
Sorokina, M。,Merseburger, P., Rajan, K., Yirik, M. A., and Steinbeck, C. (2021). COCONUT online: Collection of open natural products database.j . Cheminform。13日2。doi: 10.1186 / s13321 - 020 - 00478 - 9
斯坦利,M。,Bronskill, J. F., Maziarz, K., Misztela, H., Lanini, J., Segler, M., et al. (2021). “August. Fs-Mol: A few-shot learning dataset of molecules.” In三十五神经信息处理系统数据和基准追踪会议(第二轮),2021年5月13日。
英镑、T。,和Irwin, J. J. (2015). ZINC 15–ligand discovery for everyone.j .化学。正无穷。模型。55 (11),2324 - 2337。doi: 10.1021 / acs.jcim.5b00559
斯托克斯,j . M。杨,K。,Swanson, K., Jin, W., Cubillos-Ruiz, A., Donghia, N. M., et al. (2020). A deep learning approach to antibiotic discovery.细胞180 (4),688 - 702。e13。doi: 10.1016 / j.cell.2020.01.021
Stouch, t·R。,Kenyon, J. R., Johnson, S. R., Chen, X. Q., Doweyko, A., and Li, Y. (2003).在网上ADME /托克斯:为什么模型失败。j .第一版。辅助。摩尔,Des。17 (2 - 4),83 - 92。doi: 10.1023 /: 1025358319677
Stumpfe D。,胡锦涛,H。,和Bajorath, J. (2019). Evolving concept of activity cliffs.ACSω4 (11),14360 - 14368。doi: 10.1021 / acsomega.9b02221
苏,M。,Yang, Q., Du, Y., Feng, G., Liu, Z., Li, Y., et al. (2018). Comparative assessment of scoring functions: The CASF-2016 update.j .化学。正无穷。模型。59 (2),895 - 913。doi: 10.1021 / acs.jcim.8b00545
Tetko, i V。,Engkvist, O., Koch, U., Reymond, J. L., and Chen, H. (2016). Bigchem: Challenges and opportunities for big data analysis in chemistry.摩尔。正无穷。35 (11 - 12),615 - 621。doi: 10.1002 / minf.201600073
塔迦尔,一个。,Chadimová, V., Bjerrum, E. J., Engkvist, O., and Reymond, J. L. (2021). Retrosynthetic accessibility score (RAscore)\x{2013}rapid machine learned synthesizability classification from AI driven retrosynthetic planning.化学。科学。12 (9),3339 - 3349。doi: 10.1039 / d0sc05401a
Tietjen,我。,Cassel, J., Register, E. T., Zhou, X. Y., Messick, T. E., Keeney, F., et al. (2021). The natural stilbenoid (-)-hopeaphenol inhibits cellular entry of SARS-CoV-2 USA-WA1/2020, B.1.1.7, and B.1.351 variants.Antimicrob。代理Chemother。65 (12),e0077221。doi: 10.1128 / AAC.00772-21
Tietjen,我。,Ngwenya, B. N., Fotso, G., Williams, D. E., Simonambango, S., Ngadjui, B. T., et al. (2018). The Croton megalobotrys Müll Arg. Traditional medicine in HIV/AIDS management: Documentation of patient use,在体外激活潜伏的hiv - 1病毒,佛波醇酯和隔离活跃。j . Ethnopharmacol。211年,267 - 277。doi: 10.1016 / j.jep.2017.09.038
Tietjen,我。,Ntie-Kang F。,Mwimanzi, P., Onguéné, P. A., Scull, M. A., Idowu, T. O., et al. (2015). Screening of the Pan-African natural product library identifies ixoratannin A-2 and boldine as novel HIV-1 inhibitors.《公共科学图书馆•综合》10 (4),e0121099。doi: 10.1371 / journal.pone.0121099
谢霆锋,e . G。,Aithani, L., Anderson, M., Cardoso-Silva, J., Cincilla, G., Conduit, G. J., et al. (2021). An open drug discovery competition: Experimental validation of predictive models in a series of novel antimalarials.j .地中海,化学。64 (22),16450 - 16463。doi: 10.1021 / acs.jmedchem.1c00313
联合国教科文组织(2022)。简报59:全球对研发的投资。可以在:http://uis.unesco.org/sites/default/files/documents/fs59 -全球投资- rd - 2020 en.pdf(2022年6月访问)。
Varadi, M。,Anyango, S., Deshpande, M., Nair, S., Natassia, C., Yordanova, G., et al. (2022). AlphaFold protein structure database: Massively expanding the structural coverage of protein-sequence space with high-accuracy models.核酸Res。50 (1),D439-D444。doi: 10.1093 / nar / gkab1061
王,C。吴,Q。,Weimer, M., and Zhu, E. (2021). Flaml: A fast and lightweight AutoML library.Proc一部分。马赫。学习。系统。3,434 - 447。doi: 10.48550 / arXiv.1911.04706
华林,m . J。,Arrowsmith, J., Leach, A. R., Leeson, P. D., Mandrell, S., Owen, R. M., et al. (2015). An analysis of the attrition of drug candidates from four major pharmaceutical companies.Nat。启药物。14 (7),475 - 486。doi: 10.1038 / nrd4609
Warnat-Herresthal, S。舒尔茨,H。,Shastry, K. L., Manamohan, S., Mukherjee, S., Garg, V., et al. (2021). Swarm Learning for decentralized and confidential clinical machine learning.自然594年,265 - 270。doi: 10.1038 / s41586 - 021 - 03583 - 3
人(2022)。健康产品的管道从发现到市场推出所有的疾病。可以在:https://www.who.int/observatories/global-observatory-on-health-research-and-development/monitoring/health-products-in-the-pipeline-from-discovery-to-market-launch-for-all-diseases(2022年6月访问)。
威廉姆斯,a·J。郑伊健,S。,和Tkachenko, V. (2012). Towards a gold standard: Regarding quality in public domain chemistry databases and approaches to improving the situation.药物。今天17 (13),685 - 701。doi: 10.1016 / j.drudis.2012.02.013
威廉姆森,a E。,Ylioja, p . M。,Robertson, M. N., Antonova-Koch, Y., Avery, V., Baell, J. B., et al. (2016). Open source drug discovery: Highly potent antimalarial compounds derived from the Tres Cantos arylpyrroles.ACS分钱。科学。2 (10)687 - 701。doi: 10.1021 / acscentsci.6b00086
眨眼,S。,Woodland, J. G., Pillai, G., and Chibale, K. (2022). Fostering drug discovery and development in Africa.Nat,地中海。28日,1523 - 1526。doi: 10.1038 / s41591 - 022 - 01885 - 1
Wishart d S。,Feunang, Y. D., Guo, A. C., Lo, E. J., Marcu, A., Grant, J. R., et al. (2018). DrugBank 5.0: A major update to the DrugBank database for 2018.核酸Res。46 (D1) D1074-D1082。doi: 10.1093 / nar / gkx1037
狼,T。,Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., et al. (2020). Transformers: State-of-the-Art natural language processing. In学报2020年会议上实证方法在自然语言处理:系统演示,2020年1月1日。38-45,网上。计算语言学协会。
吴,Z。,Ramsundar, B., Feinberg, E. N., Gomes, J., Geniesse, C., Pappu, A. S., et al. (2018). MoleculeNet: A benchmark for molecular machine learning.化学。科学。9 (2),513 - 530。doi: 10.1039 / c7sc02664a
熊,G。吴,Z。,咦,J。傅,L。,Yang, Z., Hsieh, C., et al. (2021). ADMETlab 2.0: an integrated online platform for accurate and comprehensive predictions of ADMET properties.核酸Res。49 (W1) W5-W14。doi: 10.1093 / nar / gkab255
Yasgar,。,Jadhav, A., Simeonov, A., and Coussens, N. P. (2016). AlphaScreen-based assays: Ultra-high-throughput screening for small molecule inhibitors of challenging enzymes and protein-protein interactions.摩尔。生物方法。1439年,77 - 98。doi: 10.1007 / 978 - 1 - 4939 - 3673 - 1 - _5
Yonchev D。,Dimova, D., Stumpfe, D., Vogt, M., and Bajorath, J. (2018). Redundancy in two major compound databases.药物。今天23 (6),1183 - 1186。doi: 10.1016 / j.drudis.2018.03.005
曾,X。,Zhang, P., He, W., Qin, C., Chen, S., Tao, L., et al. (2018). Npass: Natural product activity and species source database for natural product research, discovery and tool development.核酸Res。46 (1)D1217-D1222。doi: 10.1093 / nar / gkx1026
曾,X。,Zhang, P., Wang, Y., Qin, C., Chen, S., He, W., et al. (2019). Cmaup: A database of collective molecular activities of useful plants.核酸Res。47 (1)D1118-D1127。doi: 10.1093 / nar / gky965
张,L。棕褐色,J。,汉族,D。,和Zhu, H. (2017). From machine learning to deep learning: Progress in machine intelligence for rational drug discovery.药物。今天22 (11),1680 - 1685。doi: 10.1016 / j.drudis.2017.08.010
关键词:抗病毒药物、人工智能、机器学习、药物发现,低收入和中等收入国家
引用:Namba-Nzanguim CT, Turon G, Simoben简历,Tietjen我,褐煤LJ, Efange SMN, Duran-Frigola M和Ntie-Kang F(2022)人工智能的抗病毒药物发现低的资源设置:一个视角。前面。药物。越是加大。2:1013285。doi: 10.3389 / fddsv.2022.1013285
收到:2022年8月06;接受:2022年10月05;
发表:2022年11月02。
编辑:
何塞·L Medina-Franco墨西哥,墨西哥国立自治大学的版权©2022 Namba-Nzanguim Turon、Simoben Tietjen,褐煤,Efange, Duran-Frigola Ntie-Kang。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:Miquel Duran-Frigola,miquel@ersilia.io;Fidele Ntie-Kang,fidele.ntie-kang@ubuea.cm
__这可能被视为平等的贡献者。