跳转到主要内容

方法的文章

前面。药物。,2022年12月19日
秒。在网上对药物发现方法和人工智能
卷2 - 2022 | https://doi.org/10.3389/fddsv.2022.1074797

增强效用的AI /毫升方法在铅优化通过包含3 d配体的信息

www.雷竞技rebatfrontiersin.org利奥·布莱西 1*www.雷竞技rebatfrontiersin.org吨货车戴伦1 www.雷竞技rebatfrontiersin.orgj·达纳Honeycutt1 www.雷竞技rebatfrontiersin.org莫伊塞斯哈桑 1 www.雷竞技rebatfrontiersin.orgJayaraman钱德拉塞卡2 www.雷竞技rebatfrontiersin.org威廉。雪莉 2 www.雷竞技rebatfrontiersin.org薇琪徐2 www.雷竞技rebatfrontiersin.org乌里施密茨 2*
  • 1达索系统公司股价BIOVIA圣地亚哥分校、钙、美国
  • 2吉里德科学福斯特城、钙、美国

AI /毫升方法在药物发现成熟及其效用和影响可能会渗透药物发现的许多方面,包括寻找领导者和优化。典型方法利用ML-models组织性能预测与简单的2 d - base化学小分子的表达。此外,有限的数据,特别是有关新靶点,很难建立有效的结构活性ML-models。在这里,我们描述我们最近的工作使用BIOVIA生殖治疗设计(GTD)应用程序,这是准备利用蛋白质配体相互作用的三维结构模型,即。,pharmacophoric表示所需的功能。使用一种SAR数据集有关entospletinib麦克米兰抑制剂的发现和lanraplenib除了两个不相关的临床麦克米兰抑制剂,我们展示了几个常见的问题在发现领导者和优化可以有效地解决GTD。这包括努力回顾之后药物候选分子基于项目的一个中间阶段的数据使用化学空间约束和在GTD进化压力的应用。此外,研究GTD的平台可以配置为生成分子将从多个不相关的分子特性系列展示GTD方法应用人工智能/毫升药物发现。

1介绍

带来一个新的制药实体从临床发现病人是一个漫长艰苦的过程,即使在今天涉及大量的试验和错误的努力,这是反映在不足共同design-make-test-analyze周期的概念。除了足够的调节力量向理想的目标,一个成功的口服药物需要足够的选择性,吸收、分布、代谢稳定性和毒性的缺乏。这些属性有一个复杂的分子的物理化学属性的依赖。此外,一些属性有相互矛盾的要求,使设计过程一个乏味的平衡,例如,水溶解度对药物至关重要但过多的亲水性通常阻碍渗透。因此,典型的药物优化运动是一个复杂的多参数优化过程。另一个挑战来自于事实的数据可以为大多数(如果不是全部的话)试验仅分子生成近似在活的有机体内ADME性质。例如,亲油性(LogD),水溶解度和在体外微粒体稳定性可以测量容易,这些参数用于模型复杂在活的有机体内参数和生物利用度和药物间隙,但是在活的有机体内只测量了关键的化合物。

机器学习(ML)模型已经出现了几十年(塞拉西et al ., 2002;亚伯et al ., 2017;谢里登,2019;穆拉托夫et al ., 2020),但最近的改进在计算能力和学习算法(帕特尔et al ., 2020;本德和Cortes-Ciriano, 2021;通et al ., 2021随着越来越多的数据导致了新的兴趣,如果不是炒作(沃尔特斯,2022)。而明确的改进模型的预测能力进行了(Feinberg et al ., 2020;高尔et al ., 2020;Aleksic et al ., 2022),典型的错误率仍然可观。例如,范伯格等人报告说,即使是最好的R2值−0.8,获得了色谱LogD测量和高效液相色谱EPSA值时使用了时间分割分析在大型工业数据集从默克公司(Feinberg et al ., 2020)。R2中值为30多个ADME化验端点被报道为0.43。联合使用多个模型降低任何特定分子的概率是正确预测所需的所有属性。最近的一项分析Aleksic et al。(2022)使用大型ADME数据集在勃林格殷格翰的发言表明,一般情况下,类模型对于大多数ADME性质可以生成,但最有用的预滤器大型复合图书馆而不是铅优化。后者需要更多微妙的预测的中档房地产功能。作者特别强调了模型预测的不足在活的有机体内ADME端点(Aleksic et al ., 2022)。虽然ML-models预测能力有限,使用与通用计算约束如兆瓦,hba, HBDs,芳香环,等等,可以有效地塑造化学空间为特定的设计问题,基于早期ML-model铅优化项目通常遭受贫穷的模型的生物活性。相比之下,传统的基于结构的分析设计方法依赖于配体蛋白分子在晶体结构作为衡量目标接触的交互。使用观察的结果,结合蛋白质配体相互作用的化学设计空间标准的核心是基于结构的设计从一开始。

尽管如此,上述进步,基于结构的方法,两个截然不同的方向发展。一种方法,以薛定谔的AutoDesigner平台(Bos et al ., 2022)旨在详尽列举相关分子化学空间的数千万使用各种生成算法。这些庞大的图书馆使用过滤层“设计空间标准”其次是定量基于结构的方法,包括对接,这仍可能成千上万的分子来评估。最后一个修剪步骤通常是执行通过昂贵的自由能计算方法,例如聚全氟乙丙烯+ (亚伯et al ., 2017;jesper et al ., 2021)。

第二种方法利用分子的生成方法进行迭代进化在不同化学性质与ML模型所描述的标准Besnard et al ., 2012,或通过强化学习以Iktos \ x {2019} Makya阶石et al。(2022)和阿斯利康的改造(Blaschke et al ., 2020)。这种方法可以计算更快的生成方法只需要列举分子在空间定义的分子从上一次迭代和识别那些改进适合集属性的标准。提高生物活性至关重要的优化过程,结果是ML-models的质量紧密相连。在缺乏高度预测ML-models生物活动,这在我们的经验中是一种常见的发生,我们感到的3 d信息中需要使用的配体蛋白交互生成迭代周期。这里我们描述了一种新的迭代优化方法称为分子生殖治疗设计(GTD) (Honeycutt et al ., 2021),这些交互已经成为优化标准的一部分的形式简单的药效团特征,作为二进制约束或作为定量参数进行优化。后者可能是药效团的健身功能,如适应值结合特性,形状相似,甚至对接的分数。

在这份报告中,我们简要描述GTD并展示其效用的设置中常见的药物发现项目。我们的报告描述了一个“模拟前瞻性研究”选择使我们能够显著增强算法基于知道想要的结果。

利用一个大脾酪氨酸激酶(麦克米兰)抑制剂的数据集,我们表明,GTD可以有效地建议有效的分子扣留additionwe演示训练集的特征两个无关的支架可以合并成一个新的和一个支架可以演变成另一个已知的脚手架。

2方法

2.1 GTD:工作流与2 d毫升模型

GTD的一般方法应用程序被描述(Honeycutt et al ., 2021)和示意图所示图1一个。下面我们回顾一些凸点,但关注的功能添加自我们最初出版(参见SI GTD方法的更多细节)。

图1
www.雷竞技rebatfrontiersin.org

图1。生成疗法的设计平台。(一)generate-filter-score-prune周期。(B)示例输入与固定的原子和分子同源组(固定的原子,中蓝色,不修改在分子生成过程;同源性组织,如“heteroaryl”或“杂环”限制在特定位置上取代基接受核心)。(C)用户界面设置一个愿望函数GTD的预测模型。红线显示直方图的分数为训练样本标记为“坏”模型创建的时候,绿线显示了样本标记为“好”的直方图。直方图帮助用户完善GTD建议合意性映射函数。圆形标记蓝色的线是用户可配置的拐点控制候选人的原始分数分子的映射(轴)愿望价值(轴)。轴标签显示阳性预测值的预测模型。当没有可用的训练数据结果GTD的预测反应生成直方图FDA批准的药物。

生成设计工具的关键标准是候选人提出的系统适用、小说,和可行的。竞技场的小分子设计适用的目标转化为平衡的力量,足够的治疗指数对非目标包括一般毒性作用,和适当的药代动力学性质。小说分子也不“简单”的修改过程的一开始,并不是专利文献中所描述的。可行性包括合成可访问性、成本、复杂性和坚持经验法则med-chemists广泛应用,例如,Ro5。

GTD的应用程序使用一个迭代的、进化的方法识别分子满足上述标准的类。每个迭代都包括几个阶段的意图迅速修剪掉的途径的调查从而探索化学空间的最小有用的部分。因此,每次迭代都包括一个Generate-Filter-Score-Prune (GFSP)循环。

2.1.1生成

GTD迭代过程的第一阶段是生成基于枚举计划的新分子或分子转换。两组方法进行增量更改到一个初始化输入分子的集合。枚举一个随机的子集的r基团或反应物初始设定形式。后续迭代保留r基团或反应物被发现在高性能分子(如下所述),删除那些没有,并添加新的基于一组标准属于组相似。在用户提供的输入分子的情况下,这些通常会从项目的集合或文献;分子中,用户可以指定子结构(s)将不会修改和限制的范围可能在特定群体(见附件指向指定的同源性图1 b)。

从这些输入分子GTD执行各种转换。(参见SI细节的方法。)这些转换产生的变异宽度可调探索性或细化阶段。这些方法都是为了输出新分子保持约束可行域的结构,和适合药物发现项目。各种化学空间的评估可以通过描述这些转换SI和将成为未来的通信。

2.1.2筛选分子

上面生成的输出方法减少了与各种各样的用户可选择的过滤器。当然,不同类型的药物靶点需要分子具有不同特点,通常可以表示可数或容易计算分子性质。GTD的化学过滤功能套件包括了固有的分子特性,建立在用户定义的子结构和碎片质量目录,以及用户定义的“知道分子”。更多细节在补充信息。

2.1.3得分

分阶段的目的是把一组候选分子根据具体目标作为目标所代表的产品配置文件(TPP)。这通常包括多个生物活性的预测和各种物理化学性质。GTD使用2 d毫升模型评分,然后排名分子根据他们如何满足TPP设定的目标。虽然在GTD支持其他方法,当前的“最佳实践”的方法,我们通常提倡使用分类模型和转让愿望(D)剖面TPP的每个元素。(参见SI详情。)这种方法使用纯数据毫升模型的局限性,以及我们如何修改时3 d物理模型可在后面一节中描述。

注意,在这个“标准”的工作流,分子被拒绝如果它不在任何毫升的适用性域(广告)模型。虽然普遍认为每毫升模型有一个广告,减少协议如何评估一个分子内或外的广告,各种不同的方法提出了在文献(冰斗et al ., 2018)。一般来说,描述符用于评估广告相同的用于构建模型。(参见SI详情。)

广告和其他过滤器被应用后,单独使用愿望排列剩下的分子,并确定哪些生存迭代往往导致的分子化学多样性较低。这是因为分子最大的愿望分数往往不同于彼此只有很小的变化。因此,GTD征收额外的进化压力,鼓励多样性。这有助于确保最终的收集建议的分子结构的多样性,并减少中间迭代的风险成为困在局部极大值,这样最增量变化导致“糟糕”分子,即使多个变化可以确定优越的。

实现两大方案保持多样性的GTD系统:基于集群和Pareto-based。在聚类方法中,分子分为集群根据不同的选择标准之一,且只有一个或几个分子最大的D值在每个集群被认为是最后排名前修剪步骤。Tanimoto距离聚类,常见Bemis-Murcko脚手架或普通脚手架大纲(沉重的所有原子取代碳)的支持。GTD的替代集群保持多样性是帕累托优化,贸易多样性与愿望。看到这种方法的描述(Honeycutt et al ., 2021)。

2.1.4修剪

已完成的生成、过滤和分阶段,最后一步是修剪通常仍由这些阶段产生的大量的分子进入一个子集作为输入为下一次迭代。通常情况下,这是通过将由用户指定的数量(默认100)最大的整体吸引力的分数。如果使用集群,只有顶部分子从每个集群被认为是理想的排名。使用基于枚举生成方法时这些顶尖排名分子分解确定r基团或反应物应该重用下一轮部分枚举。

2.2 GTD:修改工作流与药效团模型

机器学习模型的能力做出可靠的预测其广告以外的子结构是有限的。事实上,GTD的标准方法是简单地丢弃任何分子的谎言在广告的模型TPP。在实践中,通常是必要的,铅的过程优化表明结构图案没有试过在一个项目中。如果这样的图案也大大不同于发现毫升模型的训练数据,然后不能信任预测分子包含它们。

相比之下,一个药效团模型来源于配体的三维结构绑定到一个活跃的网站不会将遭受同样的限制。这样的模型是一个物理的配体,而不是一个统计表示行为相对于目标。因此,我们把这样的3 d模型到GTD的优化,发现大大增加成功相对于单独使用2 d毫升模型。

GTD应用程序支持三种不同的方式将一个药效团(PH4)模型在工作流中,所有这些在不同情况下我们发现有用的。选择的特征发现工作室建模套件(达索系统公司股价,2022)在GTD,因此可用,这个实现PH4模型被用于这项工作。在下面描述的应用程序,pharmacophoric特性采用受体,捐赠者,RingAromatic、形状(配体)和ExclusionVolumes(受体)。为了评估GTD生成分子反对PH4模型,正确的三维矫形器生成,必须包括定义立体异构体和质子化作用状态。这些计算使用管道进行试点组件(达索系统公司股价,2022 b)设置基于药效团的标准评估协议中发现工作室(达索系统公司股价,2022)。

GTD的支持PH4模型的使用场景:

1)的过滤步骤:分子的一个或多个矫形器可以安装PH4模型通过,而另一些则拒绝。用户定义的阈值可以通过/失败标准提高PH4匹配的质量(默认设置:FitValue > 0的特性相结合,ShapeSimilarity > 0.5,两个标准化的范围从0到1)。

2)的分数步:整体愿望,D,从2 D毫升模型在TPP乘以PH4适应得分。这个愿望分数调整用于排名在修剪步骤。

3)的修剪步骤:在最初的愿望得分排名和修剪根据2 d毫升模型在TPP, PH4适应得分进一步用于排名和剔除。以这种方式使用PH4模型时,删除步骤是在两个阶段完成的。在第一阶段x * n分子是保持基于整体的愿望,x(默认2)和一个扩张因素吗n是最终所需的分子的数量。这些分子是通过PH4配件然后运行。分数从PH4模型然后使用排名的分子,和顶部n保留作为下一次迭代的输入。

细节我们如何用PH4麦克米兰抑制剂研究模型,包括修改工作流涉及过滤器是下面讨论的逐步实现。

2.3麦克米兰抑制剂数据集

麦克米兰是胞质酪氨酸激酶和immunoreceptor信号的一个重要中介。大量的药物发现工作在多个治疗领域描述(刘和Mamorska-Dyga, 2017年;唐et al ., 2022),包括发现的故事entospletinib和lanraplenib (Currie et al ., 2014;Blomgren et al ., 2020)。一个恰当的帐户的临床进展见下面的评论(刘和Mamorska-Dyga, 2017年;唐et al ., 2022)。

表1显示了重要的生物活性数据(生化激酶试验:麦克米兰IC50;细胞活动:pBNLK EC50;全血的细胞活动:hWB CD63 EC50)在人类肝细胞代谢稳定性和动能在pH7溶解度。Entospletinib从数以百计的化合物作为早期临床麦克米兰抑制剂前,必须在400毫克口服一天两次由于代谢稳定性差和低pH7微摩尔的溶解度。每天一次的备份程序复合推出了将近1000种化合物被合成和评估。TPP的努力也是所示表1。同时发现oxetano-piperazine而不是吗啉的一部分提供许多新陈代谢更稳定的化合物,寻找一个替代entospletinib吲唑困难证明了特区的细胞活动,溶解性和渗透性的特质。两个不相邻的氮杂原子引入吲唑啉及其类似物开始导致lanraplenib项目的最后阶段。绝大多数的最后91种化合物含有吡嗪子结构见lanraplenib。

表1
www.雷竞技rebatfrontiersin.org

表1。临床分期麦克米兰抑制剂用于这项研究。

测试GTD的实用工具,我们使用这些化合物的SAR数据不包含“最终”吡嗪主题,留下1655化合物为模型建立和91种化合物进行验证(数量的数据点培训每个模型中列出表2)。

表2
www.雷竞技rebatfrontiersin.org

表2。统计2 d ML-models。

这个训练数据是用于生成2 d ML-models如上所述。注意,验证集的91种化合物没有随机子集的化合物,而是选择忽略候选人鉴定过程中发现的信息晚了,因此大约代表基于时间的分裂(谢里登,2013)。

3的结果

3.1应用程序的GTD寻找高价值的类似物在铅优化

标准使用GTD需要的应用2 d ML-models建立在现有的SAR数据连同项目特定的或全球的物理化学性质ML-models连同其他设计空间过滤器如上所述。一个期望的使用场景是GTD产生新思想,通过所有过滤器和得分高ML-models当大量的数据存在,就像在麦克米兰抑制剂的情况项目团队之前吡嗪一半被发现。

为了模拟这种情况,随机森林分类器模型建立三个生物活性测定,使用上述方法溶解性和渗透性。由此产生的模型所示质量措施表2。而所有模型的整体质量很好只是考虑到训练集时,大多数ROC AUC值显著下降,尤其是对生物活性,当最后的91种化合物进行了预测。但最重要的是,许多最好的预测最终的吡嗪类化合物是不活跃在一个或多个活动的模型。毫不奇怪,GTD并没有产生与吡嗪化合物一部分或任何吸引人的项目团队的追求。然而,GTD分子优化使用这些模型的实证检验发现两个问题:

1)模型的广告用最少的数据点限制,多数的91验证化合物被拒绝时广告以外的所有毫升模型被用于TPP。特别是,因为没有一个训练化合物包括任何pyrazine-containing化合物,任何出现的这一部分在发电机产生的化合物会被拒绝。

2)当使用毫升(随机森林)活动模型,大多数活性化合物的测试集预测是不活跃的PPV默认级别用于GTD。麦克米兰活动分截止对应于95%的PPV给两个真实的阳性(TP)和73假阴性测试集(FN);90%的PPV给23 TP和51 FN。在这里,一个真正的积极表示一个活跃的化合物(效力比30海里)正确预测是活跃的,而假阴性表示一个活跃的化合物不正确预测是不活跃的。减少85%给73 PPV TP和两FN但代价很大一部分假阳性(预测活跃不活跃的化合物)。lanraplenib“最好”的化合物,被评为“积极”麦克米兰模型,PPV不得不将下降到88%。

关于第一个问题,稍微扩大广告(基于修改的分子指纹图谱用于评估)是足够宽通过最好的91验证化合物。然而,这是不够宽,允许探索化学空间足够广泛的使用场景,涉及多个是否以下。当我们发现生产设置这个回顾任务,这可能不是微不足道的,在未来的情况。

第二个问题的部分反映了限制PPV-based设置分数阈值方法。特别,而阈值的PPV,说,90%表明分子得分高于阈值有90%的机会被活跃(真阳性),没有声明如何可能是活跃分子得分低于阈值(假阴性)或不活跃(真阴性)。在实践中,一般都不错,但不是很好的模型(旨在民国评分−0.85 - -0.93),PPV高阈值在大量的假阴性结果测试集数据。但我们认为这是一个可以接受的折衷如果(作为药物发现是典型项目)我们的目标是找到一个或少量的足够好的进步分子,即使其他潜在优秀分子被忽视。

一个更严重的问题使用毫升模型分子的优化提高了还建议et al。(2019)。从本质上说,这个问题可以概括为一个风险的预测质量差甚至测试分子在一个模型的名义广告如果这些分子在化学空间分布的不同分子充分的培训。(这有点总结简化;在这里我们引用读者细节和细微差别(还建议et al ., 2019)。

因此,即使第一个“简单”的挑战,很明显,毫升可用模型由小规模数据集本身不足以迎接挑战。因此,我们开始一个药效团模型合并到工作流。图2显示了这两种药物覆盖麦克米兰绑定口袋里(co-crystal结构特征的entospelitinib绑定到麦克米兰,pdbID 4 puz)用来创建一个PH4模型捕获一个强有力的抑制剂的基本特性。在SI(见4 puz_ento_exvol2药效团模型描述了完整的细节。)

图2
www.雷竞技rebatfrontiersin.org

图2。识别高价值Entospletinib的类似物。(一)Entospletinib和lanraplenib对齐麦克米兰活性部位使用puz pdbID 4和6薇欧薇,分别(受体表面由疏水性彩色)。(B)同样符合添加五个共享药效团特征(HBD品红,HBA绿色环芳香族橙色;更多细节见4 puz_ento_exvol2 SI)。(C)子结构约束GTD的第一轮迭代,R1和R2表示枚举组。(D)子结构约束GTD的第二轮迭代。(E)代表GTD结果与期望的分数。

在我们最初的探索用PH4作为生物活性代理,我们试图GTD生成分子phenylamino-imidazopyrazine核心所示图2 cR1和R2 PH4应该是优化的,一套calculatable产权约束和几个ML-models(即分子。、CACO2 hWbCD63和pH7-solubility)。GTD可以产生任何用户定义的分子数,一个典型的运行应该呈现一个几百的想法,许多用户处理好了解地足够小。虽然所有批次的几百思想表现出所需的关键特性包括HB供体功能向Asp512(底部特征图2 b),aminopyrazine lanraplenib R1的没有发现。这不足为奇,因为化学空间R2的约束R1相比要小得多,这样更多的R2的多样性。另一方面,R1展出所请求的所有解决方案Hbond捐赠,这是一个重大的改进比不使用药效基因作为额外的驱动程序。

类似于现实世界铅优化药物化学,我们固定R2用一半,被发现帮助溶解性和稳定性,lanraplenib oxetano-piperazine (图2 d)。然而,GTD的迭代优化的本质意味着,尽管区域的化学空间far-separated起点可以达到,各个步骤通过这个空间的适度规模。后果之一是,如果太多的约束同时被激活,可能没有分子通过过滤器/删除步骤和优化停止。这就是我们观察到在我们最初的R1优化。因此,为了避免过早终止优化,我们之前通过GFSP允许两个迭代周期激活PH4基于过滤。这允许系统来生成一个不同的组R1子结构消除那些没有所需的H-bond。的增量激活约束预期aminopyrazines确实是生成五个迭代后连同其他有趣的分子。图2 e显示代表GTD分子以及整体愿望分数(D)这是由个人的愿望的功能使用ML-models在这种情况下包括渗透率模型(caco2 D),溶解度模型(SOL pH7 D)和人工全血活动模型(hWB CD63)。注意PH4模型被用作二进制过滤器FitValue > 0。GTD想法的简短列表所示图2 e表明1)一些想法符合PH4只是作为高能矫形器,和2)许多想法接近的类似物分子不佳,团队和废弃(即。,methyl-aminopyrimidine比aminopyrimidine失败)。然而,一个典型的设计团队可以迅速向分诊这些类型的结果识别小说候选人成功的可能性高。我们承认其他CADD工作流存在列举一个r基团赋予某些属性产生的分子。然而,这些通常需要一个有限的r基团或试剂的列表。这种限制的GTD用户是免费的。

3.2应用程序GTD脚手架跳跃

CADD设计团队的另一个典型的场景是利用现有的配体找到相关配体与改进的属性。在一个简单的情况下,这可能需要变形配体系列从专利发表小说系列,属性有所改善。探索如何完成这个GTD,我们利用两个临床麦克米兰抑制剂,prt - 062607和mivavotinib (科菲et al ., 2012;林et al ., 2016)所示表1图3一显示了两个分子,因为它们对齐麦克米兰的活性部位。共享的特性,即。cyclohexandiamine和甲酰胺铰链绑定一部分,完全一致时产生六个功能PH4图所示(形状约束是单独prt - 062607)。在SI(见portola_6FeaSHP药效团模型描述了完整的细节。)我们想看看GTD只能生成mivavotinib当prt - 062607结构从结构和cyclohexandiamine一部分作为一个固定的原子组(见图1 b),共享PH4模型没有任何其他活动模型和其他一些合理的限制。典型的结果所示图3罪犯。注意,这些小说例子满足所有过滤器和PH4模型,但没有一个分子表现出环化甲酰胺,mivavotinib的标志。GTD的关键生产主要内酰胺的引入不必要的子结构过滤器所示图3 e消除所有与未被取代的芳基甲酰胺(注意,一个分子呢图3 d仍被允许)。此外子结构过滤器,我们还发现,分子属性过滤器有助于保持结果接近预期的化学空间(即。MW < 400和戒指的数量≤5)。

图3
www.雷竞技rebatfrontiersin.org

图3。脚手架使用prt - 062607和mivavotinib跳跃。(一)prt - 062607和使用rxp PDBid 4和5 tr6 mivavotinib对齐,分别。六个共同特征进行描述(HBD品红,HBA绿色,疏水的青色,环芳香族橙色,负电荷红色,更多细节见portola_6FeaSHP SI)。(罪犯)代表PH4 GTD的结果一致。(E)不必要的子结构过滤器。(F)mivavotinib最近的GTD的结果。(G H)代表GTD结果与环化甲酰胺分组。

对于这种情况,逐渐添加层的约束是至关重要的。具体来说,按照以下顺序约束被激活:

1)迭代≥1:毫升域模型适用性。

2)迭代≥2:标准结构过滤器(糟糕的子结构,分子财产范围和数量)。

3)迭代≥3:药效团FitValue > 0。

4)迭代≥4:自定义结构过滤不必要的化学反应有关。

结果是,经过14迭代,一批200个分子包含一个非常接近的模拟mivavotinib(见图3 f)。其他两个例子(图3 g, H)表明,GTD可以找到两个,与直接aryl-aryl连杆mivavotinib内酰胺(图3 gprt - 062607)和苯胺链接器(图3 h)。

这个领导跳跃的例子表明,GTD是一种有效的创意工具尤其是设计目标空间,这一点很好理解和充分的代表过滤器和约束。

3.3应用程序GTD支架合并

更普遍,更多的困难的场景需要合并某些特性的两种不同化学系列小说有可能改进的属性。作为一个例子,可以想象,麦克米兰抑制剂设计团队想结合entospletinib系列的某些特性与独特的mivavotinib cyclohexanediamine prt - 062607的一半即强大的交互应该兼顾Asp512和伟大的溶解度由于质子化了的胺。图4显示entospletinib的对齐和prt - 062607活性部位及其个人pharmacophoric特性。注意与Asp512互动两种药物之间有很大的不同,甚至对铰链绑定地区两种药物只有中间Hbond分享。通过创建一个混合PH4 (图4 c)使用相关的cyclohexanediamine特性从prt - 062607结合entospletinib的铰链的交互,我们集中GTD生成混合分子。一个形状约束是定义的两种药物的综合卷。(见ento_portola_6FeaSHP2_tight + ExV药效团模型描述在SI的完整细节。)对于我们的生产运行,我们添加了排除卷等蛋白质努力创建边界形状以外的GTD分子不能伸出。就像在上面的支架跳跃的例子中,cyclohexandiamine一半将是一个需要二维子结构。很明显在这一点上,很多试验和错误运行必须定义适当的约束生产使用GTD。

图4
www.雷竞技rebatfrontiersin.org

图4。Entospletenib支架合并cyclohexandiamine系列。(一)prt - 062607(青色)和entospletinib(绿色)使用rxp PDBid 4和4 puz对齐,分别。受体在HBond表面着色。(B)配体的(一)与个人的药效团特征(特点是颜色像父配体)。Asp512显示演示如何配体相互作用不同。(C)从每个配体混合PH4有三个特性(HBD品红,HBA绿色,疏水的青色,ring-aromatic橙色,负电荷红色,排除卷灰色,更多细节见ento_portola_6FeaSHP2_tight + ExV SI)及相关相关配体的一部分。注意,功能卷必须大幅减少获得有用的结果。(D)代表GTD模型结果一致PH4连同2 d渲染。

最成功的运行使用这两种分子的结构和方案后开始逐渐增加的约束:

一个只有:1)迭代滤波器通过每一个分子共同脚手架PH4之前的轮廓拟合

2)迭代≥1:毫升模型适用性域和药效团配合得分滤波器FitValue > 0

3)迭代≥2:标准结构过滤器(糟糕的子结构,分子财产范围和数量)

4)迭代≥3:自定义过滤器结构基于药物化学家设计团队的见解。

此外,我们将PH4分数(例如,FitValue)融入整体愿望,从而使其分子进化的主要动力。

图4 d显示了四个代表性例子的GTD生产运行150分子被请求。注意,他们都表现出良好的cyclohexanediamine连同所需的铰链绑定根。这些GTD的价值结果与其说是由这些特定的分子,因为我们有几个ML-models和过滤应用,而是铰链绑定的建议主题,可以附加到cyclohexanediamine这样满足所有功能。设计团队可能只是追求简单的类似物并确认基本的生物活性和假定的绑定模式。合并两个支架GTD的这个例子是一个很有力的证明,其创意的潜力,特别是在情况ML-models不存在指导迭代过程。

4讨论

设计新颖的化学结构会议组约束相关领导优化是一个重要的AI /毫升,cheminformatics和仿真技术可以帮助药物发现项目团队快速和成本有效地实现他们的目标。这里描述的工作是共同的结果评估的效用GTD应用程序在计算化学环境中。为此建立了一系列的场景复制所面临的典型情况下计算化学在药物发现项目中团队工作时。执行这项工作结束后的相关项目,显然允许评估GTD系统的输出由谁知道(至少一套)结构主题符合标准,和一些不。同时工作在组织允许团队使用和提高GTD软件最小化预期输出的知识“污染”。我们三个用例覆盖不同,然而典型场景在基于结构的药物发现证明药效团模型的效用作为分子GTD驱动迭代优化的一部分。虽然这是证明只有在激酶抑制剂设计,这种方法应该有广泛的实用工具,因为它的特点是user-dependent药效团知觉,而不是一个受体的atom表示。因为这种方法允许范围广泛的可定制性,同样清楚的是,并不是每一个药效团模型中使用GTD系统将导致有效的打击。潜力将成为清楚只有通过广泛应用多样化的问题,目前我们正在追求的。

数据可用性声明

数据分析在这项研究中受到以下许可证/限制:我们使用公布的数据使用(引用)和未发表的SAR数据或模型建立。大部分的晚些时候发表在引用专利出版物。一些数据是基列科学的专利。请求访问这些数据集应该指向uschmitz@gilead.com

作者的贡献

磅,JH, MH写手稿,VT, JC, WS,磅,JH, MH,和TD解释结果和提出改进JH,磅,TD跑在网上实验。

资金

本研究完全由达索系统公司股价和基列科学。

确认

作者要感谢的关键贡献BIOVIA GTD软件开发团队的其他成员包括凯文·梅洛,Tanguy狄维士,席琳费雷,帕特里斯皮斯通,Rajeswari瑟哈德里,安德鲁Spong,罗曼·Tertiaux。我们也感谢乔恩·萨特和尤尔根•重新设计与药效基因方法融入GTD援助。

的利益冲突

磅,TD、JH和达索系统公司股价BIOVIA MH受雇于该公司。JC, WS、VT和基列人受雇于该公司的科学。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/fddsv.2022.1074797/full补充材料

引用

亚伯,R。王,L。困难,e D。伯尔尼,b . J。Friesner, r . a (2017)。促进药物发现通过加强自由能计算。Acc。化学。Res。50 (7),1625 - 1632。doi: 10.1021 / acs.accounts.7b00083

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Aleksic, S。Seeliger D。布朗,j . b . (2022)。ADMET可预测性在勃林格殷格翰的发言:最先进的,更大的数据集或算法产生影响吗?摩尔。正无穷。41 (2),e2100113。doi: 10.1002 / minf.202100113

CrossRef全文|谷歌学术搜索

本德,。,Cortes-Ciriano i (2021)。人工智能在药物发现:什么是现实,幻想是什么?第1部分:产生影响的方式,为什么我们还没有做到这一点。药物。今天26 (2),511 - 524。doi: 10.1016 / j.drudis.2020.12.009

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Besnard, J。、Ruda g F。分散化,V。阿贝卡西斯医生开,K。Rodriguiz, r . M。黄,x p (2012)。自动设计的配体polypharmacological概要文件。自然492 (7428),215 - 220。

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Blaschke, T。Arus-Pous, J。陈,H。Margreitter C。Tyrchan C。Engkvist, O。,et al。(2020)。重塑2.0:一个AI新创药物设计的工具。j .化学。正无穷。模型。60 (12),5918 - 5922。doi: 10.1021 / acs.jcim.0c00915

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Blomgren, P。钱德拉塞卡,J。迪保罗·j·A。Fung, W。耿,G。Ip, C。,et al。(2020)。发现lanraplenib (gs - 9876):每日一脾酪氨酸激酶抑制剂为自身免疫性疾病。ACS地中海,化学。列托人。11 (4),506 - 513。doi: 10.1021 / acsmedchemlett.9b00621

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Bos, p . H。Houang, e . M。,Ranalli F。莱弗勒,a E。波义耳氏:A。、Eyrich诉。,et al。(2022)。AutoDesigner,从头设计快速算法探索大型化学空间铅优化:应用程序的设计和合成分子酸氧化酶抑制剂。j .化学。正无穷。模型。62 (8),1905 - 1915。doi: 10.1021 / acs.jcim.2c00072

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

科菲,G。DeGuzman F。Inagaki, M。Pak, Y。德莱尼,s M。艾夫斯,D。,et al。(2012)。特定的抑制脾酪氨酸激酶抑制白细胞的免疫功能和炎症类风湿性关节炎的动物模型。j .杂志。其他实验。340 (2),350 - 359。doi: 10.1124 / jpet.111.188441

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Currie, k . S。Kropf, j·E。李,T。Blomgren, P。徐,J。赵,Z。,et al。(2014)。发现的gs - 9973、选择性和口服有效的脾酪氨酸激酶抑制剂。j .地中海,化学。57 (9),3856 - 3873。doi: 10.1021 / jm500228a

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

达索系统(2022)。Biovia发现工作室。可以在:https://www.3ds.com/products-services/biovia/products/molecular-modeling-simulation/biovia-discovery-studio/(2022年12月5日访问)。

谷歌学术搜索

达索系统(2022 b)。管道的飞行员。可以在:https://www.3ds.com/products-services/biovia/products/data-science/pipeline-pilot/(2022年12月5日访问)。

谷歌学术搜索

Feinberg, e . N。Joshi E。潘德,v . S。程,a . c (2020)。改善与多任务深featurization ADMET预测。j .地中海,化学。63 (16),8835 - 8848。doi: 10.1021 / acs.jmedchem.9b02187

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

高尔,a . H。Kuhnke, L。Montanari F。小笠原,。田螺,S。Laak后,。,et al。(2020)。拜耳的在网上ADMET平台:机器学习在过去的二十年里的旅程。药物。今天25 (9),1702 - 1709。doi: 10.1016 / j.drudis.2020.07.001

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Honeycutt, j . D。佐恩k . M。克拉克,a . M。郑伊健,美国(2021年)。“药物发现和开发多目标优化的进步,”汉堡的药物化学,药物发现和开发。2。8日ed(纽约,纽约,美国:威利)。

CrossRef全文|谷歌学术搜索

jesper, W。Aqvist, J。,Gutierrez-de-Teran h (2021)。自由能计算预测protein-ligand绑定。摩尔。生物方法。2266年,203 - 226。doi: 10.1007 / 978 - 1 - 0716 - 1209 - 5 _12

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

凹地,S。罗伊,K。Leszczynski, j . (2018)。应用领域:一步自信的定量构效关系模型和可判定性预测。摩尔。生物方法。1800年,141 - 169。doi: 10.1007 / 978 - 1 - 4939 - 7899 - 1 - _6

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Lam B。Arikawa, Y。Cramlett, J。董问。德容,R。视野中时,V。,et al。(2016)。发现tak - 659一个口头可用临床实验的脾酪氨酸激酶抑制剂(麦克米兰)。Bioorg。地中海,化学。列托人。26日(24),5947 - 5950。doi: 10.1016 / j.bmcl.2016.10.087

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

刘,D。Mamorska-Dyga, a (2017)。麦克米兰抑制剂在临床血液恶性肿瘤的发展。j .内科杂志。肿瘤防治杂志。10 (1),145。doi: 10.1186 / s13045 - 017 - 0512 - 1

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

穆拉托夫,e . N。Bajorath, J。谢里登,r . P。Tetko, i V。Filimonov D。Poroikov, V。,et al。(2020)。构象无国界。化学。Soc。牧师。49 (11),3525 - 3564。doi: 10.1039 / d0cs00098a

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

帕特尔L。舒克拉,T。黄,X。Ussery, d . W。王,美国(2020年)。机器学习方法在药物发现。分子25(22),5277年。doi: 10.3390 / molecules25225277

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

阶石,Q。Mirguet, O。Tajmouati, H。Skiredj,。罗哈斯,。Gohier,。,et al。(2022)。深层生成模型ligand-based从头设计应用于不确定型优化。j .第一版。化学。43 (10),692 - 703。doi: 10.1002 / jcc.26826

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

还建议,P。范Rompaey D。韦格纳,j·K。、Hochreiter年代。,Klambauer g (2019)。在失效模式分子生成和优化。药物。今天。抛光工艺。32-33,55 - 63。doi: 10.1016 / j.ddtec.2020.09.003

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

塞拉西,c, D。Mekapati, s . B。,Verma r p (2002)。构象:当时和现在。咕咕叫。上面。地中海,化学。2 (12),1357 - 1379。doi: 10.2174 / 1568026023392823

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

谢里登,r . p . (2019)。定量构效关系模型的解释着色原子根据预测活动的变化:有多强劲?j .化学。正无穷。模型。59 (4),1324 - 1337。doi: 10.1021 / acs.jcim.8b00825

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

谢里登,r . p . (2013)。Time-split交叉验证的方法估算的美好未来的预测。j .化学。正无穷。模型。53 (4),783 - 790。doi: 10.1021 / ci400084k

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

唐,S。余问。丁,c (2022)。临床实验的脾酪氨酸激酶(麦克米兰)抑制剂治疗自身免疫性疾病。当今专家。Investig。药物31 (3),291 - 303。doi: 10.1080 / 13543784.2022.2040014

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

通,X。刘,X。棕褐色,X。李,X。江,J。熊,Z。,et al。(2021)。为新创药物设计生成模型。j .地中海,化学。64 (19),14011 - 14027。doi: 10.1021 / acs.jmedchem.1c00927

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

沃尔特斯,p (2022)。人工智能在药物发现2020 -一个高度固执己见的文献综述。可以在(互联网):https://practicalcheminformatics雷竞技公司blogspotcom/。(2022年12月5日通过)

谷歌学术搜索

关键词:机器学习,药效团,生成复合设计,期望函数,生成治疗设计,在网上优化

引用:布莱西LS,范戴伦T, Honeycutt JD,哈桑M,钱德拉塞卡J,雪莉W,徐U V和施密茨(2022)增强效用的AI /毫升方法在铅优化通过包含3 d配体的信息。前面。药物。越是加大。2:1074797。doi: 10.3389 / fddsv.2022.1074797

收到:2022年10月20日;接受:2022年11月29日;
发表:2022年12月19日。

编辑:

何塞·l·Medina-Franco墨西哥,墨西哥国立自治大学的

审核:

罗德里戈•奥乔亚勃林格殷格翰集团,德国
穆瓜达卢佩Rosas-Jimenez德国马克斯·普朗克生物物理研究所

版权©2022年布莱西·范·戴伦Honeycutt,哈桑,钱德拉塞卡,雪莉,徐和施密茨。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:利奥布莱西,leo.bleicher@3ds.com;乌里施密茨,uschmitz@gilead.com

下载