机器学习方法预测蛋白质绑定亲和力的蛋白质设计
- 1肿瘤系统生物学,分工爱知癌症中心研究所、爱知、日本名古屋
- 2癌症信息学,名古屋大学研究生院医学、爱知、日本名古屋
蛋白质-蛋白质之间的关系管理范围广泛的生物活性。适当的估计蛋白质绑定关联设计至关重要的蛋白质具有高特异性和亲和力对目标蛋白质,有各种各样的应用程序包括抗体在免疫治疗设计,为反应优化酶工程,建设生物传感器。然而,实验和理论建模方法是费时,阻碍整个蛋白质的探索空间,阻止最佳蛋白质的识别,满足实际应用的要求。近年来,快速发展的机器学习方法预测蛋白质绑定关联显示潜在的蛋白质设计范式转变。在这里,我们审查的预测方法和相关的数据集和讨论亲和力的要求和施工方法对蛋白质设计预测模型。
1介绍
蛋白质相互作用在生理活动中发挥核心作用,包括信号转导、细胞代谢和免疫系统(Osaki et al ., 2004;De Las Rivas Fontanillo, 2010;郭,2014;Szeto et al ., 2020)。确定蛋白质-蛋白质之间的关系可以帮助研究人员阐明生物现象,找到疾病的原因,设计新的药物(瑞安和马修斯,2005年;卡特,2006;弗勒锡曼et al ., 2011;Sliwkowski人士梅尔曼,2013;郭et al ., 2014;罗塞尔和Fernandez-Recio, 2018)。作为一个代表性的例子,癌症免疫疗法已被证明是非常有效的针对某些癌症和(引起了相当大的关注Varela-Rohena et al ., 2008;Restifo et al ., 2012)。在免疫疗法,T细胞识别和攻击癌细胞通过结合互补决定区(cdr)的T细胞受体(tcr)的肽主要组织相容性复合体(pMHC)癌症细胞(Smith-Garvin et al ., 2009)。癌症细胞之间的相互作用和目标抗原必须正确评估设计识别,有效地识别癌细胞。
平衡离解常数(Kd)或吉布斯自由能(ΔG),它可以来自Kd,通常用于量化蛋白质-蛋白质之间的关系(王et al ., 2004;Kastritis et al ., 2011;Moal Fernandez-Recio, 2012;Jankauskaitėet al ., 2019)。为Kd或抑制常数(K我)测量的蛋白质复合物有时与x射线晶体学实验,同时进行一些数据集包含蛋白质绑定关联数据的三维结构(王et al ., 2004;Kastritis et al ., 2011;博曼et al ., 2017)。因此可以使用这些数据集的预测基于3 d结构绑定关联。然而,实验测量过程Kd是劳动密集型和耗时,有时需要复杂的实验设备(周et al ., 2016)。
作为一个最重要的蛋白质设计的应用领域,antibody-antigen的蛋白质相互作用数据绑定或TCR-pMHC识别为免疫治疗提供重要信息,它可以描述抗体或细胞的氨基酸序列和结构绑定到目标。最近,单细胞测序被用于免疫分析在细胞之间的相互作用生成高通量定量数据或bcr (B细胞受体)和抗原(Bentzen et al ., 2016)。使用从捐赠者,收集的样本序列的识别或BCR确定每个单元格通过单细胞测序,受体和抗原的结合强度测量基于项dextramer携带多个抗原,可以根据特征量化条形码(10倍基因组学,2020年)。模型训练的单个细胞免疫分析数据集验证传统TCR-antigen绑定数据集(Sidhom et al ., 2021)。虽然单个细胞免疫分析可以同时测量成千上万的T细胞,细胞序列空间的大小估计超过1020.(Zarnitsyna et al ., 2013),使它不可能很难找到最优识别使用样本来自捐赠者或随机生成的。
规避上述实验测量的局限性,使用分子动力学模拟方法预测亲和力,实证能量函数,和机器学习方法已经开发(Chothia亚宁,1975;霍顿和刘易斯,1992年;江et al ., 2002;马et al ., 2002;Zhang et al ., 2005;奥迪和Scarlata, 2007;苏et al ., 2009;花et al ., 2010;Panday Alexov, 2022)。分子动力学模拟在高成本的计算提供高度精确预测强度(德弗里斯et al ., 2010;巴黎et al ., 2015)。实证能量函数用于protein-ligand和蛋白质亲和的预测。computation-demanding虽然这方法少,有必要进一步改进以实现分子设计(所需的精度Kastritis Bonvin, 2010)。与前两种方法相比,机器学习方法已经开发了处理复杂的任务,不工作与manually-curated函数,如自然语言处理和计算机视觉勒存et al ., 2015;格拉汉姆·古德费勒et al ., 2016)。近年来,机器学习已经证明了它潜在的自然科学在各个领域,包括物理、化学和生物学(Stanev et al ., 2018;吴et al ., 2019;跳投et al ., 2021;李m . et al ., 2022)。在结构生物学领域,AlphaFold和RosettaFold高精度基于氨基酸序列预测蛋白质结构(门敏et al ., 2021;跳投et al ., 2021)。
在过去的十年里,大量的机器学习方法在蛋白质相互作用的预测已经出版,包括分类模型来识别对蛋白质形成复杂的蛋白质交互网站预测,和绑定关联预测(Casadio et al ., 2022;胡锦涛等人。,2022年;李s . et al ., 2022)。特别是,机器学习模型的高通量的特点是在虚拟筛选和蛋白质设计方面极具价值。
在这个角度看,我们专注于为蛋白质绑定关联定量预测模型和相关的数据集,可以进一步部署在蛋白质设计。图1展示了机器学习模型利用资源数据集来预测不同featurization亲和力、方法。一般情况下在蛋白质设计工程师一个蛋白质,使其财产落在预定的范围内。考虑到后续的实验是耗时的,它是非常重要的在实际应用中正确地估计财产减少假阳性和假阴性。一般的评论对机器学习的应用给出蛋白质间交互作用Casadio et al。(2022),胡锦涛et al。(2022),李et al。(2022)。我们讨论问题的预测模型的蛋白质绑定关联对于他们的应用程序在蛋白质设计,高度精确的定量预测是必需的。我们还提供指导如何利用信息从不同的数据集来建立精确的预测模型和讨论最近开发的使用高度准确的数据增加蛋白质结构预测模型。
图1。(一)基于结构的方法使用蛋白质的三维结构作为输入预测结合亲和力。相关信息绑定表面,图神经网络和拓扑特性被用作描述符和结合机器学习模型预测结合亲和力。交叉验证和抵抗测试集是用于验证预测模型的精度。(B)序列方法使用蛋白质序列预测蛋白质绑定亲和力。氨基酸的性质、pre-trained表示和序列嵌入层训练与预测模型用于提取蛋白质序列的特征,这对机器学习模型作为输入。交叉验证和抵抗测试集是用于验证预测模型的精度。
2数据集
机器学习模型设计的基础上,他们将使用的数据类型。从蛋白质数据库中提取的数据集(PDB) (wwPDB财团,2019),3 d结构和氨基酸序列可以作为输入,和KdK我或集成电路50(在50%抑制浓度)将预测目标(李et al ., 2014;刘et al ., 2015;刘et al ., 2017)。最近,单细胞RNA-sequencing已经应用于确定免疫概要文件以发现识别或bcr专门绑定到特定目标(10倍基因组学,2020年)。测序数据的机器学习模型的核酸或蛋白质的氨基酸序列作为输入,预测他们的结合特异性(Abbasi et al ., 2020;费舍尔et al ., 2020)。在本节中,我们简要讨论数据类型,大小和其他方面可能影响预测精度的机器学习模型(表1)。
2.1 PDBbind
PDBbind数据集是一组复杂的结构从PDB中提取的结合亲和力决定实验(王et al ., 2004)。PDBbind数据集的第一个版本是在2004年出版,只包含protein-ligand绑定数据。自从2008年更新,蛋白质复合物,protein-nucleic酸复合物,核酸acid-ligand复合物也被包含在数据集(李et al ., 2014;刘et al ., 2015;刘et al ., 2017)。直到2020年,PDBbind数据集都是每年更新。在每年的第一个星期,新的蛋白质结构数据存入PDB在去年被包含在数据集。程序被设计来确定PDB文件包含蛋白质复合体结构数据和分类复杂结构文件成一个四类(protein-ligand复合物,蛋白质复合物,protein-nucleic酸复合物,和核酸acid-ligand复杂)(刘et al ., 2015)。另一个程序被用来屏幕复杂结构的主要参考文件。文章包含绑定关联数据手动策划和PDB标识,绑定亲和力,和评论记录的数据集。在当前版本(PDBbind 2020),总共有23496项的数据集,包括19433 protein-ligand复合物,2852个蛋白质复合物,1052 protein-nucleic酸复合物和149核acid-ligand复合物。为建立一个绑定关联预测模型的蛋白质复合物,复合物的结构和氨基酸序列数据可以从PDB文件并获得KdK我或集成电路50值记录在数据预测的目标。
2.2基于结构的基准蛋白质绑定关联
蛋白质绑定关联是一个组装的小基准数据集144蛋白质复合物(Kastritis et al ., 2011)。数据集由三个复杂的类。类一个包含抗原抗体复合物(19例),类E是enzyme-containing类(61例)和类O(“其他”)包括复合物,不会落入前两类。为每个复合物,Kd数据集和ΔG报道随着pH值,温度,和实验方法。蛋白质的相互作用可以诱导构象改变,复合物的结构和释放组件都是在这个数据集。与其他数据集相比,基于结构的基准蛋白质绑定关联是一个小的数据集,但包括pH值和温度非常有价值的附加信息对提高预测精度。此外,未绑定组件的数据结构可以用来构建模型,预测不同结构的两种蛋白质资源的亲和力。在实践中这是最常见的情况。
2.3 SKEMPI SKEMPI 2.0
SKEMPI(结构性突变蛋白相互作用的动力学和能量)的数据库是一个数据库描述绑定亲和力和其他动力学特征的变化对突变(Moal Fernandez-Recio, 2012)。SKEMPI 2.0是一个更新版本的SKEMPI数据库(Jankauskaitėet al ., 2019)。在SKEMPI 1.1中,有158个PDB项为3047突变体和绑定关联数据。在SKEMPI 2.0中,PDB项和突变体的数量增加到345和7085年,分别。很大一部分在SKEMPI收集的数据的基于结构的基准蛋白质绑定关联(Kastritis et al ., 2011),ASEdb (荆棘和出身低微的人,2001年),品脱(Kumar和Gromiha, 2006),和相关的引用。SKEMPI 2.0中包含的额外的数据收集从数据集与出版文献和引用的相关国内外研究蛋白质-蛋白质分子对接和亲和力基准(升级版Vreven et al ., 2015)。结合能的变化在突变,以及实验方法和温度信息,从相关的文献和收购了手动添加到数据库中。对于结构数据,野生型蛋白的PDB标识记录。在实例中,突变体的晶体结构也在报纸上报道的那样,数据结构也包含在数据集。
2.4阿特拉斯
阿特拉斯(改变细胞受体配体亲和性和结构)数据库是一组细胞受体的亲和力pMHC (博曼et al ., 2017)。数据库包括694项123 PDB结构。每个条目包括识别、肽MHC,亲和力和PDB ID,如果晶体结构。对配合物的晶体结构没有报告,包括复杂的模板PDB ID为进一步计算基于模板的结构。地图集包含类似于SKEMPI和信息SKEMPI 2.0,但数据集是专注于TCR-pMHC复合物。与蛋白质的设计所需的属性通常包括引入突变蛋白质从特定的家庭,这个数据集的专注于某一个领域是非常适合构建有效的蛋白质设计预测模型基于相同的域。其他数据集,如AB-Bind (Sirin et al ., 2016),antibody-antigen对接和亲和力的基准(客人et al ., 2021),关注antibody-antigen交互,因此用于抗体设计。
2.5 10 x单个细胞免疫分析数据集
与前面描述的数据集,10倍的单一细胞免疫概要文件生成的数据集通过单细胞RNA-sequencing (10倍基因组学,2020年)。T细胞获得四个健康的捐赠者和发现CD8抗体标记+T细胞能够杀死癌症或感染病毒的细胞。的数据集包含数据136477个细胞,其中包括55221种不同TCR clonotypes。的特异性识别对于绑定pMHCs被确定使用dextramers携带抗原。为此,44 dextramer试剂与6 -控制混合细胞和粘结强度量化使用项独特的分子标识符(UMI) dextramer。尽管使用这种方法获得的数据是嘈杂的,这种方法代表了一种高通量的方法识别识别与目标pMHC结合强度高。
3机器学习方法
机器学习是一个研究领域,着重于数据找到模式,建立模型来预测或解释,理解底层的关系数据(主教,2006年;米切尔,2013)。机器学习方法,从简单的线性回归深度学习(密封,1967;议会和Vapnik, 1995;锡锦Ho 1995;Breiman 1996;弗里德曼,2002;勒存et al ., 2015;格拉汉姆·古德费勒et al ., 2016),几十年来一直在开发,实现在科学、金融、医疗和其他字段(迪克森et al ., 2020;郭et al ., 2020;Varoquaux Cheplygina, 2022;Zhang et al ., 2022)。在结构生物学,机器学习的方法被用来预测蛋白质的结构根据其氨基酸序列,设计新的分子酶抑制和预测蛋白质相互作用(Vamathevan et al ., 2019;门敏et al ., 2021;跳投et al ., 2021;Romero-Molina et al ., 2022)。在本节中,我们专注于为蛋白质相互作用预测回归模型(表2)。在蛋白质设计,它是常见的结合强度限制在一个特定的范围;因此,预测模型应该能够准确评估绑定关联。
3.1基于结构的方法
基于结构的方法使用一种蛋白质的三维结构预测模型输入绑定关联。关于蛋白质作为数据包含大量信息界面,设计良好的特征向量来捕捉每个模型的基本信息。Vangone和Bonvin inter-residue网络接触和使用,没有相互作用表面的描述符(Vangone Bonvin, 2015)。线性回归模型的性能测试的基准数据集79蛋白质复合物;皮尔森相关系数(Rp)实验ΔΔG(绑定亲和突变引起的变化),并预测ΔΔG是0.73。罗德里格斯等人提出了一个方法来预测基于基于签名亲和力,它描述绑定接口(模式原子之间的距离罗德里格斯et al ., 2021)。补充功能,包括实验条件和非共价联系人,也被这些模型的一部分。额外的树模型,训练是基于签名和互补的特性,被最佳性能与R SKEMPI 2.0数据集p= 0.75。
刘等人提出一种结合机器学习模型图神经网络(GNN) gradient-boosting树(GBT) (刘et al ., 2021)。GNN使用消息传递体系结构(基尔默et al ., 2017)生成特征向量的复杂,以及self-supervised培训计划被用来训练GNN (Doersch Zisserman, 2017)。扰动被应用于蛋白质侧链的坐标,GNN是用于编码perturbated 3 d结构,一个隐藏的向量,和模型训练减少重建的坐标和原始坐标之间的差异。这个self-supervised训练过程被认为是帮助GNN捕捉重要信息在复杂的蛋白质之间的相互作用。GBT使用生成的描述符的性能GNN Rp2.0 = 0.58和0.52 SKEMPI和SKEMPI数据集,分别。
王等人开发了一个网络架构来捕获复杂的几何和拓扑模式有效(王et al ., 2020)。的特性计算使用持久的同源性(Edelsbrunner et al ., 2002;Zomorodian和,2005),它也被应用于材料科学和protein-ligand绑定关联预测和被称为一个强大的工具在机器学习(Kovacev-Nikolic et al ., 2016;Shirai和中村,2019)。持久的同源性所产生的功能是处理使用卷积神经网络(CNN)提取高层特征向量。将特征向量与原子类型的信息,最终创建输入向量和GBTΔΔG用来预测。模型被任命为TopNetTree并实现了Rp0.85和0.79的SKEMPI和SKEMPI 2.0数据集,分别。
提出的另一个架构模型,名叫PerSpect-EL凌晨和夏结合持续的同源性和整体学习改善预测精度(凌晨,夏,2022)。CNN模型被训练预测亲和力的持久的同源性特性,和GBT模型被训练使用亲和力的蛋白质复合体的物理性质的预测。元学习者进行最终的预测基于CNN输出和GBT输出。整体模型实现了Rp0.853在SKEMPI数据集。
PPI-Affinity是一个网络工具,预测绑定关联使用支持向量机和其他经典的机器学习模型(Romero-Molina et al ., 2022)。接受成千上万的特性由ProtDCal作为输入(Romero-Molina et al ., 2019),R的模型显示性能p= 0.77 SKEMPI数据集。随着ProtDCal是一个通用的程序生成分子结构描述符,据说一些机器学习模型可以从通用描述符提取绑定信息来预测绑定关联。
3.2基于方法
序列方法以氨基酸序列为输入和直接预测绑定关联。鼻中隔黏膜下切除术后featurization方法包括替换矩阵表示(),position-specific得分矩阵(PSSM),和其他嵌入方法为自然语言处理开发(Zvelebil Baum, 2008;Dubitzky et al ., 2013;杨et al ., 2018)。Yugandhar和Gromiha提出PPA-Pred (Yugandhar Gromiha, 2014),这是一个多元回归模型使用氨基酸属性AAindex和其他资源的特性(川岛和Kanehisa, 2000;2007年的领导人和罗斯特)。与135复合物选择基于结构的基准数据集进行蛋白质绑定关联被分为九个子类。建立了一个模型为每个子类和相关性从0.739到0.992不等。岛(硅蛋白亲和力预测)相结合的内核表示蛋白质序列与支持向量回归预测绑定关联(Abbasi et al ., 2020)。Rp的测量和预测ΔG 0.44基于结构的基准蛋白质绑定关联。陈等人开发了一个端到端的模型预测的亲和力氨基酸序列基于递归卷积神经网络(RCNN) (陈et al ., 2019)。与其他模型相比,使用自协方差或composition-transition-distribution特征描述符,一个暹罗残余RCNN pretrained蛋白质序列的嵌入表示提供最佳性能(Rp= 0.873)。另一个模型基于pre-trained嵌入和残余RCNN提出了雪et al。雪et al ., 2022)。不同于其他序列的方法,这种方法是蛋白质的结构信息和功能被用于训练的阶段生成序列嵌入含有蛋白质的结构和功能信息。的性能模型(Rp= 0.264)据报道使用同源性和结构similarity-base数据分割方法SKEMPI 2.0的一个子集。费舍尔等人被认为是10 x UMI计数的单个细胞免疫分析数据集的粘结强度TCR-pMHC复杂(费舍尔et al ., 2020)。名叫TcellMatch开发了一个模型来预测基于TCR pMHC数序列,表面蛋白计数,共(供体、mRNA的总数量和负控制pMHC计数)。的R210倍的数据集上的预测为0.63。
4讨论
在这项研究中,我们介绍了几个数据集和模型绑定关联预测。在本节中,我们将讨论关于蛋白质设计的实际应用问题。作为机器学习方法提供高吞吐量的预测精度高,他们是理想的工具,用于筛查新设计为特定的绑定到目标蛋白质。最近的评论关于这个主题封面的蛋白质相互作用预测模型主要分类模型(Casadio et al ., 2022;胡锦涛等人。,2022年;李s . et al ., 2022);然而,几乎没有讨论机器学习模型的定量预测。因为它是一个重要的先决条件在蛋白质设计正确估计蛋白质工程的属性是否在所需的范围内,定量预测的现状和问题为进一步改善蛋白质绑定关联应该澄清。
最紧迫的问题是,没有被广泛接受的评价方法对蛋白质绑定关联模型。所示表2,第三节中讨论模型的精度进行测试在不同的数据集。此外,不同的研究使用不同的数据分割方法在交叉验证报告预测精度在相同的数据集。其中,10倍交叉验证中使用的大多数模型。然而,多个研究报道,精度可以高估了由于数据的相似性在训练数据集和测试数据集(公园和马克特,2012年;Hamp贷款和罗斯特,2015;Abbasi Minhas, 2016;刘et al ., 2021)。刘et al。(2021)和雪et al。(2022)评估设计的模型使用数据分割方法基于同源性和结构相似性。时每个模型旨在表现出高绩效评估在一个特定的数据集与特定的数据分割,几乎是不可能比较不常见的评价方法预测精度相当。一个理想的评估预计将大数据集,有不同类型的蛋白质相互作用,如antibody-antigen es和其他复合物。此外,低收入和high-binding亲和力复合物是必要的评估模型对不同类型的数据的表现。此外,正如不同的模型使用不同的信息作为输入,实验条件和其他辅助信息应记录复杂的序列和结构信息。然而,建立一个大的和全面的数据集是耗时的,可以评估未来的解决方案模型,一个实用的评价方法使用现有数据集测试模型SKEMPI 2.0数据集,亲和力相结合来自多个数据源的数据,并获得了很多关注最近的研究由于其广泛使用。识别问题绩效评估由于相似性之间的数据训练和测试数据集,这两个十倍交叉验证和相似性数据分割应该应用于评估模型的精度,显示不同的数据分割方法之间的偏差模型的鲁棒性,当使用不同的训练数据训练,在模型中评价这是一个重要方面。
自绑定关联预测蛋白质设计的任务不同于一般蛋白质绑定关联预测,预测的目标是在相同的蛋白质家族,如抗体、细胞受体,或酶,评价方法用于蛋白质的预测模型应指定相应的设计。作为一个例子,在抗体或细胞的设计,介绍了突变到一个特定的蛋白质提高绑定关联到一个特定的范围(马克维斯奇et al ., 2022)。因此,评价方法需要评估模型的预测能力在一个子空间覆盖蛋白设计中产生的突变体。
虽然这个模型评估相对简单,模型可以在高亲和力地区表现不佳。这是因为大多数抗体或细胞受体的结合亲和力低亲和力的范围,和训练数据的模型可能不足以学习的模式的高亲和性的蛋白质。这种类型的问题也存在于其他领域,如材料设计(Lookman et al ., 2019),其中的一个解决方案是一种主动的学习结合仿真和实验。作为一个例子,结合亲和力的蛋白质产生的贝叶斯优化方法可以计算使用高度精确的仿真模型。数据收集和用于提高机器学习模型的预测精度。
除了模拟和实验,最近开发的高精度结构预测模型在研究蛋白质-蛋白质之间的关系也是很重要的工具(门敏et al ., 2021;跳投et al ., 2021)。设计蛋白质的结构或复杂的很少知道,机器学习模型预测的结构作为输入用于绑定关联预测模型(小科比et al ., 2022)。绑定关联数据集结合生成的虚拟结构数据库AlphaFold有望缓解一些数据短缺蛋白质绑定关联预测(Szklarczyk et al ., 2021;Varadi et al ., 2022)。其他先进的实验测量方法,如低温电子显微镜,也可以促进数据积累在这个研究领域(Yip et al ., 2020)。
为了提高预测精度,模型中使用的技巧有很多。罗德里格斯等人包括实验条件和其他辅助信息的模型(罗德里格斯et al ., 2021)。随着温度和pH值已被证明改变绑定亲和力(Kastritis Bonvin, 2010;迪亚斯Kolaczkowski, 2017),使用这个额外的信息提供了一个简单但有效的方法来提高预测精度。此外,蛋白质复杂的数据没有绑定关联信息被用来训练特征提取模型(刘et al ., 2021)。基于模型的结构信息可以用来pre-train蛋白质序列的嵌入(雪et al ., 2022)。氨基酸的性质和特征向量生成的通用描述符也显示预测能力在不同的研究(Yugandhar Gromiha, 2014;Romero-Molina et al ., 2022)。集成不同模式使用不同的特性,整体的学习是非常有用的结合输出模型来获得更好的性能(凌晨,夏,2022)。
虽然机器学习方法已经广泛应用于各个领域的科学来解决相关的问题,它有一些局限性。的一个常见问题是缺乏数据,也存在于蛋白质绑定关联预测。然而,相关研究领域的快速发展引发了对大型数据集的出现,可以使高度准确的预测模型。低温电子显微镜等实验方法增加结构数据的积累,为蛋白质结构预测模型用于生成虚拟蛋白质结构,和模拟的方法可以预测基于蛋白质结构绑定亲和力。因此,高性能的模型在一个庞大的数据集上训练预计将出现在不久的将来,使蛋白质设计本身不可或缺的工具,它可以进一步应用于与医疗相关的各个领域,材料科学和能源。
数据可用性声明
最初的贡献提出了研究中都包含在本文/辅料,可以针对相应的作者进一步询问。
作者的贡献
ZG和变化导致了手稿的概念。ZG写了初稿。全方位的编辑、审查和扩大了初稿。所有作者阅读和批准最终的手稿。
资金
这项工作是由KAKENHI赠款(22 k18003 21 k19939)日本社会的促进科学和Uehara纪念基金会的资助。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
引用
Abbasi, w。,Minhas, F. U. A. A. (2016). Issues in performance evaluation for host–pathogen protein interaction prediction.j . Bioinform。第一版。医学杂志。14日,1650011。doi: 10.1142 / S0219720016500116
Abbasi, w。Yaseen,。,Hassan, F. U., Andleeb, S., and Minhas, F. U. A. A. (2020). Island: In-silico proteins binding affinity prediction using sequence information.个人经历分钟。13日,20。doi: 10.1186 / s13040 - 020 - 00231 - w
奥迪,J。,Scarlata, S. (2007). A novel empirical free energy function that explains and predicts protein-protein binding affinities.Biophys。化学。129年,198 - 211。doi: 10.1016 / j.bpc.2007.05.021
门敏,M。,DiMaio, F., Anishchenko, I., Dauparas, J., Ovchinnikov, S., Lee, G. R., et al. (2021). Accurate prediction of protein structures and interactions using a three-track neural network.科学373年,871 - 876。doi: 10.1126 / science.abj8754
Bentzen,。,Marquard, A., Lyngaa, R., Saini, S., Ramskov, S., Donia, M., et al. (2016). Large-scale detection of antigen-specific T cells using peptide-MHC-I multimers labeled with DNA barcodes.生物科技Nat。》。34岁,1037 - 1045。doi: 10.1038 / nbt.3662
博曼,T。,Cimons, J., Cosiano, M., Purcaro, M., Pierce, B. G., Baker, B. M., et al. (2017). Atlas: A database linking binding affinities with structures for wild-type and mutant TCR-pMHC complexes.蛋白质。85年,908 - 916。doi: 10.1002 / prot.25260
科比,P。,Pozzati, G., and Elofsson, A. (2022). Improved prediction of protein-protein interactions using AlphaFold2.Commun Nat。13日,1265年。doi: 10.1038 / s41467 - 022 - 28865 - w
Casadio, R。,Martelli, P. L., and Savojardo, C. (2022). Machine learning solutions for predicting protein–protein interactions.电线第一版。摩尔。科学。12,e1618。doi: 10.1002 / wcms.1618
陈,M。居,C。,Zhou, G., Chen, X., Zhang, T., Chang, K., et al. (2019). Multifaceted protein-protein interaction prediction based on Siamese residual RCNN.生物信息学35岁,I305-I314。doi: 10.1093 /生物信息学/ btz328
Chothia C。,Janin, J. (1975). Principles of protein-protein recognition.自然256年,705 - 708。doi: 10.1038 / 256705 a0
De Las Rivas J。,Fontanillo, C. (2010). Protein-protein interactions essentials: Key concepts to building and analyzing interactome networks.公共科学图书馆第一版。医学杂志。6,e1000807。doi: 10.1371 / journal.pcbi.1000807
巴黎,R。,Quevedo, C. V., Ruiz, D. D., Norberto de Souza, O., and Barros, R. C. (2015). Clustering molecular dynamics trajectories for optimizing docking experiments.第一版。智能。>。2015年,1 - 9。doi: 10.1155 / 2015/916240
德弗里斯·J。冯·M。,Bonvin, A. M. J. J. (2010). The HADDOCK web server for data-driven biomolecular docking.Protoc Nat。5,883 - 897。doi: 10.1038 / nprot.2010.32
迪亚斯,R。,Kolaczkowski, B. (2017). Improving the accuracy of high-throughput protein-protein affinity prediction may require better training data.BMC Bioinforma。18日,102年。doi: 10.1186 / s12859 - 017 - 1533 - z
迪克逊,m F。,Halperin, I., and Bilokon, P. (2020).机器学习在金融领域:从理论到实践。瑞士Cham:施普林格。doi: 10.1007 / 978-3-030-41068-1
Doersch C。,Zisserman, A. (2017). “Multi-task self-supervised visual learning,” in2017年IEEE计算机视觉国际会议(ICCV),意大利的威尼斯,2017年10月22日,2070 - 2079。doi: 10.1109 / ICCV.2017.226
Dubitzky, W。,Wolkenhauer, O., Cho, K-H., and Yokota, H. (2013). “Position-specific scoring matrix (PSSM),” in系统生物学的百科全书(纽约:激飞纽约),1722年。doi: 10.1007 / 978 - 1 - 4419 - 9863 - 7 - _101167
Edelsbrunner, H。Letscher D。,Zomorodian,。(2002). Topological persistence and simplification.离散的第一版。几何学。28日,511 - 533。doi: 10.1007 / s00454 - 002 - 2885 - 2
费舍尔,d S。吴,Y。,Schubert, B., and Theis, F. J. (2020). Predicting antigen specificity of single T cells based on TCR CDR3 regions.摩尔。系统。医学杂志。16日,e9416。doi: 10.15252 / msb.20199416
弗勒锡曼,S。,Whitehead, T., Ekiert, D., Dreyfus, C., Corn, J., Strauch, E., et al. (2011). Computational design of proteins targeting the conserved stem region of influenza hemagglutinin.科学332年,816 - 821。doi: 10.1126 / science.1202617
花,d R。Phadwal, K。,Macdonald, I. K., Coveney, P. V., Davies, M. N., and Wan, S. (2010). T-Cell epitope prediction and immune complex simulation using molecular dynamics: State of the art and persisting challenges.Immunome Res。6,S4。doi: 10.1186 / 1745 - 7580 - 6 - s2 - s4
10倍基因组学(2020)。的新方法探索免疫:高度复合抗原识别与免疫曲目和表型。可以在:https://www.10xgenomics.com/resources/document-library/a14cde(08年访问15,2022)。
基尔默,J。,Schoenholz, S. S., Riley, P. F., Vinyals, O., and Dahl, G. E. (2017). “Neural message passing for quantum chemistry,” in美国第34国际会议上机器学习,澳大利亚悉尼,2017年8月06-11,1263 - 1272。
客人,j . D。Vreven, T。周,J。Moal,我。,Jeliazkov, J. R., Gray, J. J., et al. (2021). An expanded benchmark for antibody-antigen docking and affinity prediction reveals insights into antibody recognition determinants.结构29日,606 - 621。e5。doi: 10.1016 / j.str.2021.01.005
郭,W。,Wisniewski, J., and Ji, H. (2014). Hot spot-based design of small-molecule inhibitors for protein-protein interactions.Bioorg。地中海,化学。列托人。24岁,2546 - 2554。doi: 10.1016 / j.bmcl.2014.03.095
郭,Z。,吴,S。,Ohno, M., and Yoshida, R. (2020). Bayesian algorithm for retrosynthesis.j .化学。正无穷。模型。4474 - 4486。doi: 10.1021 / acs.jcim.0c00320
Hamp贷款,T。,Rost, B. (2015). More challenges for machine-learning protein interactions.生物信息学31日,1521 - 1525。doi: 10.1093 /生物信息学/ btu857
霍顿,N。,Lewis, M. (1992). Calculation of the free-energy of association for protein complexes.蛋白质科学。1,169 - 181。doi: 10.1002 / pro.5560010117
胡,X。,Feng, C., Ling, T., and Chen, M. (2022). Deep learning frameworks for protein–protein interaction prediction.第一版。结构体。Biotechnol。J。20岁,3223 - 3233。doi: 10.1016 / j.csbj.2022.06.025
Jankauskaitė,J。,Jiménez-García, B., Dapkūnas, J., Fernández-Recio, J., and Moal, I. H. (2019). Skempi 2.0: An updated benchmark of changes in protein–protein binding energy, kinetics and thermodynamics upon mutation.生物信息学35岁,462 - 469。doi: 10.1093 /生物信息学/ bty635
江,L。、高、Y。、毛泽东、F。刘,Z。,Lai, L. (2002). Potential of mean force for protein-protein interaction studies.蛋白质。46岁,190 - 196。doi: 10.1002 / prot.10031
跳投,J。,Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., et al. (2021). Highly accurate protein structure prediction with AlphaFold.自然596年,583 - 589。doi: 10.1038 / s41586 - 021 - 03819 - 2
Kastritis, p . L。,Bonvin, A. M. J. J. (2010). Are scoring functions in protein−protein docking ready to predict interactomes? Clues from a novel binding affinity benchmark.j .蛋白质组Res。9日,2216 - 2225。doi: 10.1021 / pr9009854
Kastritis, p . L。Moal, i . H。黄,H。翁,Z。,Bates, P. A., Bonvin, A. M. J. J., et al. (2011). A structure-based benchmark for protein–protein binding affinity.蛋白质科学。20岁,482 - 491。doi: 10.1002 / pro.580
川岛,S。,Kanehisa, M. (2000). AAindex: Amino Acid index database.核酸Res。28日,374年。doi: 10.1093 / nar / 28.1.374
Kovacev-Nikolic, V。Bubenik, P。NikolićD。,Heo, G. (2016). Using persistent homology and dynamical distances to analyze protein binding.Stat .。麝猫。摩尔。杂志。15日,19-38。doi: 10.1515 / sagmb - 2015 - 0057
Kumar M。,Gromiha, M. (2006). Pint: Protein-protein interactions thermodynamic database.核酸Res。34岁D195-D198。doi: 10.1093 / nar / gkj017
LeCun (Y。,Bengio, Y., and Hinton, G. (2015). Deep learning.自然521年,436 - 444。doi: 10.1038 / nature14539
李米。,Lu, Z., Wu, Y., and Li, Y. (2022). Bacpi: A bi-directional attention neural network for compound–protein interaction and binding affinity prediction.生物信息学38岁,1995 - 2002。doi: 10.1093 /生物信息学/ btac035
李。,吴,S。,Wang, L., Li, F., Jiang, H., and Bai, F. (2022). Recent advances in predicting protein–protein interactions with the aid of artificial intelligence algorithms.咕咕叫。当今。结构体。医学杂志。73年,102344年。doi: 10.1016 / j.sbi.2022.102344
李,Y。,刘,Z。,Li, J., Han, L., Liu, J., Zhao, Z., et al. (2014). Comparative assessment of scoring functions on an updated benchmark: 1. Compilation of the test set.j .化学。正无穷。模型。54岁,1700 - 1716。doi: 10.1021 / ci500080q
刘,X。,Luo, Y., Li, P., Song, S., and Peng, J. (2021). Deep geometric representations for modeling effects of mutations on protein-protein binding affinity.公共科学图书馆第一版。医学杂志。17日,e1009284。doi: 10.1371 / journal.pcbi.1009284
刘,Z。,李,Y。,Han, L., Li, J., Liu, J., Zhao, Z., et al. (2015). PDB-Wide collection of binding data: Current status of the PDBbind database.生物信息学31日,405 - 412。doi: 10.1093 /生物信息学/ btu626
刘,Z。,Su, M., Han, L., Liu, J., Yang, Q., Li, Y., et al. (2017). Forging the basis for developing protein-ligand interaction scoring functions.Acc。化学。Res。50岁,302 - 309。doi: 10.1021 / acs.accounts.6b00491
Lookman, T。,Balachandran, P. V., Xue, D., and Yuan, R. (2019). Active learning in materials science with emphasis on adaptive sampling using uncertainties for targeted design.Npj第一版。垫子上。5、21。doi: 10.1038 / s41524 - 019 - 0153 - 8
妈,X。,Wang, C., Li, C., and Chen, W. (2002). A fast empirical approach to binding free energy calculations based on protein interface information.蛋白质中。Des,选取。15日,677 - 681。doi: 10.1093 /蛋白质/ 15.8.677
马克维斯奇·e·K。K我nnunen, P. C., Huang, J., Wu, L., Smith, M. D., Wang, T., et al. (2022). Co-optimization of therapeutic antibody affinity and specificity using machine learning models that generalize to novel mutational space.Commun Nat。13日,3788年。doi: 10.1038 / s41467 - 022 - 31457 - 3
Moal,我。,Fernandez-Recio, J. (2012). Skempi: A structural kinetic and energetic database of mutant protein interactions and its use in empirical models.生物信息学28日,2600 - 2607。doi: 10.1093 /生物信息学/ bts489
的领导人,Y。,Rost, B. (2007). ISIS: Interaction sites identified from sequence.生物信息学23日,e13-e16。doi: 10.1093 /生物信息学/ btl303
Osaki, M。,Oshimura, M., and Ito, H. (2004). PI3K-Akt pathway: Its functions and alterations in human cancer.细胞凋亡9日,667 - 676。doi: 10.1023 / B: APPT.0000045801.15585.dd
Panday美国K。,Alexov, E. (2022). Protein–protein binding free energy predictions with the MM/PBSA approach complemented with the Gaussian-based method for entropy estimation.ACSω7,11057 - 11067。doi: 10.1021 / acsomega.1c07037
公园,Y。,Marcotte, E. M. (2012). Flaws in evaluation schemes for pair-input computational predictions.Nat方法。9日,1134 - 1136。doi: 10.1038 / nmeth.2259
Restifo, N。,Dudley, M., and Rosenberg, S. (2012). Adoptive immunotherapy for cancer: harnessing the T cell response.启Immunol Nat。12日,269 - 281。doi: 10.1038 / nri3191
罗德里格斯,c . h . M。皮雷,d . e . V。,Ascher, D. B. (2021). mmCSM-PPI: predicting the effects of multiple point mutations on protein–protein interactions.核酸Res。49岁的W417-W424。doi: 10.1093 / nar / gkab273
Romero-Molina, S。Ruiz-Blanco, Y。B., Mieres-Perez, J., Harms, M., Münch, J., Ehrmann, M., et al. (2022). PPI-affinity: A web tool for the prediction and optimization of protein–peptide and protein–protein binding affinity.j .蛋白质组Res。21日,1829 - 1841。doi: 10.1021 / acs.jproteome.2c00020
Romero-Molina, S。Ruiz-Blanco, Y。、绿色、J。,Sanchez-Garcia, E. (2019). ProtDCal-suite: A web server for the numerical codification and functional analysis of proteins.蛋白质科学。28日,1734 - 1743。doi: 10.1002 / pro.3673
罗塞尔,M。,Fernandez-Recio, J. (2018). Hot-spot analysis for drug discovery targeting protein-protein interactions.当今专家。药物。13日,327 - 338。doi: 10.1080 / 17460441.2018.1430763
Ryan D。,Matthews, J. (2005). Protein-protein interactions in human disease.咕咕叫。当今。结构体。医学杂志。15日,441 - 446。doi: 10.1016 / j.sbi.2005.06.001
Shirai, T。,Nakamura, T. (2019). Microscopic description of yielding in glass based on persistent homology.期刊。Soc。日本。88年,074801年。doi: 10.7566 / JPSJ.88.074801
Sidhom J.-W。,Larman, H. B., Pardoll, D. M., and Baras, A. S. (2021). DeepTCR is a deep learning framework for revealing sequence concepts within T-cell repertoires.Commun Nat。12日,1605年。doi: 10.1038 / s41467 - 021 - 21879 - w
Sirin, S。,Apgar, J. R., Bennett, E. M., and Keating, A. E. (2016). AB-Bind: Antibody binding mutational database for computational affinity predictions.蛋白质科学。25日,393 - 409。doi: 10.1002 / pro.2829
Sliwkowski, M。,Mellman, I. (2013). Antibody therapeutics in cancer.科学341年,1192 - 1198。doi: 10.1126 / science.1241145
Smith-Garvin, j·E。Koretzky, g。,Jordan, M. S. (2009). T cell activation.为基础。启Immunol。27日,591 - 619。doi: 10.1146 / annurev.immunol.021908.132706
Stanev, V。操作系统,C。Kusne, A. G., Rodriguez, E., Paglione, J., Curtarolo, S., et al. (2018). Machine learning modeling of superconducting critical temperature.Npj第一版。垫子上。4、29。doi: 10.1038 / s41524 - 018 - 0085 - 8
苏,Y。,Zhou, A., Xia, X., Li, W., and Sun, Z. (2009). Quantitative prediction of protein-protein binding affinity with a potential of mean force considering volume correction.蛋白质科学。18日,2550 - 2558。doi: 10.1002 / pro.257
Szeto C。,Lobos, C. A., Nguyen, A. T., and Gras, S. (2020). TCR recognition of peptide–MHC-I: Rule makers and breakers.Int。j .摩尔。科学。22日,68年。doi: 10.3390 / ijms22010068
Szklarczyk D。山墙,a . L。,Nastou, K. C., Lyon, D., Kirsch, R., Pyysalo, S., et al. (2021). The STRING database in 2021: Customizable protein–protein networks, and functional characterization of user-uploaded gene/measurement sets.核酸Res。49岁的D605-D612。doi: 10.1093 / nar / gkaa1074
刺,K。,Bogan, A. (2001). ASEdb: A database of alanine mutations and their effects on the free energy of binding in protein interactions.生物信息学17日,284 - 285。doi: 10.1093 /生物信息学/ 17.3.284
锡锦Ho (1995)。“随机决策森林”学报》3日国际会议文档分析和识别,加拿大的蒙特利尔,QC,1995年8月14 - 16,278 - 282。doi: 10.1109 / ICDAR.1995.5989941
Vamathevan, J。克拉克,D。,Czodrowski, P., Dunham, I., Ferran, E., Lee, G., et al. (2019). Applications of machine learning in drug discovery and development.Nat。启药物。18日,463 - 477。doi: 10.1038 / s41573 - 019 - 0024 - 5
Vangone,。,Bonvin, A. M. (2015). Contacts-based prediction of binding affinity in protein–protein complexes.eLife4,e07454。doi: 10.7554 / eLife.07454
Varadi, M。,Anyango, S., Deshpande, M., Nair, S., Natassia, C., Yordanova, G., et al. (2022). AlphaFold protein structure database: Massively expanding the structural coverage of protein-sequence space with high-accuracy models.核酸Res。D439-D444。doi: 10.1093 / nar / gkab1061
Varela-Rohena,。莫雷,P。邓恩,S。李,Y。,Suhoski, M., Carroll, R., et al. (2008). Control of HIV-1 immune escape by CD8 T cells expressing enhanced T-cell receptor.Nat,地中海。14日,1390 - 1395。doi: 10.1038 / nm.1779
Varoquaux G。,Cheplygina, V. (2022). Machine learning for medical imaging: Methodological failures and recommendations for the future.Npj数字。地中海。5,48。doi: 10.1038 / s41746 - 022 - 00592 - y
Vreven, T。Moal,我。,Vangone,。,Pierce, B., Kastritis, P., Torchala, M., et al. (2015). Updates to the integrated protein-protein interaction benchmarks: Docking benchmark version 5 and affinity benchmark version 2.j·摩尔,杂志。427年,3031 - 3041。doi: 10.1016 / j.jmb.2015.07.016
王,M。,Cang, Z., and Wei, G.-W. (2020). A topology-based network tree for the prediction of protein–protein binding affinity changes following mutation.Nat,马赫。智能。2,116 - 123。doi: 10.1038 / s42256 - 020 - 0149 - 6
王,R。,Fang, X., Lu, Y., and Wang, S. (2004). The PDBbind database: Collection of binding affinities for protein-ligand complexes with known three-dimensional structures.j .地中海,化学。47岁,2977 - 2980。doi: 10.1021 / jm030580l
凌晨,J。,Xia, K. (2022). Persistent spectral based ensemble learning (PerSpect-EL) for protein–protein binding affinity prediction.简短。Bioinform。23日,bbac024。doi: 10.1093 /龙头/ bbac024
吴,S。Kondo, Y., Kakimoto, M., Yang, B., Yamada, H., Kuwajima, I., et al. (2019). Machine-learning-assisted discovery of polymers with high thermal conductivity using a molecular design algorithm.Npj第一版。垫子上。5,66。doi: 10.1038 / s41524 - 019 - 0203 - 2
天雪,Y。,刘,Z。,Fang, X., and Wang, F. (2022). “Multimodal pre-training model for sequence-based prediction of protein-protein interaction,” in在计算生物学学报16机器学习会议2021年11月22日至23日,,34-46。
杨,K . K。吴,Z。,Bedbrook, C. N., and Arnold, F. H. (2018). Learned protein embeddings for machine learning.生物信息学34岁,2642 - 2648。doi: 10.1093 /生物信息学/ bty178
Yip k . M。,Fischer, N., Paknia, E., Chari, A., and Stark, H. (2020). Atomic-resolution protein structure determination by cryo-EM.自然587年,157 - 161。doi: 10.1038 / s41586 - 020 - 2833 - 4
Yugandhar, K。,Gromiha, M. (2014). Protein-protein binding affinity prediction from amino acid sequence.生物信息学3583 - 3589年。doi: 10.1093 /生物信息学/ btu580
Zarnitsyna, V。,Evavold B。,Schoettle, L., Blattman, J., and Antia, R. (2013). Estimating the diversity, completeness, and cross-reactivity of the T cell repertoire.前面。Immunol。4、485。doi: 10.3389 / fimmu.2013.00485
张。,Xing, L., Zou, J., and Wu, J. C. (2022). Shifting machine learning for healthcare from development to deployment and from models to data.Nat,生物医学。英格。doi: 10.1038 / s41551 - 022 - 00898 - y
张,C。刘,S。、朱、Q。,Zhou, Y. (2005). A knowledge-based energy function for protein-ligand, protein-protein, and protein-DNA complexes.j .地中海,化学。48岁,2325 - 2335。doi: 10.1021 / jm049314d
周,M。李,问。,王,R。(2016). Current experimental methods for characterizing protein-protein interactions.ChemMedChem11日,738 - 756。doi: 10.1002 / cmdc.201500495
Zomorodian,。,Carlsson, G. (2005). Computing persistent homology.离散的第一版。几何学。33岁,249 - 274。doi: 10.1007 / s00454 - 004 - 1146 - y
关键词:机器学习、深神经网络、蛋白质相互作用、亲和力、蛋白质设计
引用:郭Z和山口R(2022)机器学习方法预测蛋白质绑定亲和力的蛋白质设计。前面。Bioinform。2:1065703。doi: 10.3389 / fbinf.2022.1065703
收到:2022年10月10日;接受:2022年12月01;
发表:2022年12月16日。
编辑:
吴克群Mizuguchi健康和营养,日本审核:
Sandeep女子巴西米纳斯吉拉斯联邦大学的,版权©2022郭和山口。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:鲁伊山口,r.yamaguchi@aichi-cc.jp