使用图表来推断基因表达在植物知识
- 1生物医学信息学、科罗拉多大学安舒茨医学校园极光,美国公司
- 2植物学和植物病理学系科瓦利斯,俄勒冈州立大学,或者美国
- 3亚利桑那州图森市亚利桑那大学BIO5研究所,美国
- 4环境基因组学和系统生物学,伯克利实验室(DOE),加州大学伯克利分校,美国
作品简介:全球气候变化已经影响生态系统,迫使我们适应满足社会的需求。气候变化是进步的速度需要大量的物种数量的扩大理解genotype-environment-phenotype E (G××P)动力学为了增加生态系统和农业的弹性。预测的一个重要组成部分表型是理解复杂的基因调控网络中存在生物。先前的工作已经证明,一个物种的知识可以应用到另一个使用ontologically-supported知识库,利用同源结构和同源基因。这些类型的结构,可以应用知识一个物种转移到另一个有潜力使大规模的扩大,需要通过在网上实验。
方法:我们开发了一个这样的结构、知识图(公斤)使用信息从Planteome EMBL-EBI表达基因表达图谱,连接,分子相互作用、功能、和同源基因注释的途径。我们的初步分析使用数据从基因表达研究拟南芥和杨树trichocarpa植物受到干旱的条件。
结果:图查询确认16对同源基因这两个类群,其中一些显示相反的基因表达模式在应对干旱。正如所料,分析这些基因的上游基因区域显示同系物具有相似表达行为保守基因区域和潜在的相互作用与trans-elements相似,与同系物在相反的方面改变了他们的表情。
讨论:这表明尽管同源染色体共同祖先和功能角色,预测表达式和表型通过集成cis的同源性推理需要仔细考虑和策划和推断知识中的trans-regulatory组件图。
介绍
气候变化已经影响世界各地的生态系统,并迫使我们探索适应满足社会的需求。在作物科学尤其如此,研究人员正致力于识别和预测基因及其产生的表型在不同环境条件下为了确保粮食生产一个新的气候制度(Thudi et al ., 2021;田et al ., 2021)。理解基因表型/环境需要一个大数据集的关系很难收集,所以大多数研究者关注少量的大量研究的物种。气候变化是进步的速度需要大量的物种数量的扩大理解G / P / E动力学。这一领域的研究和获得的知识也将帮助人类探索太空,植物将发挥重要作用(巴克et al ., 2023)。先前的研究已经表明,一个物种可以被应用到另一个使用知识本体知识库的支持,利用同源结构和直系同源基因(Naithani et al ., 2020)。这些类型的知识结构,可以应用知识一个物种转移到另一个有潜力使大规模扩大这是必要的。
表型预测的一个重要组成部分是理解复杂的基因调控网络存在于植物。本研究将集中在启动子区域,5′同源染色体的基因区域。这个地区是一个部分的DNA链“上游”基因的5′端编码开始网站并提供选择性trans-acting因素如转录因子结合位点,阻遏蛋白和活化剂,调节基因的表达(刘et al ., 1999)。这些区域是一个元素的基因表达过程。研究trans-acting因素的表达是很重要的对于理解分子相互作用的时空动态,帮助适应和克服压力。资源,如基因本体论(财团,2021),Planteome (库珀et al ., 2018)、植物Reactome (Naithani et al ., 2020)和KnetMiner (Hassani-Pak et al ., 2021)包含我们了解基因功能、基因调控网络、X和表型的基因调节基因表型和基因Y影响Z,但环境条件下,这些交互的语境效果发生几乎总是不包括在注释。并非所有的植物和它们的基因都表现为细节,但如果是包括环境上下文通常是详细元数据。调查使用蛋白质域识别和基因同源方法来推断基因进行功能作用在一个给定的物种可能忽略mRNA表达的时空动态,确定一个基因产物(蛋白质)将出席所需的时间和地点为分子功能。互动性质的基因、环境和表型需要一个数据结构,可以表示定性关系(例如,“表现型”或“调节”)和集成异构数据类型在一个单一的、可查询框架。其中一个数据结构是一个知识图(公斤)Sheth et al ., 2019)。
图是由对象(节点)以及这些对象之间的关系(边),在这种情况下,代表我们知道生物和环境实体(对象)是如何交互的。而不是一个表或数据库中存储数据,我们所获得知识图存储合成知识数据,例如,X基因表型y .随着越来越多的知识被添加到图表,更复杂的查询,可以进行网络分析和推论。重要的例子包括使用知识在人类罕见的疾病诊断图(Zemojtel et al ., 2014),药物再利用(瑞茜et al ., 2021),改善癌症治疗(Gogleva et al ., 2022)和荟萃分析(Tiddi et al ., 2020)。公斤用于转化科学很少包含环境因素即使我们知道环境条件是基因表达动态的一个重要组成部分。模型的精确方式暴露在公斤仍处于开发阶段(陈et al ., 2023)。一公斤包含信息在不同环境条件下植物基因组学和phenomics可用于生成假设在网上为目标,从而减少的数量在活的有机体内实验需要,节省时间和资源。
本研究探讨基因表达模式在应对干旱四个植物物种,如拟南芥、玉米、高粱二色的,杨树trichocarpa。中央本研究的动机是评估使用的可行性同系物在多个物种对基因表达进行预测。
材料和方法
数据描述
Planteome
Planteome (https://planteome.org/)是一个集中的门户网站为一套相互关联的本体植物和植物基因组学数据库数据,注释的本体术语(库珀et al ., 2018)。在2020年10月的版本(版本4.0),Planteome数据库包括大约60000本体术语和300万多个数据对象,以大约2000万连接到本体术语关联。Planteome数据库有植物基因组信息覆盖125植物类群。Planteome中可用的数据和注释本体术语,包括植物基因表达数据,特征,表型、基因组和种质来源。
Planteome本体内部开发的项目包括植物本体(PO;库珀et al ., 2018;墙壁et al ., 2019),它描述了植物解剖结构和发展阶段,植物本体()特点和表型特征,和植物实验条件本体(PECO),它描述了实验条件和植物暴露。除了这些,Planteome主机合作者参考ontologies-the基因本体论(去;财团,2021)、表型和特征本体(帕托;Gkoutos et al ., 2018),同时一些特有的特征词典由作物本体(有限公司;Shrestha et al ., 2010;Arnaud et al ., 2020)。在当前版本中,Planetome包括11个公司特征词典,映射到。
去注释被计算为新物种生成使用InParanoid和InterProScan (Shulaev et al ., 2011;Myburg et al ., 2014)。InParanoid被用来预测基因orthology基于拟南芥协会由TAIR (赖泽et al ., 2022)。InterProScan用于添加注释到基因通过推理分析蛋白质的家庭和域映射(Paysan-Lafosse et al ., 2023)。
EMBL-EBI表达图谱
EMBL-EBI表达图谱(GXA)可以在线访问和一部分的欧洲生物信息学研究所(Papatheodorou et al ., 2020)。它包含手动策划和分析已从超过900植物实验数据进行重新分析使用最新版本的参考植物基因组组装和注释和通过部署一个标准化的分析工作流程。每个实验都是完全文档化元数据和来源。
基因表达数据表下载GXA后寻找所需的物种和环境条件。数据被过滤了,只有基因,包括统计不同的基因表达(p < 0.05)与基线相比,< 1 > 1。和积极的微分表达式被注释的基因表达增加。负微分表达式被注释的基因表达下降。列表数据注释有额外的本体在适当的地方和在GitHub可用图施工。
创建图
图形是由从Planteome结合数据,GXA,阿宝,,,PECO KG-Hub使用工具(kpcb et al ., 2023)。首先,数据和映射文件都从各自的数据存储库下载。GO-Basic和NCBI Tax-Slim从鄂博铸造下载javascript对象表示法(JSON)格式。阿宝,在猫头鹰从鄂博铸造下载和转换为JSON格式使用机器人(杰克逊et al ., 2019)。数据文件包含的信息二色的高粱,玉米,栽培稻,杨树trichocarpa,拟南芥在GAF格式从Planteome下载服务器。数据文件包含微分涉及基因表达数据二色的高粱,玉米,栽培稻,杨树trichocarpa,拟南芥在干旱和盐碱环境中从GXA下载。多个映射文件是用于正常基因和特征标识符。水稻基因标识符映射到栽培稻从大米v7.0使用ID转换器文件注释项目数据库(欧阳et al ., 2007;酒井法子et al ., 2013)。玉米基因标识符映射到zm评选- B73 -引用-南- 5.0组装使用映射文件,包括所有B73组装版本和包括来自MaizeGDB的DAGchainer分析(主编et al ., 2019;EMBL-EBI)。杨树基因标识符映射到参考基因组从Gramene使用映射文件(Tello-Ruiz et al ., 2018)。高粱基因名字被规范化高粱二色的v3.1.1 (麦考密克et al ., 2018)。植物特征和表型注释术语使用查找字典文件。第二,每一个数据文件转化为标准化的节点和边tsv文件中使用自定义脚本。这些脚本标准化的基因和特征标识符使用本体和提供映射文件和注释每一个实体Biolink语义类型(表1)和实体之间的关系被描述使用Biolink谓词(表2)。图是根据Biolink模型组装,提供标准的语义类型生物实体和关系(乌尼et al ., 2022)。
没有足够的数据包括重叠的表达式o .漂白亚麻纤维卷或盐碱环境分析,但他们包括在图中。
第三和最后一步合并tsv文件变成了删除处理的节点和边KGX格式列表。最后图包含超过400000个节点,5000000多个边缘和包含额外的数据从EOLTraitbank不是用于这项研究(图1)。具体的定量和定性信息植物表型被表示为一个边缘属性(图2)。
查询图
合并后的节点和边文件被上传到Neo4j勘探和查询。一个密码查询(箱1)被用来找到所有的同源基因差异表达基因,被记录在干旱或盐水环境(补充材料1,2)。盐水环境没有返回重叠的数据。
箱1。查询密码。
匹配(e {id:“PECO: 0007404′}) - (r) - > (g), (g) -(问:“biolink: orthologous_to”)——(h)、(e {id:“PECO: 0007404′}) - (s) - > (h)回来*
从查询返回的基因对干旱环境比较基于注释(补充材料3),但这也没有提供足够的数据来做出结论使用豹(补充材料4)。
启动子区域比较
我们收集了5′监管区域的确定基因(700 - 900个基点)使用BioMart Gramene数据库(斯普纳et al ., 2012)和寻找潜在的转录因子结合网站使用PlantPAN (Chow et al ., 2016)。使用这些数据(补充材料5),我们创建了一个比较矩阵中的每个转录因子结合位点的发生的每一对基因和注意的或没有共同之处。我们使用ClustVis (Metsalu很,2015)研究转录因子结合位点之间的相似性的杨树和拟南芥基因对使用PCA。总共12个转录因子结合网站(AT-Hook bHLH,乙炔,Dehydrin,景深,叫,Homeodomain, Myb /桑特,NF-YB,真沸点,Trihelix,和ZF-HD)中所有基因的启动子区域研究,因此从聚类分析。相同的数据被送入睡眠(穆勒et al ., 2008)分层集群执行缺省参数使用1 -皮尔森TF-binding网站的相关性和完整的链接方法注释。创建额外的相似性矩阵使用皮尔逊相关性度量分别检查TF-binding网站注释对表达谱基因相似的对比。相关的热图颜色调整了可视化的目的。
数据可用性
合并后的公斤数据托管在CyVerse DataCommons (https://datacommons.cyverse.org/browse/iplant/home/shared/genophenoenvo)。公斤的数据可直接下载或远程可视化通过CyVerse WebDav服务(https://data.cyverse.org/dav-anon/iplant/commons/community_released/genophenoenvo/kg/Neo4J等)使用可视化软件。创建图表使用的Python代码是公开托管在GitHub (https://github.com/genophenoenvo/knowledge-graph)。最后合并公斤包括两个制表符分隔值(tsv)文件包括边缘和节点。
结果
图形查询返回的62对同源基因玉米,高粱二色的拟南芥,杨树trichocarpa(补充材料6),但是只有16双答:芥和p . trichocarpa有记载类似的(8)和微分(8)表达式在干旱条件下(表3)。与同样表达了对所有的基因表达下降。表达数据的16个同源染色体答:芥和p . trichocarpa来自两个研究GXA (德西蒙et al ., 2017;Filichkin et al ., 2018)。
基于预测转录因子结合网站在启动子区域杨树基因差异表达的相同器官对集群与其他分开杨树和拟南芥基因(图3)。这种差异是由一群11转录因子结合网站缺席的启动子区域里不同的子集杨树基因(雷夫,MIKC南、G2-like CPP ARR-B, tify,故事,NF-YC,小块土地,和NF-YA)。这些基因的分离无法解释的分类单元或研究提供数据分类单元(重叠)。
图3。聚类的杨树和拟南芥基于相似的基因启动子区域的转录因子结合位点- PCA。的杨树基因差异表达的相同器官对集群远离其他(蓝圈)杨树(蓝色)和拟南芥(红色)基因。差异表达基因被表示为圆形和类似的表达基因表示为方形。注意,分类差异(蓝色和红色椭圆)不解释基因表达的差异。没有扩展应用于行;圣言与归责是用来计算主成分。X和Y坐标轴显示主成分1和主成分2解释的总方差的9.5%和25.1,分别。N= 29数据点。
有七个杨树基因集群远离其他人。只有一个(POPTR_014G056800v3参与strigolactone生物合成)是假设的蛋白质(根据Gramene)。去注释这些基因集群在运输活动,异化的活动,应对压力、绑定和催化活性。11个转录因子结合位点的缺席杨树在植物逆境应答基因包括蛋白质参与拟南芥(根据UniProt)。
同族体之间的双启动子区域的比较表明,同系物,表达同样有类似的启动子区域比双表达差异(图4)。
图4。相似的转录因子结合网站的启动子区域杨树和拟南芥同源基因配对。杨树(POPTR)和拟南芥(在)基因分为他们同族体对和他们是否有类似的或对比基因表达时面临干旱。这图显示的启动子区域双对比表情不太相似的启动子区域(蓝色)和双相似的表情更相似的(红色)。
单独的比较与对比的启动子区域基因对基因表达谱还表明,对具有相似表达有更多类似的启动子区域(图5一个)和基因对对比表达减少了类似的启动子区域(图5 b)。
讨论
这项研究表明,人们可以使用在网上实验来预测基因表达在干旱条件下使用同源基因家族在一些物种对但不是全部。这项研究支持先前的调查结果,在某些情况下,启动子区域基因的编码区分开进化他们调节(Tirosh et al ., 2008)。因此,我们可以将知识基因表达在一个物种转移到另一个,但是我们需要包括这些动态数据基础设施我们用来做这个翻译,在这种情况下,公斤,很多数据结构基因与表型,没有特定的表达信息特征,或疾病。基因差异表达的电流表示链接暴露在化学物质或药物增加或减少特定基因的表达的环境毒理学和药物开发(Fecho et al ., 2022;乌尼et al ., 2022)。基因调控网络是代表的迷你网络影响其他基因的基因(财团,2021),但这些网络仍然未知的植物。在短期内,在网上公斤涉及基因表达的实验可以提高包括实证验证同源染色体的基因表达模式。
基因调控网络在植物开发利用相结合的实验和计算方法(Kulkarni Vandepoele, 2020)。方法结合高通量DNA测序(ChIP-seq)和表达数据已经成功地揭示了详细的监管网络控制开花(陈et al ., 2018),但很难。方法如ATAC-seq和DAP-seq更可伸缩的但只显示部分的监管网络(O ' malley et al ., 2016;马赫et al ., 2018)。公斤可以用来推断监管网络规模,但质量是高度依赖数据用于构建公斤。应用公斤的优势是能够将难以置信的异构数据集成在一个单一的图表,因此建模监管网络更大的生物环境。这个应用程序的一个例子是“网络医学”的相对较新的领域,使用公斤检查疾病的进展(西尔弗曼et al ., 2020)。公斤在这个应用程序的主要缺点是,大量的可计算的数据和特定领域知识模型需要创建这种类型的图表。许多学科没有这些资源可用。虽然公斤可以推断基因调控网络,这些网络应该确认使用建立实验和计算方法。
这些反对基因表达模式不是一个研究人员只关心感兴趣的基因列表可能是重要的在一个特定的上下文。直到需要生成假设环境对生物的影响函数,成为需要更复杂的图形表示。如果我们要把环境的影响,我们需要知道更多X基因表型y,我们需要知道增加或减少环境影响的表达基因和生物的影响变化的表达式。在某些情况下,我们可能只知道环境是与一个特定的表型不知道底层机制。这些信息仍然可以向图表添加有用的知识。在某些情况下,图本身可以用来生成假设基因之间的相互作用,生物过程,分子功能,细胞组件和一个观察表型。
尽管迅速探索可用的图形数据和定位感兴趣的基因,工作流启动子区域来比较需要大量的人工干预。在这种情况下,我们只有16个基因对探索,但扩大这些类型的分析需要遍历数据注释基因标识符和坐标。未来的研究应该包括扩展图模型包含这些数据类型。
的语义表征环境暴露对基因表达的影响更直接的化学或药物的影响,如苯酚或橡胶水泥。收集的数据可以在实验室中使用模型生物,结果添加到图进行分析和转化研究。日常环境因素很少这个简单,经常涉及接触许多类型的物质在不同的上下文中,气候或社会经济地位等。未来的研究可能需要开发本体和语义表征这些更复杂的风险敞口。
我们的观察支持我们的假设和证明我们公斤的扩展包括TF-binding网站注释和实际的TF基因,这是已知的经验或受到co-expression网络分析的支持。在未来,保护的调查与non-conservation基因的顺式和trans-regulatory区域可能提高种间和种内的反应压力的理解和适应。
数据可用性声明
合并后的公斤数据托管在CyVerse DataCommons (https://datacommons.cyverse.org/browse/iplant/home/shared/genophenoenvo)。公斤的数据可直接下载或通过CyVerse WebDav远程可视化服务(https://data.cyverse.org/dav-anon/iplant/commons/community_released/genophenoenvo/kg/Neo4J等)使用可视化软件。创建图表使用的python代码是公开托管在GitHub (https://github.com/genophenoenvo/knowledge-graph)。最后合并公斤包括两个制表符分隔值(tsv)文件包括边缘和节点。
作者的贡献
在发达国家和框架的研究问题,分析数据,导致数据分析,开发的软件,导致写作和修改论文和项目管理和管理。HH导致数据分析。TS导致数据分析和导致写作和修改。开发的软件,验证结果或软件,开发框架的研究问题(s),导致写作和修改。LC导致数据分析,项目管理和管理,导致了写作和修改。PJ开发和框架的研究问题,分析数据,导致数据分析,导致写作和修改。我导致了数据分析、开发的软件或软件验证结果,导致写作和修改。所有作者的文章和批准提交的版本。
资金
这项研究得到了美国国家科学基金会奖# 1940330,# 1939945,# 1940059,# 1940062。CyVerse是基于美国国家科学基金会支持的工作奖# 0735191,# 1265383,# 1743442。
确认
作者要感谢塞拉莫克森和哈利kpcb的技术援助和有用的对话。本文可以在预印本https://doi.org/10.5281/zenodo.7764762。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
引用
Arnaud E。,Hazekamp, T., Laporte, M. A., and Antezana, E. (2020).作物本体治理和管理框架。网上:https://cgspace.cgiar.org/handle/10568/118001(5月31日访问,2023)。
巴克,R。,Kruse, C. P. S., Johnson, C., Saravia-Butler, A., Fogle, H., and Chang, H-S., et al. (2023). Meta-analysis of the space flight and microgravity response of the arabidopsis plant transcriptome.NPJ Microgr。9日21。doi: 10.1038 / s41526 - 023 - 00247 - 6
合伙人,j . H。核,T。,Schaper, K., Unni, D. R., Hegde, H., Callahan, T. J., et al. (2023).KG-Hub——构建和生物知识交换图。arXiv。网上:http://arxiv.org/abs/2302.10800
Chan l E。,的ssen, A. E., Duncan, W. D., Matentzoglu, N., Schmitt, C., Grondin, C. J., et al. (2023). The Environmental Conditions, Treatments, and Exposures Ontology (ECTO): Connecting Toxicology and Exposure to Human Health and beyond.j .生物医学。语义。14日,3。doi: 10.1186 / s13326 - 023 - 00283 - x
陈,D。,Yan, W., Fu, L. Y., and Kaufmann, K. (2018). Architecture of gene regulatory networks controlling flower development in拟南芥。Commun Nat。9日,4534年。doi: 10.1038 / s41467 - 018 - 06772 - 3
周润发,c . N。,Zheng, H. Q., Wu, N. Y., Chien, C. H., Huang, H. D., Lee, T. Y., et al. (2016). PlantPAN 2.0: an update of plant promoter analysis navigator for reconstructing transcriptional regulatory networks in plants.核酸Res。44岁的D1154-D1160。doi: 10.1093 / nar / gkv1035
库珀L。,Meier, A., Laporte, M-A., Elser, J. L., and Mungall, C., Sinn, B. T., et al. (2018). The planteome database: an integrated resource for reference ontologies, plant genomics and phenomics.核酸Res。46岁的D1168-D1180。doi: 10.1093 / nar / gkx1152
de西蒙。哈伯德,R。,Torre, N. V., Velappan, Y., Wilson, M., Considine, M. J., et al. (2017). Redox changes during the cell cycle in the embryonic root meristem of拟南芥。Antioxid氧化还原信号。27日,1505 - 1519。doi: 10.1089 / ars.2016.6959
EMBL-EBI。留言。ENA浏览器。网上:https://www.ebi.ac.uk/ena/browser/view/GCA_902167145.1(2023年3月10日通过)。
Fecho, K。,的ssen, A. E., Baranzini, S. E., Bizon, C., Hadlock, J. J., Huang, S., et al. (2022). Progress toward a Universal Biomedical Data Translator.中国。Transl。科学。15日,1838 - 1847。doi: 10.1111 / cts.13301
Filichkin, s。汉密尔顿,M。,Dharmawardhana, P. D., Singh, S. K., Sullivan, C., Ben-Hur, A., et al. (2018). Abiotic stresses modulate landscape of poplar transcriptome via alternative splicing, differential intron retention, and isoform ratio switching.前面。植物科学。9日,5。doi: 10.3389 / fpls.2018.00005
Gkoutos, g . V。,Schofield, P. N., and Hoehndorf, R. (2018). The anatomy of phenotype ontologies: Principles, properties and applications.简短。Bioinform。19日,1008 - 1021。doi: 10.1093 /龙头/ bbx035
Gogleva,。,Polychronopoulos, D., Pfeifer, M., Poroshin, V., Ughetto, M., Martin, M. J., et al. (2022). Knowledge graph-based recommendation framework identifies drivers of resistance in EGFR mutant non-small cell lung cancer.Commun Nat。13日,1667年。doi: 10.1038 / s41467 - 022 - 29292 - 7
Hassani-Pak, K。辛格,。,Brandizi, M., Hearnshaw, J., Parsons, J. D., Amberkar, S., et al. (2021). KnetMiner: A comprehensive approach for supporting evidence-based gene discovery and complex trait analysis across species.生物科技植物》。J。19日,1670 - 1678。doi: 10.1111 / pbi.13583
杰克逊,r . C。,Balhoff, J. P., Douglass, E., Harris, N. L., Mungall, C. J., Overton, J. A. R. O. B. O. T., et al. (2019). A tool for automating ontology workflows.BMC生物信息学。20日,407年。doi: 10.1186 / s12859 - 019 - 3002 - 3
Kulkarni s R。,Vandepoele, K. (2020). Inference of plant gene regulatory networks using data driven methods: A practical overview.基因Regul。机甲。1863年,194447年。doi: 10.1016 / j.bbagrm.2019.194447
刘,L。,White, M. J., and MacRae, T. H. (1999). Transcription factors and their genes in higher plants functional domains, evolution and regulation.欧元。学生物化学j。262年,247 - 257。doi: 10.1046 / j.1432-1327.1999.00349.x
马赫,k。Bajic, M。,Kajala, K., Reynoso, M., Pauluzzi, G., West, D. A., et al. (2018). Profiling of accessible chromatic regions across multiple plant species and cell types reveals common gene regulatory principles and new control modules.植物细胞。30,15-36。doi: 10.1105 / tpc.17.00581
麦考密克,r F。Truong,美国K。,Sreedasyam, A., Jenkins, J., Shu, S., Sims, D., et al. (2018). The sorghum bicolor reference genome: improved assembly, gene annotations, a transcriptome atlas, and signatures of genome organization.植物J。93年,338 - 354。doi: 10.1111 / tpj.13781
Metsalu, T。,Vilo, J. (2015). ClustVis: a web tool for visualizing clustering of multivariate data using principal component analysis and heatmap.核酸Res。43岁的W566-W570。doi: 10.1093 / nar / gkv468
穆勒,E。,Assent, I., Krieger, R., Jansen, T., and Seidl, T. (2008). “Morpheus,” in第14届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(美国纽约:ACM)。doi: 10.1145/1401890.1402026
Myburg, A。,Grattapaglia, D., Tuskan, G. A., Hellsten, U., Hayes, R. D., Grimwood, J., et al. (2014). The genome of eucalyptus grandis.大自然。510年,356 - 362。doi: 10.1038 / nature13308
Naithani, S。古普塔,P。,Preece, J., D'Eustachio, P., Elser, J. L., Garg, P., et al. (2020). Plant reactome: a knowledgebase and resource for comparative pathway analysis.核酸Res。48岁的d1093 - 1103。doi: 10.1093 / nar / gkz996
奥马利,r . C。黄,s . C。、歌曲、L。,Lewsey, M. G., Bartlett, A., Nery, J. R., et al. (2016). Cistrome and epicistrome features shape the regulatory DNA landscape.细胞。166年,1598年。doi: 10.1016 / j.cell.2016.08.063
欧阳,S。、朱、W。,Hamilton, J., Lin, H., Campbell, M., Childs, K., et al. (2007). The TIGR rice genome annotation resource: improvements and new features.核酸Res。35岁,D883-D887。doi: 10.1093 / nar / gkl976
Papatheodorou,我。莫雷诺,P。,Manning, J., Muñoz-Pomer Fuentes, A., George, N., Fexova, S., et al. (2020). Expression atlas update: from tissues to single cells.核酸Res。48岁的d77 - 83。doi: 10.1093 / nar / gkz947
Paysan-Lafosse, T。布卢姆,M。,Chuguransky, S., Grego, T., Pinto, B. L., Salazar, G. A., et al. (2023). InterPro in 2022.核酸Res。51岁,D418-D427。doi: 10.1093 / nar / gkac993
主编,j·L。,Woodhouse, M. R., Cannon, E. K., Gardiner, J. M., Harper, L. C., Schaeffer, M. L., et al. (2019). MaizeGDB 2018: the maize multi-genome genetics and genomics database.核酸Res。47岁的D1146-D1154。doi: 10.1093 / nar / gky1046
瑞茜,j . T。,乌尼D。,Callahan, T. J., Cappelletti, L., Ravanmehr, V., Carbon, S., et al. (2021). KG-COVID-19: A framework to produce customized knowledge graphs for COVID-19 response.模式。2、100155。doi: 10.1016 / j.patter.2020.100155
赖泽,L。,Subramaniam, S., Li, D., and Huala, E. (2022). Using the Arabidopsis Information Resource (TAIR) to find information about arabidopsis genes.目前的协议。2,e574。doi: 10.1002 / cpz1.574
酒井法子,H。,Lee, S. S., Tanaka, T., Numa, H., Kim, J., Kawahara, Y., et al. (2013). Rice annotation project database (rap-db): an integrative and interactive database for rice genomics.植物细胞杂志。54岁的e6。doi: 10.1093 /卡式肺囊虫肺炎/ pcs183
Sheth是A。,Padhee, S., and Gyrard, A. (2019). Knowledge graphs and knowledge networks: the story in brief.IEEE互联网第一版。23日,67 - 75。doi: 10.1109 / MIC.2019.2928449
Shrestha, R。Arnaud E。,Mauleon, R., Senger, M., Davenport, G. F., and Hancock, D. (2010). Multifunctional crop trait ontology for breeders' data: Field book, annotation, data discovery and semantic enrichment of the literature.国内工厂。2010年,lq008。doi: 10.1093 / aobpla / plq008
Shulaev, V。,Sargent, D. J., Crowhurst, R. N., Mockler, T. C., Folkerts, O., Delcher, A. L., et al. (2011). The genome of woodland strawberry (Fragaria Vesca).Nat,麝猫。43岁,109 - 116。doi: 10.1038 / ng.740
西尔弗曼,e·K。,Schmidt, H. H. H. W., Anastasiadou, E., Altucci, L., Angelini, M., Badimon, L., et al. (2020). Molecular networks in Network Medicine: Development and applications.系统。医学杂志。地中海。12,e1489。doi: 10.1002 / wsbm.1489
斯普纳,W。,Youens-Clark, K., Staines, D., and Ware, D. (2012). GrameneMart: The BioMart data portal for the gramene project.Datab。2012年,bar056。doi: 10.1093 /数据库/ bar056
Tello-Ruiz m K。、Naithani年代。斯坦,j . C。古普塔,P。,Campbell, M., Olson, A., et al. (2018). Gramene 2018: unifying comparative genomics and pathway resources for plant research.核酸Res。46岁的D1181-D1189。doi: 10.1093 / nar / gkx1111
Thudi, M。,Palakurthi, R., Schnable, J. C., Chitikineni, A., Dreisigacker, S., Mace, E., et al. (2021). Genomic resources in plant breeding for sustainable agriculture.j .植物杂志。257年,153351年。doi: 10.1016 / j.jplph.2020.153351
田,Z。,Wang, J. W. L. i. J, and Han, B. (2021). Designing future crops: challenges and strategies for sustainable agriculture.植物J。105年,1165 - 1178。doi: 10.1111 / tpj.15107
Tiddi,我。,Balliet, D., and ten Teije, A. (2020). “Fostering scientific meta-analysis with knowledge graphs: A case study,” in语义Web ESWC 2020。在计算机科学的课堂讲稿(Cham: Springer) 287 - 303。doi: 10.1007 / 978 - 3 - 030 - 49461 - 2 - _17
Tirosh,我。,Weinberger, A., Bezalel, D., Kaganovich, M., and Barkai, N. (2008). On the relation between promoter divergence and gene expression evolution.摩尔。系统。医学杂志。4、159。doi: 10.1038 / msb4100198
乌尼,d R。,Moxon, S. A. T., Bada, M., Brush, M., Bruskiewich, R., Caufield, J. H., et al. (2022). Biolink model: a universal schema for knowledge graphs in clinical, biomedical, and translational science.中国。Transl。科学。15日,1848 - 1888。doi: 10.1111 / cts.13302
墙壁,r . L。库珀,L。Elser, J。,Gandolfo, M. A., Mungall, C. J., Smith, B., et al. (2019). The plant ontology facilitates comparisons of plant development stages across species.前面。植物科学。10日,631年。doi: 10.3389 / fpls.2019.00631
Zemojtel, T。科勒,S。,Mackenroth, L., Jäger, M., Hecht, J., Krawitz, P., et al. (2014). Effective diagnosis of genetic disease by computational phenotype analysis of the disease-associated genome.科学。Transl。地中海。252 ra123。doi: 10.1126 / scitranslmed.3009262
附录
所有补充文件可以在GitHub CC-0许可协议(访问https://github.com/diatomsRcool/supplementary_material/tree/main/promoter_region)。
1。drought_expression.tsv
2。drought_genes.tsv
3所示。GO_annotations.tsv
4所示。panther_results文件夹
5。promoter_region_clustvis_data0.tsv
6。orthologous_genes.tsv
Clustvis分析是在https://biit.cs.ut.ee/clustvis/?s=IWJNurmUtGWZoMt。
关键词:知识图(公斤)、植物基因组、基因表达、本体、表型
引用:Thessen AE,库柏L,史威特南TL,对冲基金H,瑞茜·J, Elser J和贾斯瓦尔P(2023)使用图表来推断基因表达在植物知识。前面。Artif。智能。6:1201002。doi: 10.3389 / frai.2023.1201002
收到:2023年4月05;接受:2023年5月23日;
发表:2023年6月13日。
编辑:
Marie-Angelique Laporte、国际生物多样性、法国版权史威特南©2023 Thessen,库珀,对冲基金,瑞茜,Elser和贾斯瓦尔。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:安妮·e·Thessenannethessen@gmail.com
__ORCID:月桂库珀orcid.org/0000 - 0002 - 6379 - 8932
泰森·l·史威特南orcid.org/0000 - 0002 - 6639 - 7181
Harshad对冲基金orcid.org/0000 - 0002 - 2411 - 565 x
贾斯汀•里斯orcid.org/0000 - 0002 - 2170 - 2250
贾斯汀Elserorcid.org/0000 - 0003 - 0921 - 1982
Pankaj贾斯瓦尔orcid.org/0000 - 0002 - 1005 - 8383