民主化clinical-genomic数据:如何在基因组学联合平台能促进利益共享
- Lifebit生物科技有限公司,英国伦敦
自第一个人类基因组的测序,测序相关的成本大大降低,导致爆炸的基因组数据。这个有价值的数据应该在理论上是巨大的利益的全球社区,虽然不幸的是这些进步的好处尚未广泛分布。今天的大部分clinical-genomic数据孤立,无法坚持严格的治理和隐私政策,超过97%的医院数据未使用,据一位参考。尽管有这些挑战,承诺努力使clinical-genomic数据访问和有用的在不影响安全。具体来说,联邦数据平台成为关键资源促进安全的数据共享,而不需要身体移动的数据从外部组织或管辖权界限。在这个角度看,我们总结总体进展建立联邦数据平台,并突出显示重要的考量如何他们应该设法保证病人和公众信任。这些平台正在使全球合作和改善弱势群表示,由于测序的努力没有优先多样化人口表示直到最近。联邦数据平台,加上没有代码技术的进步,可以访问到不同的最终用户组成的基因组学的劳动力,和我们讨论潜在的策略来开发可持续的商业模式,平台可以继续使长期研究。尽管这些平台必须小心地管理,以确保适当的使用和伦理,他们民主化clinical-genomic数据访问和见解,将进展的研究,使有效的治疗结果。
1介绍
基因组技术迅速发展的整合基因组学临床护理,用证据证明他们的角色在疾病诊断、药物发现和有针对性的疗法(绿色et al ., 2020;Atutornu et al ., 2022;Borle et al ., 2022)。电子健康记录,下一代测序和人工智能(AI)也导致爆炸的健康数据(Asiimwe et al ., 2021)。作为研究中观察到,增加样本容量提高了潜在的发现:全基因组关联研究(GWAS)是主要的例子,它已经表明,样本大小可以导致增加10倍100倍增加识别位点与重大疾病协会(维斯et al ., 2017)。由于他们的敏感性、临床表型组学数据集主要分布和存储在孤立,难以接近的位置(Asiimwe et al ., 2021;花园,2021);在一个明显的例子,世界经济论坛估计,97%的医院数据不变1。
国与国之间存在严格的国家监管框架管理病人数据的运动和限制国家司法管辖区之间的转移,构成重大障碍当试图访问国际数据集(米切尔et al ., 2020)。增加的复杂性,使用这些数据来获得有意义的见解,它是公认和不幸的,大多数基因数据并不代表广泛的人群。缺乏多元化表示clinical-genomic数据集最终限制基因发现的临床效用低样本量不够动力来确定特定的人群(致病变种Atutornu et al ., 2022;李et al ., 2022)。
尽管有这些挑战,持续努力提高临床的应用,诊断和治疗疾病的表型和multi-omic数据。联邦数据平台的新兴手段实现数据的可访问性,可用性和安全而坚持治理和隐私条例(桑德斯et al ., 2019;过于和劳尔,2020;Nik-Zainal et al ., 2022)。在这个角度看,我们探索如何联合模型为数据访问和分析和端到端的平台可以帮助促进基因利益共享;民主化进入全球数据资产和见解有助于改善表示不同数据集的链接。我们描述成功例子的联盟是如何被采纳的研究和医疗保健设置和讨论正在进行的挑战和建议。向前发展,必须建立在这些技术以确保基因组医学上的突破。安全访问可用的,不同的基因数据准备迅速进展的研究,造福患者。
2克服安全的数据共享通过联合平台
2.1联合生物医学数据平台是新兴世界
联盟,在其最简单的术语来说,是一个软件过程,允许多个数据库函数。联邦体系结构是一个技术蓝图,促进互操作性和自治之间的信息共享,分散的组织。在联邦体系结构中,数据仍将在适当的管辖权范围内,而元数据集中的和可搜索的。这是一个替代模型的数据移动或复制然后集中安置。联邦体系结构的各个组织可能连接在一起成为一个联邦数据平台,实现数据访问和计算为用户在组织。我们认为全联盟时数据和计算在分布式计算和联邦数据库的访问,允许查询和联合分析的数据(Chaterji et al ., 2019)。然而,也存在潜在的部分联合会(I和II),当计算访问或数据访问联邦和计算或数据库分布(表1)。这是不同于联邦学习,解决这个问题在机器学习(ML)的背景下healthcare-researchers可以训练机算法协同分散的数据,包括健康记录,没有侵犯数据治理立法(Mandl和小羽,2015;斯蒂芬斯et al ., 2015;De Fauw et al ., 2018;雷基et al ., 2020;徐et al ., 2021;Pati et al ., 2022)。
现在越来越流行的联邦体系结构连接大型健康数据(桑德斯et al ., 2019;过于和劳尔,2020;Thorogood et al ., 2021;Nik-Zainal et al ., 2022)。鉴于健康数据的敏感性质,它不能被身体池或移动原因法律和监管。这给研究人员带来了一个挑战依赖访问和足够的样本量的研究进展。国家基因组项目越来越多地采用与联邦架构平台,汇集分布式数据集(鲜明的et al ., 2019)。澳大利亚基因组学发展中基因和表型数据的联合存储库之间的桥梁其国家卫生系统和国家资助的遗传服务(鲜明的et al ., 2019)。在加拿大,每个省都有自己的健康数据隐私法案,这样生成的数据在每个省必须遵循省级治理的法律。加拿大基因(CanDIG)分布式基础设施平台是解决这个完全分布式联邦数据模型,使联邦查询和分析,同时确保本地数据治理法律是受人尊敬的(Dursi et al ., 2021)。
欧洲内部活动,如灵丹妙药是欧洲领先的研究机构与更容易发现,分享和分析数据(桑德斯et al ., 2019;过于和劳尔,2020)。灵丹妙药监督sub-initiatives包括欧洲基因组存档(EGA)联合网络使基因组数据的访问和共享。灵丹妙药进一步参与超过100万基因组(B1MG)2,旨在创建一个欧洲的临床和基因数据网络。在全球层面,国民群体共同的基础设施在欧洲,加拿大和非洲(CINECA)项目正在联合军团之间的数据和跨洲(Dursi et al ., 2021)。通过使用联邦体系结构,这些举措允许组织在本地存储和管理他们的数据,全世界的研究人员都可以安全地访问数据。
2.2重要考虑建立联合平台
联合分析与上述架构,集成不同的数据,一旦安全地访问,进行分析原位跨多个网站。建立联邦体系结构要求计算环境、系统设备和应用程序内和跨组织,区域和国家的边界都是interoperable-this意味着克服多个医疗报告系统的差异,经常使用不同的数据模型和本体(穆德et al ., 2017;鲜明的et al ., 2019)。卫生数据交换架构,应用程序编程接口(api)和标准可以提供一个共同的语言和期望,使系统或设备之间的互操作性,这样经过授权的人员可以访问和共享数据,无论何时何地它起源于(Thorogood et al ., 2021)4。
国际活动聚集在联合平台解决互操作性问题。全球基因组学和健康联盟(GA4GH)设置标准,促进国际基因组和健康相关数据的共享,在一定程度上通过设置互操作性标准并提供开源api (Thorogood et al ., 2021)。去公平倡议旨在实现数据原则为了使它可发现的,访问,可互操作和可重用(公平)5和观察健康数据科学(OHDSI)社区开发的开源工具实现的通用数据模型结合不同的数据集6。广泛的互操作性的重要性正日益体现在研究机构的长期战略和资金;在美国,美国国立卫生研究院(NIH)云平台互操作性工作(NCPI)7是建立和实施指南和技术标准,联邦数据生态系统。在英国,英国研究和创新项目最近建立了数据和分析研究环境英国(英国)敢计划8设计和提供一个更加协调的国家数据研究的基础设施。
尽管数据互操作性为联合协作是非常重要的,一个高质量的数据必须。作为联邦数据平台降低访问数据的障碍,必须有准则,以确保可接受的数据用于分析质量产生可靠的结果。例如,低质量测序读更有可能不准确叫变异,从而破坏研究工作;精密医学的上下文中工作,这甚至可能导致诊断不准确。现在有一个广泛的文献强调质量控制的重要性在测序分析(NCI-NHGRI工作组复制在协会的研究,2007年;Miyagawa et al ., 2008;特纳et al ., 2011;DeLuca et al ., 2012;马et al ., 2019等),组织编码9为适当的测序覆盖和质量控制提供指导。作为联邦数据平台继续扩大,这将是重要的行政机关指定质量阈值数据提交,和这些应该在元数据编目人员发表。
有能力处理巨大的数据集,计算资源是一个重要的考虑因素。目前分布式multi-omics和临床数据集的规模带来了越来越转向商业云基础设施。云计算的“弹性”自然就意味着研究人员只支付他们所需要的东西。进一步,研究人员可以创建远程接近相同的硬件和软件设置,不管他们是否在一个数据中心(Langmead Nellore, 2018)。云计算构建先进的功能能力加密、防火墙和监控。尽管如此,仍有沉默对基因组数据采用云计算在某些司法管辖区;它并不完全清楚现有的隐私和数据保护的法律适用于基因组上下文,因此缺乏社会共识的最佳实践(鸽子et al ., 2015)。定义标准和最佳实践,除了云公司提供透明的安全和技术基础设施,将整个行业建立信任的关键,使更多的组织利用云计算的好处。
尽管取得了这些进步,任何涉及到敏感的病人数据的计算环境并非没有风险(梅利莎et al ., 2018;Nasr et al ., 2018)。虽然数据仍然是当地联邦体系结构,但仍然是一个组件,是交换,如中间毫升模型或聚合结果联合学习和分析,分别。与联合学习,毫升模型可以容易推理攻击等安全风险特性泄漏和数据中毒,从而导致意外参与者的培训信息的泄漏数据(梅利莎et al ., 2018;Nasr et al ., 2018)。正在进行的工作是需要调查如何参数可以进一步保护和隐私和安全级别和系统性能之间的权衡和成本应该管理(瑞尔2017)。同样,联邦数据访问模式引入独特的安全风险,如当新用户或代码引入数据控制器的计算环境(瑞尔2017)。小心日志记录和审计平台和用户的活动,以及数据/代码出口管制(例如,宇航服10),需要监控这些风险。
2.3联合促进全球合作和基因组数据集表示
提高疾病诊断功能最多的人,需要更大的更多样化的人群(还是et al ., 2021)。通过促进国际合作通过安全数据统一,联盟可以支持更加多样化的人口在基因组数据集(Vesteghem et al ., 2020;Asiimwe et al ., 2021;花园,2021;鲍威尔,2021;还是et al ., 2021;李et al ., 2022)。在学术研究,计划像媒婆交换(MME)演示分布式数据集的基因型和罕见的表型可以组合使用一个联合网络促进快速、安全的数据共享实现更快的诊断(Philippakis et al ., 2015;还是et al ., 2021)。非洲的人类遗传和健康(H3Africa)计划是促进intra-continental合作建立的网络其设在biorepositories (Abimiku et al ., 2017;穆德et al ., 2017)。这个项目已经强调深区域变异疾病相关的危险因素和建立了关键工具(非难和参考基因的基因序列面板)支持基因数据的分析从非洲血统的人(穆德et al ., 2017)。
尽管有了一些进展,招募参与者信任仍然是一个重要问题,特别是在历史上边缘化群体。作为数据管理者保持控制他们在联合数据访问模型的数据集,数据访问协议必须通过谈判的方式是可以接受的研究参与者产生信任,尤其是在历史上弱势团体(Thorogood et al ., 2021;李et al ., 2022)。
3民主化访问数据资产和见解通过联合平台
3.1考虑民主化基因组数据
联邦数据平台的核心利益是它们能民主化获得卫生数据以一种安全的方式。虽然这将推动医学研究的巨大潜力,必须有严格的规定对数据管理和访问,应用在组织researcher-level,以引起公众和参与者的信任。
有一个有效的所有权问题联邦数据平台信任独立政党,一组机构,或政府理论上可以承担这个角色。在英国,目前在公共部门共同努力建立一个联合,研究数据基础设施11- - - - - -13。在这个模型中,病人数据存储在信任的研究环境下(非常)或“安全数据环境”和联合技术用于几乎链接这些环境而数据安全地呆在源头,总是在完全控制的数据托管/控制器。混乱关系完全拥有和由数据控制器(s)13;这意味着在多个医疗服务提供者有集体所有制为数据源。
激增的数据规定出现在全球地区14- - - - - -16,有一种越来越流行的认证计划审核和认证的“所有者”数据管理平台14,17。保证伦理和安全使用联合平台,这些基础设施的安全性和治理必须定期检查和测量对数据安全性和治理相关的所有方面,从实现industry-recognised数据保护框架18、标准和信息安全措施符合本地数据规定和承诺的互操作性。访问数据在这些联合平台必须适当审核并由数据controllers-identifying一个高效和安全的访问和审批程序的民主化这个数据是一个全社区的工作进展。实现这样的治理和监管机构,规范使用的数据可以帮助培养公众信任的基因组学研究在更广泛的公共使用,确保数据是在公众和参与者的利益。
3.2支持分析通过没有/ low-code工具和端到端的平台
目前软件行业转向“no / low-code”工具来支持更广泛的终端用户有或没有一个数据科学背景,从而使全面民主化对基因组数据的访问和见解。银河社区,一个倡议在长生不老药,就是这样一个例子提供一个网络平台,方便计算各种“组学”研究类型(银河社区et al ., 2022)。还有诸如DepMap之类的资源19提供易于使用的图形用户界面来探索癌症漏洞从可用的化学和遗传扰动数据分析和可视化工具。在一起,这些工具使不同背景的用户可视化数据直接或分析构建可再生的管道和复杂的工作流。
尽管这类低收入/没有代码工具是一个巨大的第一步,应该有一个端到端的,研究者和临床医生联合解决方案——为后者提供他们需要的资源来理解病人的数据(Kullo et al ., 2013;Lau-Min et al ., 2021)。一个端到端的数据平台,建设在当前的联邦数据架构和进步能够摄取临床和原始基因组数据,民主化可以访问,加快代临床可行的见解。这样的平台可以安全地集成之间的一个国家的医疗网络,国家医学基因组计划和测序实验室。当加上工具,使任何生物管道和工作流运行,这样一个平台能够处理遗传服务的端到端:从病人招募,样本收集、排序、数据标准化、分析和临床报告(鲜明的et al ., 2019)(图1)。通过联合分布式数据库和系统,以及提供必要的、易于使用的工具将原始数据转换成有意义的见解可以更直接造福病人。
图1。一个例子基因组医学联邦体系结构相结合的端到端解决方案。基因组或表型临床数据首先是收集和转换成可互操作的格式。接下来,这些数据将被吸入到联邦架构,它允许授权用户访问并将该数据与其他群体不同数据源构建独特的和有价值的分析。严格的安全措施将促进结果导出到临床医生和研究人员,使他们进步临床治疗发现和作出明智的决策。
3.3确保联盟未来的基因组研究的可持续性
虽然许多国家越来越多的成功,将基因组学集成到医疗(鲜明的et al ., 2019;Kloypan et al ., 2021),重要的是要注意,并非所有的知识描述这是普遍适用的。许多国家和地区面临着迅速变化的卫生优先事项和挑战包括低水平的政府支持,缺乏资金雄厚的国家医疗体系,员工技能短缺和空白基础设施(穆德et al ., 2017;鲜明的et al ., 2019;Maxmen 2020)。数据共享,甚至在一个完整的联邦系统,与重要的相关成本(查尔默斯et al ., 2016)20.。基因组学的长期可持续性生态系统是依赖于更加可持续的解决方案和安全,长期资金,而这只会通过行业合作。
生物银行之间的合作和更广泛的生命科学行业可以构建更大更具代表性数据生态系统和开放可持续人口基因组计划和生物银行资助机制,尤其是在国家用更少的资源进行研究。具体地说,合作延伸到私营部门,起生物可以加速增长和高额利润和可持续的资金。制药公司中有越来越多的认可,patient-participant人口多样性的临床试验是至关重要的大型遗传变异性药物反应,通常是与祖先(总值et al ., 2022)。
随着私营部门不会自由传播他们的知识,有一个模型的基因组计划和生物银行可以与制药公司谈判数据访问协议需要庞大而多样化的病人群体研发和药物发现管道(花园,2021;Thorogood et al ., 2021)。54基因的一个例子是,基于风险资本支持型生物在尼日利亚,这将与制药公司合作,为其充电的研究访问费用,如英国生物库(Maxmen 2020)。通过生成稳定的和可持续的筹资机制通过合作伙伴关系,起生物和精密医学程序可以生成大规模整体利益共享(Maxmen 2020;Thorogood et al ., 2021;Bedeker et al ., 2022)。
4讨论
这里,我们提出了一个观点的总体进展开发联邦数据平台,使研究和基因组学的努力。虽然已经有重大进展在国家和国际努力提供安全访问他们的大规模的健康数据,以及工具,让用户获得有意义的见解,框架和政策指导基因组学社区数据共享的最佳实践是必要的,以确保成功的合作。这些必须覆盖关键因素中讨论这个观点包括互操作性,安全的数据访问,云计算,可用性,民主化数据访问、临床效用,伦理性考量和可持续性的平台(Thorogood et al ., 2021;李et al ., 2022)。管理机构确实开始解决数据共享相关的复杂性与世界卫生组织的最新报告作为一个著名的例子(2022年,)在一个联邦的生态系统,有私人和公共部门的角色。在这个角度看,我们强调的机会投资生物医药和联邦数据平台为了增加他们的访问数据,进而基金的平台。进一步说,它可能是重要的考虑前进的作用DNA测试公司在建立联合网络。这些公司对数据的访问数以百万计的个人,这将是有趣的,以确定是否有任何激励这些加入联邦数据的生态系统,同时也坚持治理和隐私政策。
最后,继续民主化的数据访问和分析有可能拓宽创新技术实现(德雷克et al ., 2018;克里斯托弗et al ., 2021)。未来努力扩大联邦数据平台在一个道德的方式将需要广泛的非政府组织之间的协调、地方政府、科研人员和行业倡导增加投资建设能力和改善基础设施21。发展联邦数据平台,比如这里讨论,已经加速研究通过研究社区一起患者受益。进一步投资和扩张的可持续平台将继续研究力量,以便访问和可用性的数据发现强大的将不再是一个障碍治疗的见解。
数据可用性声明
最初的贡献提出了研究中都包含在本文/辅料,可以针对相应的作者进一步询问。
作者的贡献
妈,CD,反向,TS, NR、PP、和MC的贡献同样的概念的文章。马和本土知识写初稿的手稿,他和本土知识写第二稿的手稿。CD写的手稿。所有作者导致修订手稿、阅读和批准提交的版本。
确认
作者要感谢迪纳史木汗对她最初的贡献手稿。
的利益冲突
作者马,他、反向、CD, NR, TS, PP, MC受雇于Lifebit生物技术有限公司。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
脚注
1世界经济论坛。四种方法数据正在改善医疗(2019)。世界经济论坛。https://www.weforum.org/agenda/2019/12/four-ways-data-is-improving-healthcare/(2022年7月27日通过)。
2超过一百万人基因工程(2022)https://b1mg-project.eu/(2022年12月13日通过)。
3值得信赖的联邦数据分析(TFDA) (2022)。https://tfda.hmsp.center/(2022年12月5日通过)。
4医疗信息和管理系统协会(2020)。在医疗保健的互操作性。https://www.himss.org/resources/interoperability-healthcare(2022年8月16日通过)。
5公平的倡议(2017)。去公平的倡议。https://www.go-fair.org/go-fair-initiative/(2022年8月16日通过)。
6观察健康数据科学和信息学(2022)。OMOP常见的数据模型。https://www.ohdsi.org/data-standardization/the-common-data-model/(2022年8月16日通过)。
7NIH的云平台互操作性工作(2022)https://datascience.nih.gov/nih-cloud-platform-interoperability-effort(2022年8月16日通过)。
8英国(2021)数据和分析研究环境。https://dareuk.org.uk/about/(2022年8月16日通过)。
9编码。(2022)https://www.encodeproject.org/(2022年12月13日通过)。
10导入和导出文件使用气闸(2022)。https://re-docs.genomicsengland.co.uk/airlock/ importing-and-exporting-files-using-the-airlock(2022年12月13日通过)。
11基因组英国2021年至2022年实施计划(2021)https://www.gov.uk/government/publications/genome -英国- 2021 - 2022 -实施-计划(2022年8月16日通过)。
12更好、更广泛的、更安全:使用健康数据的研究和分析(2022)https://www.gov.uk/government/publications/better-broader-safer-using-health-data-for-research-and-analysis(2022年8月16日通过)。
13安全数据NHS环境卫生和社会保健数据政策指南》(2022)。https://www.gov.uk/government/publications/secure-data-environment-policy-guidelines/secure-data-environment-for-nhs-health-and-social-care-data-policy-guidelines(2022年8月13日通过)。
14国家卫生研究院的数据管理和共享策略(2022)。https://sharing.nih.gov/data-management-and-sharing-policy(2022年12月13日通过)。
15一般数据保护监管(2022)。https://gdpr-info.eu/(2022年12月13日通过)。
16CS / HB 833 -非法使用DNA (2021)。https://www.flsenate.gov/Committees/billsummaries/2021/html/2543(2022年12月13日通过)。
17我们的未来健康打开信任协商研究环境认证过程(2022)。https://ourfuturehealth.org.uk/news/our-future-health-opens-consultation-on-trusted-research-environment-accreditation-process/(2022年12月13日通过)。
18五个保险箱框架是什么?(2022)https://ukdataservice.ac.uk/help/secure-lab/what-is-the-five-safes-framework/(2022年12月13日通过)。
19探索癌症的依赖关系图(2021)。https://depmap.org/portal/(2022年12月13日通过)。
20.网络计算(2019)。3隐性公共云成本和如何避免它们。https://www.networkcomputing.com/cloud-infrastructure/3-hidden-public-cloud-costs-and-how-avoid-them(2022年8月16日通过)。
21世界卫生组织(2022)。谁是科学委员会发布报告呼吁公平的基因组学的发展。https://www.who.int/news/item/12 - 07 - 2022 -人-科学-委员会发布报告,称- -公平扩张的基因组学。(2022年7月28日通过)。
引用
Abimiku,。,Mayne, E. S., Joloba, M., Beiswanger, C. M., Troyer, J., and Wideroff, L.H3Africa Biorepository Working Grou (2017). H3Africa biorepository program: Supporting genomics research on african populations by sharing high-quality biospecimens.Biopreservation生物15日,99 - 102。doi: 10.1089 / bio.2017.0005
银河社区Afgan E。Nekrutenko,。、Gruning b。,Blankenberg, D., Goecks, J., Schatz, M. C., et al. (2022). The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2022 update.核酸Res。W345-W351。doi: 10.1093 / nar / gkac247
Asiimwe, R。Lam S。,Leung, S., Wang, S., Wan, R., Tinker, A., et al. (2021). From biobank and data silos into a data commons: Convergence to support translational medicine.j . Transl。地中海。19日,493年。doi: 10.1186 / s12967 - 021 - 03147 - z
Atutornu, J。米尔恩,R。哥,。补丁,C。,and Middleton, A. (2022). Towards equitable and trustworthy genomics research.eBioMedicine76年,103879年。doi: 10.1016 / j.ebiom.2022.103879
Bedeker,。,Nichols, M., Allie, T., Tamuhla, T., van Heusden, P., Olorunsogbon, O., et al. (2022). A framework for the promotion of ethical benefit sharing in health research.BMJ水珠。健康7,e008096。doi: 10.1136 / bmjgh - 2021 - 008096
过于,N。,and Lauer, K. B. (2020). Connecting data, tools and people across Europe: ELIXIR’s response to the COVID-19 pandemic.欧元。j .的嗡嗡声。麝猫。28日,719 - 723。doi: 10.1038 / s41431 - 020 - 0637 - 5
Borle, K。,Kopac, N., Dragojlovic, N., Rodriguez Llorian, E., Friedman, J. M., Elliott, A. M., et al. GenCOUNSEL Study (2022). Where is genetic medicine headed? Exploring the perspectives of Canadian genetic professionals on future trends using the delphi method.欧元。j .的嗡嗡声。麝猫。496 - 504年。doi: 10.1038 / s41431 - 021 - 01017 - 2
查尔默斯,D。考,D。凯,J。钟,J。,Campbell, A. V., Ho, C. W. L., et al. (2016). Has the biobank bubble burst? Withstanding the challenges for sustainable biobanking in the digital era.BMC医学伦理。17日,39岁。doi: 10.1186 / s12910 - 016 - 0124 - 2
NCI-NHGRI工作组在协会研究Chanock复制,s . J。Manolio, T。Boehnke, M。,Boerwinkle, E., Hunter, D. J., et al. (2007). Replicating genotype–phenotype associations.自然447年,655 - 660。doi: 10.1038 / 447655 a
Chaterji, S。古,J。李,N。,Meyer, F., Grama, A., and Bagchi, S. (2019). Federation in genomics pipelines: Techniques and challenges.简短。Bioinform20岁,235 - 244。doi: 10.1093 /龙头/ bbx102
克里斯托弗,H。、烧伤、。,Josephat, E., Makani, J., Schuh, A., and Nkya, S. (2021). Using DNA testing for the precise, definite, and low-cost diagnosis of sickle cell disease and other haemoglobinopathies: Findings from Tanzania.BMC基因组学22日,902年。doi: 10.1186 / s12864 - 021 - 08220 - x
De Fauw J。,Ledsam, J. R., Romera-Paredes, B., Nikolov, S., Tomasev, N., Blackwell, S., et al. (2018). Clinically applicable deep learning for diagnosis and referral in retinal disease.Nat,地中海。24岁,1342 - 1350。doi: 10.1038 / s41591 - 018 - 0107 - 6
DeLuca, d S。,Levin, J. Z., Sivachenko, A., Fennell, T., Nazaire, M.-D., Williams, C., et al. (2012). RNA-SeQC: RNA-seq metrics for quality control and process optimization.Bioinforma。Oxf,心血管病。28日,1530 - 1532。doi: 10.1093 /生物信息学/ bts196
鸽子,大肠。乔利,Y。,Tassé, A.-M., and Knoppers, B. M. (2015). Public population project in genomics and society (P3G) international steering committee, international cancer genome consortium (ICGC) ethics and policy CommitteeGenomic cloud computing: Legal and ethical points to consider.欧元。j .的嗡嗡声。麝猫。EJHG23日,1271 - 1278。doi: 10.1038 / ejhg.2014.196
德雷克,t . M。,Knight, S. R., Harrison, E. M., and Søreide, K. (2018). Global inequities in precision medicine and molecular cancer research.前面。肿瘤防治杂志。8,346。doi: 10.3389 / fonc.2018.00346
Dursi l . J。、Bozoky Z。,de Borja, R., Li, H., Bujold, D., Lipski, A., et al. (2021). CanDIG: Federated network across Canada for multi-omic and health data discovery and analysis.细胞基因组学1,100033。doi: 10.1016 / j.xgen.2021.100033
花园,h (2021)。建立和维持健康创新协作平台在基因组学和生物银行(经济合作与发展组织科学、技术和产业政策文件编号102)。经济合作与发展组织科学。抛光工艺。产业政策巴氏102年。d960b7-en doi: 10.1787/11
绿色,e D。甘特,C。,Biesecker, L. G., Di Francesco, V., Easter, C. L., Feingold, E. A., et al. (2020). Strategic vision for improving human health at the Forefront of Genomics.自然586年,683 - 692。doi: 10.1038 / s41586 - 020 - 2817 - 4
生产总值(gdp), a S。,Harry, A. C., Clifton, C. S., and Della Pasqua, O. (2022). Clinical trial diversity: An opportunity for improved insight into the determinants of variability in drug response.Br。j .中国。杂志。88年,2700 - 2717。doi: 10.1111 / bcp.15242
Kloypan C。,Koomdee, N., Satapornpong, P., Tempark, T., Biswas, M., and Sukasem, C. (2021). A comprehensive review of HLA and severe cutaneous adverse drug reactions: Implication for clinical pharmacogenomics and precision medicine.药品14日,1077年。doi: 10.3390 / ph14111077
Kullo, J。,Jarvik, G. P., Manolio, T. A., Williams, M. S., and Roden, D. M. (2013). Leveraging the electronic health record to implement genomic medicine.麝猫。地中海。15日,270 - 271。doi: 10.1038 / gim.2012.131
Langmead B。,and Nellore, A. (2018). Cloud computing for genomic data analysis and collaboration.Nat,启麝猫。19日,208 - 219。doi: 10.1038 / nrg.2017.113
Lau-Min, k . S。亚设,s . B。陈,J。,Domchek, S. M., Feldman, M., Joffe, S., et al. (2021). Real-world integration of genomic data into the electronic health record: The PennChart genomics initiative.麝猫。地中海。23日,603 - 605。doi: 10.1038 / s41436 - 020 - 01056 - y
李,美国S.-J。,Appelbaum, P. S., and Chung, W. K. (2022). Challenges and potential solutions to health disparities in genomic medicine.细胞185年,2007 - 2010。doi: 10.1016 / j.cell.2022.05.010
妈,X。,Shao, Y., Tian, L., Flasch, D. A., Mulder, H. L., Edmonson, M. N., et al. (2019). Analysis of error profiles in deep next-generation sequencing data.基因组医学杂志。20、50。doi: 10.1186 / s13059 - 019 - 1659 - 6
Mandl, k·D。,and Kohane, I. S. (2015). Federalist principles for healthcare data networks.生物科技Nat。》。33岁,360 - 363。doi: 10.1038 / nbt.3180
梅丽莎,L。,Song, C., De Cristofaro, E., and Shmatikov, V. (2018).利用意想不到的特性泄漏在协作学习。公元前Vancuver:学习国际会议上表示。doi: 10.48550 / ARXIV.1805.04049
Miyagawa, T。,Nishida, N., Ohashi, J., Kimura, R., Fujimoto, A., Kawashima, M., et al. (2008). Appropriate data cleaning methods for genome-wide association study.j .的嗡嗡声。麝猫。53岁,886 - 893。doi: 10.1007 / s10038 - 008 - 0322 - y
穆德,N。,Adebamowo, C. A., Adebamowo, S. N., Adebayo, O., Adeleye, O., Alibi, M., et al. (2017). Genomic research data generation, analysis and sharing – challenges in the african setting.科学数据。J。16日,49。doi: 10.5334 / dsj - 2017 - 049
Nasr, M。,Shokri, R., and Houmansadr, A. (2018).深度学习全面的隐私分析:被动和主动白盒推理攻击集中学习和联合。旧金山,CA:IEEE研讨会上安全和隐私。doi: 10.48550 / ARXIV.1812.00910
Nik-Zainal, p S。西格,T。,Fennessy, R., Hall, E., Moss, P., Coles, G., et al. (2022). Multi-party trusted research environment federation: Establishing infrastructure for secure analysis across different clinical-genomic datasets.Zenodo。doi: 10.5281 / ZENODO.7085536
Pati, S。,Baid, U., Edwards, B., Sheller, M., Wang, S.-H., Reina, G. A., et al. (2022). Federated learning enables big data for rare cancer boundary detection.Commun Nat。13日,7346年。doi: 10.1038 / s41467 - 022 - 33407 - 5
Philippakis, A。、Azzariti d R。Beltran), S。,Brookes, A. J., Brownstein, C. A., Brudno, M., et al. (2015). The matchmaker exchange: A platform for rare disease gene discovery.嗡嗡声。Mutat。36岁,915 - 921。doi: 10.1002 / humu.22858
里克,N。,Hancox, J., Li, W., Milletarì, F., Roth, H. R., Albarqouni, S., et al. (2020). The future of digital health with federated learning.Npj数字。地中海。3,119。doi: 10.1038 / s41746 - 020 - 00323 - 1
桑德斯,G。Baudis, M。贝克尔,R。,Beltran, S., Béroud, C., Birney, E., et al. (2019). Leveraging European infrastructures to access 1 million human genomes by 2022.Nat,启麝猫。20岁,693 - 701。doi: 10.1038 / s41576 - 019 - 0156 - 9
斯塔克,Z。,Dolman, L., Manolio, T. A., Ozenberger, B., Hill, S. L., Caulfied, M. J., et al. (2019). Integrating genomics into healthcare: A global responsibility.点。j .的嗡嗡声。麝猫。104年,13-20。doi: 10.1016 / j.ajhg.2018.11.014
斯蒂芬斯,z D。李,美国Y。Faghri F。,Campbell, R. H., Zhai, C., Efron, M. J., et al. (2015). Big data: Astronomical or genomical?公共科学图书馆杂志。13日,e1002195。doi: 10.1371 / journal.pbio.1002195
Thorogood,。雷姆曾为此写过,h·L。,Goodhand, P., Page, A. J. H., Joly, Y., Baudis, M., et al. (2021). International federation of genomic medicine databases using GA4GH standards.细胞基因组学1,100032。doi: 10.1016 / j.xgen.2021.100032
特纳,S。,Armstrong, L. L., Bradford, Y., Carlson, C. S., Crawford, D. C., Crenshaw, A. T., et al. (2011). Quality control procedures for genome-wide association studies.咕咕叫。Protoc。嗡嗡声。麝猫。第一章,Unit1.19。hg0119s68 doi: 10.1002/0471142905.
Vesteghem C。,Brøndum, R. F., Sønderkær, M., Sommer, M., Schmitz, A., Bødker, J. S., et al. (2020). Implementing the FAIR data principles in precision oncology: Review of supporting initiatives.简短。Bioinform。21日,936 - 945。doi: 10.1093 /龙头/ bbz044
维斯,p . M。,雷,n R。张问。Sklar, P。,McCarthy, M. I., Brown, M. A., et al. (2017). 10 Years of GWAS discovery: Biology, function, and translation.点。j .的嗡嗡声。麝猫。101年,5-22。doi: 10.1016 / j.ajhg.2017.06.005
徐,J。,Glicksberg, B. S., Su, C., Walker, P., Bian, J., and Wang, F. (2021). Federated learning for healthcare Informatics.j . Healthc。正,Res。5,-。doi: 10.1007 / s41666 - 020 - 00082 - 4
关键词:联邦、基因组学、云计算、可信的研究环境,临床基因组学
引用:他Alvarellos M,谢泼德,Knarston我,戴维森C,雷恩N,西格T,普列托嚎叫P和Chatzou Dunford M(2023)民主化clinical-genomic数据:如何在基因组学联合平台能促进利益共享。前面。麝猫。13:1045450。doi: 10.3389 / fgene.2022.1045450
收到:2022年9月15日;接受:2022年12月19日;
发表:2023年1月10日。
编辑:
多米尼克•Sprumont纽夏特大学,瑞士审核:
Apostolos Pyrgelis瑞士,瑞士联邦理工学院洛桑版权谢泼德,©2023 Alvarellos Knarston戴维森,雷恩,西格、普列托嚎叫和Chatzou Dunford。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:英格丽Knarston,ingrid@lifebit.ai
__这些作者对这项工作同样做出了贡献,分享第一作者