Nat. Mach. Intell. | 面向分子发现多方协作的联邦图学习方法

在分子发现领域,数据往往分散在不同机构和企业之间,由于隐私保护、知识产权和数据安全等限制,难以实现数据共享,从而制约了机器学习模型性能的提升。为解决这一问题,研究人员提出了一种面向分子发现的联邦图学习方法,使多个数据持有方能够在不共享原始数据的前提下协同训练高性能模型。该方法将图神经网络与联邦学习框架相结合,在保护数据隐私的同时实现跨机构知识整合。实验结果表明,该方法在多种分子性质预测与虚拟筛选任务中显著优于单方训练模型,并接近集中式数据训练的性能水平,为多方协作的智能分子研发提供了可行路径。分子性质预测和药物发现越来越依赖图神经网络等深度学习模型。然而,高质量训练数据通常分布在不同实验室或企业数据库中,涉及商业机密或患者隐私,使得集中式数据整合难以实现。这种数据孤岛问题限制了模型的泛化能力和预测精度。联邦学习为解决这一问题提供了新的思路,即在不交换原始数据的情况下,通过参数共享实现协同训练。然而,现有联邦学习方法主要面向图像或文本数据,对于分子图结构数据的处理仍面临挑战,包括模型收敛不稳定、数据分布差异显著以及图结构特征难以统一等问题。因此,构建适用于分子图数据的联邦学习框架成为关键课题。
联邦图学习框架设计研究人员提出了一种专门针对分子图结构的联邦图学习方法。该框架以图神经网络为核心模型,各参与方在本地数据上独立训练模型参数,并定期将模型更新上传至中央服务器进行聚合。与传统联邦平均算法不同,该方法针对分子图特征分布不一致的问题,引入改进的聚合策略和正则化机制,以提高模型在异构数据环境下的稳定性和泛化能力。通过这种方式,多个参与方能够在不暴露原始分子数据的情况下,共享结构与性质之间的学习信息。图1:联邦图学习在多方分子数据协作中的整体框架示意。
图2:GNN架构。
在分子性质预测任务中的表现研究人员在多个公开分子数据集以及模拟多方分布场景下评估了该方法的性能。结果表明,与单独使用本地数据训练的模型相比,联邦图学习显著提高了预测准确度。在多数任务中,其性能接近集中式训练模型,显示出跨数据源知识整合的有效性。尤其在数据分布差异较大的情境下,该方法仍保持稳定表现,证明其对非独立同分布数据具有较强适应能力。图3:联邦图学习与单方模型及集中式模型在分子性质预测上的性能对比。
隐私保护与安全性分析除了性能评估外,研究人员还分析了模型在隐私保护方面的安全性。由于参与方仅共享模型参数更新,而不传输原始分子结构或实验数据,数据隐私得到有效保障。同时,通过引入噪声机制和安全聚合策略,可以进一步降低潜在信息泄露风险。这为在实际企业或医疗环境中部署该框架提供了现实可行性。
讨论与应用前景研究人员展示了一种适用于分子发现的联邦图学习方法,使多方能够在数据不可共享的前提下实现协作建模。这一框架为解决数据孤岛问题提供了可行技术路径,有望在药物研发、材料设计以及生物活性预测等领域发挥重要作用。未来,该方法可进一步结合更复杂的图模型结构与自监督学习策略,以增强对跨领域数据分布差异的适应能力,并拓展至更大规模的真实工业合作场景。整理 | DrugOne团队
参考资料
Zhang, L., Zhang, J., Huang, R. et al. A federated graph learning method to realize multi-party collaboration for molecular discovery. Nat Mach Intell (2026). https://doi.org/10.1038/s42256-026-01184-1内容为【DrugOne】公众号原创
分类