近日,我院张晓彤教授、徐诚副教授在Nature Communications上发表重要成果,汇报了团队在材料大数据领域的最新研究进展,世界范围内首次将群学习(Swarm Learning)应用于材料大数据计算领域,具有里程碑式的意义。我院博士研究生王然为第一作者,张晓彤教授、徐诚副教授为共同通讯作者,北京科技大学为论文唯一通讯单位。
一、论文信息
题目:MatSwarm: trusted swarm transfer learning driven materials computation for secure big data sharing
论文链接:https://rdcu.be/dYm1R
Nature官方介绍:
https://communities.springernature.com/posts/matswarm-driven-materials-computation-for-secure-big-data-sharing
二、研究成果介绍
在工业物联网(IIoT)与机器学习深度融合的推动下,材料科学正迎来前所未有的变革。作为工业4.0的重要组成部分,先进的传感器和数据采集技术实现了材料参数(如温度、硬度、熔点和沸点)的实时监测,为材料研发提供了强大的数据支持。然而,尽管大数据平台的兴起为材料研究提供了丰富资源,敏感数据因隐私限制无法共享,导致训练数据规模有限,模型精度和通用性难以提升。即使采用数据增强或迁移学习技术,也存在模拟数据准确性不足和模型泄露的风险。为应对这些挑战,在国家“材料基因工程”重点研发项目的支持下,建设完成了“国家材料大数据管理服务平台(NMDMS)”。该平台整合了来自中国三十多家科研机构的超过1400万条材料数据,为研究者提供了强大的数据存储、检索和计算支持。然而,传统联邦学习框架在非独立同分布(non-i.i.d.)数据上的泛化能力不足,以及训练过程中模型参数的安全性和完整性问题,仍然成为协同计算进一步发展的主要瓶颈。
为解决上述问题,我们首次提出并应用了名为MatSwarm的群学习框架。该框架作为NMDMS平台的重要组成部分,创新性地结合了联邦学习和分布式计算技术,专为材料科学领域设计,尤其针对工业4.0背景下的非独立同分布数据协作计算挑战。MatSwarm通过集成基于Intel SGX的可信执行环境(TEE),确保模型聚合过程的安全性和准确性;同时显著提升了模型在异构数据条件下的训练精度和泛化能力。我们在NMDMS平台数据上验证了MatSwarm框架,其结果表明,该框架有效突破了材料科学大数据协同计算中的瓶颈问题,充分释放了材料数据的潜力,推动了新材料的快速发现和创新。MatSwarm的成功应用标志着群学习(Swarm Learning)技术首次在全球范围内应用于材料大数据计算领域,具有里程碑式的意义。
不同数据标签分布对性能的影响比较,即,a-b 分别表示在 iid(独立同分布)和 non-iid(非独立同分布)条件下预测钙钛矿形成能的均方误差(MSE)和响应时间。测试的模型包括各组织独立训练的模型(Solo-Org1, 2, 3)、MatSwarm框架下的本地模型(MatSwarm(Org1, 2, 3))、MatSwarm框架下的全局模型(MatSwarm(Global)),以及聚合所有训练数据集后训练的模型(Joint)。c 各种本地模型下预测结果的散点图。d 不同聚合方法下的 MSE 和响应时间比较。训练数据集的总样本数(n = 3,694)在各组织间平均分配,测试集包含 322 个样本。
三、团队介绍
系统结构实验室团队长期专注于材料大数据、工业互联网、群体智能与分布式安全等领域的研究。目前团队拥有教授4人(张晓彤、何杰、万亚东、黄天耀)、副教授/讲师4人(段世红、齐悦、徐诚、曾庆峰),常驻博士和硕士研究生超过70人。实验室始终围绕国家战略目标,扎根于创新驱动的基础研究,依托国家重点研发计划及重点专项等重大课题,取得了一系列重要成果。为解决多源异构与多模态材料数据的存储与共享难题,实验室提出了一种基于“动态容器”的无模式分布式存储技术,成功构建了“国家材料大数据管理服务平台(NMDMS)”。该平台基于动态容器,集数据汇交、存储、查询和展示功能于一体,形成了一套高效融合的数据库管理系统,专用于科研数据管理。平台为国家科研数据的计算、实验、分析与挖掘提供了有力的技术支持。
我国高度重视新材料大数据基础设施和数据资源体系建设,2024年国家新材料大数据中心正式启动建设,落地北京科技大学。新材料大数据中心定位为促进新材料产业创新发展的新型研发基础设施,旨在立足机制创新、协同创新、成果转化,构建新材料数据资源中心、数据产品研发中心、数据基础产品和定制化服务提供中心。依托学院,团队作为重要力量积极参与国家新材料大数据中心的整体规划与建设,2024年,共获批科技创新2030(重大项目)1项,课题2项,未来将针对规模化、分布式材料数据资源在质量管理、AI高可用分析、安全共享、检索发现、在线应用等方面的需求,贡献团队力量。
(责编:王钰健)