欢迎访问:新清华

日期选择

电机系负责的“梯次利用动力电池规模化工程应用关键技术”示范工程揭牌 电子系在分布式机器学习的隐私安全关键技术领域取得进展 车辆学院在自动驾驶轨迹预测领域取得突破 环境学院在强化污水厌氧生物处理种间电子传递研究中取得新进展 柔性电子技术实验室、航院在三维曲面电子制造方法上取得突破 人文学院汪晖专著《现代中国思想的兴起》英文版出版发行
学术前沿
新清华

2023年09月01日

2297

本期8

文章30

字号【 加大 还原 减小

电子系在分布式机器学习的隐私安全关键技术领域取得进展

新清华 2023年09月01日 第2297期 学术前沿

基于数据扩张机制的图数据分布式学习方法。

  本报讯 分布式机器学习能够协同实际系统中分布在不同节点的数据和资源,通过节点间共享学习中间变量进行模型训练。该技术具有去中心化的特性,一定程度上避免了数据集中存储带来的隐私风险,是目前面向隐私保护的主流机器学习方法。但是,随着研究深入,分布式机器学习也遇到了诸多挑战。
  针对面向隐私保护分布式机器学习中存在的前沿课题,清华大学电子系开源数据认知创新中心黄永峰教授研究团队开展了系统
研究工作,取得了阶段性进展。研究团队创建了一套隐私增强分布式机器学习模型。该模型采用差分隐私知识迁移的协同学习框架,实现分布式学习过程中“全过程”隐私保护,同时,提出了一种隐私安全可证明的模型有效训练方法,该方法攻克了在现有分布式机器学习模型直接应用差分隐私时学习效果断崖式下降的难题。在为分布式学习过程提供了有效、可证明的隐私安全保护的同时,最高提升了现有隐私保护机器学习方法84.2%的性能。研究团队创建了一套面向隐私增强分布式架构高效模型训练方法。在隐私增强的分布式学习模型的基础上,制定了一套基于“门徒效应”的双向知识蒸馏技术,提出了一套基于互学习约束的模型知识自适应压缩方法,突破了在增强隐私保护的机器学习过程中知识共享的效率瓶颈。实验结果证明,在大规模隐私增强的分布式学习模型中,该方法能将复杂模型的训练效率提升20倍。针对图数据分布式学习中存在的“强关联”与“去关联”之间的矛盾,研究团队提出了一套面向隐私增强分布式架构的复杂数据学习方法(如图)。通过实际场景数据的实验证明,该框架能够有效挖掘分布式图数据间的关联,达到在没有隐私保护限制下最优关联建模效果的98.2%。
  上述研究成果在黄永峰带领下,由副教授张卫强、何亮,博士生齐涛、武楚涵等骨干成员,联合微软亚洲研究院相关合作研究人员共同完成,于2022-2023年度发表了4篇《自然》(Nature)子刊论文,其中1篇论文入选《自然·通讯》(Nature Communications)期刊的亮点论文。(电子系)

  • 语音播报
  • 一键复制
  • 导出
清华大学新闻中心版权所有,清华大学新闻网编辑部维护,电子信箱: news@tsinghua.edu.cn
Copyright 2001-2020 news.tsinghua.edu.cn. All rights reserved.