AI训练遇隐私难题 联邦学习这样打通数据孤岛

马爱平 马越

2019年11月19日08:24  来源:科技日报
 
原标题:AI训练遇隐私难题 联邦学习这样打通数据孤岛

  数据可以说是人工智能的燃料。但随着AI落地各个应用场景,数据隐私泄露问题日益严重。数据的交流使用和数据的隐私保护似乎成为了不可调和的矛盾。

  如何在不泄露各自数据隐私的情况下实现数据的共享和模型的共建,同时连通数据割裂的孤岛是当前所面临的问题。目前各机构正试图利用联邦学习打通人工智能应用的最后一公里,促进人工智能落地。

  数据孤岛阻碍机器学习训练

  “互联网时代产生的海量数据,其背后的价值如何能挖掘出来,又会对我们产生什么样的影响?”近日,在由中国计算机学会发起的第四次联邦学习主题研讨会上,微众银行人工智能首席科学家范力欣说,如何发掘和利用这些信息是现在一个非常热门的研究方向,但要安全合规地发挥这些海量数据背后的价值,就涉及到隐私保护问题。

  随着人工智能的发展,其可能带来的隐私泄露风险也日益凸显。除了备受关注的脸书(Facebook)等巨头公司的用户隐私泄露事件外,目前用于算法训练的数据的来源也让人担忧。有媒体日前报道,在网络商城中有商家公开售卖“人脸数据”,数量达17万条。目前网络商城运营方已认定涉事商家违规,涉事商品已被下架处理。

  为了应对隐私泄露风险,各国都采取了相应措施。如2018年欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》;2019年5月美国旧金山禁用人脸识别,禁止政府机构购买和使用人脸识别技术,以此来消除技术带来的隐患;从2009年开始到2019年十年间,我国也出台了非常严格的隐私保护法案。

  但同时,数据隐私的保护也对依赖数据的机器学习形成了巨大挑战。如《通用数据保护条例》要求公司在使用数据前要先向用户声明模型的作用,这份条例的实行让许多大数据公司在数据交流方面非常谨慎。

  “人工智能需要通过大量的数据学习才能把数据后面的知识挖掘、整理出来,把价值发挥出来。但现实的情况是一方面很多数据质量不好,缺乏标签;另一方面,数据完全分散在各个数据主体、企业的个案里面,是一个个数据孤岛,无法把它们连接起来。”范力欣说,如何在保护数据隐私同时打破数据孤岛是我们现在面临的问题。

  联邦学习或将提供解决办法

  在人工智能领域,传统的数据处理模式往往是一方收集数据,再转移到另一方进行处理、清洗并建模,最后把模型卖给第三方。但随着法规的完善和监控愈加严格,如果数据离开收集方或者用户不清楚模型的具体用途,运营者都可能会触犯法律。同时,数据是以孤岛的形式存在的,解决孤岛的直接方案就是把数据整合到一方进行处理。但目前粗暴地将数据聚合是法律法规所禁止的。

  范力欣表示,联邦学习正是针对数据孤岛和隐私保护而产生的一种解决方式。值得一提的是,2019年4月,李开复也曾在演讲中提到联邦学习。他表示,为了防止最严重的数据滥用,需要制定相应的法规。与此同时也可以尝试“以子之矛攻己之盾”——用更好的技术解决技术带来的挑战,例如同态加密、联邦学习等技术。

  作为一种分布式机器学习技术,联邦学习可以实现各个企业的自有数据不出本地,而是通过加密机制下的参数交换方式共建模型,即在不违反数据隐私法规的情况下,建立一个虚拟的共有模型。由于数据本身不移动,因此也不会涉及隐私泄露和数据合规问题。这样,建好的模型将在各自的区域仅为本地的目标服务。在这样一个联邦机制下,参与各方可以在不披露底层数据和底层数据的加密(混淆)形态下共建模型,各个参与者的身份和地位相同,这就是为什么这个体系叫做联邦学习。

  微众银行人工智能部高级研究员范涛介绍,如SecureBoost联邦模型,核心是大家共同构建了一棵“树”,每一方都可以看见这棵“树”,但是每一方看见的东西是不一样的。通过构建这样一棵“树”能够实现算法的性能提升。

  “联邦学习所使用的数据是不能移动的,但数据背后的知识、数据背后的价值是可以移动、转移、共建的。所有贡献数据的参与者都有同等的权利、获得同等的回馈,这是共同获益的机制。”范涛说。

  如此,大家就有了动力共建联邦学习的生态。

  “联邦学习大体可以分为横向联邦和纵向联邦。横向联邦特征维度都一样,通过扩充样本的方式提升模型质量;纵向联邦样本相通,通过扩充特征的方式来实现数据的信息互通,提升模型质量。”范涛说,比如目前的传统反洗钱模型存在样本少、数据质量低的问题,使用横向联邦的技术可以解决这样的问题,在横向联邦里面,不需要进行样本对齐。

  正在迈向积累经验的落地阶段

  事实上,联邦学习早在2015年就被提出了,当时只是作为一个算法工具。随后,随着联邦学习切实地解决了上述问题,开始受到关注。“现在联邦学习已经进入一个新的时期,就是落地时期。”微众银行首席人工智能官杨强表示,在经历以隐私保护为重点的第一阶段之后,目前的联邦学习正在迈向积累经验的落地阶段。

  “在联邦学习这个生态之中,我们可以看到各种各样的落地场景,比如智慧城市、智慧终端、智慧医疗等。”范力欣说,比如在医疗领域,健康监护需要在普适环境下实现开放域用户行为的智能感知和理解,而面向疾病诊断的智能算法研究存在着限制移动、时空受限等缺陷。

  针对以上难题,中科院计算所泛在计算系统研究中心主任研究员陈益强及其团队利用联邦学习技术,将范式驱动的限定场景下面向疾病的诊断模型向普适场景下的健康状态监测进行联邦迁移。

  “此外云服务也是联邦学习一个比较理想的落地途径,联邦学习其自身具备的特点,适合在云上和多个用户进行部署和使用,例如可以把在公有云里面联邦学习的机构组织加进来,形成一个异构系统或者生态系统,为不同的组织之间的数据对接提供平台。”VMware中国研发中心技术总监张海宁说。

  与此同时,联邦学习也正面临着诸多挑战和机会。“工业实践者在具体部署联邦学习技术以满足业务合规化的同时,还需要为现有的联邦学习配置‘保护锁’与‘疫苗’,以更好地保护自身的商业机密。”创新工场南京国际人工智能研究院执行院长冯霁介绍,联邦学习框架内不同模块可能会遇到的潜在攻击方式,如数据下毒、信道监听以及对抗样本等都是联邦学习需要面临的挑战。

  范力欣表示,建立数据价值联盟将是联邦学习的最终愿景。“长期来看,联邦学习的期望是把数据背后的知识和价值拿出来,参与各方共建一个数据价值联盟,这个联盟里有的成员作出了贡献, 让其他成员享受到其所提供的服务,当然其他成员也需要付出他们认为该付出的,来进行对等交换。”据了解,联邦学习标准草案预计将于2020年2月推出。

(责编:杨虞波罗、吕骞)