数据|同盾李晓林谈联邦学习实现数据安全共享

中新网8月28日电 日前 , 第二届智能数据和区块链应用国际研讨会( SIGKDD SDBD 2020)在线召开 。 会上 , 同盾科技合伙人兼人工智能研究院院长、美国佛罗里达大学终身教授李晓林等来自全球的学界与产业界顶级专家从数据作为资产的维度探讨了前沿科技赋能数据共享的最新实践 , 并倡导“技术+制度”双轨并行充分挖掘数据要素的更大价值 。

知识发现和数据挖掘会议(ACM SIGKDD2020)是一年一度全球最顶级、最高水平、最具影响力的数据科学盛会 , 本次智能数据和区块链应用国际研讨会作为大会中聚焦智能数据和区块链等新兴技术的专场活动 , 由新加坡管理大学及算力智库共同举办 。
算力智库创始人燕丽表示:“算力智库一直在跟踪智能数据、隐私计算和区块链赛道中的好公司、好应用 , 希望通过第一手原创深度报道和研报推进产业与生态的发展 。 ”
在数据安全与共享领域 , 各界专家达成的普遍共识是 , 数据安全流动与共享需要在技术与制度两大层面上齐头并进:在科技层面可以看到 , 各类前沿科技正百花齐放 , 以隐私安全计算为整体解决方案赋能数据安全共享 。
同盾科技合伙人兼人工智能研究院院长李晓林教授以《知识联邦用“小数据”实现“大智能”》为主题 , 介绍了同盾科技的知识联邦理论框架和工业界产品智邦平台 。 知识联邦是一套层次化的统一框架体系 , 包括信息层、模型层、认知层和知识层 , 全面支持各种安全多方功能(查询、计算、学习、预测和推理) , 通过数据安全交换协议 , 有效利用多个参与方的数据 , 进行知识共创、共享和推理 , 实现数据可用不可见 。
“联邦学习”最初由谷歌提出 , 采用分布式机器学习和深度学习技术 , 参与各方在数据不出域的基础上共建一个公共虚拟模型 , 训练和交互的全过程各方的数据始终留在本地 , 不参与交换和合并 , 只交换模型参数的梯度更新 。 知识联邦突破了国外的初级联邦学习 , 进一步完善了高级联邦学习的理论和落地实践 , 目标是打造数据安全的人工智能生态 , 最终实现AI 3.0 。
李晓林教授表示:“知识联邦的好处是不求所有 , 但求所用 。 不管是联合建模、学习、预测、推理都不需要传输和集中聚集大量数据 , 只需要做一些机密的参数或者梯度更新上面的交换 , 既能打破数据孤岛 , 又能保护数据隐私 , 用‘小数据’就能实现‘大智能’ 。 ”
基于知识联邦的算法逻辑 , 使得参与各方没有一方需要集中拥有所有的数据 , 也没有一方需要拥有所有的模型 , 通过安全的数据交换协议共用开放数据 , 而不享有数据 , 能最大化保护数据安全和数据隐私 。
以对信息安全敏感度很高的金融为例 。 李晓林教授说:“在知识联邦的模式下 , 模型训练的时候每个银行和金融机构 , 各自的数据不需对外输出 , 甚至连模型的参数都不用给到对方 , 只需要将模型梯度的变化加密后在密文空间里安全的聚合 。 这样攻击者不能反推出源数据 。 ” 这种模式也能够抵御高级别的攻击 。
在整个训练、交互过程中 , 模型尽管碰触了很多数据 , 但数据却始终没有离开本行和本机构 , 完全化解数据安全、合规的忧虑 。 这跟原来集中式的大数据模型 , 有截然不同的思维逻辑 。 未来在银行与银行、银行与金融机构、银行与金融机构和科技公司之间的合作 , 知识联邦必将走上历史舞台 , 成为主流 。
在金融领域 , 李晓林展示了每一个知识联邦层次的应用场景 。 基于信息层的多头共债 , 不再需要数据出域聚合 , 通过安全的密文空间的运算既可以完成 , 而且实现了匿踪查询 , 被调用方不知道银行查询的是具体某个人的多方借贷行为 。 基于模型层的风控建模 , 实现数据安全的联合建模、机器学习和深度学习 。 基于认知层的反欺诈 , 打破跨领域跨场景异构数据维度 , 达到联防联控 , 保护客户的资金和资源安全 。 以及基于知识层的企业征信 , 通过复杂网络和知识图谱 , 深度挖掘内在的信息 , 充分利用散落各地的异构异源数据 , 准确预测中小微企业的信用情况 。