微众银行杨强:如何突破人工智能的数据瓶颈?

?

人工智能的界限和挑战是什么?你现在要去哪里,你应该去哪里? CCF年会 2019 CCF青年精英会议(YEF 2019)于5月24日至25日在成都举行,人工智能领域的专家开始讨论。中国科学院院士张伟院士的回答是“人工智能刚刚起步。离起点不远。通往人工智能的道路仍然很长,而且总是在路上。“

虽然人工智能技术的工业应用越来越广泛,但它似乎真正站在空中准备迎接下一次革命,但正如专家所说,我们应该对人工智能的发展持谨慎乐观的态度。目前,人工智能仍然面临着诸多问题,如数据孤岛问题,隐私保护问题,安全问题,如何从感性智能发展到认知智能,进一步让机器具有自我意识。突破这些瓶颈可能是人工智能进一步发展的关键。

数据孤岛化和隐私保护问题是目前人工智能大规模工业化应用中遇到的突出问题。在这方面,人工智能专家,伟中银行首席人工智能官杨强教授在会上发表了题为《用户隐私,数据孤岛和联邦迁移学习》的邀请报告。他的答案是:开展新一代人工智能算法研究,突破数据孤岛。在保护数据安全性和用户隐私的同时实现小数据限制。这个答案背后是一种名为“联邦移民学习”的全球领先技术。

img_pic_1558950050_0.png

大数据时代并未真正到来,小数据和数据孤岛无处不在

杨强教授指出,人工智能的发展离不开大数据。如果人工智能技术是火箭引擎,大数据就是燃料,但数据量激增并不意味着真正的“大数据”时代即将来临。在大多数行业中,数据质量低的“小数据”是一个孤立的数据孤岛,数据严重分散。

例如,在法律领域,如果你想获得一个非常好的样本,你需要经历一个长链。经过很长一段时间,在法官,律师等的参与下,您可以标记样本,从而获得带有注释的高质量数据。许多,分散在各级法院。在医疗领域,这种数据岛更为严重。例如,医学图像通常分散在各种医院中。这一结果有很多原因,包括监管原因,组织各自的利益以及流程系统限制。

从迁移学习到联邦学习,打开数据岛

我们可以从技术角度寻求解决方案吗?作为国际人工智能社区转移学习领域的发起者和领导者,杨强教授从迁移研究中寻找答案,首先考虑通过知识转移来解决问题。数据“问题。如果你面对”小数据“,你会发现一个类似的”大数据“,它将帮助你只使用小数据任务来使用来自其他相关任务的大数据来获得更好的性能并建立已建立的模型更可靠。它具有良好的鲁棒性,不受外部干扰,运行平稳。这是人工智能登陆应用中的一个非常重要的特性,它还可以防止隐私泄露。这种从源域迁移到目标域在金融,行业和信息流推荐等领域具有应用,例如不同用户类别之间的贷款风险控制策略的迁移,推荐系统中的推荐策略迁移,以及舆论分析系统。关键字迁移等。

img_pic_1558950050_1.png

虽然迁移学习可以有效地解决“小数据”的问题,但实际上,它现在不仅仅是“小数据”,而是“数据碎片化”和“数据孤岛”。这不仅仅是一个技术问题,它不能通过简单的数据集成来解决,而是必须克服政策,监督和技术等多维问题。目前,Federated Learning为多方参与和联合建模提供了新思路。

img_pic_1558950050_2.png

保护数据隐私免受联邦学习到联邦移民学习

一起完成数据和建模是一个很好的前景,但越来越严格的数据隐私保护带来了严峻的挑战。通用数据保护法规(GDPR)是历史上“最严格”的数据。 “隐私保护法”已成为世界正在加强数据隐私保护立法的信号。那么,联邦学习参与者可以在不交换数据的情况下交换模型吗?让数据不是本地的,从而保护数据隐私?根据杨教授的介绍,数学家提供了一个新的想法将同态加密(HE)整合到联邦学习中,核心思想并不复杂,假设A加B在公式中是两个,整个公式是加密的,那么HE可以将其表示为B加A加密的加密。这允许参与者在不上传数据的情况下上传数据,并且仅上传加密算法模型参数以进行常规建模。在此过程中,即使执行多次交换,也无法重建另一方的数据,并且数据不会泄露。

在实际应用中,存在基于相同特征维度和不同用户群的“水平联盟”,例如谷歌的移动终端联合学习,微中银行与多家银行共同建立的反洗钱模式,以及不同的特征维度。相同的用户组。例如,“垂直联合”基于用户在银行中用于个性化保险定价的信用表现。此外,微中银行的AI团队首先提出了“联邦移民学习”,它结合了“联邦学习”和“移民学习”。即使用户组和特征尺寸很小,也可以进行协作。这意味着政府机构和金融机构之间,互联网机构和金融机构之间或其他领域之间可以实现跨境合作。

img_pic_1558950050_3.png

联邦学习不仅是技术方向,也是社会问题。

杨强教授提到,虽然有技术工具,但魏中银也开辟了联邦学习框架平台联邦人工智能技术推动者(FATE),但如何设立激励机制,吸引机构进入联邦,形成良性生态,包括游戏在许多领域,如理论,机制设计和法律,联邦学习不仅是一个技术方向,可以解决数据孤岛和数据隐私保护,而且是一个复杂的社会协作治理问题。除了吸引更多公司加入联邦生态之外,Micro-Bank AI团队还积极推动制定联邦学习国际标准的IEEE标准,预计将在两年内推出,为立法提供更多技术依据。规。

img_pic_1558950050_4.png

联邦学习在哪里?人工智能在哪里?杨强教授的观点是,数据不能是本地的,数据所有者可以在安全性和保密性的前提下交换人工智能模型的参数来实现联合建模。目的。这种不同学科的交叉整合是一种趋势。联邦学习和迁移学习或其他机器学习方法可以相互集成,以发展自己的特征,从人工智能算法理论领域转向多个领域。这是一项更有价值的研究。