开放银行的钥匙或已找到

【编者按】银行拥有丰富的数据资源,但是因为法律法规、隐私保护、技术限制等原因成为“数据孤岛”,数据的价值无法充分挖掘,简直就是“坐在金山上啃冷馒头”,而“联邦学习”的出现或许可以解决这个问题。那么“联邦学习”到底是什么呢?

简单来说,联邦学习本质上是一种分布式机器学习技术,其目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果,解决数据孤岛的问题。虽然目前的相关研究还停留在学术阶段,但不失为一个可行的方向。

本文首发于中国电子银行网,作者为王超;由亿欧编辑,供行业人士参考。


大数据已经成为重要的生产要素和战略资源,解决数据孤岛问题,或许我们才真正得到了打开开放银行大门的钥匙,而联邦学习技术可能就是这把钥匙。

牛排八分不熟

中国人对数字“8”有一种特别的迷恋,这源自它和“发财”中的“发”的读音相近。迷恋到什么程度呢?可能小部分像笔者这样初次去西餐厅点牛排的人,往往会选个“八分熟”。店员出于礼貌或许不会当面指出,西餐的牛排只有“三”、“五”、“七”分熟,而无“八”分熟。这导致的结果就是,确实会有一些人认为吃到了八分熟的牛排。

如果依此去做个调查,如果选项里没有八分熟,肯定会有人觉得这题大概是出错了。由数字到数据,我们对事物的认知到总结,都会出现偏差。所以,世界就是这样奇怪,人们的一切心愿或偏见都可能会造成我们对这个世界的诸多误会。

为了更清楚明白地理解这个世界,我们会反复且大量地做着各种实验。而为了更好地理解商业世界,我们也在各种调查研究中得出诸多理论,比如,二八理论,啤酒和纸尿布的联系,心理价位等等。

这一切都基于我们对历史数据的整理和分析。我们渴望从过往数据里的错和对中找到指引未来得商业规划。这在现代信息社会变得更为重要,成了重要的生产要素,但其商业价值并未被充分挖掘,甚至发展得很慢,尤其是在银行业。

因为数据的开放对银行发展开放银行有着至关重要的意义,所以如何高效且低成本低让存量数据发挥最大价值是开放银行战略的一个关键问题。

“坐在金山上啃冷馒头”的银行

大数据为何发展得如此缓慢?其中一个重要的原因在于数据的可挖掘价值无法被有效利用。

现代信息社会中,数据以更快的速度积累和沉淀。单看我们越来越大的手机内存以及读写速率越来越快的电脑硬盘就可见一斑。

大多数的数据可以形成规模,组成大数据,而且已经渗透到各行各业,成为重要的生产要素和战略资产,蕴含着巨大的商业价值。这在银行业表现得尤为突出。

银行业是最早使用计算机的行业之一。他们的数据资源有多大,我们无法想象,但相当一部分的数据一定是有办法被归纳和整理的,这可以将数据转换成生产要素。

因为银行数据和钱有关,太多的硬核信息值得关注和研究,对商业逻辑的判断有着极高的价值。它不仅是银行重要的战略资产,也是其他行业“觊觎”的对象。

但现实是,因为合规和模型的关系,银行数据大多是一些数据孤岛,商业逻辑无法打通,数据沉淀下来之后,无法进行有效挖掘。

银行的数据越大,他们承担的责任就越大。这些数据被打包成诸多个防卫严密的数据孤岛,坏人难以攻破,好人难以驾驭。

“坐在金山上啃冷馒头”成了银行大数据的真实写照。

腾讯安全大数据金融安全负责人章书指出,银行有必要整合不同业务的数据孤岛,但是在释放这些大数据生产力的时候又遇到很大的挑战,这个挑战就是在数据隐私的保护日渐完备,特别是欧盟等西方国家在保护个人隐私法规条案已经发布的情况下,整合数据孤岛除了成本大大地增加了。

换句话说,就是银行在隐私保护,孤岛不成链的情况下,是无法形成生产力的,是无效的大数据。这种大数据除了增加存储和防护成本外,用处不大。

难题抛给了银行,但解决之法却在银行之外。

难题丢给机器

在既要合规,又要有生产力的要求下,不管是银行自己,还是所谓的大数据公司,大家都没有更好的办法。这也是为什么,2019年里会有相当一部分的大数据业务和银行断了关系。

镣铐之下,谁能起舞?

难题是抛给了银行,也抛给了全世界。好在技术的发展总能带来一些惊喜。

2016年,当时的谷歌为了解决安卓手机终端用户在本地更新模型的问题,提出了一套分布式机器学习技术,或机器学习框架。其目的是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果。后来这个机器学习的技术被称之为联邦学习(Federated Learning)。

联邦学习技术根据参与方之间数据分布的不同,分为横向学习、纵向学习,以及迁移学习等三类。

横向联邦学习的本质是样本的联合,纵向联邦学习的本质是特征的联合,而当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习。

章书介绍说,纵向联邦学习可以支持异构数据,不同机构拥有的异构数据之间可以进行数据融合建模;横向联邦学习支持同构数据,在很多用户使用相同的设备或者相同的APP上搜集数据进行融合建模。一般而言,to B的客户项目主要使用纵向,而to C的项目上主要使用横向。

有银行入联邦

既然联邦学习可以这样,也可以那样。那银行会对此感兴趣吗?或者说,有了联邦学习之后,银行们坐在金山上啃馒头的日子就成了过去式了?

本文不好直接给答案,但确实有银行做了尝试。

据中国电子银行网4月17日的消息称,江苏银行与腾讯安全基于联邦学习技术对智能化信用卡经营进行了联合开发和方案部署,在保障双方信息安全的前提下,在信用卡接入规模化、盈利规模化方向上取得技术突破,并于今年3月6日上线。

在这次合作的背景中,双方需要解决一个核心问题。那就是银行的数据孤岛打通与整合的难点。

章书就此回答中国电子银行网提问时表示,技术的难点在于彼此的数据不能出库,却要实现融合建模,这是最大的难点。

他指出,如果双方的数据“互不相见”,就无法进行联合建模,也无法充分发挥彼此数据的特点,业务风险和价值就无法量化。

而这一次提到的联邦学习建模有一个最大的特点,叫“可用不可见”。实际上,在数据的融合过程中,它交换的是机器学习的中间值,但是它达到了传统联合建模数据融合的效果,将不同特征的变量进行融合,实现融合建模。

银行里的数据如果不用出库就能达成数据业务的合作,在合规的前提下,不伤害用户,又能利己和利他,这或许才是银行们开发数据孤岛的最理想状态,也或许这是真正打开开放银行大门的那把钥匙。

版权声明:本文源自 网络, 于,由 楠木轩 整理发布,共 2534 字。

转载请注明: 开放银行的钥匙或已找到 - 楠木轩