图片来源@视觉中国
文丨脑极体
数据隐私到底有多重要?
以人脸识别为例,在人脸识别技术正在广泛应用在支付转账、解锁解密、交通案件、实名登记、开户销户、门禁考勤等场景,每一项都影响到我们的财产、健康、隐私等安全。
就在央视新闻的一则晚间栏目的报道中,记者调查发现,在某一网络交易平台,只要花2块钱就可以买到上千张人脸照片,5000多张人脸照片不到10块钱,单张人脸照片不到1分钱。而这些照片都来自真人在社交网络所分享的真实生活照和自拍照。如果再叠加上用户的身份信息,其很有可能被用到精准诈骗、洗钱、涉黑等违法犯罪中。
我们到底把多少隐私信息留在了网上,留给了多少平台,恐怕多到连自己都记不清了。而我们对于这些数据最终的去向、用途和安全性几乎一无所知。
近年来,我国在公民的个人数据和隐私保护上已经开始了相关立法,比如《网络安全法》《民法典》,当中都有相关个人信息保护的法律规定。而《数据安全法》《个人信息保护法》也处于向全社会公开征求意见的过程中。
相关法律的出台更多是事后维权的保障,而个人数据和隐私信息的保护仍然要从源头抓起,那就是各个网络平台从技术层面来实现对数据的全面保护和监管。
与此同时,数据交易和数据流通,又成为制约我国大数据产业发展的一个重要问题。如何通过合法、合规又安全高效的手段获得可信、高质量的数据,又成为很多科技企业和平台亟待解决的难题。
一方面是用户大量数据隐私泄露的泛滥成灾,一方面是相关企业平台难以获得有效合规的数字资源,这一矛盾使得越来越多的企业呼唤一种新的数据治理和应用方案。
至此,一种用以保护数据不外泄为前提,但又能实现数据分析和计算的隐私计算(Privacy Computing)已经正式提上日程。
“百万富翁”难题:隐私计算的缘起“假设有两个百万富翁相遇,他们都想知道谁更富有,但又不愿意让对方知道自己真正拥有多少财富。那么如何在没有第三方参与的情况下,让对方知道谁更有钱?”
这是2000年图灵奖得主姚期智院士在1982年提出的“百万富翁”假设。这个烧脑的问题涉及这样一个矛盾,如果想比较两人谁更富有,两人就必须公布自己的真实财产数据,但是两个人又不愿让对方知道自己的财富多少。那么,在我们看来,这几乎是一个无解的悖论。
这一看似难解的问题就涉及到了数据的所有权和使用权问题。富翁拥有的财富就是数据的所有权,富翁将财富数据公布就是数据的使用权。
目前,主要的互联网平台在为你提供服务的时候,基本上是既获得了数据的使用权,也几乎获得了数据的实际所有权,尽管用户保留对数据的名义所有权,但是大多数人都会将数据保留在这些平台上面,同时也很少有人会去主张平台将数据销毁。
而面对两位“百万富翁”的小心思,是否有一种技术,可以使得数据的所有权和使用权分离,能够让富翁向这个技术平台透露财富数据,但是经过一系列加密数据的计算,最终只给出相应的结果(谁更富有)。对于互联网平台或需要用户数据的企业来说,他们获得的不再是原始数据的所有权,而是经过率先加密的一套数据,来为数据需求方提供服务?
理解了这一假设,就可以理解隐私计算的大概思路。
在隐私计算里,这是一个专业的加密学问题,可以准确表述为“一组互不信任的参与方之间,在保护隐私信息以及没有可信第三方的前提下的协同计算问题”的《安全计算协议》。提出设想的同时,姚期智院士当时也提出了自己的解决方案“多方安全计算”(MPC)。
MPC在80年代初提出的时候,只能是作为一种亟待可行性验证的技术理论。而随着计算机算力的不断提高和隐私数据越来越广泛的应用和重要性提升,MPC技术也在逐步完善发展中得以应用。
现在,隐私计算除了在MPC技术上面的进展外,也已经呈现出更多新的技术特点和解决方案。那么,隐私计算目前的技术准备和产业应用有哪些具体进展呢?
隐私计算酝酿期:大规模应用的前夜为什么隐私计算现在变得越来越重要呢?不仅仅是开头我们提到的公民个人隐私数据泄露已经到了亟待治理的阶段,现在数据也已经成为企业平台最重要的核心资产,企业已经有动力要对平台数据进行充分的保护和合规的使用。
我们看到,今年,我国首次将数据定性为土地、劳动力、资本、技术之外的第五大生产要素。不久前,人代会审议的《个人信息保护法草案》规定:侵害个人信息权益的违法行为,情节严重的,没收违法所得,并处5000万元以下或者上一年度营业额5%以下罚款。而5%的额度甚至超过了“最严数据保护”之称的欧盟GDPR。
无论是出于数据合规合法的考虑,还是出于数据应用的考虑,企业都正在加大对数据隐私保护的力度。根据国际调研机构Gartner最新的一份战略科技趋势预测,隐私计算成为2021年重点深挖的9项技术之一。Gartner还预测,到2025年,将有一半的大型企业机构使用隐私计算在不受信任的环境和多方数据分析用例中处理数据。
这些新趋势的出现,为隐私计算提出了新的要求,也将提供广阔的产业应用需求。
从技术端来说,隐私计算现在有两种主流解决方案,一种是采用密码学和分布式系统的方案,一种是采用可信硬件的方案,实现接收多方隐私数据输入输出。
密码学方案目前以MPC为代表,以秘密分隔、不经意传输、混淆电路、同态加密等专业技术来实现,近几年其通用性和性能正在得到显著提升,具有实际应用的价值。可信硬件技术当前主要以可信执行环境(TEE)为主,构建一个硬件安全区域,数据仅在该安全区域内进行计算,核心是将数据信任机制仍然交给像英特尔、AMD等硬件方,因其通用性高、开发难度低,在对数据保护并不严苛的场景下可以发挥重要价值。
另外,在人工智能大数据应用的大背景下,“联邦学习”也是隐私计算领域主要推广和应用的方法。
在以人工智能、大数据应用为代表的新技术周期中,隐私计算为互联网平台和企业提出了更高的数据治理要求,即真正要做到以用户为中心,不必依赖企业自身或第三方公司控制的数据服务器进行安全保障,让用户真正掌握自己的数据所有权,保护数据安全和隐私要求。
在产业端,隐私计算应用场景不断扩展。
比如在金融行业。国内隐私计算产品目前主要应用于金融行业的风控和获客,即多家金融相关机构在不泄露客户个人信息的前提下对客户进行联合画像和产品推荐,在多头借贷等场景下能有效降低违约风险。
在医疗行业,通过隐私计算技术,医疗机构与保险公司之间可以在不共享原始数据的情况下分析投保者的健康信息。在政务行业,隐私计算可以提供政府数据与电信企业、互联网企业等社会数据融合的解决方案。在一些地方政府的相关规划里,隐私计算有望成为下一个应用推广的重点。
未来,隐私计算将广泛应用于金融、保险、医疗、物流、汽车业等众多拥有敏感隐私数据的领域,在解决数据隐私保护问题的时候,也帮助缓解行业内的数据孤岛问题,为大量AI模型的训练和技术落地提供一种合规的解决方案。
任重而道远,数据隐私计算的困境和出路现在,随着社会发展进入数据要素时代,移动互联网进入下半场和国际局势的变化莫测,数据要素问题变得更加复杂。在隐私计算领域,公民数据安全使用的法律定位、企业内和企业间的数据的分析应用以及全球性的数据跨境交易流通,都面临着前所未有的挑战,在各个环节也还都存在各自的问题。
首先从隐私计算关于公民数据安全使用的法律规定上,我国的法律尚未对隐私计算是否合法做出明确规定,在现有规定中“未经被收集者同意,网络运营者不得向他人提供个人信息”,而隐私计算的目标就是基于多方数据的计算,原则上破坏了这一要求,但同时又适用于“经过处理无法识别特定个人且不能复原”的例外条款。这些成为制约隐私计算发展的首当其冲的法律瓶颈。
其次,隐私计算在企业内应用还存在一定的难度。比如大部分企业的数据规范性和数据质量难以支撑隐私计算对于参与方数据一致性的要求。隐私计算本身的复杂性和计算效率对于企业的大规模商用提出较高要求,试错成本高。另外,隐私计算对于真正受益的用户而言,存在一定的“黑盒”效应,人们很难理解和信任隐私计算技术,普及接受成本较高。
另外,在全球的数据跨境交易和流动上,现在更是面临重重困境。
比如,不久前美国政府对TikTok的发难,其中一条就在指责其收集美国公民数据,严防其将数据存放到中国的服务器当中。欧洲的爱尔兰也要求Facebook下令,要求其暂停向美国传输其欧盟用户的数据。2016年,欧盟最早颁布了全球最严格的数据保护方案GDPR,规定不遵守数据隐私法规的后果会受到严厉的制裁和巨额的罚款。之前谷歌就拿到了法国数据保护监管机构开出的5000万欧元的高额罚单,最近,瑞典H&M公司因为非法监控员工隐私,被罚款3500万欧元。
在新数据监管趋严和复杂国际局势下,从事数据跨境活动的企业需要重新考虑其底层架构设计。既要避免数据的跨区域切割处置,又要避免陷入到硬件巨头的垄断中,采取新的隐私计算解决方案就成为一些涉及跨境业务企业的重要任务。
这些隐私计算的应用困境,亟待多方面主体的共同解决,既有全球各地区和国家政府的积极推动,特别是法律法规对隐私计算的权责界定,也要有大数据相关企业对于企业数据治理力度的持续投入。
那么对于推动隐私计算发展的相关技术公司,现在则有一系列新的发展趋势出现。
首先是区块链技术的出现,为隐私计算提供了新的解决方案。将隐私计算应用于区块链上,既一定程度上增加了隐私计算结果的不可篡改性和可验证性,也增加了区块链上数据的保密能力,目前成为诸多厂商的技术融合方向。比如一种无许可性隐私计算服务正是利用遍布全球的TEE可信计算节点来保证隐私计算的稳定性和安全性。
其次是软硬件协同和平台整合,正在大幅提升隐私计算的性能和便利性。使得通过平台基础设施对隐私计算的硬件加速和能力整理,可以实现从存储计算到建模挖掘等全方位的能力提升。
另外,隐私计算也正在向大规模分布式计算迈进,其实现方式也更加多样化。一些项目通过低代码甚至零代码开发,可以大大节省开发效率,降低隐私计算产品开发门槛。
最终我们看到,在数据越来越有价值,数据安全越来越重要的“数权时代”,隐私计算将成为用户数据安全保护和企业发挥数据价值之间,最重要的那道把关者。
隐私计算企业要在其中扮演着数据管理方和服务方的角色,但是这一角色也不再是为“两个富翁”查验数据的简单角色,而是能够为其提供全方位的数据保护,又能为其进行数据“资产”的全面运营。
可以预见,隐私计算将在未来企业间、组织间的数据治理和数据协作,以及像人工智能、新基建等新兴数字产业的商业应用中发挥出举足轻重的作用。