理解大数据:数字时代的数据和隐私
上QQ阅读APP看书,第一时间看更新

1.2 理解数据的本质

1.2.1 从理解隐私悖论开始

要保护好隐私,我们需要了解人们在真实生活中如何看待和做有关个人数据分享的决策。

我们可以先看一个简单的、被广为接受的关于信息或数据隐私的定义。美国最高法院大法官Louis Brandeis认为:“对个人信息的可控性,是个人应享有的‘独处的权利’(to be left alone)”(Pavlou,2011)。从这个角度出发,我们进一步追问,当人们为了享受数字服务的好处,必须提供一定个人信息时,他们是如何为自己“独处的权利”进行决策的?在回答这个问题时,大量研究发现,全球用户中普遍存在着一种矛盾现象,学者们称之为“隐私悖论”,它描述的是,尽管大多数人表示在意自己的隐私,但常常免费地,或在很小的经济补偿下,分享自己的个人信息。人们对隐私基本权利的重视,和他们实际行为中的“毫不在意”之间存在显著矛盾。这种现象并非孤例,存在于不同的国家和文化环境中。

目前学术界对隐私悖论有几种不同的解释。一种观点认为,这是因为当事人不了解隐私被侵犯可能带来的严重后果;或由于一些重要的数字应用缺乏可替代选择,用户不得不让渡一定的隐私权(Chen and Michael,2012)。例如,为了使用微信,用户必须同意微信的隐私条款,否则只能退出。但随着越来越多的新选择不断涌现,这种理论很难解释用户为何对层出不穷的新数字服务也“来者不拒”。另一种更让人信服的解释认为,当面临真实的选择时,是人们的真实行为,而不是调研中的表达,揭示了人们会在隐私和数据福利之间如何权衡取舍的真相。

因此问题的关键在于,当用户在市场中真正拥有选择权时,他们是如何决策的。为了回答这个问题,在下文第二章中,利用支付宝数据,我们进行了一项大规模实证分析。支付宝活跃用户众多(超过10亿),且有大量小程序可以选择。这些小程序有的来自小型初创企业,有的来自成熟大企业。使用小程序时,企业需要获得用户许可来获取一定的个人信息。用户也可以之后通过撤回许可来注销这些小程序。不同小程序对用户来说,在必要性和要求用户提供数据的敏感程度上差别很大,而这些正是用户可以选择的。将这些差异与用户特征和选择组合起来,我们进行了迄今为止最大规模的,关于消费者隐私决策的大数据研究。

当用户有权选择是否分享个人信息,从而获得小程序服务时,他们会做出怎样的选择?结果显示,如同其他国家一样,中国用户普遍在意自己的隐私。但当面临选择时,绝大部分用户会选择分享个人信息,以获得服务带来的福利。具体而言,当面对数据要求时,75%的情况下用户会选择给小程序授权信息,并且后续的退出率较低(每月0.12%的用户选择退出对小程序的个人信息授权),且随时间进一步降低,显示出他们大多数并不后悔自己的选择;这些比例和欧美用户的行为规律相当一致。另外,用户会在信息敏感度和服务质量之间做出取舍,面对隐私事件时,他们会倾向于用脚投票,提高退出率。随着用户经验的不断积累,他们一开始会更谨慎地选择,但日积月累,他们处理分享个人数据的经验更多,拥抱的数字服务也会更多。这些行为模式适用于不同的性别、年龄和教育程度。

这些结果表明,“隐私悖论”的本质是,与个人数据相关的消费者权益具有双重性,一个是隐私被保护的权益,一个是因为分享数据而获得(更好)服务的权益。两者之间的权衡,才是对消费者权益的完整理解。研究表明,最担心隐私的用户,恰恰是使用数字服务更多的用户(Chen et al.,2020)。所以解决“隐私悖论”的方法,不是就隐私谈隐私,把数据锁起来,而是在保护好隐私的基础上,鼓励数据的流动,这样才能真正让消费者受益。

1.2.2 数据的价值来自何处?

大多数用户愿意与服务提供商共享个人信息,从而享受数字服务的好处。这自然而然地引出了我们在第三章中讨论的问题:数据到底给用户带来什么价值?为什么用户愿意分享数据?

我们总结了在线数据共享的价值,至少表现在三个方面:连接、决策和信任。首先,如我们在《新普惠经济:数字技术如何推动普惠性增长》(罗汉堂,2019)中提到的,数据分享会增强连接性。在数字技术的帮助下,数据的产生和分享是如此便捷,普惠性连接达到了前所未有的水平,重新定义了市场以及人们组织生产和协作的方式。一个例证是,由于在线市场的出现,交易的范围、深度和广度都得到了极大提升。传统线下交易的特征一般可以用经济学中的“重力模型”来描述,即本地商户的用户绝大多数来自方圆10公里范围内,距离越远,交易越少。而中国当前电商平台上呈现的景象则完全不同。除了生鲜食品,买家和卖家之间成交的平均距离接近1000公里,超越传统线下市场服务范围两个数量级,“重力模型”被彻底打破。从连接买卖双方的情况看,10亿淘宝用户中,月度活跃买家超过7亿,同时有超过1000万家初创企业和公司作为卖家,其中约一半的创业者是女性。在产品丰富度方面,消费者在线上可购买10亿种以上的商品和服务。这个市场的形成,是以参与各方愿意分享数据为基础的。North和科斯的话说,如果没有数据分享,就没有可以协同的经济活动

一个有趣的问题是:如果没有基于个人数据的用户特征,商户不懂用户,会发生什么?具体而言,在今天的线上购物环境中,因为用户面对的是上亿件商品,没有推荐很难找到心仪的产品。如果剔除根据用户个人数据产生的推荐信息流时,会对在线市场产生什么影响?我们尝试通过一个大规模随机试验来回答这一问题。在实验中,我们关闭了用户的个人数据算法推荐系统。结果发现,个人信息的缺失会对买家和卖家产生巨大冲击。由于缺乏个人数据,个性化服务无从谈起,平台推荐只能盲目地集中到那些交易量在前1%的品牌所提供的产品上,回到了传统线下市场的营销推广模式。实验结果显示,用户满意度不够导致交易量暴跌86%,尤其对知名度低、销售额少的小微企业不利。由此可以得出一个重要结论,匹配用户数据与产品,可以大大降低搜索成本,尤其是当市场存在海量产品的时候。当个人数据这一重要的信息源被切断时,消费者在选择潜在商品时只能依靠传统的供给侧的信息源:品牌、信誉和商品一般特征。因为这些来自传统渠道信息的有效性不足,市场规模大幅萎缩。这一结论与搜索领域的学术研究不谋而合。大量论文证明,即使较小的搜索或匹配成本也会导致商品和劳动力市场的厚度和广度产生剧烈变化(Stigler,1961,1962;Diamond,1971;Pissarides,2009)。

第二,数据分享可以改善决策。海量多种类数据相连接,可以帮助无数消费者和生产者做出更明智的决策,促进更快、更有效、更多的创新产品和服务,数字时代之前不可能出现的商业模式以及新的产业组织形式也随之出现(见第六章对熊彼特式竞争的讨论)。由于无法和大企业一样进行大规模市场调研,中小企业在传统市场中一直难以获得市场和消费者信息。因此通过数据分享改善商业决策对中小企业尤其意义重大。其中一个案例是淘宝和天猫平台上的“生意参谋”,类似服务也可以在国内外平台上看到。这项服务为所有在线商家提供多种信息分析工具,包括卖家自身历史业绩、市场趋势以及潜在消费者喜好等等。大多数生意参谋的新用户是中小企业,它们的销量通常会在开通服务的第一周出现跃升,并在之后的10周,已经开通服务的用户和未开通服务用户的业绩差异会逐渐稳步拉大。“大数据”的出现让中小企业获得了以往只有大企业才能享受的先进分析工具,帮助它们快速增长。

在金融领域,数据分享可以改善金融风险甄别能力。传统金融一直难以克服普惠性不足的顽疾,让抵押品不足的低收入人口和小微企业获得融资,而数据分享有望解决这一难题。通过获取借款人的消费和经营数据,已经足够说服贷款人在无抵押的情况下提供金融服务并承担相应风险。通过这种方式,小微企业也可以享受到金融服务。正如诺奖得主Holmström所言:“信息已经成为新的抵押品”(Holmström,2018)。大数据让过去无法实现的大规模小微信贷成为可能。2011年以来,网商银行为超过2000万家中小微企业提供了无抵押贷款。网商银行最早推出的“310模式”已经广为人知,并且现在很多银行都普遍使用:3分钟申请贷款,1秒钟能及时到账,0人工干预。这种由大数据风控支持的小微贷款,为千万计创业者带来了机遇,这也是罗汉堂《新普惠经济:数字技术如何推动普惠性增长》的主要发现之一。

第三,数据分享可以建立信任。新型线上市场有数以亿计的参与者,要像线下市场面对面交易一样顺畅无阻,对产品及参与者的信任机制必不可少(Tadelis,2003)。有了线上的数据分享,消费者就能对商品和生产者进行评价,而生产者则通过这样的评价系统,努力打造良好的信誉。所有参与者都是数据的生产者,也同时从数据的交换中受益。与之形成对比的,是数字时代之前,诺奖得主Akerlof描述的“柠檬市场”,即消费者和生产者信息不对称,消费者缺乏对产品的信息和信任,只愿意选择低价产品,从而劣币驱逐良币,赶走了好的服务商,只剩下质量不好的“柠檬”,随之恶性循环,直到整个市场消失。而通过线上评价系统,一方面数据分享让新的卖家获益,另一方面高质量卖方也可以通过重复交易,让自己与那些低质量、“一锤子买卖”的“柠檬”商家区别开来。随着时间积累,这些卖方的品牌脱颖而出,可以获得更好的销量。在这个过程中,所有参与者都是数据分享的受益者。

大数据往往可以用三个V来概括:即数据量(Volume)、多样性(Variety)和速度(Velocity)。数据量指的是能观察、记录、处理和分析海量的数据。多样性代表数据的宽度,即能处理许多不同类型、不同维度的数据,从而满足数字市场中卖方和买方的不同需求。速度是指收集、处理、分析和使用数据的速度在不断加快,也就是实时性。

结合前面的讨论,大数据的两个V,即大容量和多样性数据正在彻底改变人类的交互和协作。这是因为数据可以改变消费者与生产者之间的连接方式,增强买方和卖方之间的信任,并且让决策变得更迅速、更明智。同样关键的是,这些基于数据的连接、信任和决策过程,正在以前所未有的速度,甚至是实时地进行:与实体商品不同,数据只有流动起来,才能传递信息,创造价值。大数据的三个V向我们展示了数据如何创造价值:海量且多维的数据实时地驱动社会经济活动。这正是数字经济的本质,而所有的经济活动的参与者都是受益者。正如哈耶克所洞察的,开放且充满竞争的市场,加上来自各方的信息分享和决策,才能让整个社会受益。

1.2.3 如何缓解隐私风险?

尽管数据分享可创造巨大价值,但也存在风险。数据创造的价值越大,保护隐私和数据安全的紧迫性就越高。数据生命周期的每个阶段,从收集到集成,从分析到应用,都存在数据泄露和隐私风险。个人有知晓和拒绝数据收集的权利,这是广为接受的观念,然而在现实中,要防止个人信息过度暴露和信息泄露是一个艰巨的挑战。2017年全球数据外泄和遭窃取的记录达到16亿起,造成巨大的经济损失,引发了消费者对隐私问题的极度担忧。近年来,如Facebook和剑桥分析的数据滥用事件引发了社会的广泛关切。

当下社会关注的热点是如何通过法规保护好隐私,而同样需要关注和理解的是行业和企业的隐私保护措施。因为数据分享和运用是经济活动不可分离的一部分,法规只能规定经济活动的边界,弥补市场失灵的部分。只有当行业和企业把个人隐私保护和数据安全作为商业的一个重要条件,并配置相当的机制和技术,才能真正实现目标。

在这个维度上,全球很多行业和企业已经在做大量的探索。我们在第四章总结了企业做好隐私保护的逻辑和实践。简而言之,有效保护隐私的逻辑,是将隐私工程化(privacy engineering)和隐私增强技术(privacy-enhancing technologies,PETs)结合起来。隐私保护工程化,是指将个人隐私保护的法规和原则,融入到产品设计中来开发和使用软件应用。例如在用户交互设计上,隐私工程可以加强用户对隐私条款的理解,增强对敏感信息的控制。

隐私工程化可以应用到大数据生命周期的各个阶段。在信息收集阶段,企业必须获得用户的许可,并且必须遵循收集数据的必要性原则。在集成和存储阶段,企业处理数据前要可以过滤敏感信息。这些信息还可以加密,这样即便出现数据泄露的情况,个人信息也不会被滥用。脱敏和加密后的数据,可以用于分析,了解消费者及其需求,并且在严密且持续的风险管理之下进行。最后,要可持续且高效地使用数据,企业要在隐私保护需求和用户数据许可最小化之间取得合理的平衡,这样才能既保护隐私,也不至于因为过分许可打搅用户。最后,用户还应该保有个人信息的删除权。

可以看到,隐私工程化意味着需要很多隐私保护技术,从而防止不可信或潜在恶意的数据收集者侵害用户的隐私。例如多方计算技术(MPC)可以让数据分析者从数据中提取有用洞察,却不会暴露或回溯至原始数据。区块链技术也可以通过对个人数据进行加密和密钥,降低隐私风险。这些技术的目的,是让服务提供方进行大数据分析时,懂得客户特性和需求,然而却“不知道客户是谁”“数据可用不可见”,从而更好地满足客户和数据相关的两个权益。另一方面,隐私工程和隐私技术成本不菲,给初创公司和中小企业带来更多挑战。在多大程度上做好,能够同时满足消费者和生产者的需求,从而发挥数据作为生产要素的价值,同样是值得整个社会讨论的问题。

长期来说,食品安全以及飞行服务等行业的历史经验表明,假以时日,合理的机制设计和不断完善的技术,可以在很大程度上缓解数据隐私和安全问题。就像吃很多东西不见得会中毒,频繁乘坐飞机不见得会出事,数据分享的体量和隐私及数据安全并不是必须的取舍。当技术足够强大,机制足够合理,今天看起来严重的隐私风险即便无法彻底杜绝,也可以得到有效控制。

1.2.4 如何从数据的本质看数据的权属、利益分配和保护责任问题?

我们在报告第五章中提出了一个数字时代理解数据和隐私本质问题的综合框架,也称为“数据权衡框架”。数据的问题需要综合视角去理解,否则很容易陷入“盲人摸象”的困局。首先,数据具有和物理商品截然不同的本质属性,在生产和使用过程中牵涉到多方。其次,我们需要综合考虑用户和数据相关的两个福利,即隐私保护权益和因为分享数据而获得服务的权益。再次,数据分享在经济活动和人类协同中必不可少,数据只有通过在社会和经济行为中流动才能创造价值。

这个数据权衡框架包含数据的两个本质特征、三个视角,以及一个基本原则。

1.数据的2个本质特征:非竞争性和不可分离性。首先,数据和物理商品不同,据有非竞争性,可以被无数次生产和使用,而不会消耗数据相关的对象。其次,不管数据的使用者是谁,都可能对数据相关的主体带来潜在影响;数据使用和数据主体存在不可分离性。

2.数据生产和使用的三个视角:数据生产者、数据主体和使用场景。这里数据生产者(在商业环境下)是指观察、收集和处理数据的机构和个体。数据主体是指数据描述的个体(个人数据)或对象(非个人数据)。使用场景是指使用数据的经济或社会活动。

数据需要被观察才能产生,所以数据相关主体并不一定是数据的生产者。基于数据的两个本质特征,数据生产者和数据主体的利益是相互关联的。

从数据生产者的角度来说,要产生数据,既需要数据主体,也离不开数据生产者,并且数据的使用也会同时影响两者。数据的非竞争性本质决定了,数据可以有无数个所有者,而不会消耗数据或者数据主体本身。举例来说,一个人发表演讲的数据是由每一个听众分别产生的,并且会因为每个听众的视力、听力和关注点不同而有所差异。基于数据形成的信息也可以分享给不在场的人,而不会损耗演讲者。

从数据主体的角度出发,使用数据会对他们造成影响,因此他们的权益必须得到保护。

从使用场景的角度看,数据不应被简单地类比为一种有固定价值的商品。在实践中,数据需要归集、存储、分析,形成对场景需求有价值的信息洞见。一方面,这个过程需要消耗成本和能力。另一方面,数据的价值是变动的,取决于基于数据的信息能在多大程度上提高经济和社会活动中交互的效率。所以,数据的使用是经济活动中不可分离的部分,其价值也随着具体的场景需求而变化。

数据的两个本质特征,和数据生产者、数据相关主体、使用场景三个视角,可以帮助我们理解数据和其他商品或生产要素有什么不同,数据是如何产生、如何发挥价值的,以及牵涉到的相关方。基于这个权衡框架,我们可以得出三个结论:首先,将数据等同于一般商品那样拥有唯一所有权的观点是不合理的。第二,隐私保护的重点应该是在数据使用中尊重和保护数据主体的隐私权,而不是将数据独有权给予数据相关主体,否则难以发挥数据作为生产要素的价值,最终让所有的相关方受损。最后,数据生产者和数据相关主体之间应在平等、自愿的基础上达成协议,从而双方都可以从数据的生产和使用中受益。

总结起来,数据治理的核心原则应该是在促进数据流动的同时保护数据主体的权利。