威廉·戴维斯 :“大数据”将如何颠覆民主?

来源:法意在线

2017-08-09 09:57

威廉·戴维斯

威廉·戴维斯作者

英国伦敦大学戈德史密斯学院政治经济学教授

一、统计数据从解决争议的“帮手”成了扩大分歧的“推手”

理论上统计数据应该有助于解决争议,是每个人观点的支撑依据。无论人们的政治观点如何,他们都可以在数据上有一致的认同。然而近年来在西方自由民主国家中,这种对统计数据不同程度的怀疑已经成为了一项关键分歧。十一月总统大选前不久,美国的一项研究发现,68%的特朗普支持者不信任联邦政府公布的经济数据。在英国,由剑桥大学和舆论观察网共同发起的研究项目“统观阴谋论”发现,55%的人认为政府“隐藏了居住在这里的真实移民人数”。

相较于化解这样的争议和两极分化,统计数据实际上是在火上浇油。随着2016年选民表面上拒绝了各种专家中的首席统计学家和经济学家,反感统计数据已成为标榜民粹主义权利的标志之一。不仅许多人认为统计数据不可信,有些统计数据甚至是对他们的侮辱和蔑视。将社会和经济问题简化为数字上的总数和平均值似乎侵犯了一些人的政治尊严。

移民是这一问题最生动的体现。英国未来智囊团研究了如何更好地支持移民和多元文化。它的一个主要发现是,人们经常对定性数据有热烈回应,例如移民的个人故事和不同社区的照片。但统计数据尤其是关于移民能给所谓的英国经济带来利益的数据却带来了完全相反的效果。人们认为这些数字是被操纵的,他们不喜欢采取定量证据的精英主义。官方对国内非法移民数量进行了估计,但公众对此的普遍反应是嘲讽。英国未来发现,指出移民对国内生产总值(GDP)的积极影响实际上让人更加敌视而非支持移民。国内生产总值本身似乎是一种精英主义自由议程中的特洛伊木马。

感觉到这一点后,政治家现在已经在很大程度上放弃了讨论移民对经济的影响。所有这些都是对自由民主的严峻挑战。坦率地说,英国政府包括其官员、专家、顾问和许多政客确实相信移民有利于经济平衡发展。英国政府确实相信英国退欧是错误的选择。问题在于,英国政府目前被困审查制度之中,它害怕不这么做会进一步激怒人民。

这是一个尴尬的两难处境。不论是国家继续声称它认为(统计数据)是有效的,从而继续被怀疑宣传论的人所指责,还是限制政治家和官员说出什么看起来才是合理和直观真实的,但这样最终可能仍旧导致不准确的说法。因此,无论哪种方式,国家政治都会备受谎言和虚伪的指责。

统计数据以及分析这些数据专家权威的下降是这场危机的核心,这也被称为“后真相”政治。而在这个不确定的新世界,人们对量化分析这一专业知识的态度分歧很大。

一方面,统计学中的政治是精英的、不民主的,忽视了人们对社区和国家的情感投资。这只是那些在伦敦、华盛顿特区或布鲁塞尔的特权人士将其世界观强加给别人的另一种方式。

另一方面,统计数据又是反精英主义的。它使记者、公民和政治家能以一种可验证的方式讨论整个社会,而非依靠名人轶事、情绪或偏见。如果量化专业知识被那些报道社会正在发生哪些“真相”的小报编辑和煽动者所替代,那么这种方式更不可能实现民主。

有没有能解决这种两极分化的方式呢?我们必须从事实政治和情感政治之中选一个,还是说有另一种看待这种情况的方式呢?一种方法是从历史的角度来看统计数据。我们需要从数据本身来看它们:统计数据既不是毋庸置疑的真理,也不是精英阶层的阴谋,而是一种旨在简化政府工作的工具。纵观历史,我们可以看到统计数据对我们理解民族国家及其进步方面所发挥的关键作用。这引发了一个令人担忧的问题,即如果我们想继续持有共同的社会思想和集体进步,统计数据又怎么能被抛在一边呢?

二、统计数据的历史发展

在17世纪下半叶,由于长期的血腥冲突,欧洲统治者采用了全新的方式来处理政务,开始聚焦人口趋势,而这是现代统计学的诞生后产生的方法。自古以来,人口普查已被用于调查人口规模,但这样的方式操作起来费时费力,而且仅关注那些政治上有权威的人(财产所有者),而不是整个社会。那时的统计数据和现在相比有很大不同,在统计的过程中改变了政治的性质。

统计数据旨在全面了解人口,而不是简单地指向有战略价值的权力和财富来源。早期的统计学并不总是只有数字。例如在德国(这里用的是“Statistik”一词)统计学面临的挑战是如何将不同的习惯、制度和法律与数百个小国一一对应。确定一项知识的统计学特征的要根据其整体性质:看它是否旨在描绘整个国家的图景。统计数据于人口规模的作用就像地图之于领土的作用。

自然科学的灵感也同样重要。由于采用了标准化的方法和数学工具,统计学知识可以像天文学那样,用客观方式加以呈现。英国人口学的领军人物,如威廉•佩蒂(John Petty)和约翰•格拉伦(John Graunt)用数学方法来估计人口变化,他们也因此被奥利弗·克伦威尔(Oliver Cromwell)和查尔斯二世(Charles II)聘用。

17世纪末的政府顾问更强调科学数据的权威性,而非政治或军事上的敏锐直觉。这代表着现在民粹主义者所诟病的“专家”文化的起源。这些道路破环者既不是纯粹的学者,也不是政府官员,而是介于两者之间。他们是热心的业余爱好者,提供了一种新的思考特权阶层和客观事实的方式。由于拥有高超的数学能力,他们自信可以计算出本来需要广泛的人口普查才能发现的一些现象。

最初只有一位客户提供这种专业知识,而线索就在“统计”一词中。只有集中的民族国家才能够以标准化的方式收集大量人口的数据,也只有国家最需要这样的数据。在18世纪下半叶,欧洲各国开始更多地收集这种今天我们所熟知的统计数字。为了了解国家人口,各州着重于一系列量化指标:出生、死亡、洗礼、结婚、收成、进口、出口、价格波动。国家对以前只在地方和各地教区进行登记的事项进行了汇总。

新技术被开发出来代表这些指标,它从纵向和横向维度用矩阵和表格的形式展现数据,就像15世纪后期的商家制定了标准化记账技术一样。将数字用行和列排列提供了一种强有力的新方式来显示特定社会的属性。现在只需简单地扫描在单个页面上的几何数据,就能够来调查大型复杂问题。

这些创新为政府带来了非凡的潜力。通过将多样的人口简化为具体指标,并将其显示在适当的表格中,政府无需再事无巨细地去了解当地人文历史。当然,从另一角度看,无视地方文化多样性这点使统计学有些粗略和唐突。无论一个国家是否具有共同的文化认同,统计学家将会采取一些统一的标准,有些人可能称此为强加统一性。

统计数据不能展现被调查人口的方方面面。在所包含的内容和被排除的内容中总是有一个隐含的选择,这个选择本身就可以成为一个政治问题。国内生产总值只关注有偿工作的价值,从而排除了传统上妇女为家庭付出的劳动。从1960年代开始这点就成为了女权主义批评的目标。在法国,1978年以来收集人口普查数据是非法的,因为这些数据可能用于种族主义政治目的。(这也造成了难以估量的副作用,即加剧了劳动力市场中有组织的种族主义。)

尽管有这些批评,但用客观的方式全面描绘一个社会的愿望意味着统计数据承载了各式各样的进步理想。把统计学作为一项公正的社会科学只是这些理想中的一个方面。另一方面是关于如何将这些伟大的政治理想融入到这些技术中:“循证决策”的理想、理性,进步和基于事实而非浪漫故事建立起来的国家。

自18世纪末启蒙运动以来,自由派和共和党人热切希望国家计量框架可以产生更为理性的政治,为社会和经济生活带来显著改善。伟大的民族主义理论家本尼迪克特•安德森(Benedict Anderson)将国家描述为“想象的社区”,而统计数据将这种想象变为了有形的事物。同时,他们承诺揭示国家的历史路径:发生什么样的进展?多快? 对于认为国家朝着单一历史方向发展的启蒙运动自由主义者来说,这个问题至关重要。

直到革命后,法国才开始用统计数据来揭示国家状况。雅各宾派提出了一个全新的国家计量和国家数据收集框架。世界上首个官方统计局于1800年在巴黎成立。由受过高等教育专家组成的中央干部监督数据收集的统一性,这也是中央统治共和国理想的一部分,旨在建立统一平等的社会。

启蒙运动开始后,统计数字在公共领域发挥了越来越重要的作用,如用于媒体辩论,为社会运动提供证据等。随着时间的推移,搜集和分析这些数据不再由国家主导。社会科学家开始自主分析数据,而其分析目的往往与政府政策目标毫不相关。19世纪末,伦敦的查尔斯·布斯(Charles Booth)和费城的威廉·爱得华·伯格哈特·杜波依斯(W.E.B. Du Bois)等改革者自主开展调查来了解城市贫困人口。

查尔斯·布斯和威廉·爱得华·伯格哈特·杜波依斯

要想知道统计数据如何与国家进步息息相关,不妨去看看国内生产总值。国内生产总值是用单个数字计算的国家消费支出、政府支出、投资和贸易差额(出口减去进口)总和的估计值。想要准确预计这一数值十分困难,于是20世纪30年代大家开始努力计算这一数字,它像一道神秘的数学题引发了人们的探究兴趣。第二次世界大战提升了这一问题的国家政治紧迫性,政府需要知道国民生产是否足以维持战争所需。在接下来的几十年里,尽管一直遭受批评,这个单一的指标却仍然拥有神圣的政治地位,成为了衡量政府能力的最终晴雨表。如今,国内生产总值的高低已经成为衡量社会进步还是退后的重要指标。

或者以民意调查为例,这是私营部门统计创新的早期实例。20世纪20年代,统计学家制定了调查受访者代表性样本的方法,以收集整体公众的态度。市场研究人员首先抓住这一突破,很快就促使了意见投票的诞生。随着媒体报道称这个新科学告诉我们“妇女”或“美国人”或“手工劳工”对世界的看法,这个新兴行业立即成为公共和政治迷恋的对象。

三、统计数据的“信任危机”

如今,投票被指责的一无是处。但这也部分源于自投票产生以来人们对其抱有的巨大希望。只有在我们相信大众民主的前提下,我们才会如此沉迷或关心公众的看法。然而,在大多数情况下,我们是从统计数字里而非民主机构得知公众对具体问题的看法。与民主制度相比,我们低估了我们从专业计算中所获得“公共利益”的感觉。

作为健康、繁荣、平等、舆论和生活质量的指标,统计数据让我们知道我们是什么样的一个集体以及事情是在变得更好还是更坏。政治家们高度依赖统计数据来巩固其权威。他们经常过度依赖这些数据,过度利用数据证据,或是过于宽松地解释数据来为他们的政治事业服务。但这是公共生活中普遍存在的有关数据的必然危险,但这却并不一定会触发最近的对专业(统计数据)知识的全然拒绝。

当代民粹主义者对“专家”(此处指统计数据专家)的攻击与对当选代表的攻击在许多方面相似。在谈到作为一个整体的社会时,为了管理整体的经济运行,政治家和技术专家统治者被认为未考虑到特定单一公民主题的感觉。统计学家和政治家都陷入了“以国家的角度看待问题”的陷阱,这是无政府主义政治思想家詹姆斯•斯科特(James C Scott)的名言,科学地谈论国家(例如在宏观经济学方面)是对那些更喜欢依靠记忆和叙事维系国家情感的人的侮辱,他们厌恶被告知不存在“想象的社区”。

对统计数据的信任危机并非突然发生。近450年来,统计学家的一项伟大成就是用可控、可理解的事实和数据来记录复杂、变动不居的国家人口。然而,近几十年来,由于20世纪60年代兴起的文化政治和其后全球经济的重塑,世界发生了巨大的变化。统计人员并不总是能够跟上这些变化。传统形式的数据分类和定义正在面临流动性更强的身份信息、态度以及经济途径所带来的压力。这种试图以简单、普遍认可的指标代表人口、社会和经济变化指标的方式正在丧失其权威性。

过去四十年中,各国政治、经济和地理状况不断变化。主导政治辩论的统计数据主要包括国家的以下情况:贫穷水平、失业率、国内生产总值(GDP)、净移民数。但资本主义国家地理位置这一因素与前两个因素的发展方向有所不同。

全球化并没有使地理位置变得无关紧要。在许多情况下,全球化反而使经济活动的位置变得更为重要,加剧了经济成功地区(如伦敦或旧金山)和不成功地区(如英格兰东北部或美国锈带)之间的不平等。主要的地理单元不再局限于民族国家,而变成了那些正处于上升和下降期的城市、地区或独立的城市街区。

将国家作为一个单一社区,并用一个普适的数据框架去测量的启蒙理想越来越难维持。如果你住在威尔士山谷里一个曾经依赖钢铁制造业或采矿业来创造工作机会的城镇,那些说“经济运行态势正好”的政客可能反而会招致更多的怨恨。从这个角度来看,“GDP”一词无法传递任何有意义或是令人信服的信息。

当宏观经济学被用来作政治论证时,这就意味着该国的一部分损失被其他地方的收益抵消了。那些引人注目的国家指标(如国内生产总值和通货膨胀)都隐藏着各种各样地方化的收益和损失,而这些政治家们都很少讨论。总体而言,移民可能对经济有好处,但这并不意味着没有任何地方成本。

所以当政客们使用国家指标做出他们的案例,他们是在隐射那些有爱国精神选民的牺牲:这个时候你可能是失败者,但下次你可能是受益人。但是如果桌子从来没有转过呢?如果同一个城市或区域一次又一次地赢了,而其他地方总是输呢?付出和收益应该适用什么样的原则才是公正的呢?

在欧洲,货币联盟加剧了这个问题。影响欧洲中央银行(ECB)重要指标是那些代表了5亿人口的指标。欧洲央行关注整个欧元区的通货膨胀率或失业率,它将欧元区看做一个单一同质的领域。同时,由于欧洲公民的经济命运正在向不同的方向分裂,这取决于他们所居住的地区、城市或社区。官方的知识变得越来越抽象,甚至逐渐与生活经验脱节,直到变得不再相关或是可信。

国家有着天然成为数据分析范围的特权,这也是数据分析内在的偏见之一。而随着多年来经济的变化这个特权已经消失殆尽了。另一个正在面临日益紧张压力的内在偏见是对数据分析的分类。统计学家的工作之一是通过把人类放在由其创造的一系列标准之中来进行分类:就业或失业,已婚或未婚,亲欧洲或反欧洲。只要人类可以根据这种方式被归类,那么就可以看出不久的将来可以有一种分类能够涵盖整个人类。

这可能会涉及减少选择项。以失业为例,例如一个人要被归类为失业人口,他必须向调查机关报告,自己是非自愿失业,即使现实情况可能要比那复杂的多。许多人一直在徘徊在工作和失业之间,原因可能与健康和家庭需求等劳动力市场的条件有关。但是基于这种简化的分类,我们便可以确定整个人口的失业率。

然而这里存在一个问题。如果我们这个时代定义的很多问题,并不是指它们影响了多少人,而是指与此有关的人会受到多深的影响,这时应该怎么办?失业就是一个例子。英国就因失业率没有显著上升而平稳渡过了2008至2013年的经济大萧条,这也被视为一项积极成就。但是过度关注“失业”掩盖了“就业不足”的问题。“就业不足”指没有足够工时或就业能力低于岗位要求水平的人。目前就业不足人口在“就业”劳动力中占比约6%。然后自雇劳动力兴起,这使得“就业”和“非自愿失业”之间的区分变得没有意义。

这并不是对国家统计局(ONS)等机构的批评,这个机构目前正负责就业不足的数据。但只要政治家继续通过指责失业率来模糊批评指向,那么这些挣扎着却无法充分就业或是仅靠工资无法生存的人在公开辩论中就得不到充分代表。如果同样是这些人在怀疑政策专家和政治辩论中使用的统计数据,以及政客们所描述的劳动力市场和现实生活的不一致,这将令人非常惊讶。

20世纪60年代以来身份政治的兴起对这样的分类制度造成了更大的压力。只有当人们接受了有限的几种由专家而非被调查者选择提供的人口统计类别时,统计数据才是可信的。但当身份成为了一个政治问题,人们需要界定他们自身的性别,性取向,种族或阶级等。

意见投票也正遭受类似原因的困扰。传统上投票可以了解人们的态度和偏好,并且可以合理假设人们会做出相应行为。但是,在政治参与度下降的时代,仅仅知道人们可能会倾向于在哪个盒子投否认票是不够的,还需要知道他们是否真的对此感到强烈不满。当涉及捕获这样的情绪波动时,投票工具并不好用。

四、统计数据的“信任危机”缘起何处?

长期以来统计数据一直面临批评。身份政治和全球化给其带来的挑战也不是新鲜事。为什么过去一年发生的事件对定量研究及其在政治辩论中的作用如此有害?

近年来出现了一种新的量化和可视化人口的统计方式,这可能会将统计数据推到边缘,从而进入了一个完全不同的时代。由技术专家收集和汇编的统计数据,正在让位于数字化扫描时默认累积的数据。传统上,统计人员已经知道哪些人群想问哪些问题,然后开始回答他们的问题。相比之下,每当我们刷信用卡,在Facebook上评论或在谷歌上搜索某物时,都会自动产生数据。随着我们的城市、汽车、家庭、家庭用品都变得数字化时,我们的踪迹将会留下更多的数据。在这个新世界里,首先要捕获数据,然后再进行相关的问题研究。

从长远来看,这一发现的影响可能会与17世纪末发明统计数据一样深刻。“大数据”的兴起和以往所有的投票或统计建模相比,带来了更多的定量分析机会。但是这种不同不仅表现在数据量的不同。它代表了一种完全不同的类型的知识,并且伴随着一种新的专业模式。

第一,没有固定的分析规模(如国家)或是任何固定的类别(如“失业者”)。这些庞大的新数据集可以挖掘出模式、趋势、相关性和大众情绪。它成为跟踪人们身份的一种方式,但这种跟踪是基于人们的自发行为(如网民贴出的“我正在和科比在一起”或“企业家”的标签)而不是强加分类。这种集合形式更适合当今流动性更强的政治时代,我们不能指望一切都能回溯到启蒙运动理想时,民族国家可以作为公共利益的守护者。

第二,我们大多数人完全不了解这些数据是怎么评判我们个人或是整个集体的,也没有和国家统计局办公室相当的机构商业性地收集大数据。我们生活在一个我们的感觉、身份和关系网都可被以前所未有的速度和敏感度跟踪和分析的时代;但这点从未在公共利益中体现或是在公开辩论中有所提及。有数据分析师为谷歌和Facebook工作,他们并不是生成统计数据的“专家”,现在却受着广泛的谴责。新分析师的不确定性和秘密性可能使他们在政治上比任何社会科学家都要更强大。

像Facebook这样的公司有能力以非常低廉的成本对数亿人进行量化社会科学研究。但它没有动力去揭示结果。2014年,Facebook研究人员发表了一篇关于“情绪感染”研究的结果,他们对用户进行了实验,改变了新闻消息来看它如何影响用户回应的共享内容。有点要强调的是人们是在不知情的情况下参加试验的。因此,从Facebook的角度来说,为什么要这么麻烦去出版这个实验结果?为什么不只是做这项研究然后保持沉默?

从统计逻辑到数据逻辑的这种转变最具政治意义的地方在于,这些数据与兴起的民粹主义的匹配度如何。民粹主义的领导人可以鄙视传统的专家,如经济学家和调查人员,转而信任一种不同的数字分析。这些政治家依靠一个新的、不那么高调的精英,从庞大的数据库中寻找模式,但很少公开发表声明,更不用说发表任何证据。这些数据分析师通常是物理学家或数学家,其技能根本不是为了研究社会。例如迈克尔前顾问兼投票联盟竞选总监多米尼克·卡明斯(Dominic Cummings)宣传的世界观,他说:“物理,数学和计算机科学与宏观经济预测不同,这些是有真正专家的领域。”


与唐纳德·特朗普走得近的人物,比如他的首席战略家史蒂夫·班农(Steve Bannon)和硅谷亿万富翁彼得·蒂尔(Peter Thiel)都善于通过诸如剑桥分析这样的公司(班纳为其董事之一),熟练运用前沿的数据分析技术。在总统大选期间,剑桥分析科技公司利用各种数据来源以分析数百万美国人的心理状况。这家公司曾帮助特朗普通过量身定制的讯息确定目标选民。

这种开发和追踪大规模人群心理想法的能力是这项新数据分析中最具创新性和争议性的特征。作为一项“情绪分析”技术,其将跟踪检测大量人群的心情诸如其在社交媒体用语等指标融入了政治运动,使得特朗普等人物的情感魅力指数可通过科学方式审查。在一个普通公众的政治感情都可以被追踪的世界里,谁还需要民意调查?

通过这种数据分析产生的结果几乎从未公之于众。这意味着这样的分析在任何共享现实中所起到的确定政治叙述的作用都微乎其微。随着统计数据权威不断衰落,又没有任何进入公共领域的东西能够替代它,人们可以生活在任何他们认为最有归属感和愿意相信的虚拟社区。统计数据可以用来纠正关于经济、社会或人口方面的错误声明。在一个数据分析盛行的时代里,几乎没有机制能够防止人们放弃自己的本能反应或情感偏见。因此,诸如剑桥分析这样的公司将这些感觉视为跟踪目标。

但即使真有这样一个代表公众政府的数据分析办公室,像国家统计局(ONS)一样,不清楚它是否会持自由主义者今天正在努力捍卫的中立观点。数据运算的新设备非常适合于跟踪趋势、感知情绪和发现那些正在发生的事物。它为竞选经理人和营销人员提供了优质服务。但它不太适合形成一个明确客观、有潜在共识形式的声明,而这些也正是统计学家和经济学家所要做的事情。

五、面对“信任危机”,我们该何去何从?

在这一新的技术和政治气候下,新的数据精英将要肩负在通过大量数据流来辨别事实、预测真相的重任。如国内生产总值和失业率这样的指标是否还存在政治影响仍有待观察。但如果他们不再有政治影响力,这不一定预示着数据专家的末日,更不会代表预测真相的结束。我们应当更加认真地看待这些问题。我们的背后在不断产生数据,这不断地超越我们的认知范围,也是统计数据带给代议制民主的危机。

一方面,值得关注的是这些长期存在的政治机构是有能力去反击的。正如最近优步(Uber)和爱彼迎(Airbnb)这些“分享经济”平台受到法律裁决的阻挠(优步被迫将司机认定为雇员,一些市政当局完全禁止使用爱彼迎),隐私和人权法律是扩展数据分析的潜在障碍。然而公众如何通过这些统计数据设置享受到数字分析带来的益处尚不明晰。

由蒂姆(Tim)和伯纳斯·李(Berners-Lee)合作创立的开放数据研究所等机构对公众公开发布数据,但和目前掌握着大量数据的公司相比,该数据的影响力不大。

统计最开始是作为国家统观社会的工具兴起,现在却逐渐发展成与学者、公民改革者和企业都利害攸关的事项。对于许多数据分析公司来说,相关的保密方法和数据来源是他们不会自愿放弃的竞争优势。一个后统计学的社会潜藏着危险,这并非因为它缺乏任何形式的真相或专门知识,而是因为它会大大加速其私有化。

统计学是自由主义尤其是启蒙运动的支柱之一。那些生产和使用它们的专家在政治情感和地方政治层面已经被描绘成傲慢和无知的人。毫无疑问,肯定有方法使数据收集能更好的反映生活实践。但是这是场仍需博弈的战斗。而长久来看,这并非精英领导的事实政治与民粹主义的感觉政治之间的博弈,而是场存在于那些仍然认可公共常识和关注公众聚焦点的人与会从这些事情的瓦解中获利的人们之间的战斗。

(转自微信公众号:法意在线。文章翻译自英国《卫报》2016年消息,作者William Davies 翻译:宛如)

责任编辑:宋煜昊
大数据 民主危机 总统大选
观察者APP,更好阅读体验

明年开工!越南总理:确保中越铁路顺利对接

“若我们曾抱一丝幻想,中国半导体发展不会如此迅猛”

《心智对话》直播:世界科创的旧中心与新势力

12年造20公里,这条日本承建的越南地铁终于投运

沙利文放话:特朗普跟中国谈不成“大买卖”