马修·辛德曼:谷歌政体极其后果

来源:观察者网

2016-02-11 09:04

马修·辛德曼

马修·辛德曼作者

乔治华盛顿大学媒体与公共事务学院副教授

【大多数人每天都在上网,但人们可能往往忽视了一个重要的问题,选择浏览什么样的网站,毋宁说是我们自己的自主选择,不如说是技术已经安排好的“蓄谋”。在接下来的文章中,通过对链接结构与流量模式的分析,揭示出网上政治群落的集聚化特征。

网站的链接数决定了其所获流量的大小,而基于链接的搜索引擎排名算法强化了那些被密集链接站点的能见度,用户搜索技能的欠缺又使得大部分搜索都是针对已知资源。从而,链接与访问量的整体分布呈现“幂律”特征,即极小部分网站占据了极大多数的链接数与访问量;网络总体中的可见站点于是数量非常有限,政治内容更是网络应用中微不足道的一部分,即使是政治内容的流量也集聚于排名靠前的那些核心站点。由于搜索引擎在链接和流量分配中的重要引导作用,作者甚至直接把这种不平等秩序称为“谷歌政体(Googlearchy)”。

本文节选自《数字民主的迷思》,马修·辛德曼(Matthew Hindman)著,唐杰译,中国政法大学出版社授权观察者网发布。】

如果人人发声,就没有人真正能发声。任何单一的表达都会淹没于成千上万的“嘿,这是我的博客,我觉得开个博客会是个很棒的主意,因为我的猫好可爱。我会贴上我的猫的照片,并且我爱耶酥。”

——用户”Dancin Santa“发布在Slashdot.org

在研究政治表达时,政治学者们检视了很多类型的公民政治参与。他们研究谁志愿服务于政治竞选活动,谁写信给他们的当选代表,谁加入倡议团体(advocacy groups),谁为政治目的捐款——当然还有,哪些公民会投票,投给谁。这些传统的政治活动及其网络类似物,正是之前一章关注的内容。迪恩获得了因特网狂热爱好者的注意,同样也获得了怀疑论者的注意,因为他的竞选运动表明,因特网会影响这些长久以来有效的因素。每场竞选运动都期望有无数的志愿者;迪恩表明志愿者可以被在线动员。每场竞选运动都期望有大量的资金;而正是因特网为迪恩的筹款成功推波助澜。

这种对政治行为传统领域的关注,至此看来是正确的。但这一章退后一步。关于因特网与政治表达的那些观点,过多地关注政治话语,如同过多地关注政治参与一样。经常出现的意见认为,因特网是一种“窄播”或“点播(pointcasting)”媒体,提供公平的竞争环境,清除传统上的守门人,让边缘化或资源贫乏的群体得以表达。据某些人看来,甚至穿着睡衣的公民也能在网络政治中被听见。

断言网络窄播之重要性的那些观点之所以持续存在,部分地是因为它们很难被检验。这样的一些理论——相当违反直觉地——声称,在网络上并非是那些最大的网站至关重要,而毋宁说是那些最小的网站才举足轻重。严格来说,这样的一些小网站所获得的流量太小,以至于它们的相对重要性没法被调查数据精确测量。即使是后面几章用到的大规模的、千万量级对象的来自Hitwise的样本,也不能去精确测量在这样一种显微水平上的流量模式。

本章提出一种新方法来处理这一窘境。它指出,如果我们想要理解因特网如何正在(或者不在)改变着政治版图,那么我们必须考察另外一种政治行为:超级链接(hyperlinking)。在此过程中,必然会重新思考关于网络开放性的某些假设。

在因特网中,从数据包在哪里被引导分流,到多少人被允许加入某个美国在线(AOL)聊天室,不同层次的硬件和软件控制着这一切。通常的图式就是把因特网的构造想像为三重关联的层次(Lessig 2001; Benkler 2006)。最底层是硬件层,即计算机设备和联结它们的线路。在此之上是代码层或逻辑层,即在网上传输数据的网络协议(protocols)。最后是内容层,即文档、文件和服务于用户的软件应用。莱斯格及其他人主张因特网的构造是不固定的——并且出于商业和安全利益而去更改因特网结构的企图,会危及这一媒体的开放性。[1]

这些学者当然是正确的,如果我们想要理解因特网的社会与政治效果,那么我们需要更近一步考察它的基础结构(infrastructure)。而本书的一个核心主张在于,我们对因特网基础结构的理解需要被进一步拓展。本章断言,因特网的链接结构在塑造网络政治行为方面尤其重要,尽管它与传统上关于网络结构的“夹心蛋糕”式描述并不很好地契合。

成百上千万的美国人如今创建了他们自己的博客或网站。紧随其后的是数以十万计的交易业务与组织机构。创建从一个网站到另外一个网站的链接,并不能召唤起“行动主义(activism)”所设想的积极活动(activity),并且那些链向别处的网站甚至也不能倡导它们所推介的政治观点。本章将会表明,这些站点的所有者们相互链接的方式,并不是随机无规律的。

相互连结的模式亦即超级链接形式,是这一媒体之所以被称为互联网的首要原因。超级链接蕴涵了许多有用信息。大多数用户每天都可见到一种有形的展示:网页排名(PageRank)。在此,赋予谷歌搜索引擎以强大力量的排名算法程序,主要是依赖网络的链接结构来整理获取其结果。其它的搜索引擎,包括雅虎和微软搜索,同样是聚焦于链接结构。尽管超级链接嵌入在网络的内容层,但它们实际上已成为以下这种或许应被视为网络结构的另一个更高的层级的支柱:我们或可称之为搜索层,它包含用户借以搜索和分类在线内容的各种各样的手段。由于大部分网络流量源于索引擎推荐,所以搜索的工具和方法可以说就和内容本身一样重要。并且谷歌的发展史也表明,即使网络的内容层(大部分)仍然保持原样,但因特网搜索层的变化会给网络使用带来引人注目的后果。

本章所展现的研究,是在与科斯塔斯·西兹尔里克利斯(Kostas Tsioutsiouliklis)和朱迪·A.约翰逊(Judy A.Johnson)的合作中进行的;在进行这项研究时,他们两人都是NEC研究实验室的科学家。我们证明,网络的链接结构可以粗略预估政治性网站的相对能见度与相对流量,即使在那些因规模太小而没法用横切面(cross-sectional)数据加以研究的网站群落(communities)中也一样。指向某个网站的链接数量,既关联于它在搜索引擎中的排名,也关联于它最终获取的访客数量。网络链接的拓扑结构因此就让我们得以绘制一幅粗略的地图,以显示公民们的注意力如何在不同的网络信息源之间分配。

西兹尔里克利斯、约翰逊和我,使用计算机科学技术探索了几百万网页,对讨论各种各样主题的网站的那些话题集群(topical clusters)进行考察:国会、一般政治、堕胎、总统、死刑,以及枪支管制。每一站点群落(community of sites)中的链接分布都接近于一种幂律(power law)状况,在那里一小簇超级成功的网站获得了绝大多数的链接。

以为网络像某种窄播或点播媒体而运作,这种流行见解与数据并不相符。同样与数据不符的说法是,声称因特网由“长尾效应(long tail)”所支配,或者声称网上政治群落为公民讨论提供了“巨大”数量的“等程度地被阅读(moderately read)”的发泄途径(outlets)。网络的链接拓扑结构显示,网上公共空间并不如很多人所希望或害怕的那样开放。

链接结构能告诉政治学者什么

近些年来,网络结构已成为硕果累累的一个学术领域。尽管这项工作的大多数都是由计算机科学家和应用物理学家所完成,但他们在网络的表面混乱中所发现的模式,应该有理由让政治学者们重新思考网络的政治性含义。

在考察网络结构时的核心发现是,网站之间的链接遵守着很强的统计学规则。就整个网络而言,链入和链出的超级链接的分布,遵循着某种幂定律或者说无标度分布(scale-free distribution)规律(Barabási和Albert 1999);Kumar等人1999)。更确切地说,一个随机选择的拥有K个链接的网页,如果K足够大,则这一网页的出现几率(probability)与K-α成正比。

当观察值的大小与其出现频率(frequency)成负指数关系时,数据遵循着幂律分布。例如,财富的分配,正如维尔弗雷多·帕累托(Vilfredo Pareto, 1897)著名的解释,是一种幂律分布,在此20%的人口控制了80%的财富。无数的其它社会和自然现象也遵循着幂律模式,从地震到细胞内的蛋白质关系网,从公司的规模到城市的规模,从战争惨烈程度到性行为的次数(Huberman 2001; Krugman 1994; Cederman 2003; Liljeros等人2001)。

正如这些多样性的学术研究所示,幂律结构可以由非常不同的基础过程所产生。但在每种情形中,幂律分布都会导致极其不均等的结果。想象一个假设的社区,在其中财富根据幂律分布。在光谱的一端,只有一个百万富翁,有10个人拥有至少10万美元,有100人拥有1万美元,有一千人拥有至少1000美元。在光谱的另一端,一百万人共同拥有1美元。在这一假设的社区中,财富的分布与函数K-α成正比,其中α=1。

在网络环境中,研究发现网上资源甚至比上述假设的例子还要远为集聚化,对于链入链接会产生α≈2.1的数值,对于链出链接α≈2.7(Kumar等人1999;Barabási等人2000;Lawrence和Giles 1998; Faloutsos,Faloutsos和Faloutsos 1999 )。[2]少数受欢迎的站点(例如雅虎或者美国在线、谷歌)获得了总链接数中的大部分;不太成功的站点(例如大多数个人网页)几乎没获得任何链接。流量和链接结构一样,遵循着大致同样参数的幂律分布(Huberman等人1998;Adamic和Huberman 2000)。因此,有一小簇网站获得了绝大部分链接,也有一小簇网站获得了绝大部分的在线访客。就这一章的意图而言,揭示这两组站点实为同一组,意义非凡。

我和同事们从两个路径来揭示这一点。在下述部分中,我将阐明为什么我们应该认为,指向一个站点的链接数是一种有效的流量预测者:用户浏览模型和搜索引擎,都将用户送至已积聚了绝大多数链接的那些站点。然后,通过考察链接与流量关系的真实-世界(real-world)数据,我们将验证这一观点。

搜索在线信息

为了访问一个网站,人们首先必须能找到它。已知的那些站点,或者借用线下手段找到的那些站点,可以通过键入URL地址和使用浏览器书签来访问。社会关系网也能在引导用户访问新站点方面发挥作用;电子邮件使得亲朋好友之间很方便地相互推荐网站。

但就用户自身而言,他们只有两种方式来找到之前未知的内容。首先,可借助从已知站点的冲浪离开而发现新内容;其次,也可通过在线搜索工具,例如谷歌或者雅虎的目录服务(directory service)而找到。在这两种情况下,链入链接数都是网页能见度(visibility)的关键决定因素。

链入链接和流量之间的关系通常是简单的:超级链接的存在,就是要带来点击。通向某个网站的超级链接越多,用户连接网站时追踪这些链接的机会就越多。总而言之,通向一个站点的路径越多则流量就越多。

对个别冲浪者真切成立的事情,对于搜索引擎而言则是成倍地成立。第一代搜索引擎,例如Alta Vista,聚焦于关键词密度(keyword density)和具体网页中可见的其它特征。谷歌搜索引擎则是一个强大的颠覆性技术。谷歌的贡献在于采取了更加开阔的视角,利用网站之间的联系来找到最好的内容。谷歌创立者谢尔盖•布林和拉里·佩奇(Sergey Brin and Larry Page,1998)发明了网页排名,这是一种递归算法,使得从其它获得大量链接的站点来获得大量链接的站点,会排名非常靠前(也参见Pandurangan,Raghavan和Upfal 2002)。根本而言,各种站点是在一场人气竞赛中被排名,在此每一个链接就是一票,但是来自其它人气网站的投票要更有份量。[3]

无论搜索引擎还是冲浪行为因此都赋予同一类网页以特权。那些被大量链接了的站点变得引人注目,而大多数其它网站则可能被漠然无视。

到2006年7月为止,谷歌占有了60%的美国搜索引擎市场。[4]这与雅虎搜索的23%、MSN搜索的12%相对照(Tancer 2006)。过去几年中,谷歌持续地从其竞争对手那里拿走市场份额。有人或许会认为,一个不那么集聚化的搜索引擎市场会有助于保障可见内容的多样性。但只要搜索引擎关注的是链接结构,那么以网页排名来显示的人气竞赛动力学,就很难避免。众所周知,HITS算法是对网页排名算法的一个替代,利用“结点(hubs)”和“权威(authorities)”相互加强的结构来排列结果(Kleinberg 1999; Marendy 2001)。克莉丝·丁(Chris Ding)及其同事们(2002)表明,即使HITS方法是在源自网页排名的“搜索引擎光谱的另一端”,它也倾向于将同样一批站点排在前列。事实上,这两种算法——并且任何可能的竞争者——所产出的结果,与仅借助站点所获得的链入数量来排列站点相比,几乎很难有所不同(Ding等人 2002;Tomlin 2003)。(搜索结果方面的相似性将会在后面章节中非常详细地被探讨。)

链入链接与网站流量之间的关系

概而言之:我们知道就网络整体而言,流量和链接都是幂律分布。我们也有理由相信,流量会被引导到那些密集地被链接了的站点。但在实际中链接结构与站点访问之间的关系究竟有多密切?

无论是我们自己还是其它研究者们的分析都表明,这种关联是相当强大的。惠普实验室的拉达·阿达米克提供给我们数据,是关于指向网站的链接以及相应地这些站点所获得的访客数。这些站点访问数据来自某个大型因特网服务提供商(ISP)的一组随机选取的匿名用户。它们包括6000个用户的120000次站点访问;被访问站点的链接数据由Alexa公司收集。

在这些数据中,链入链接数和站点访问数高度关联,相关系数为0.704。指向一个站点的原始链接数的确预测了其大部分流量。结果似乎尤其表明,这一数据也包括了那些广告链接在内;由于在线广告的点击率(click-through rate)众所周知很低,所以广告站点被密集链接但却很少被访问。[5]

在幂律分布中,观察值的极小部分产生了绝大部分的变化幅度(variance)。我们或许以为,移除或忽视位列顶端的那些站点,会弱化这种相关性。对这些数据取方根——因此压缩了最大和最小观察值之间的差异——可削弱(attenuate)链接与流量之间的关系。对数据取方根之后,相关系数降落到0.449。对数据进行分段切割(segmenting)显示了同样结果。若我们从流量来考察只是位例前端的500个站点,这一相关系数轻微上升到0.726。但在没有这500个站点的剩余数据那里,这一相关系数只有0.118。

链接模型因此似乎相当擅长于发现这一小群流量极大的站点。在不太受欢迎的站点中,变化幅度就远要少得多,并且在此链入链接几乎无法告诉我们,一个站点可能获得2位访客还是20位访客。

另外一些人同样指出博客链接与博客流量之间的一种强大联系。某些站点追踪这些在线日志所获得的链接数,并且很多博客使用Sitemeter.com来追踪访客。利用这些数据,克莱·舍基(2004)发现,在博客这里和在上述关于网络整体的数据那里,链接和流量都有着大致一样的相关性。舍基也发现,链接最擅长于预测人气站点的流量。

所有这些让我们回到最初的问题:流量是如何在政治性网站之间分配的?尽管因特网全局性的幂律分布是清楚的,但某些站点子群组(subgroups)也与整体模式明显地有所偏离。在特定类型的站点中,研究者们发现超级链接较少地偏向于几个优势站点(Pennock等人2002)。特别是尤查·班科勒,他从事了大卫·潘诺克(David Pennock)及其同事们的大部分研究,后者(如同我们的研究一样)出自NEC研究实验室。班科勒声称,潘诺克及其同事们的发现支持他的“金发姑娘(Goldilocks)”理论,亦即网上的集聚度是“正好适中的(just right)”。班科勒提出,网上政治内容的集聚程度正好支撑“广泛吸纳和局部过滤”(2006,248)。

尽管如此,需要强调的是,即使在潘诺克及其同事们的研究中,遵循着更加平等主义模式的那些站点群落(communities),都已经是例外而并非常规。那些并不遵循赢家通吃等级制度的群落——例如,那些上市公司的网站和大学的主页——都具有一个共同点:它们寄生于已经存在的、真实世界的社会关系网络。上市公司的雇员们对他们专业市场领域(market niche)中的那些大企业和小公司都很熟悉;大学的学者们既认识教育界的那些哈佛和耶鲁,也认识邻近教育机构中的同行。正如阿尔伯特-拉斯罗·贝拉巴什(Albert -László Barabási)所指出的,群落中这种水平的视野能见度,在网上罕见稀有。

因此还远未确定,政治性网站的那些子类别(subcategories)会和班科勒所预设的一样遵循平等主义。要理解政治站点之间的结构,唯一的方法就是去直接测量它。下一部分提出方法论以精确地实现这一点。

网上政治群落的链接结构

在这一章中,我会调查因特网中这样的部分,即在搜索常见类型的政治信息时普通用户最可能看见的部分。显然,我并不试图去描述每一个在线的政治网站,或者甚至某个类别中的每一个政治网站。我们的目标并不是去克服由互联网之规模所强加的那些限制;而是要展示出这些限制在一般用户可见的站点数量与类型方面所造成的偏向(biases)。

我和同事们所选择的研究设计,得益于大量既有的计算机科学研究。(这一研究的一部分,概述于本书末的附录中。)我们所采取的方法有四个主要步骤:

1.创建分别包含200个站点的12张列表,这些站点是在各种政治范畴中排名最高的“种子站点”。我们选择了6个范畴;在每一范畴中,一张列表取自谷歌搜索引擎的结果,另一张列表取自雅虎目录服务。

2.建立许多网络机器人程序从这200个站点出发去抓取信息,依次沿着每一个链接,抓取深度为三层链接。每一次抓取,要求下载大约25万个HTML网页,或者说在所有的12次抓取中下载了大约三百万的网页。

3.使用支持向量机(SVM)算法对这些已下载的网页分类(classify),以确定是否新遇见的网页与已给定的范畴相关——例如,在抓取中发现的一个远离枪支管制站点的网页,是否也关注枪支管制。那些确实隶属于某一具体范畴的网页,就被归类为“阳性(positive)”。

4.对于12次抓取中的每一次,分析其阳性站点集内那些链入链接的分布状况。

最终有六个范畴的网站被选中:这些站点涉及堕胎、枪支管制、死刑、美国国会、美国总统以及兼容性的“一般政治”的范畴。让人类程序员(human coders)对这些已下载的网页进行分类显然是不可行的。即使一个程序员可以每小时分类识别120个网站,要对300万网页分类,也会需要一个人每天8小时地工作十年。人工判别(categorization)还会产生偏见和主观性的种种问题。

为解决这种困难,我们利用许多支持向量机(SVMs)来自动对这些站点分类。本书附录描述了SVMs的技术操作。SVM分类器对相关联的网页给出了可靠的差别;而最重要的是,人工编码(human coding,下面会讨论)会产生些错误的阳性归类。

种子网站的选择显然是关键性的环节。不仅这些站点集决定了网络抓取的起点,进而决定被下载和分析的网页范围,而且这些站点也用来训练SVMs学会识别相关联的内容。一开始我们就担心人工分类的(human-categorized)内容和由搜索引擎返回的机器分类的machine-categorized)内容之间的可能偏差。因此,在每一范畴下面,我们既分析由谷歌产生的种子站点集,也分析来自人工分类的雅虎目录服务的那些种子站点集。最终,谷歌和雅虎的种子站点集导致同样的结论。

结果

所考察的六个政治话题相互非常不同,我们的研究设计也引入了许多具备潜在异质性(potential heterogeneity)的来源。从而,在我们的这些结果中,那种一致性的水平就格外令人震惊。所有的12次抓取都显示,这些网站群落有着相似的组织原则和相似的链入链接分布状况。

首先,让我们考察这一项目的涉及范围。表1列出了所下载的网页数量以及SVM分类的结果。抓取的规模非常之大,平均每次大概是25万的网页。SVM阳性集合的规模根据主题的不同而变化;关注具体政治问题的群落,比那些关注总统或美国国会的群落要小。而在这些大量被抓取的网页之中,只有一小部分网页与已给定的范畴相关。

表1表明,SVM分类器是优秀的但并非完美。对五百个随机抽取的阳性网站进行人工编码(human coding)发现,只在其中9个地方人类程序员(human coder)将网页看作与问题域不相关。同样,在阴性集合中只有少数的站点看起来是被归错了类。[6]不过,有较大一部分站点,由于靠近SVM的判定边界(decision boundary),因而被归类为“不确定”。SVM对之有所犹豫的这些站点,占到阳性集合规模的7%-25%。人工编码表明,这些站点中的大多数应该包含在阳性集合内。对包含在阳性集合内的不确定站点进行二次分析,没有发现与下述详列的结果有根本的不同。

表1 网页下载量及SVM分类结果

这张表显示了我们分析过程中所抓取的网络版图(Web graph)的规模,以及SVM分类器判定为阳性的站点的数量。第一栏列出了所下载的网页数,第二栏和第三栏分别列出了被SVM判定为拥有与种子网页密切相关之内容的页面的数量,以及SVM所犹豫不决的页面的数量。

在某些情形下,谷歌与雅虎的种子站点集非常不同。因此最开始还有些担心,在谷歌与雅虎那里分别被辩识出的网页群落,可能没法直接相互比较。但表2显示了分别来自雅虎和谷歌抓取的那些阳性集合之间的大量重合,则着实有助于减轻这种担心。它表明雅虎和谷歌抓取所探测的是同样的一些群落,清晰展示了互联网的狭窄直径。阳性集合中的大多数页面都是鲜为人知的,只获得极少数的链入链接。只有一个超级链接路径的那些网页,在雅虎与谷歌结果中拥有最少的重合。而对于那些被密集链接的网页,雅虎和谷歌结果之间几乎是完全重合的。

除去一个例外,在所有研究范畴之下,使用这些方法收集到的网页都在10000到22000之间(表2)。既然网络是如此巨大,那么这些网页可能只是涉及这些话题的所有页面中的一个极小部分。不过,比起这些切题的网页群落(topical communities)的规模,更令人感兴趣的是它们相互关联起来的方式。表3对通向这些相关网页的链接结构给出了概览。

表2 来自雅虎和谷歌抓取的阳性集之间的重合

这张表给出了就特定政治话题而言,由雅虎种子集所引发的抓取和由前200个谷歌搜索结果所引发的抓取之间的重合。这一全局性的重合意味深长,对此数据的进一步考察表明,对于每一范畴之下那些最为密集被链接的页面而言,这种重合都几乎是完全的。

表3  SVM阳性集内的那些站点的链接数

这张表给出了SVM阳性集内那些站点的链接数,既有从集合外部来的链接,也有内部一个阳性页面到另一阳性页面的链接。请注意在大部分情形中,来自其它阳性页面的链接提供了链接中的大多数。

总体而言,网络版图(Web graph)是稀稀落落的;随机挑选的一簇网页,将会只有少数几个共同链接。相比之下,我们的阳性页面之间的链接数一律是巨大的。就12次抓取中的10次而言,从一个阳性页面到另一个阳性页面的链接占到了总链接数的一半还多。这使得我们更加确信,我们找出了具有一致性的网页群落(coherent mommunities of pages)。[7]

表4 最受欢迎站点的链接集聚度

这张表展示了,在每一个被探测群落中,最受欢迎的那些站点所拥有之链接的显著的集聚度。第一栏列出了至少包含一个阳性页面的站点的数量;请注意许多网站包含了大量相关联的网页。第二、三、四栏,显示了某个特定范畴下,顶级、前10和前50名站点所拥有的链入链接的百分比。

最后,我们想要了解的是这些链入链接的分布状况。表4的第一栏是每一范畴下的那些至少包含了一个阳性页面的站点的数量。例如,AbortionFacts.com是一个优秀的反堕胎网站,其中包含了许多与堕胎讨论相关的网页。如果我们所感兴趣的是政治信息源的数量,那么将所有AbortionFacts.com上面的页面算作一个单一整体就会更有意义。提供政治信息的那些站点的数量,从定义上来说,必定比网页的总体数量要小。

最重要的结果显示在表4的其它三栏中。此处我们可见,在每次抓取中顶级、前10和前50名站点所拥有的链入链接的百分比。这一总体图景,展示了对一小撮超级成功站点的那种令人吃惊的集聚化的关注。除了一个低异常值,在这些抓取中,最成功的那些站点获得了总链接数——所有单一信息源所拥有的链接总数——的14%-54%。

特别有意味的是第三栏,它显示了每次抓取中前10名站点所拥有的链接百分比。在12种情形中的9种情形下,前10名站点占据了总链接数的一半还多。前50名站点在每一范畴下的站点总数中只占到3%-10%,但在每一情形下它们都占有链入链接的绝大部分。

因此很有理由确信,政治性站点群落在网上体现为赢家通吃的关系网络(winners-take-all networks)。但是这些站点中的链入链接分布由某种幂律来支配么?答案似乎是肯定的。请看下面的图形:图1考察那些涉及美国总统的网站,图2考察那些关注死刑问题的网站。一个由雅虎种子集所生成,另一个由谷歌种子集所生成。

图1

这张图显示关注美国总统的那些站点的链入链接分布状况。两个坐标轴都是对数刻度。请注意这一数据形成了一条直线——这是关于幂律分布的确定无疑的证据。

幂律分布确定无疑的特征是,在坐标轴都是对数(logarithmic)刻度的图像中,数据应该形成一条直线。这正是图1所显示的情况:一种教科书式的幂律分布。一种相似但却不那么精确的模式在图2中显而易见,它更典型地体现了这些被抓取到的站点群落的特征。在此,由数据在双对数(log-log)刻度坐标系上所形成的线条略微向外凸起;随着站点数量增长,线条的倾斜越来越陡峭。关注死刑问题的站点群落在其末梢偏离了幂律分布——尤其在那些最受欢迎的站点中,在那里一种纯粹的幂律分布会产生天文数字的链接。[8]

图2

这张图显示关注死刑问题的那些站点的链入链接分布状况。此处我们再次见到幂律分布的强大证据,尽管相对于被绘制数据有着一种轻微的上凸。将幂律拟合于这些数据,所产生的R2为0.952——在所探测的那些群落中是第二最低值。

表5显示将幂律拟合到(fitting)12次抓取中的每一次所收集的数据上时的结果。在此所选择的模型是简单常见的最小二乘法回归分析(least squares regression)。因变量(dependent variable)是指向一个给定网站的链接数量的对数。例如,如果网站Q有1500个链入链接,那么它取的因变量值就等于ln(1500),或者说7.31。解释变量(explanatory variable)则是拥有至少和网站Q一样多链入链接的那些网站的数目的对数。既然这两个变量之间的幂律关系在双对数刻度坐标系上应该产生一条直线,那么这些对数化(log-transformed)数据的线性回归分析(linear regression)就是一种直接的方法,以测试这种分布规律与这些数据之间的拟合程度。在此语境中的常量,是这一模型对群落中最受欢迎网站所预测的链入链接数的对数。

表5 幂律拟合抓取数据的结果

这张表显示,将幂律拟合到12个被探测群落的结果,方法是对已经取了对数的数据(logged data)进行通常的最小二乘法回归分析。因变量为某个具体网站(例如网站Q)所获得的链入链接数的对数;解释变量则为样本中拥有至少和网站Q一样多链入链接的那些网站的数目的对数。如果幂律遵循K-α形式,那么上面的系数等于-α,即在双对数坐标系中幂律直线的斜率。这里的常量表示,那些最受欢迎的站点被预测获得的链接数的对数。

这一分析显示,除了有几处需要警惕之外,幂定律很好地拟合这些政治群落中的链入链接分布。相比于其它11个被探测的群落,雅虎堕胎群落的拟合度要差一些,但幂律模型所产生的R2值仍然有0.902。[9]对于四五个最成功的网站,这一幂律模型始终预测着比我们在数据中实际所见还要更大数量的链入链接;同时它也略微低估了那些只拥有少数链接的站点的数量。这些偏差,特别是在曲线的上面部分,具有至关重要的意义,因为它们稀释(dilute)了对极少数成功站点的关注集聚度。

然而,即使在两个末稍都存在着异常值,在12个群落中的11个中,幂律模型所产生的R2值却仍然都大于0.95。每一群落的主体数据,都强烈依循着幂律法则,并且如果忽略5个最高的和最低的链接值,通常会产生一个近乎完美的拟合。政治群落中的链入链接分布,为强大的统计学规则所约束。

网站能见度与谷歌政体的出现

网上的站点群落是被幂定律更好地刻画,还是被某些其它类型的极端偏态(extremely skewed)的分布更好地刻画,这显然并不是中心要点。政治学者关心的是,致力于政治表达的那些站点群落中的集聚程度,所以有两点经验是清楚的。首先,无论以什么标准来看,高度可见的站点之数量都很少。网上政治群落似乎有着这样的常规属性,即在链接分布顶端的少数站点获得了比其余站点加在一起还要多的链接。第二,一旦跨出那些由成功站点构成的核心组,相对能见度就以迅速和高度规则的方式下降。站点能见度的衰减不是线性的;毋宁说它遵循的是一种跨越几个数量级的指数函数规则。考虑到种子站点和所探测的群落类型这两个方面的多样性,那么上述这些结果就是令人惊讶地稳固和前后一致的。

还有一点值得强调:即使这些站点被分解为次级群落(subcommunities),幂律结构仍然存在。例如在关于堕胎群落的两次抓取中,支持堕胎的站点在数量上超过反对堕胎的站点,达到3比1的比例。但反对堕胎的那些站点和支持堕胎的那些站点都由幂律所支配。尽管两组站点的斜率并不一样(反对堕胎的站点中有着更高的集聚度),其整体结构仍然聚焦于少数顶端的站点。同样的模式在关注枪支管制和死刑问题的群落中也是显著的,这两个群落中都包含清晰对立着的子群组(subgroups)。因此网上政治群组(political groups)的结构可以设想为具有分形(fractal)性质——群落的子部分(subpart)复制着群落整体上的赢家通吃模式。在此,政治性的内容又一次再现了在互联网其它领域所见的结果(Song,Havlin和Makse 2005;Dill等人2002)。

综合来说,这一章的诸多见解合成为一种我和同事们称之为谷歌政体(Googlearchy)的新理论:密集链接者法则(the rule of the most heavily linked)。基于前面的研究和上述引用数据,这一理论有这样几个主张。

第一,谷歌政体表明,指向一个站点的链接数是站点能见度的最重要决定因素。那些有着许多链入链接的站点,会易于被发现;那些只有少数链入链接的站点,会需要更多的时间与技能才能被发现。在其它条件相等的情况下,有着更多链接的站点会获得更大的流量。

第二,谷歌政体表明,利基优势(niche dominance)是网络生活中的一个普遍规则。对于每一清晰界定的网站群组,组内的一个极小部分会获得绝大部分的链接与绝大部分的流量。群落、子群落以及子子群落,在其集聚程度上可能有所不同;但整体而言,网上站点群落显示出一种俄罗斯嵌套娃娃(Russian-nesting-doll)的结构,在每一层次上都由赢家通吃模式所支配。

第三,谷歌政体表明,这种对链接数的依赖性,会使得利基优势得以自我延续。被密集链接的那些站点将继续吸引更多链接、更多眼球,以及更多用以提升站点内容的资源,而那些只有少数链接的站点则仍然被无视。

自从这一原创研究得以进行以来,其它一些学者已尝试去验证,是否搜索引擎的确强化了在链接结构和流量方面的不平等。有学者给出数据表明搜索引擎正在恶化富者越富的现象,使得网络流量比仅仅由随机上网冲浪所引致的更加集聚化(Cho与Roy 2004)。另外一些人则对此有异义,声称有搜索引擎相比于没有搜索引擎的其它情形,减轻了网络流量的集聚程度(Fortunato等 人2006)。

搜索引擎是否造成某种“恶性循环”,对此不断发展着的争论意义深远,但它不应掩盖那个更重要的问题。学术性争论专注于讨论在多大程度上网络集聚度可以归咎于搜索引擎——以及是否新式搜索方法正在让不平等稍稍变得更好或更糟。但没有哪个研究质疑以下结论,即在链接方面的那些深刻的不平等,阐明了搜索引擎的能见度和流量模式。

赢家通吃的政治

本章主要关注了政治学者很少虑及的一类技术问题。它讨论了为什么链接密度是“网上受众占有率”的有效指标。它已表明,关于不同政治话题的那些网站群落,它们中的每一个都由一小簇高度成功的站点所支配。作为总结,我们需要提醒自己为什么这一问题至关重要。我们知道,网络给予公民们数以百万计的机会,以选择去哪儿获得政治信息。但我们仍然不知道的是,网络究竟在多大程度上扩展了人们实际所进行的选择。

这方面的数据缺失,使得学者和公众人物对互联网的政治影响可以作出非常不同的设想。这一章——以及接下来的三章——不太支持以下观念,即认为因特网正在启动从广播到窄播的划时代转变过程。的确,几乎任何人都可以建立一个政治性网站,但如果只是少数政治网站获得大部分访客,那么这一事实就无关痛痒。在本章所考察的那些领域中,建立一个政治性站点通常相当于只是在凌晨3:30分的公共电视台上举办一次脱口秀。

网络集聚(online concentration)的程度是如此深刻,以致它促使我们不仅重新思考环绕着因特网的那种狂热,也重新思考怀疑论的种种理由。大型站点在网络上显然举足轻重——雅虎主导着其它的门户站点,亚马逊(Amazon.com)主导着在线图书销售,eBay主导着在线拍卖,而网络新闻则由那些熟悉的名字所主导,比如CNN和《纽约时报》。尽管如此,学者们尚且没有普遍认识到的是,这些赢家通吃的模式在网络的每一层级都重复着。

这些现象的广泛存在,与政治学者们对它们的解释格格不入。我们并不谴责,对于亚马逊的市场主导地位,在美国有着高比率的功能性无知(functional illiteracy);从而使得读者轻易认为,正是公民的缺陷(civic shortcomings)在政治新闻市场中造成了集聚化。本章所研究的那些网上政治倡议群落(communities)并非由商业压力驱动,但它们之中的赢家通吃模式仍然很强。我们也不能将这些模式归罪于那些强大的利益集团。越来越有影响的博客社区是非商业性地发端的,并且最初与传统的政治集团也没什么联系。尽管如此,正如我们将在第六章所见,博客几乎立即就复制了网络整体上在链接与流量方面的赢家通吃分布模式。

这些都清楚地显示,有更加基础性的力量在起着作用——在将传统的政治模型生搬硬套于网络环境之前,政治学者们需要理解这些更加非比寻常的现象。

谷歌政体理论表明,网络的集聚化,源自这一媒体的绝对规模和公民们的无能为力(inability),无论其有多少聪明才智和公民意识投诸其中。在政治学的许多领域,通常假定大多数公民对政治知之甚少,在政治信息处理中会采取捷径(drastic shortcuts)。但如果说在选票上的两个候选人之间作出选择,都需要有强烈的启发引导(heuristics),那么在数百万政治性网站中作出选择时,这类启发引导又该是多么更加极端化(more extreme)呢?此前的学术研究并没有足够重视,网络政治信息的巨大体量与公民们有限的认知资源,两者之间的这种深刻的不匹配。关于公民们如何对惊人的过量网络信息作出反应,政治学者们需要更加清楚的模型。

学者们还需要重新估量,互联网的政治潜能如何受到其结构的约束。网络的端点至端点(end to end)设计,或许不会限制公民们所访问的政治性站点,但网络的链接结构肯定会对此有所限制。如果我们想要评估因特网放大普通公民政治表达的能力,我们就必须首先理解那些集聚模型(patterns of concentration),这种集聚甚至在最小的维度上都支配着网络生活和网络政治。

《数字民主的迷思》,马修·辛德曼(Matthew Hindman)著,唐杰译,中国政法大学出版社


[注释]

[1]这方面可参见Castells 2000,Boyle 1996, Deibert 2000,2003。

[2]Barabási(2000)和Kumar等人(1999)似乎不同意链出链接的α值,提出α=2.4。这一研究还表明,这些参数一直是高度稳定的,即使互联网已经历了爆发式的增长。

[3]随着时间的推移,谷歌不断把其它因素结合进了它的评估算法。尽管这些改进让操纵搜索引擎结果变得更难,但在综合排名方面只有轻微变化——特别是前几个页面的搜索结果。在写作本书时,网页排名和类似的链接结构测量标准,仍然是谷歌排名系统的支柱。

[4]这个数字包括了在AOL.com上面由谷歌驱动的搜索。AOL搜索占了总市场的7%;若排除AOL,谷歌的市场份额是53%。

[5]根据我们借以收集这些数据的那些项目(terms),站点的URL并未被标记,所以广告链接并不能从这一分析中被删除。

[6]对两百个阴性站点进行人工编码,没有发现人类程序员与SVM不相一致的例子。但这一发现与其说表明SVM分类器的精确性,不如说表明了互联网的狭窄直径;例如,Reka Albert,Hawoong Jeong和Barabási(1999)发现,网络上任意两个网页,平均有19次点击之远。这意味着任何大规模抓取将立即遭遇大量的不相关的内容,并且即使某个分类器将100%的站点归入阴性类别,在大多数时候也将会是正确的。

[7]值得注意的是,所示结果基于原始数据(raw data),因此可能有些夸大网络版图中的相互联系。举例来说:MoratoriumCampaign.org,反对死刑的一个流行网站,包含了一些密集地相互链接的相互关联的网页——相关网页A甚至可以包含不止一个通向相关网页B的链接。排除同一网站内那些页面之间的相互链接,就会排除这些链接中的很大一部分。不过,链入链接的分布仍然顽强地遵循幂律分布。由于我们相信链入链接的总数是一个网站的能见度和流量的最好预测者(Ding等人2002,Tomlin 2003),所以我们的分析聚焦于原始的链接数。

[8]微曲线形状——即在双对数(log-log)坐标系中形成了一种柔和的、向下的抛物线——可能表示幂律分布和某种有着极端偏态(例如某种均数μ为0的对数正态分布)的其它分布之间的一种混合。

[9]在回归分析中,R2称为模型或方程的确定性系数(coefficient of determination),表示在该模型或方程中变量X对Y的解释程度。R2取值在0到1之间,越接近1,表明X对Y的解释能力越强,在此则表示该模型对数据的拟合程度越高。——译者注

本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。

责任编辑:小婷
谷歌
观察者APP,更好阅读体验

“美军还没撤,俄军就把这里占了”

土耳其暂停与以色列所有贸易

菲律宾称在黄岩岛已越过红线?中方回应

以色列警告美国:一旦逮捕令下发,我们就对它动手

涉及俄罗斯,美国又对中企下黑手