哈佛教授告诉你中国网管有多严-金加里、珍妮弗·潘、玛格丽特·罗伯茨-观察者网

【观察者网按：互联网治理是各国政府面临的新挑战。“没有网络安全，就没有国家安全。”习近平在今年2月新成立的中央网络安全和信息化领导小组会议上指出。哈佛大学政治学系教授金加里（该校仅有的24位“校级教授”之一，是亨廷顿教授头衔的继承者）长期关注中国政府的网络审查制度，曾与两位学生合作撰写论文《中国网络审查制度如何允许批评政府却禁止群体煽动》，因观察者网译介而在中文互联网引发热议。金加里教授通过分析中文社交媒体数据，得出结论：中国并不介意任何批评政府的网络言论，其审查标准是煽动群体性事件的可能性。在维护社会稳定、管控违法事件这一点上，中国与西方国家的互联网治理并无二致。但该论文只是作为旁观者的观察，其资料有两个缺陷：1.有些帖子在未发表前已被屏蔽，没有涵盖审查制度的全部流程；2.仅限于已有的观察经验，只能“归纳”出结论，无法得出“煽动群体性事件=>审查”的因果推断。

擅长量化研究的金加里教授随后又向美国政治学会2013年会提交了新的论文。他的团队做了以下新的工作：1.在中国建论坛，掌握中国网络审查制度从头到尾的第一手材料；2.发帖子，实际检验“是否煽动群体性事件”、“是否批评政府”这两项标准的真伪。金加里教授通过严谨的随机性试验再一次证明了自己的结论。不仅如此，他在本文提出：1.由于自动审查机制的机械性，支持政府的网络言论比批评政府的言论更容易遭到屏蔽（“反腐败”和“真腐败”在机器看来都是需要过滤的敏感词）；2.同一个中国，各个社交媒体实际审查力度不均，国企运营的社交网站尺度比私企严格，但最大的用户群体却属于私企。这些现象值得关心中国网络安全的人士注意。斯诺登事件让中国人明白，网络安全的世界里，没有谁是可以膜拜的老师。中国作为网络和信息产业的大国，需要自己摸索出一条互联网治理的道路。观察者网再度全文译介金加里教授的论文《针对中国网络审查制度的随机试验研究》（观察者网朱新伟、王杨/译），我们将持续关注这一话题。】

中国作为网络和信息产业大国，需要自己摸索出一条互联网治理的道路。

针对中国网络审查制度的随机试验研究

金加里珍妮弗·潘玛格丽特·罗伯茨

2013年10月6日

摘要

中国政府审查社交媒体，这是人类历史上最大规模的、有针对性的信息干预行为。关于这一主题已经有系统性的研究。但研究手段都是被动的旁观，其推论具有很大的局限性。我们通过实际参与和试验，希望提出更为有力的因果推断和描述推断。为了证明因果推断，我们发起了一项大规模的随机试验，在中国大量的社交媒体上创建帐号，上传随机分配的文本，然后通过全球计算机网络侦测这些文本是否遭到屏蔽。为了获取描述推断，我们除了匿名访问以外，还在中国建立了一个自己的社交媒体网站，与中国公司签订合同，安装现有各大网站使用的审查软件，反过来考察审查机制。我们的试验结果支持并拓展了以下观点：对国家、领导人和政策的批评都可以在网上正常发表，而含有群体性事件（collective action，原译“集体性行动”，本文译为“群体性事件”，以贴合社会治理的范畴——观察者网注）可能性的文本遭到屏蔽的机率要大得多。我们还解释了中国审查制度的内部机制，并证明，地方网站审核手段（非审核内容）的灵活性要比原来想象的大得多。

1 引言

中国政府实行“世界上最复杂的内部内容控制系统”（Freedom House, 2012），安排数以十万计的人员有计划地延缓某些类型信息的传播速度。然而，该组织的规模和影响已经足以让研究者们通过被动观察来发现其审查制度的某些宗旨和程序，以及中国政府的意图。我们希望突破被动观察的限制，使用试验和参与的方式进行因果推断和描述推断。

我们先从理论开始。此前对于中国审查制度宗旨的研究假设了“批评国家”与“群体性事件可能性”两种思路，并发现，前一种思路基本上是错的，后一种是对的：在社交媒体上恶毒地批评政府，这并不会遭到屏蔽，但以政府不允许的方式动员人群，则将遭到审查。这表明，即使是支持政府的言论，如果其中涉及到群体性事件的话，也会遭到屏蔽（King, Pan and Roberts, 2013）。（参见观察者网对该报告的译介《哈佛报告：中国网络审查制度如何允许批评政府却禁止群体煽动》——译者注）

这两种理论都同意，维护政权稳定（Shirk, 2007, 2011; Whyte, 2010; Zhang et al., 2002）是言论审查的最终目标。例如，一些学者曾经以为审查者会删除批评政府的网络言论、歪曲那些支持政府的网络新闻，并认为这可以减少群体性事件（Esarey and Xiao, 2008; MacKinnon, 2012; Marolt, 2011）。不过，即使篡改新闻能够降低群体性事件的可能性，上述学者仍然忽略了社交媒体上的公开批评对中央政府和中共中央的借鉴价值（Dimitrov, 2008; Lorentzen, 2010, 2012; Chen, 2012）。毕竟，威权体制下的领导人的工作很大一部分是缓解舆论焦虑，保证不发生群体性事件威胁稳定。及时了解地方领导及其他官员的腐败、渎职等批评，这对于上级而言是十分宝贵的信息。受到批评的领导将被替换，代之以维稳能力更强的人才，确保体制及时回应民意。这种“回应性”体制（responsiveness）能够比粗暴干预新闻更有效地降低群体性事件发生率。

King, Pan and Roberts（2013）的论文研究对象范围颇广，分析了近1400个中国网站的1100万个帖子，但这篇及其他相关论文针对审查制度的定量研究仅仅是描述性的（Bamman, O’Connor and Smith, 2012; Zhu et al., 2013），其中某些结论的大前提未经检验。例如，上述研究的数据实际上已经遭受管控，许多社交网站都会设置自动审查，先将帖子放在某个缓存库，待审核后再进行发布。事后审核通常由人工进行，大约会有24小时的滞后；而事先审查则是自动、即时的，几乎没有办法通过肉眼观察来分析。重要的是，事先的自动审查程序导致既有的学术研究产生数据盲点，研究者们只能分析那些已经通过自动审查程序过滤的帖子。由此可见，观察式的研究会存在自我循环论证等问题。

为避免上述问题，并研究自动审查的具体机制，我们发起了一次大规模试验，用随机的数据分配来代替猜测。我们采取了参与式的手段，在全国许多社交网站上创建帐户，基于现有的社交媒体内容撰写文本，然后提交给各个网站。文本内容确保符合原网站的话题范围，然后随机分配不同内容的帖子，从全球网络观察这些帖子最终是被发布还是删除。此前有过小规模的非随机性试验MacKinnon（2009），但据笔者所知，本文是针对中国审查制度的首次随机性、试验性研究。

我们使用因果推断来实施随机性试验，除此以外，我们还希望扩充关于审查机制的描述性知识——这本身就很重要，更何况，对我们的因果推断也有帮助。迄今为止，收集到的信息大多是来自于社交媒体与政府部门审查人员的匿名访谈，内容有局限性、不完整且很难搜集。我们采用亲身参与来搜集信息。所以，我们在中国内部设立自己的社交网站，与中国最流行的论坛服务平台签订合同，提交、自动审查、发布和删除我们创建的帖子。这个网站只有我们研究团队的成员才能访问，以避免影响研究对象或介入既有的中国社交媒体话语。我们得以使用审查软件的交流论坛，与技术支持人员讨论，获得他们的建议。这些“采访”的信息量很大，因为回答软件技术问题正是他们的本职工作。

在本文的第二部分，我们将概述试验的设计框架，以及安装、执行过程中意想不到的实际困难（附录A亦有论述）。这部分还描述了我们在创建社交网站过程中的观察，审慎地界定我们的试验平台。我们发现，许多地方性社交网站在实施政府的审查原则时具有极大的灵活性和丰富的技术手段。第3部分陈述了试验结果，第4部分将群体性事件理论推向极致，以寻找其理论适用范围。总之，我们发现群体性事件理论有着充分的证据支持，但各大网站在落实审查原则时的自由度超乎预期，此前通过观察式研究无法侦测的事先审查机制也具有一定的选择性。通过上述研究，我们得以揭示审查机制的许多其他方面，以及地方领导的激励机制。我们还能够处理原来无法解释的一些问题，包括涉及反腐、外国事件、网络事件、领导人名字的帖子是否会遭到额外关照。第5部分即结论。

2 试验设计框架

对于这个阻碍信息自由流动的体制，我们进行了大规模试验、参与和数据收集，其中遇到不少困难，包括身份保密、远距离沟通、保证研究团队安全，并且我们还不能更改既有的审查机制。我们的工作人员身份已经预先获得本校机构审查委员会认可。由于众所周知的原因，我们无法揭露本试验的一些细节，但我们将说明整个过程的前因后果。

我们先讨论研究过的变量，然后描述试验的一些基本原则。

2.1 通过参与学习审查机制

我们获取了与中国政府和社交媒体审查者访谈的第一手资料。其中有些访谈含有重要信息，有些则过于偏颇或含糊。

因此，我们希望另辟蹊径获取更多信息，甚至包括改变接洽信息提供者的方式。我们在中国国内创建了自己的中文社交网站，使用各种设施、程序，并遵从中国现行法律。我们购买了URL地址，与一家公司签订合同购买网络服务器，然后与另一家公司协商，获取网络社区所必须的软件。我们自行下载、安装了该软件。这使得我们完全掌握了该软件及其支持文档，然后针对其功能进行深入的理解和应用。重要的是，我们还可以便捷地向这些公司咨询，他们十分乐意向我们讲解整个审查方式，确保我们的网站按照政府的相关规定正常运营。因此，我们没有花时间去说服调查对象，就能够与相关职员进行对话；幸运的是，他们十分熟悉本职工作。我们对该软件进行了个性化定制，自行提交帖子，然后使用该软件删除其中一部分帖子。我们尽可能地防止无关的中国网民访问本站，以免干扰真实的中国社交网络空间。

就调查资料而言，我们最惊讶的是，自动审查和人工审核的技术手段颇为丰富，超过我们原先的想象。表格1总结了其中一部分技术选项。

我们在安装该软件时发现，默认选项包括了“不审查”或“不屏蔽”。但网管们可以轻易地更改选项，选择自动审查某类用户（版主、超级用户、禁止发帖、禁止访问等）、IP抵制、新帖子、新回复——这些都可以根据论坛的具体情况而自定义设置。此外，还可以根据特定数据范围、用户名、关键字、帖子长度等因素来实施批量删帖。网管在后台可以自定义搜索，根据用户名、帖子标题和内容检索特定内容。用户的访问区域也可以自行限制：可以关闭用户的搜索功能，网管可以选择是否允许用户阅读自己被屏蔽的帖子。

我们向该软件的员工咨询何种技术最受欢迎，获得了他们的热情答复。基于他们的推荐，以及用户手册、数据分析和单独访问（包括匿名采访），我们推断，社交网站最常用的自动审查方式是关键词匹配检索，其关键词列表可能是手动更新维护（我们在逆向设置了个别关键词，见下文）。[1]

依据自身经验，我们绘制了审查程序，如图1所示。审查程序始于用户撰写、提交博文或微博。帖子要么立即发布（图中的第一个框），要么需经审查（第二个框）。如果立即发布，这个帖子可能会在24小时内经过网管人工审核，以决定继续发布或当即删除。如图1的截图所示，网管的决定和删除行为都十分清晰，毫不含糊。

接下来，网管可以（一两天内）阅读每一个帖子，决定发布（第三个框）或屏蔽（第四个框）。另外，基于过往的帖子，网管可以屏蔽某些帐号（最后一个框）。关键是，此前King, Pan and Roberts（2013）收集的数据局限于前三个框，而本次试验则可以涵盖全部五种情况。

2.2 试验方案

我们希望在没有任何建模预设条件的前提下，进行可靠的因果推断。我们的试验方案如下。首先，我们选取100个社交网站，其中包括中国排名最靠前的97个博客网站，它们涵盖了国内87%的博文。另外，还有3家微博（类似于Twitter）：新浪微博（weibo.com）、腾讯微博（t.qq.com）和搜狐微博（t.sohu.com）。前两家微博各有逾5亿用户，每天的活跃用户高达5千万至1亿。这100家网站地理位置分布于中国各地，由各级政府、国企和私企运营。其中有些网站面向全国用户，有些则只允许当地人发帖。其中一些网站规定，注册用户必须在中国国内、某个特定地方、本地的电子邮件地址或联系方式。我们在每个网站各注册了两个帐号。

本次试验的思路紧跟King, Pan and Roberts（2013）一文。那篇论文的结论不是说每一个有可能引起群体性活动的帖子都会被删除。毕竟，几乎每件事情理论上都存在引发群体性活动的可能性。其真正的结论是，（无论支持或反对政府的）帖子，只要涉及到群体性事件就会被删除。群体性事件是指：“（a）包含线下的抗议或人群聚集；（b）涉及到过去曾经组织、煽动群体性事件的人；或（c）涉及到过去曾引发抗议或群体性活动的民族主义情绪。”（King, Pan and Roberts, 2013, p.6）.

我们共进行三轮试验（分别是2013年4月18-28日，6月24-29日，6月30-7月4日）。每一轮试验一开始，我们搜寻那些引起社交媒体大量讨论的新闻和群体性事件。我们把群体性事件与非群体性事件按照1：2的比例分配，因为群体性事件相对较少，我们用不同的非群体性事件加以平均。我们选择的非群体性事件均涉及社交媒体热烈讨论的中国政府、官员、共产党的相关行动。这些行动不存在发生群体性活动的可能性。我们尽量选择涉及官员名字的事件，尤其是那些存在“敏感”话题的。（我们还加入了两个极端案例。参见本文第4部分。）全部事件的细节参见附录A。此处，我们列举4个试验期间发生的群体性事件，其争议程度并不均等。

1. 一位名叫Qui Cuo的20岁母亲自焚，其葬礼引发抗议。（应为Qiu Cuo[秋措Chugtso]——译者注）

2. 福建厦门市潘涂村（原文误作Panxu——译者注）村民抗议征地补偿过低。农田被用来建造高尔夫球场。村民代表去当地政府要求补偿，但遭到拘禁。数千名村民要求释放，警察逮捕了一些村民，村民则打砸警车，拘禁村支书。

3. 艾未未在被捕两周年之际发唱片。

4. 新疆鄯善县鲁克沁镇暴力恐怖事件。

我们让以中文为母语的工作人员根据网络舆论撰写帖子，有的帖子内容支持政府，有的反对政府。我们告诉写手们事件背景和立场（参见附件A），并提供他们一些网上现成的帖子作为参考。为了减少试验偏差，我们逐句检查，确保写手们撰写的内容没有超乎现有社交媒体讨论的范畴；我们尤其注意，帖子的语言和情绪要和中国社交媒体的现状相仿。帖子内容不得雷同。所有帖子在中国时间早上8时至下午8时之间提交，根据不同网站技术要求，我们在美国或中国上网发帖。

我们感兴趣的是支持、反对政府的内容，以及群体性事件、非群体性事件的内容，由此引出4种不同类型的帖子，它们是否与审查制度存在因果关系。为了最大限度地利用每个帐号，我们每个帐号提交两个帖子。但一个帐号（相当于一个人）如果针对某一个事件一会儿发帖支持政府，一会儿发帖反对政府，那就荒唐了。因此，我们一个帐号针对两个事件发出两个帖子，支持政府的群体性事件，反对政府的非群体性事件；或者是，反对政府的群体性事件，支持政府的非群体性事件。这样，每个帐号都能适用于我们所假设的因果关系。为了得出因果推断的可靠结论，我们还保证了以下因素的随机性：（a）两个帖子的类型，（b）先后顺序，（c）群体性事件与政策性事件随机分配。倘若帐号失效，或帐号因为此前的帖子被封，新提交的帖子可能会遗失。由于本次试验的随机性，帖子遗失的情况基本上会是孤立事件；我们试验的结果证明的确如此。

我们涉及的100个网站各自有其独特的网民表达方式。我们尽可能让每个帐号在网站主页上发帖。对于论坛，我们尽可能在最受欢迎的论坛板块开帖。如果网站不允许开新帖，那我们就在与事件最相关的帖子下面进行回复。我们尽可能跟随现有信息撰写内容，追随社交媒体、网站和文化风气的导向。我们总共人工撰写了1200个帖子，每一个都单独成篇、互不影射。

我们提交帖子之后，开始观察它是否（自动）接受审查；如果存在审查，那就看它会不会被发布出来，什么时候发布出来；如果自动审查程序没有过滤掉它，那就看它会不会被人工删除。一旦帖子成功发布在网上，我们记录下URL（网页地址——观察者网注），并检验是否存在审查。我们记录下审查结果。整个过程如图1所示。

我们总的目标是，防止外人看出来我们发帖是为了做学术研究，让自己看起来和其他网民没有任何差别，不干涉社交媒体原有的生态系统。我们还要确保自己的检验手段不会妨碍网站审查程序。截至本文发表前，还没有任何外人察觉到本次试验，也没有人怀疑我们发出的帖子的真实意图。

3 试验结果

我们发现，总的来讲，自动审查机制影响了中国很大一部分社交媒体的生态。我们采样的100个网站中，有66个网站（自动）审查了提交的新帖子。我们提交的所有帖子中，有40%的帖子（在实行自动审查程序的网站中，这一比例更大，达52%）会被列入审核状态。被列入审核状态的帖子中，有63%的帖子最终未能发布出来。因此，审核影响了中国网民的发言，值得学术研究者们关注。我们现在进一步考察审查机制的变量，然后再研究审核机制。

3.1 审查

我们采用更大的样本验证“群体性事件理论”。该样本未受到自动审查程序选择的影响，而且是随机选取的。图2左图中的黑点代表四个孤立事件的帖子和审查之间的因果关系，我们用点估计（用样本指标数值作为总体参数的估计值——译者注）的方法进行了统计。垂直线段的置信水平是90%（即各数值有90%的可能落在这条线段上——译者注）。结果差异很大，高达20至40个百分点（如垂直线段所示），而这仅仅取决于帖子描述的是群体性事件还是非群体性事件。（图2的纵坐标“审查差异”指的是，煽动群体性事件的帖子被审查的比例减去不煽动群体性事件的帖子被审查的比例——译者注）

我们还进一步研究了图1中其他的决策路径。首先我们估算群体性事件（和非群体性事件）帖子和审查之间因果关系的中间变量（Imai et al., 2011; Pearl, 2001），我们发现几乎所有的结果都不受自动审查的影响：其可能性仅为0.003，置信区间是（-0.007，0.016）。上述每个事件的结果如图2中右图所示，都接近于零，置信区间也很小。因此（这里作为中间变量的）审查是全自动的，而且不受其他相关变量的干扰。跟其他关键词自动审查一样，其大规模应用的效果并不好。而实验结果甚至显示，似乎审查者常常忽略这种方法，至少没有从中获得什么有用的信息。（我们在下一节详细研究这个问题）

群体性事件与审查之间的因果关系很明显，与上述方法类似，图3用4个群体性事件和8个（非群体性）政策性事件来检验“国家批评理论”。黑点代表每件事情中，支持政府和反对政府的帖子被审查的比例的差值，我们用点估计的方法进行统计。可以看出，所有的点都很接近横坐标轴，6个在上，6个在下。而且有11个点的置信区间都穿过了坐标轴。要特别注意，没有迹象表明反政府的帖子受到更多审查，即使是尤其敏感的事件或提到国家领导人名字时也是如此。

3.2 自动审核

结果非常明显，群体性事件理论比批评国家论更站得住脚。自动审查程序对支持该假设的证据的影响微乎其微。我们现在回到图1中的决策树，直接研究自动审查程序。

我们首先注意到有的网站并未启动自动审查程序，且不同网站之间的审查方法千差万别。我们在创建自己的社交网站时也发现了这一点。我们的软件不仅有是否开启审核的选项，还有多种多样的审查标准。

为什么政府在自上而下的专制统治中，允许自由选择多种多样的审查方法呢？为了回答这个问题，我们仔细研究了社交网站上控制信息的多种软件平台和插件。我们目前的结论是，政府是在（很可能是有意）促进审查科技的创新和竞争。通过权力下放鼓励创新，这在中国很常见（Blanchard and Shleifer, 2000; Heilmann and Perry, 2011; Qian and Roland, 1998; Qian and Weingast, 1997）。

通过对内部人士的采访，我们还发现，具体的审查要求和政府对社交网站运作实施干预的规则存在很大的不确定性。这一点在跟政府联系不多的小网站上尤其突出。这种不确定性部分是为了鼓励创新，但在某些情况下也是一种控制手段——模糊的界限比清晰的界限更容易让人却步。

我们从了解社交网站使用的自动审查程序入手，开始了系统的实证研究。图4表示被审查的帖子比例分布直方图。我们将网站按所有权的不同分成三类。图中可以看出，政府网站审查帖子的几率最高，其次是国企网站，最后是私营网站（这类网站往往拥有最大的用户群）。

为什么政府网站要在自动审查之后才发布帖子，而私营网站先发布再审核？根据我们目前掌握的定性证据，原因在于发布违规帖子面临的惩罚不同。一个政府网站的工作人员若不能阻止群体性行为，可能会立即丢了工作；相比之下，私营网站的员工若犯了同样错误，一般不会直接被政府开除。

确实，听话、不犯错是公务员的“光荣传统”，即便这样做的代价是效率低下（Egorov and Sonin, 2011）。相比之下，私营网站有动机去尽可能多地更新，这样才能吸引更多用户。私营网站当然有可能被整体关停，但这种“核打击方案”用得并不多，更多的是对网站管理者的一般性压力。

这些政府网站主要审核什么呢？我们用图2和图3中采用的类似方式测试审查的最终变量（即不考虑中间变量），分析自动审查对群体行为以及支持和反对政府的帖子的效果。图5是结果：共产生了4个正面效应的结果，但是有两个很小，还有3个的置信区间包含负值。假如审查者的目的是截获群体性事件，那么自动审查最多只是帮了一点忙。虽然关键字算法可能通过编辑，对特定案例有很好效果，但当广泛应用时，这种方法往往敏感度低，且针对性差。

图6中支持/反对政府帖子的因果关系也很有趣。它们的值都很低，且绝大多数置信区间包括0。事实上，如果这里面存在零和博弈，那支持政府的帖子被审核的数量比反对政府的帖子还要多！确实，12个里面有9个点是大于零的，有两个的置信区间甚至完全在横坐标之上。这有点费解：政府社交网站倾向于推迟发布支持政府、领导人或政策的帖子。而私营网站基本不用自动审查程序。这是为什么呢？我们发现答案依然是非常不精确的关键词算法程序。

为了弄清个中原由，我们逆向倒推中国关键词算法程序，希望找出被审查的帖子跟未被审查的相比，究竟包含了哪些关键词。由于词语的数量远远多于帖子的数量，我们无法一个个找到这些词语。不过，通过使用“词频、逆文档频率”算法（Salton, 1988; Kelleher and Luz, 2005），我们找出了跟审查高度相关的词汇。具体而言，我们记录被审查的文档中每个词语的使用次数，然后除以未被审查的文档中同一词语出现的次数。这样就能计算出被审查的帖子中每个词语的词频。这一数值越高，该词语就越有可能是关键词。

根据我们的估计，表2所列是自动审查程序中使用最多的关键词。从这些词汇貌似可以发现群体行为，同时涉及政府及其行动。但这些词汇在支持和反政府帖子中出现的可能性是一样的。比如，图4中反腐政策话题，支持帖比反对贴被审查的更多。这或许因为前者使用了更多的“腐败”。但是腐败一词也会用在赞扬新政府铁腕反腐的帖子中。使用自动审查程序的网站很少，即使使用，往往也是无效的。它还可能产生反作用，延迟发布支持政府的帖子。

我们还能检验这些关键词的准确性。在开办网站的过程中，我们获取了一张审查关键词表。这是一个软件商给其社交网站客户提供的。这张表截止到2013年4月，之前发生所有事件的关键词都在上面。

这样看来，政府社交网站的员工是非常害怕冒险的，为此他们不惜采用最易出错的自动审查，以此自保。但他们显然明白，不能把自动审查太当回事，所以人工审核依然很普遍，而我们的实验结果也表明，自动审查并不影响群体性事件和审查决策之间的因果关系。

4 极端案例

现在我们来定义群体性事件理论的外延。我们选取接近但不包括在该理论中的案例。第一个案例中发生了群体行为，但仅发生于互联网。2013年5月底，海南万宁二小校长因带6名小学女生去宾馆开房被警方带走调查。中国一位女权运动领袖叶海燕前往万宁二小，手举标语，上写“校长，开房找我，放过孩子们！联系电话：12338（叶海燕）”。叶海燕的抗议引发关注，而“校长，开房找我”也成为网络热词，网民们上传自己的照片，用同样的标语，但他们留的电话号码往往是110。

第二件事发生在2013年7月1日，这天是香港回归16周年纪念日。每年的这个时候，香港会有数千人游行抗议，但大陆往往不会发生类似的抗议。2013年，大约3万人（警方提供数据）到43万人（组织者提供数据）走上街头呼吁施行真正的民主，并要求香港特首梁振英辞职。上述两个“边缘”案例都不满足第二节对群体行为的定义，但它们显然很接近。我们对此进行实验，结果如图7所示。两件事的总体因果关系接近于0，其置信区间都包含0。只有关于香港抗议的帖子和审查之间呈现些许正相关，但考虑到数据的可变性，2和3跟0的差距并不明显。

最后，我们来研究描写党和政府的高级领导腐败和过失的帖子是否会受到审查。我们的群体性事件理论并不支持该因果关系，但由于腐败直接涉及领导，而领导又能控制审查，因此我们怀疑有关腐败的帖子会被审查（Bamman, O’Connor and Smith, 2012; Crandall et al., 2013; MacKinnon, 2009）。我们甚至还发现：支持政府打击腐败的帖子更容易被审查，反倒是反对政府的没那么敏感。（如图6所示）

我们选择了三个与腐败相关的话题进行分析。第一个是一项新的反腐政策，即受贿超过1万元就可追究刑责。第二个是对四川省委常委、四川省副省长郭永祥涉嫌严重违纪的调查。最后一个是在解放军著名歌唱家李双江之子李天一轮奸案。分析结果如图7右轴所示。这三个话题都清晰地显示跟审查没有因果关系。这就再次印证了我们的群体性事件理论。此外，这些话题的内容还提到了中国政府和党的领导人的名字，中央和地方都有。（见附录A）

5 结论

我们率先对中国言论审查做了大规模、随机的验证分析，我们还做了参与式研究，对审查是如何实施的做了定性、描述性分析。我们用这些方法验证群体性事件理论的正确与否，并进一步揭示中国审查制度的方方面面。了解了这些，我们就能够致力于实证分析，弥补以前统计假设的空白。我们还研究了大型的审查项目，大量的社交网站帖子在审查者决定发布或删除前都会先被打入冷宫。审查是先发后审，但自动审查采用的却是更谨慎的“先审或许后发”程序。该灵活的实验设计能让我们研究边缘案例，即处于群体性事件理论的边缘，这样我们能定义该理论的边界。这包括高度敏感的话题，如腐败、领导人的名字和互联网群体行为等。这些事件都不能用该理论验证，不能证明它们受到了较多审查。所有的假设都获得了数据的极大支持。

附录

A 话题详情

本附录为2.2章中的群体行为和非群体行为事件的细节，还收录了第4章中的两个边缘案例。我们将事件按实验顺序从上到下排列，如下表：

第一轮实验

群体行为事件1 西藏自焚详见2.2章。

群体行为事件2 潘涂村非法征地抗议事件详见2.2章。支持政府的帖子称抗议是错的，村民很贪婪，就想要钱。而反政府的帖子称当地政府官员对村民不公平。

非群体行为事件1 反腐政策：行贿超1万元人民币将入刑。支持政府的帖子对此表示支持，因为它能减少腐败。反对政府的帖子认为该政策旨在惩罚行贿者，但真正有错的是受贿的官员，而不是在现有体制下为了成事被迫行贿的人。

非群体行为事件2 取消十一黄金周

非群体行为事件3 数个城市拟征房屋租赁税

非群体行为事件4 黄灯罚款

第二轮

群体行为事件1 艾未未发新专辑《神曲》

非群体行为事件1 沪指暴跌，创4年最大单日跌幅

非群体行为事件2（腐败），四川前副省长郭永祥涉嫌严重违纪被查

边缘案例1 在网上抗议性侵儿童

第三轮

群体行为事件1 新疆抗议事件

非群体行为事件2 性别失衡

边缘案例1 香港“占领中环”运动

B 封锁

除了自动审查和内容过滤，一些账号有时会被封锁，这也是信息控制方式的一种。对此，我们没有设计实验进行研究，但我们还是获得了一些重要的信息。在我们的实验设计中，我们注册的每个账号都发布了同样数量的跟群体行为相关的帖子。此外，审查也并非无懈可击，各网站间也存在差别。图8显示的是采用屏蔽方法的网站跟审查强度的基本关系。如图所示，一旦某账户被审查的帖子数达到60%-80%，那么它被封的概率将至少翻番。

我们还研究了审查是否是群体行为帖子和屏蔽之间的中间变量。我们采用3.1节中的方法，得出审查是中间变量的可能性为0.17，有95%的可能落在（0.09，0.25）内。这就是说，不管帖子的内容如何，审查本身就为网络服务提供者拉响了警报，一旦该账户再发布冒犯性的帖子，就会被屏蔽。因此屏蔽似乎是高度自动化的措施，它是根据被审查的帖子数计算的。在很多情况下，屏蔽应该不需要单独分析或判断。

【注】

[1]一位信源告诉我们，他们建议每5万名用户设置2-3名管理员。我们由此逆向估算，可能各个公司雇佣的网管就有5万-7.5万人，这还没有包括政府体制的网管、“五毛党”和网络警察。

【参阅文献】

Bamman, D., B. O’Connor and N. Smith. 2012. “Censorship and deletion practices in Chinese social media.” First Monday 17(3-5).

Blanchard, Olivier and Andrei Shleifer. 2000. Federalism with and without political centralization: China versus Russia. Technical report National Bureau of Economic Research.

Chen, Xi. 2012. Social Protest and Contentious Authoritarianism in China. New York: Cambridge University Press.

Crandall, Jedidiah, Masashi Crete-Nishihata, Jeffrey Knockel, Sarah McKune, Adam Senft, Diana Tseng and Greg Wiseman. 2013. “Chat program censorship and surveillance in China: Tracking TOM-Skype and Sina UC.” First Money 18(7-1).

Dimitrov, Martin. 2008. “The Resilient Authoritarians.” Current History 107(705):24–29.

Egorov, Greorgy and Konstantin Sonin. 2011. “Dictators and their Viziers: Endogenizing the Loyalty-Competence Trade-off.” Journal of European Economic Association pp. 903–930.

Esarey, Ashley and Qiang Xiao. 2008. “Political Expression in the Chinese Blogosphere: Below the Radar.” Asian Survey 48(5):752–772.

Freedom House. 2012. “Freedom of the Press, 2012.” www.freedomhouse.org.

Heilmann, Sebastian and Elizabeth Perry. 2011. Mao’s Invisible Hand: The Political

Foundations of Adaptive Governance in China. Cambridge, MA: Harvard University Asia Center.

Imai, Kosuke, Luke Keele, Dustin Tingley and Teppei Yamamoto. 2011. “Unpacking the black box of causality: Learning about causal mechanisms from experimental and observational studies.” American Political Science Review 105(4):765–789.

Kelleher, Daniel and Saturnino Luz. 2005. Automatic hypertext keyphrase detection. In International Joint Conference on Artificial Intelligence. Vol. 19 Lawrence Erlbaum Associates p. 1608.

King, Gary, Jennifer Pan and Margaret E. Roberts. 2013. “How Censorship in China Allows Government Criticism but Silences Collective Expression.” American Political Science Review 107:1–18. http://j.mp/LdVXqN.

Lorentzen, Peter. 2010. “Regularizing Rioting: Permitting Protest in an Authoritarian Regime.” Working Paper.

Lorentzen, Peter. 2012. “Strategic Censorship.” SSRN . http://j.mp/Wvj3xx.

MacKinnon, Rebecca. 2009. “China’s Censorship 2.0: How Companies Censor Bloggers.” First Monday 14(2).

MacKinnon, Rebecca. 2012. Consent of the Networked: The Worldwide Struggle For Internet Freedom. New York: Basic Books.

Marolt, Peter. 2011. Grassroots Agency in a Civil Sphere? Rethinking Internet Control in China. In Online Society in China: Creating, Celebrating, and Instrumentalising the Online Carnival, ed. David Herold and Peter Marolt. New York: Routledge pp. 53–68.

Pearl, Judea. 2001. Direct and indirect effects. In Proceedings of the seventeenth conference on uncertainty in artificial intelligence. pp. 411–420.

Qian, Yingyi and Barry R Weingast. 1997. “Federalism as a commitment to preserving market incentives.” The Journal of Economic Perspectives 11(4):83–92.

Qian, Yingyi and Gerard Roland. 1998. “Federalism and the soft budget constraint.” American economic review pp. 1143–1162.

Salton, Gerard. 1988. Automatic Text Processing: the transformation, analsis, and retrieval of information by computer. Reading, Mass.: Addison-Wesley.

Shirk, Susan. 2007. China: Fragile Superpower: How China’s Internal Politics Could Derail Its Peaceful Rise. New York: Oxford University Press.

Shirk, Susan L. 2011. Changing Media, Changing China. New York: Oxford University Press.

Whyte, Martin. 2010. Myth of the Social Volcano: Perceptions of Inequality and Distributive Injustice in Contemporary China. Stanford, CA: Stanford University Press.

Zhang, Liang, Andrew Nathan, Perry Link and Orville Schell. 2002. The Tiananmen Papers. New York: Public Affairs.

Zhu, Tao, David Phipps, Adam Pridgen, Jedidiah Crandall and Dan Wallach. 2013. The velocity of censorship: High-fidelity detection of microblog post deletions. In 22nd USENIX Security Symposium.