你们的豆瓣电影评分数据暴露了国产烂片哪些真相？-观察者网

2016年中国电影市场继续保持火热，影片数量和票房都再创新高，越来越多的资源融入到这个欣欣向荣的行业。与此同时，我们还是常常被烂片刷屏，佳作一片难求。数据侠Souseki爬取了豆瓣电影上的数据并进行分析，结论是：国产电影的质量一直在下滑，一些演员更是在烂片的坑里越陷越深。

图片来源：视觉中国

为了看看国产电影的整体表现，我抓取了2000年到2016年的豆瓣电影条目里有“中国”标签的全部数据，之后对数据进行了清洗：比如剔除信息缺失严重的样本，筛掉综艺节目、脱口秀、晚会、演唱会等类型。

由于时间等客观因素的限制，此次分析的数据样本不一定覆盖了所有时段的所有国产影视作品，但是基本囊括了主流作品，具有一定的代表性，算是一个对总体的简单随机抽样吧。

首先根据样本数据画了个散点图，横轴表示时间，纵轴表示豆瓣评分，散点的大小表示该作品的评论人数，点越大，表明评论人数越多。红色曲线展示了2000年1月到2016年12月，每个月上映的所有作品平均分的走向。

从这张图可以明显看出，2000年到2016年，国产影视作品的平均分走向是曲折的、迂回的，但总体趋势是倒退的、下降的。

纵然，以豆瓣的平均分作为每个时段的评价指标有很大的局限性和片面性。

对于观众而言，一个月即使烂片扎堆，只要还有一部不错的作品，人们就不会对这个月的观影体验打太低的分。不过，平均分作为一种总体评价指标也有重要的可取之处，至少它会提醒我，这个月真的有很多烂片。

我还制作了一个视频，展示2000到2016年的192个月里每个月的影视作品得分分布，以及当月的平均分。

为了增加动态效果，同时也为了减少点和点之间的重叠，我给散点增加了0.2个单位范围的随机扰动，所以每一帧图同一个点的位置可能存在细微差别。这条时间序列曲线可能存在某种固定的周期波动，有兴趣的朋友可以再细致分析下它的长期趋势和周期变化，这里先不做展开。

限制级题材片水平有待提高

豆瓣上的电影都会有相应的类型标签，例如剧情、惊悚、战争等等。在我抓取到的样本数据中，共有30个类别。下面这张图展示了平均得分最高和最低的五个类别。

得分最高的5个类型是戏曲、纪录片、西部、短片、历史。

戏曲类影片的平均得分这么高是很多人想不到的。作为中国特有的艺术表现形式之一，戏曲类的影片常常表现出较高的艺术性。但由于受众基础不大，往往容易被大家忽略。

另一个常出佳片的国产电影类型则是纪录片。天朝还是有很多优秀的纪录片和纪录片导演的，像前不久，范俭执导的《摇摇晃晃的人间》和王久良的《塑料王国》就在阿姆斯特丹纪录片电影节上获奖。

（图片说明：《大明王朝1566》电视剧宣传照；图片来源于网络）

另外，中国历史题材的电视剧也有不少佳作，《大秦帝国》、《大明王朝1566》、《康熙王朝》、《走向共和》、《大宅门》等在豆瓣上都有很好的口碑。导演用心、剧本扎实、演员有实力，评价自然不会差。

得分最低的5个类型是灾难、冒险、恐怖、情色、惊悚。

个人感觉，上世纪八九十年代，中国大陆有很多恐怖片确实蛮吓人的，之前网上流传的89年版的封神榜也是极其瘆人。

与纪录片、历史剧这类比较“正”的题材不同，限制级题材的电影天生自带猎奇属性。很多观众喜爱惊悚、情色、恐怖类的影片，某种程度上，是为了满足个人的想象空间。

然而，一味追求猎奇而忽略了故事、人性等电影的基本要求，只会不断出现假、大、空的“伪电影”，被人诟病也就在所难免了。

最受关注的演员和导演

我把每位演员参演的所有作品的评价人数进行累加，得到了评价人数之和，也就是计算了所谓的“关注热度”。

在累加的过程中，每部作品对所有参演演员的权重都是一样的，也就是说不区分主角和配角。

当然，这种计算方法有值得商榷之处，因为你当时看这部片子时只是冲着你爱豆去的，并不care其他演员，不过，你必须承认的一点是，他们确实与你混了个脸熟。

下图列出了最受关注的演员前20名，同时列出了其参演的所有影视作品的平均得分。

最受关注的演员前5名是，林雪、黄秋生、陈坤、刘德华、古天乐。林雪这个名字，乍一听可能陌生，但他那张脸，你应该再熟悉不过了。

就是他。

（图片说明：香港演员林雪；图片来源于网络）

导演方面，冯小刚、刘伟强、麦兆辉、杜琪峰、张艺谋是最受关注的5位导演。演员林雪正好是杜琪峰执导影片中的常客，导演的作品如此受关注，演员自然也沾光。

在列出的这20位导演中，姜文、王家卫、宁浩的作品平均得分最高。又要看的人多，还要大家都说好，确实不是件容易的事呢。

在样本数据中，我还将每位演员参演作品的数量和导演执导作品的数量进行了统计，评选出了劳模演员和劳模导演，让我们看看他们都是谁吧。

（图片说明：左图是劳模演员，右图是劳模导演）

到底谁演了烂片?

描述做完了，还想跑个回归。

线性模型中以豆瓣评分作为因变量，另外再加俩logistic模型，根据豆瓣评分划定下“及格线”和“烂片”标准。

在我的样本中，豆瓣评分均分是6.25，那么就以6.25分作为及格线，得分大于6.25分的作品才算及格。但把得分低于或等于6.25分的作品称作烂片似乎有点严苛，所以我以平均分减去一个标准差的结果（4.29）作为划定烂片的标准。

根据个人的兴趣和喜好，我加入了以下导演、演员和其他控制变量。

在导演和演员变量方面，黄晓明、杨洋、吕中获得了在三个模型中都显著的殊荣。不过吕中老师在三个模型中估计系数的符号与另外两位演员刚好是相反的。

以黄晓明为例，他在OLS模型中的估计系数为-0.557，在0.05的水平上显著，这表示在其他条件都不改变的情况下，一个影视作品若有黄教主参演，那么它的豆瓣评分将平均降低0.557分。

杨洋同学同理，不再赘述。

值得一说的是，吕中老师在模型中的估计系数刚好与其他两位演员相反，这表示，一个影视作品若有吕中老师参演，那么它的评分将平均提高0.73分，同样根据剩下两个模型，我们也可以判断，吕中老师参演的作品其豆瓣得分更有可能在及格线以上，以及更不可能成为烂片。

所以，在我选取的这些演员中，与烂片显著相关，以及参演作品得分明显较低的演员有：黄晓明、杨洋、陈学冬、杨颖、范冰冰等。

而参演作品豆瓣评分明显较高的演员有：吕中、倪大红、陈宝国、陈道明等。

当然，这里我们不能进行粗暴的因果推断，即认为某某参演的电影或电视剧就有可能成为烂片。

以上分析只是体现了一种相关性，也就是说在既定事实中，某某参演的作品确实评分较低，但这种低评分或许有其他原因导致也未可知。