《美国科学院院报》“反水”了？-岑少宇-观察者网

【文/ 观察者网专栏作者岑少宇】

4月8日，《美国科学院院报》（PNAS）发表了一篇文章，在国际学术圈与中国舆论场内，又掀起了些许波澜。有些媒体和自媒体在报道时，将其视为病毒溯源的重要证据；与之相反，学术界却对其有不少批评意见。

实际上，文章将新冠病毒分为A、B、C三类，认为A类最“古老”，在学术上还有争议。而认为A类在美澳分布最多，则完全是媒体翻译错误导致的。如果以错误翻译为论据，在舆论上可能反而导致不利的结果。下面就详细展开。

PNAS论文好眼熟

这篇题为《Phylogenetic network analysis of SARS-CoV-2 genomes》的文章，与之前被部分人引为“溯源证据”的两篇论文有些相似之处：即西双版纳热带植物园（版纳所）的《Decoding the evolution and transmissions of the novel pneumonia coronavirus (SARS-CoV-2) using whole genomic data》，以及多位中国科学家共同撰写的《On the origin and continuing evolution of SARS-CoV-2》。

看英文名字也许你还不熟悉，不过一提坊间流传的说法——“五毒说”和“S型、L型”，大概就知道了吧。

PNAS论文的配图

被错误归纳为“五毒说”的版纳所文章的配图

《On the origin and continuing evolution of SARS-CoV-2》的配图

三篇论文都是根据早期样本的基因差异建立网络，看着相似一点都不奇怪。只不过版纳所和PNAS的主要归类，都是依据网络的结构，而S型、L型的归类则是根据两个互相关联的位点——8782与28144，PNAS论文的网络中，A类与B类分支也正是据这两个位点形成的。

一些媒体与自媒体对文章的解读也相似，认为其中某一个类群更为“古老”，进而认为“古老”类群在哪个地方多，那个地方就可能是起源地。

遗憾的是，“古老”类型的推断并不成立。PNAS论文与另两篇论文一样，都用蝙蝠冠状病毒序列RaTG13作为参考。我在之前的文章中就指出过：

蝙蝠冠状病毒序列RaTG13与新冠病毒虽然接近，但要用来确定“祖先”还差得太远。RaTG13与新冠病毒大约有4%的差异，即1000个以上的核苷酸，而新冠病毒的差异也就十几个，根本不能确定RaTG13哪些地方与真正的“祖先型”接近。

大牛Andrew Rambaut一连喷了好几条推特，以下只是其中的三条：

这篇文章有许多地方都犯了大错，包括内容、发现结论和发布的途径。

首先是试图用蝙蝠病毒RaTG13给新冠树定根。这是最接近的非人病毒，但和新冠仍有超过1100个核苷酸的差异。然而请注意，由于某些原因，图上连到蝙蝠的分支比1100个核苷酸短些。

实际上，关于内容我想说的就这么多，根定错了，所有的结论（包括《每日邮报》里的那些）都得不到支持了。

Andrew有一条推特尤为重要，可以直观看到用RaTG13为什么错了。他用差不多时间段的156个基因组，建了一棵树（JC69是Jukes和Cantor 1969年建立的模型），图中右侧往下一串密密麻麻的，就是新冠的分支，而上面一个孤零零的红点，则是RaTG13，用相距这么远的玩意儿定根不是搞笑吗？

你可以说RaTG13是目前最接近新冠的蝙蝠病毒，但用它定根，很可能差之毫厘谬以千里，有失严谨。

在方法上，PNAS论文还广受诟病的一点是，这么晚还在用仅仅160个样本，如果是2月的文章，还说得过去，可现在还发这样的文章，迟钝得简直像IE浏览器。

版纳所等文章提前上网进一步放大了PNAS论文的滞后感，但即使忽略这一点，PNAS论文确实也没有带来多少新东西。但后者甚至没有提及这两篇已有颇多讨论的类似文章。

不过，我在这里要为论文作者说两句公道话，现在固然已经公布了大量样本基因，但一般而言，它们对溯源并无帮助。我在最近的文章里写过：

后面采集的样本其实主要是在把“树”做大，对挖“深”根部没什么帮助……最多也就是整体判断下，“大树”有没有什么“异常”。

因此，作者没有用上后来的几百上千个数据，并不是什么过错。

但早期数据的弊病，作者也没有克服。我曾说明：

中国一开始对疾病的判断限定与海鲜市场有关，美国等一开始限定与中国有关，从避免恐慌、避免挤兑医疗资源的角度来说，是可以理解的，但给溯源带来了更多困难。

现有的早期样本的比对研究，都无法摆脱这个困扰。而且样本少的情况下，稍有缺失，就会有很大影响。

早期样本的数量需要增加，但如果只是在原有数据中，稍微放宽选取的时间，是没有用的；如果新测了一些早期样本，但这些样本是按照旧原则确定的，同样也没用。简单地说，测来测去都是市场相关、武汉相关或中国相关的病例，那么溯源问题几乎不会有突破性的进展。

怎么做才有用呢？对于这样一个存在大量轻症且可自愈的疾病，需要广泛寻找更早的疑似病例检测。

可见，在这样的情况下，论文作者用的数据不多，不是什么大问题，但在数据没有根本性突破的时候，确实做了无用功。

PNAS论文当然不是“一无是处”，将古生物学已有不少应用的系统发生网络，应用到病毒进化上，算是一点小小的创新。但版纳所的文章用得更早，连软件都是一样的NETWORK（当然具体工具还是有所不同）。

系统发生网络，和一般的系统树相比，一个比较明显的特征，就是样本会出现在节点上，而树的样本出现在末端。系统发生网络在病毒进化中也许可以更好地反映出重组信息。

学术研究会有路径依赖，但我想病毒学家此前没有积极应用系统发生网络的原因，可能不只是这样。样本间两两比较地构建系统树，也许更方便将流行病学调查的数据纳入模型，而这些对病毒学研究是至关重要的。

因此，PNAS论文的这些小创新，很难得到多少喝彩。

这里插播点学术八卦。学术圈很快注意到，这个古生物学方法的迁移很可能来自作者之一、古人类学者Colin Renfrew，而另外三个是Forster一家……

这篇文章呢，正巧是Colin Renfrew以美国科学院院士的身份在自家院报上“贡献”（contribute）的。有人嘲讽说，其实夸师娘的文章都能“贡献”到院报上，我觉得有点夸张了；但“贡献”文章有相当一部分质量不高，这样的说法并不夸张。

另外，《2018 年中国科学院文献情报中心期刊分区表》把PNAS降为了2区，只把Nature和Science留在了1区。

更早几年，有人在学术论坛上说：“PNAS是美国科学院院刊，在上面发文章，美国科学院院士有一定的特权（一年能contribute 4篇），由此导致一些不规范和不公平在所难免。现在国内一些课题组有钱，常请一些美国科学院院士过来交流访问，然后通过这些院士在PNAS上发文章，接着拿着这些文章当作重大成果去申请经费，其中有些文章的水平连专业学科二类杂志的水平都达不到。特权的存在是这么多年来PNAS常被人诟病以及在一些学科领域显得非主流的一个重要原因。”

与国内的这层关系，这是不是PNAS降区的主要原因呢？这只能问中科院了。

八卦到此结束，回到正题。

媒体的乌龙

前面的讨论或许还可归为学术范畴，绝大部分媒体、自媒体工作者“无能为力”，但以下关键性误读还是难辞其咎的：论文作者压根就没有从某一“古老类群”中某地类型的多寡，去谈论起源地。

对于致病微生物来说，某些分支变大，基因多样性变高，不能单单凭此证明来源地是哪里，我之前文章里举过一个例子：

病毒在A地传播，但传播的人数有限，传到B地后，疫情失控，B地的病毒虽然晚，复制的机会却比留在A地的病毒多得多，那么复制出错的机会也就更多，基因多样性也就上去了。

PNAS论文作者当然不会犯这样的错误。我们可以比对论文原文与流传的说法，看看误读到底是怎么发生的。

作者在摘要里说的是：

A类与C类有相当多比例在东亚以外地区被发现。相反，B类是东亚最常见的类型，B类的原始类型似乎没有传到东亚以外，直到最初的突变产生B类衍生型后才传出去。这一现象指向奠基者效应或东亚以外对B类原始型在免疫上或环境上的抗性。

显然，作者在摘要里压根没有提到A类的具体分布，只是简单分为东亚和东亚以外。

作者在正文里说的是：

根据同义突变T29095C（注：就是29095这个位点，有T和C两种突变），A类可以明显分为两个子簇。在T突变子簇里，四个中国个体（来自华南沿海省份广东）携带原始类型，三个日本和两个美国病人与之不同，有一些突变差异。据报告，这些美国病人都在推测是爆发源头的武汉有居住史。

C突变子簇里有相对长的突变分支，包括五个武汉个体，其中两个显示在原始节点里；还包括8个来自中国和邻国的东亚人。然而值得注意的是，C突变子簇里几乎一半（33个里面的15个）的类型，在东亚以外被发现，主要在美国和澳大利亚。

一些媒体、自媒体说A类“更多的”或“主要”是在美国、澳大利亚，实在离谱。仔细看原文就能发现，作者讲到美澳时，只是提了其中一个子簇，而东亚以外的样本，甚至还不到这个子簇的一半。

我都怀疑作者是不是写错了，在那张圆圈大小代表的样本数没有具体标注、T子簇与C子簇也没有标注的烂图上，根本看不清楚啊，一下子还真数不出15/33。

我干脆下了数据表格看，给中国的标上红色，总共12个，包括台湾、香港各1，给美国的标上蓝色，给澳大利亚标上紫色，给欧洲标上绿色。作者原来没写错，非东亚还真是15/33，其中美国7个，澳大利亚5个，两者相加比C子簇总数的1/3，也就是11个多1个。

所以，美澳的“主要”是指A类中的C子簇中的非东亚样本中的“主要”。可一些媒体和自媒体，竟然直接把中间内容全部砍掉了。

此外，从上面两段引文里还可以看到，作者指出A类T子簇、C子簇的原始类型，中国都有份。不管A类是否真的“古老”，从这篇文章中，也无法得出令人满意的关于起源的确切结论。

早在探讨版纳所论文时，就有不少学者指出，美国和广东最早的病例，虽然因为有争议的定根而被误认为更“原始”，但都有武汉旅行史，而且发病时间晚于武汉早期病例。所以，很难说是从那里传到武汉的。

但我们也不能断言，就一定是武汉传过去的，新发现一批早期样本，就有可能产生颠覆性的结果。

这可以充分说明，如我前面所言，早期样本缺失带来了多么大的困境。

总体而言，这篇论文和先前的类似论文一样，由于方法上的缺陷，在学术圈“收获”了一堆批评，而媒体则由于误读，又闹了一次乌龙。

科学的结论依然是，根据现有证据，不知道新冠病毒确切的起源。

政治与科学

有的朋友也许会问，新冠病毒起源问题已经政治化了，怎么能就科学谈科学呢？

然而，科学问题是基础，如何做出政治决策是要建立在科学基础之上的。舆论战就是战争，你可以把各种论据比作弹药，科学家和科普工作者就是弹药专家。他们有义务告诉指战员们，哪些弹药威力巨大，哪些弹药可能是哑弹，哪些弹药甚至可能会炸膛。至于在了解弹药性能后，指战员如何使用，那就是政治范畴了。

以这篇PNAS论文为例，如果说学术上有争议的内容还只是有“哑弹”的可能，那么翻译错误导致的误解，恐怕就要炸膛了。

你也可以把一篇论文，视作舆论战的一处战场，科学家和科普工作者的任务就是勘察战地，必须报告指战员：哪些地形有利，可以大作文章；哪些地形不利，不妨避战；还有哪些地形可能依然处于迷雾中，情况不明，需要慎重对待。

但是地形不利，地形不明，或许也可以“兵行险着”，也可能会取得战果，这些应该是政治决策者的工作。

反过来说，如果科学家和科普工作者，出于某种政治目的，刻意错误解读论文，也就是给出了错误“情报”。这样不仅没有干好自己的本职工作，反而有越俎代庖之嫌。

也有的朋友或许会说，那这些情报完全可以写内参啊，为什么要在公共领域里发布呢？

这也许要归结为新媒体时代的特殊性。如今的舆论战有官方和民间两种力量。“民间武装”可以当好一个免疫系统，与癌细胞（境内谣言）和病原体（境外输入谣言）作斗争。现在，极少数“民间武装”还有走出国门、反驳谣言的可能。

“民间武装”的这些行动，同样需要“情报支持”。然而，他们不受官方节制，与官方不通情报，如果科学家和科普工作者只通过内部渠道向官方提供信息，这些“民间武装”就得不到可靠的“情报”。

因此，在公共平台上，还是有必要坚持科普，坚持实事求是。至于“民间武装”收到情报后，如何决策，如何行动，那是他们的权利。

也有人担心，这些“情报”不会被别人利用吗？当然有可能，但因此而闭塞信息，实在不符合互联网精神，也没有更好的办法，向这么广大的“民间武装”提供情报。

而且，目前没有证据证明任何一个国家是病毒源头，这些“情报”并不能被敌人用作实锤。有些美国人倒是想“兵行险着”，妄言源头，妄用名称，已经吃了从WHO、中国到美国国内反对派的很多批评。

最后不得不提的是，政治化也许已经彻底阻绝了找到源头的可能。如前所述，要找源头，最需要的是突破早期诊断标准的限制，各国都应该去“偷坟掘墓”，但政治化后，恐怕谁都不想去做“吃力不讨好”的事。

政治化真真切切地阻碍了“人类卫生健康共同体”的构建，这一共同体事关每个人的福祉，谁有理由不谴责这样的政治化呢？

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。