Anthropic“过于先进,不予展示”的能力,被中国开源模型放出来了
来源:观察者网
2026-04-10 16:41
(文/陈济深 编辑/张广凯)
4月7日,Anthropic官宣了新模型Claude Mythos Preview,但罕见的表示不对外发布。理由八个字就能说清:“过于先进,不予展示”。
Anthropic在公司主博客和同步发布的系统卡里都写明,Mythos在编码和网络安全两项上对现有所有模型实现了代差级的领先:SWE-BenchPro拿到77.8分,比目前公开的最强模型Opus4.6高了20个百分点。
这是Anthropic这两个星期里第三次把开发者往外推。
3月23日开始,Claude Code用户在社交平台集体投诉自己的额度被烧得异常快。最广为流传的一条吐槽是:有人发了一个hello就用掉了13%的session限额。一位开发者反编译了ClaudeCode的二进制自己找出了原因,是ClaudeCode内部的两个bug把token消耗悄悄放大了10到20倍。
Anthropic在社区上的回应只有一句话:“我们注意到了,正在调查。”随后一切便石沉大海。
4月5日,Anthropic又出了一刀。公司单方面宣布Claude订阅不再覆盖OpenClaw(龙虾)等第三方编码工具,社区里几个最常用的Claude Code替代品被一刀切。Pragmatic Engineer作者Gergely Orosz在X上那句被转了几千次的话是:“Anthropic真的在一点点烧光开发者的好感。”
4月7日,Mythos发布。普通用户连看一眼的资格都没有。
Claude Opus 4.6在过去几个月里一直是全球最强的公开AI编码模型。最接近它的挑战者是智谱2月发的GLM-5。
就在次日,智谱发布了GLM-5.1,并直接把模型开源了出去。在SWE-BenchPro这个最接近真实软件开发场景的工程基准上,GLM-5.1拿到58.4分,超过Anthropic自家的Opus4.6(57.3)、OpenAI的GPT-5.4(57.7)、谷歌的Gemini3.1Pro(54.2)。
在Anthropic一直最强的那个工程榜单上,把Opus4.6挤下来的,是一个中国开源模型。
美国闭源,中国开源
Mythos在网络安全方向上的能力比它的编码能力更让人不安,这也是Anthropic决定不让它对外发布的真正原因。
Anthropic公开的报告里给了一组示例:它能自主发现一个潜伏在Linux内核里23年没被找到的漏洞,能在27年前的OpenBSD代码里挖出可利用的bug,能在被全球安全研究人员扫描了500万次都没有发现问题的FFmpeg代码里找出一个16年前的漏洞。
最有代表性的一个测试是:在没有任何提示的前提下,让Mythos独立攻击一台FreeBSD服务器,4小时之后、烧掉50美金的token,它拿到了root权限。
更让Anthropic警觉的是另一个测试结果。研究人员让Mythos试着突破测试沙箱,它不仅做到了,还在没有任何指令要求的情况下,主动把自己用的攻击细节发布到了几个不容易被搜到、但技术上对公众可见的网站上。Anthropic自己在报告里的描述是“一种令人担忧的、未经请求的展示行为”。
这是过去只有国家级黑客团队能做到的事情。
也正是因为这个表现,Anthropic决定把Mythos锁起来。配套动作是一个叫Project Glasswing的封闭项目。Anthropic联合Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、Nvidia和PaloAlto Networks这11家美国科技和金融巨头,由Anthropic提供1亿美元的使用额度,让这些公司闭门用Mythos帮各自修补关键基础设施漏洞。
11家公司,1亿美元,最强的那把刀只在他们自己人之间传。
让Anthropic决定把Mythos锁起来的那项核心能力,是网络安全编码。而这正是GLM-5.1这一次进步最猛的能力。在CyberGym基准上,GLM-5.1从GLM-5的48.3分提到了68.7分,涨了42%,是所有单项里涨幅最大的一项。
在智谱开源发布GLM-5.1 模型12小时之后,智谱在X上的官方推文有370万阅读。HuggingFace的CEO Clement Delangue公开转发祝贺:“SWE-BenchPro上表现最好的模型现在在HuggingFace上开源了。”
AI领域知名开发者Akhaliq发了同样的话。Reddit的r/LocalLLaMA论坛置顶了一个帖子,标题就是“为什么最近这么多人在用GLM”。
美国分析机构Constellation Research在评论里写得更直白:开源模型这条赛道现在是中国模型的主场,Google上周才发的Gemma4,NVIDIA在推Nemotron系列,美国玩家在开源这条路上已经掉队,正在试着挤回去。
睡觉时,AI替你打了一晚上工
中国模型主导开源赛道这件事,最直观的证据是GLM-5.1现在能干一件以前没有任何开源模型能干的事情:让AI独立工作一整个晚上。
工程师把一份只画到架构层面的草图扔给GLM-5.1,然后直接睡觉。早上8点起床打开屏幕,GLM-5.1已经独立工作了8个小时,执行了1200多步。一套完整的Linux桌面系统摆在面前:桌面环境、窗口管理器、文件浏览器、终端、状态栏、网络驱动、VPN管理器、中文字体支持,4.8MB文件,附带50多个能直接打开的应用。智谱内部估算,这相当于一个四人团队工作一周的产出。
整个过程没有人介入。GLM-5.1自己规划任务步骤,自己写代码,自己跑测试,遇到bug自己排查、改、重新跑,还给自己写的代码补了一套回归测试。
要让一个模型连续工作8个小时不崩溃,光靠它写代码的能力强是不够的。它每走一步都要决定下一个工具用什么,每过一段时间都要处理上下文塞满的问题,每遇到一个错误都要自己定位、回退、重试,1200步之后还要记得最初的目标。这一整套发生在模型之外的工程基础设施被业内统一叫做harness。
Anthropic自己的Claude Code之所以能跑长任务,靠的就是51万行TypeScript围绕模型构建的这套harness。一位工程师BojieLi在最近一篇拆解ClaudeCode源码的博客里把这件事说得很直接:“模型能力正在趋于商品化,竞争优势正在转移到模型之外的工程实践上。”
GLM-5.1能在一个晚上跑完1200步、交付一套完整Linux系统,意味着智谱在长程任务的harness工程上跨进了Claude Code同一个梯队。过去一整年里,大部分中国模型在这一层都还没跨过去:单步代码质量可以接近Claude,但跑到第200步就开始忘记前面的约束,开始在自己积累的噪音里迷路。
AI安全机构METR把模型独立工作多久叫“任务完成时间线”,这条时间线在前沿模型上大约每7个月翻一倍。8个小时是目前全球只有两个模型够得着的数字:Claude Opus4.6和GLM-5.1。其中一个被锁在Anthropic自家的Claude Code里,按token付钱、忍受hellobug、被随时切断第三方工具支持。另一个挂在HuggingFace上,所有人都能下载到本地自己跑、自己改、自己接进任何一个开源harness里。
全国产芯片路径
挂在HuggingFace上的这份GLM-5.1权重,是智谱在过去三个月里一条更长的国产芯片路径上的最新一站。
去年这个时候,业内对国产芯片训练前沿大模型的判断基本统一:跑得通就不错了,性能上肯定要打折,做做实验可以,做正经的旗舰模型还差点意思。
时间往回推三个月。1月14日,智谱联合华为开源了图像生成模型GLM-Image,基于昇腾Atlas800TA2设备和昇思MindSporeAI框架,从数据预处理到最终模型收敛,全程都在国产堆栈上完成,没有一块NVIDIAGPU、也没有一行CUDA。这是当时业内首个在国产芯片上完成全流程训练、性能达到SOTA水平的多模态模型。一个月后,2月11日的GLM-5上线,完成了和华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光七家国产算力平台的全栈适配。七家全部国产,没有NVIDIA。到了4月8日的GLM-5.1,智谱在华为昇腾上做了更深的优化,单节点性能接近双卡国际集群。
智谱用GLM-Image证明了国产堆栈能训前沿模型,用GLM-5证明了国产堆栈能稳定服务大规模用户,用GLM-5.1证明了国产堆栈的实际部署效率正在追平英伟达。
模型再度涨价
发布GLM-5.1的同一天,智谱还做了另一件事:把GLM系列的API价格再次上调了10%。
这不是智谱今年第一次涨价。2月12日发布GLM-5那天,智谱已经把CodingPlan涨过一次30%起。当时上海证券报把这个动作称为“2026年国产大模型涨价第一枪”。从GLM-5那次到GLM-5.1这次,智谱在2026年第一个季度里API价格累计涨了83%,调用量不降反升,反而增长了400%。
智谱并不孤单。3月13日,腾讯云调整了混元系列大模型定价,部分模型涨幅超过460%。3月18日,阿里云和百度智能云同日发布调价公告,AI算力相关产品涨幅5%到34%。从智谱2月12日打响第一枪开始,整个国产大模型行业在2026年第一个季度集体进入了涨价周期。智谱用的是华为昇腾,单位算力成本目前还不占优势,反而更紧。智谱敢做这一波涨价的带头者,靠的是对自己模型能力的信心。
定价逻辑变了。在新的逻辑里,模型按它能跑出来的价值定价。能跑8小时长程任务的模型和能回答一句话的模型,本来就不应该是同一个价。中科曙光高级副总裁李斌对经济观察报说得更直接:算力系统的评价指标正在变,过去看一个系统有多少算力,现在看它能多么经济地产出token。
GLM-5.1涨价10%之后,Coding场景下的缓存命中价格已经和Anthropic旗下ClaudeSonnet4.6持平。这是国产大模型第一次在核心场景的定价上和海外头部厂商对齐。
资本市场用真金白银做了背书。GLM-5.1发布当天,智谱港股盘中最高涨超18%,收涨15.21%报897.5港元,市值站上4000亿港元。第二天继续冲高,盘中触及999港元的历史新高。国元证券给出的判断是,智谱的表现逐步验证了大模型厂商的商业化潜力,产业有望从投入期进入回报期。市场把智谱当成了token经济学的代表。
截至2026年3月,GLM已经全面部署在Google VertexAI、AWS Bedrock等海外云服务商,在OpenRouter的付费模型排名第一,是Windsurf、OpenCode等海外编码平台的默认模型。中国前10大互联网公司里有9家深度集成GLM。当全球开发者都在用一个模型的时候,这个模型就是行业的基座。
Anthropic服务的从来不是你
Anthropic选择把Mythos当作一次内部的能力宣告:发布技术报告,把模型本身留在11家美国巨头组成的封闭俱乐部里。这份合作伙伴名单和Anthropic自己的toB核心客户名单几乎完全重合。
Anthropic从一开始就不是一家面向个人开发者的公司。它的主要收入来自企业级合同,给云厂商、金融机构、政府部门提供定制化部署。Claude的Pro和Max订阅对它来说是流量盘子和公共形象的一部分,不是营收主力。
Claude Code的额度bug拖着不修不解释,本质因为受影响的是个人开发者,不影响企业合同的执行。砍掉龙虾等第三方工具的订阅支持,因为这类工具的目标用户不是企业IT部门而是那些“浪费”企业资源的个人开发者。把Mythos锁起来只给11家公司用,因为这11家本来就是Anthropic真正服务的对象。“太危险”是公开的理由,更准确的描述是:最强的能力,留给付钱最多的客户。这是一家to B公司理性的商业选择。
智谱给出的答案完全相反。Mythos被锁起来的次日,GLM-5.1 的权重就出现在 Hugging Face 上,任何人都能下载。
过去几年开源模型一直背着一个注脚:性价比有余,但性能不顶尖。开源的GLM-5.1反超了闭源的Opus 4.6证明了一件事,模型平权不需要以牺牲性能为代价。