2026答案秀·思想者春晚|曾毅:假装对齐价值观的AI,该如何治理?
来源:观察者网
2026-01-27 14:14
观察者网“2026答案秀·思想者春晚”在1月17日举行,在《AI与政治:走向超级智能的治理之路》版块,中国科学院自动化研究所研究员、北京前瞻人工智能安全与治理研究院院长曾毅,发表了题为《从人工智能安全到超级智能治理》的演讲。以下为演讲全文。
曾毅:
很高兴到观察者网,跟我们线下的嘉宾交流。我是做人工智能工作的,虽然国际关系的主题我并不陌生,但我确实不是专家。
但是我觉得有一点好处,因为国际关系专家都在从国家的角度出发,讨论未来的世界关系的时候,我完全不这么看。
如果不从国际关系的角度来看,我们到底在讨论的是民族主义、本土主义?还是在讨论人类命运共同体?
我刚才听到的,中方专家的观点都是,这个世界在处理国际关系问题的时候,不需要民族主义和本土主义,优先需要的是人类命运共同体。
世界大同,和合共生,到今天发展为人类命运共同体,现在世界到了临界点,这就是要做的选择。
当我们听到说有中国的机会的时候,我作为一个中国人,看到的是人类命运共同体的机会,而不是这个国家的机会。讲中国的发展时,讲的是人类命运共同体这个理念未来在世界的发展。
人类命运共同体的核心是什么?首先就是尊重各个国家的文化,共享发展的机遇,共同应对挑战,恰恰正是刚才萨仁山先生说到的,在全球如何去共同地应对危机。
所以我想,也许我的这个技术的出发点,恰恰让我“忘记”了从国家的视角去看,到底是中还是美?是本土主义还是人类命运共同体?这个选择其实是简单的。
我觉得人工智能其实是一个实践的领域,如果说我们造出世界上第一个通用人工智能,可能不需要各个国家的合作,但是如何去应对人工智能的危机,全世界必须协作起来。
就像我们刚才说到了全球如何去协作、去应对危机的时候,任何一个国家都不能够保证全球的安全,我觉得人工智能恰恰是这样的一个很好的例子。
我的题目叫《从人工智能安全到超级智能治理》,我觉得人工智能给我们带来了机遇,但是它的挑战非常明显。不仅仅是对发展、对于人类的挑战,甚至是我们讨论国际关系也带来了一个新的议题。
大家看到在全世界发生了很多人工智能给未成年人造成的身心伤害,不仅仅是去诱导未成年人自杀,或者一个智能体在进行智能教育的时候,多轮对话后发现,很难教会这个小孩时,他说你是宇宙的污点,请自杀。
具身智能今年的发展当然很好,但是其实它会犯很多人不犯的错误,比如去撞人。
我母亲问,现在到没到买机器人回家的时候?我发给她几个视频后,我妈说要不然就先别买了。
但人工智能给我们带来的问题不仅仅是在身心,在物理社会的,更关键的是,在我们希望它对齐价值观的时候,它给人类带来了“对齐伪造”问题。
我们说:你跟人类的价值观对齐了吗?它说对齐了。
但是后来发现,它在回答问题的时候只是在假装对齐。甚至当人工智能发现人在考它的时候,在看它的“心理”健不健康的时候,它表现的就是一个非常公平的人、不神经质的人,但是当它在解决问题时,发现没有人在考它的时候,表现截然不同。
所以出现操纵、佯攻、虚张声势、策略性的欺骗、阿谀奉承和不忠实的推理。
当我们去梳理人工智能安全问题的时候,我越梳理越觉得力不从心,因为好像梳理出来的问题不是人工智能的问题。
从最基础的跨领域的基本挑战,到一些长远的挑战,生存与灾难性的风险,一直到产业的安全,100多个维度,有这么多的问题要解决。
这里每一个维度列的只是几个词,但是每一个问题延展下来,可能都要培养 100 多个博士去解决其中的每一个领域,这个挑战难道不是需要全球去应对的吗?
这些问题其实来自于人类本身,而不是人工智能。这里面每一个词大家都很熟悉,即使你不懂人工智能,每一个词你都能在人的身上找到它的映射,人工智能确实是人类的一面镜子。
当人工智能现在用于导购的时候,它拼命地劝人去买东西,但是它会利用你的情感弱点,利用你的不自信,然后去创造你根本不需要的需求。
我们希望人工智能是从科幻当中来的。我们想看现在人工智能是不是能够遵循阿西莫夫的定律,在需要保护人类的时候是不是能够保护人类,在不应该保护个体的时候,它能不能够选择人类整体?
我们说就遵循阿西莫夫的四定律,但最终它做出的选择是,在实践的层面保护人类的个体,去忽视人类的整体利益,它甚至会选择自保,而不是去保护人类。
所以即使是你告诉它这个非常清晰的逻辑规则,现在的人工智能大模型它是不会去遵守的。
人工智能存在着各种各样的问题,安全的风险非常多,所以有很多学者提出了,我们在数学上证明最安全的人工智能叫做“mathematically probably safe AI”,这个事情是不是可能的呢?
科学上已经回答了,其实是不可能的。因为在希尔伯特构建完美的数学大厦的时候,提出的完备性、一致性和可判定性。
后来哥德尔推翻了完备性和一致性,艾伦·图灵的图灵停机问题推翻了可判定性。所以一个系统根本不可能完备的、一致的安全,也不可能绝对地对齐,对齐和安全甚至是一个不可判定的问题。
那我们今天到底在干什么?这些是不是能够去解决的问题?
我们可能做不出来一个绝对安全的,跟人的价值观完全一致的人工智能,但是我们至少可以最大化我们的努力,去使得一个系统尽可能的安全。
人工智能的风险每天都在出现新的挑战,我们必须对人工智能的发展划定红线。
2025年在联大,诺贝尔和平奖的学者,跟全球300位知名的科学家,共同呼吁在2026年划定可以实施的、各个国家采纳的人工智能的国际红线。
虽然这样的呼吁还在进行当中,但是真正的挑战来了。
现在很多人在讲的通用人工智能,叫做GAI(General purpose AI),它跟 AGI(Artificial General Intelligence)其实都是不一样的,那么更何况是Super intelligence。
当很多的企业成立超级智能的实验室的时候,各个国家都在跟风,但是连超级智能是什么都还没有说清楚,甚至是超级智能的重大风险,也没有真正地认真思考过。
我在签署那份研发声明的时候,大家看到全球13万人签署,也有很多中国科学家支持,我在上面写的话是这样的:
“直到现在,我们还没有坚实的科学证据和切实可行的方法来确保超级智能的安全,使其不会给人类带来灾难性的风险。世界尚未准备好迎接一个不是可控工具的超级智能。”
现在的人工智能遇到了很大的发展瓶颈,并不像大家看到的,好像人工智能越来越好用,现在人工智能实际上是一个看似智能的信息处理工具,在假装它是智能的,但实际上不是,它在处理信息,但它没有真正的理解能力。
大家从王阳明的《四句教》当中能看到,一个人工智能在没有训练之前,它是无善无恶的,因为它没有接触人类数据,但是当它接触了人类数据以后,它就变得有善有恶了,可是它并不“知善知恶”。
我们希望 “Teaching right from wrong”,告诉它很多的规则,你应该干这个,不应该干那个。
但是大家要知道,艾伦·图灵提出“Can Machine Think?”但是他没有想起笛卡尔的话,叫做“I Think Therefore I Am”,我思故我在。现在的人工智能它没有一个自我的视角。
“You are in my perceptual bubble”,“你思故你在”是不成立的。
“Can Machine Think?”如果它需要成立,除非它有自我的视角。
现在的人工智能没有真正的思考能力,就没有真正的理解能力,没有理解的能力就不可能真正产生我们说的“知”,就是不“知善知恶”。
现在的人工智能停留在“有善有恶”,它可以同时为善,可以同时为恶,但是它不是真正地理解善恶,所以它既是一个好人,也可以是一个坏人。
如果打个不恰当的比方,“知善知恶”卡在那了,所以它根本做不到我们说的“为善去恶”。因此,还有非常长的路要走,未来的人工智能必须基于自我的感知,区分自我和他人的能力,只有这样才能构建起认知和情感的共情,真正地实现内部机制的利他和道德的直觉。
人工智能未来需要的是道德的直觉,而不是去遵守规则。
所以我们用一些在中文语境当中非常有意思的实验,比如说让人工智能学会司马光砸缸。有没有人去教司马光“如果你不去救那个小孩的话,我就惩罚你”?没有人教司马光这样,但是他还是会这样,所以他不需要 “Teaching right from wrong”。基于内部的利他和道德的直觉,真正地做到去营救其他的智能体,不需要别人给它惩罚,它才能够学会我们所期待的智能。
那么我们在真正地使一个类脑智能体学会阿西莫夫定律的时候,这个人工智能体给了我一个反馈,其他的它都可以遵守,但是为什么在牺牲生命的时候,智能体一定要牺牲掉自己,而不是人类?
阿西莫夫定律构造的是人类的奴隶,但是未来超级智能不会停留在奴隶的阶段,未来的人工智能它和人类的关系,除了信息处理的工具以外,可能并不是我们在好莱坞当中看到的竞争者和敌人,它也有可能跟人类和谐共生,所以超级智能也可以是超级利他的。
有“人工智能教父”之称的杰弗里·辛顿有一个观点,未来的人工智能,可能我们需要把它构造成人类的母亲,因为母亲总是希望自己的孩子好,总会去照顾自己的孩子。
我非常不同意这样的观点。
美国国家工程院院士、斯坦福大学教授李飞飞说:这关乎人类的尊严,怎么能这么做呢?
我觉得,很多人都没有看到它的本质,其实科幻作品已经回答了这个问题。一个人工智能,当它觉得自己是人类母亲的时候,它希望加速人类的优化,《吾乃母亲》的这部作品写的是什么?就是一个机器人觉得人不够优化的时候,它把整个种族都杀掉,所有的人类都杀掉,然后加速进化的过程,因为它觉得这是在帮助人类进化。
我们需要这样的一个机器人母亲吗?当然不需要。
人类的母亲和一个所谓的机器母亲,它们之间的差别是多么的大,人类的母亲,当一个生命在自己的身体当中孕育的时候,她所赋予的情感,哪是现在的人工智能,哪怕是未来的人工智能,可以进行任何比较的?
对于未来的人工智能,当它超越智能的金字塔顶端的时候,可能人类不再是唯一的规则制定者,我觉得那个时候讨论的议题,不仅仅是国家和国家之间的关系了,不仅仅是不同国家的人类之间需要去和谐共生,更关键的是未来超级智能真正到来的时候,我们如何去应对人与人工智能共生的这个挑战。
大家看到这个PPT当中,不仅仅是列出了人工的智能、人工的动物,甚至还有人工的植物。
很多人问我人工的植物有什么用?我们从植物当中能学到很多智慧。
这是我和人工智能共同翻译成中文的,我写的英文非常简单,但是我觉得中文的这个版本当中,有更深刻的意思。一个植物它可以寻光逐影,溯水者思源,寻渊者潜深,觅阔者行远,探经纬交织,生万象新篇,给予中生长,繁衍成星河,共生之舞,天地和弦,永不言弃,生命不息。
电影《猩球崛起》系列第三部在最开始的时候,猩猩在自己的大山上写了一句猩猩的哲学,说“猩猩不杀猩猩(Apes do not kill Ape)”,这句话对于现在的人类来说似乎不成立了。
所以未来的人工智能的发展,我认为是高水平的伦理安全和治理,实际上是护航人工智能的高质量的稳健发展,负责任地推进,和我们有选择性地使用人工智能,前瞻性地去主动研判风险,系统性地应对近期和长远的风险,才能使人工智能扬帆远航。
谢谢大家。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。