OpenAI激烈内斗，曝光遏制派和加速派都无力应对的困局?-乔恩·阿斯科纳斯、弗拉基米尔·波波夫-观察者网

【导读】 近一年来，由ChatGPT引发的通用人工智能浪潮席卷了全世界，其背后的OpenAI也成为当之无愧的明星公司。然而，这几天OpenAI为全世界上演了一出震撼的“宫斗大戏”，其中似乎涉及公司高层对于通用人工智能未来发展的重大分歧。联系ChatGPT横空出世后出现的“暂停人工智能开发”的公开呼吁，围绕通用人工智能的辩论已经进入关键阶段。本文分析了当前人工智能社区内的意见分化：从主张立即暂停大型AI模型训练，到将风险视为毫无根据的杞人忧天。作者主张区分“人工智能的风险”以及“对人工智能采取的安全措施的风险”这两类风险。对于前者，人工智能的恶意使用和“自身缺陷”（如算法偏见等）暂不具备“毁灭人类”的能力，真正的危机可能来自于大部分计算机行业领袖对于“机器超越/取代人类”的狂热追求，引发新一轮的军备竞赛。对于后者，一些面对极端后果的担忧可能引发应激性的安全措施，如围绕人工智能技术打造一个世界极权政府，让“人类友好的AGI”打败其他系统。作者认为，当前围绕人工智能辩论的一大倾向是过度集中于计算机科技领域的圈子。我们必须在利用人工智能带来的生产力提升和日益复杂模型带来的危险之间取得平衡。对这些平衡方法的探讨，离不开对人类所有知识领域的见解的整合。本文为欧亚系统科学研究会“关键技术中的竞争政治”系列编译成果，原刊于《美国事务》（American Affairs），仅代表作者本人观点。

【文/乔恩·阿斯科纳斯、弗拉基米尔·波波夫，翻译/慧诺】

图源：互联网

自ChatGPT发布之后，各种“先进的”人工智能层出不穷。与此同时，一群技术专家开始呼吁，各界应该立即停止六个月的大规模人工智能模型训练。他们的公开信得到了特斯拉创始人埃隆·马斯克和苹果联合创始人史蒂夫·沃兹尼亚克的签署支持：“人工智能实验室陷入了无法控制的竞赛，不断开发和部署更强大的数字智能。甚至连它们的创建者都无法理解、预测或可靠控制这些模型。”

对于这封公开信，人工智能专家的意见分化非常严重。在一些主流媒体上，一些知名专家撰文认为，足够先进的人工智能系统有可能摧毁我们所知的文明。他们和一些工程师都相信，“超级智能”机器可能比人类更强大，而这个未来将变得不可控，这对一个以自然选择为基础的世界来说并不是一个好兆头。人工智能似乎激发了人类的“存在危机”。

其他资深专家则坚决反对暂停，并嘲笑这些人是“杞人忧天”。图灵奖得主、人工智能先驱杨立昆戏称，“在我们达到‘如上帝般的人工智能’之前，我们需要经过‘如狗般的人工智能’。”如果因为错误的、未经证明的科技恐惧而暂停人工智能发展，这将严重阻碍有各种可能促进人类繁荣的科学进步。

对于非专业人士来说，“人工智能”圈子内的争论实在是让人困惑，如果整个讨论不能被称为荒谬的话。这一次硅谷的炒作终于真的失控了吗？或者，我们真的有足够的理由去怀疑，人工智能科学家就是二十一世纪的核物理学家吗？

对于有效地监管人工智能，我们依然需要快速而明智地回答上述问题。不过，我们应该建立一种“常识性”方法，既能跟踪到人工智能系统那些令人费解的前沿动态，又能适度评估人工智能监管和不当使用的风险。

一、人工智能的风险

在考虑最严重的人工智能场景之前，首先应该探讨一下当前最近的风险。仅仅举几个例子，通过ChatGPT这样的新语言模型，全球虚假和错误信息的传播被明确加速，人工智能驱动的语音克隆已经在电信诈骗中很普遍。

对于恶意行为者来说，强大的人工智能很容易被武器化。随着人工智能在与人类心理和计算机系统的交互变得更加成熟，这些威胁很可能会不断升级。网络安全技术的可能被利用来实施新的黑客攻击，就像机器助手也可悲用来创造新的自动武器。

与恶意行为者无关，新兴的人工智能系统还带来了另一种“无意的”严重风险，这往往被研究人员归纳为“人工智能安全”问题。例如，偏见问题已经渗透到了各种各样的人工智能模型中，系统性地歧视各种群体的就业、贷款申请，甚至监禁时间。在自动驾驶、军事打击和健康诊断等生死攸关的领域，鲁棒性——系统可靠执行任务的能力——已经是一个明显问题。此外，未预见的人工智能与人类互动可能会产生灾难性后果，比如高级聊天机器人可能鼓励未成年人参与不适当的性关系或严重恶化精神疾病。随着人工智能越来越多地融入生活的各个方面，这些风险只有增加的可能。

然而，本文开篇“是否要暂停人工智能开发”的辩论并不来自于上述两类风险，而是来自强大人工智能的增长轨迹。

人工智能的风险场景有多种形式，但通常都遵循相似的模式。理论家们认为，随着人工智能变得越来越聪明和能干，某个时刻它们将能自主生成比人类更优秀的智能体。此后，人工智能及其能力将以指数方式不断增长，因为更聪明的系统继续建造更聪明的系统，形成一种良性循环。

理论认为，这种智能系统将远远超过人类的智能水平，很可能会偏离人类最初的意图，因为后续的迭代将更多地受到机器反馈的影响，而不是经过深思熟虑的人类设计。其结果将是，就像人类现在统治着不太聪明的生命形式一样，超级人工智能将统治人类。不用说，这将把人类置于一个岌岌可危的位置。无论是由于自然选择的压力还是与人类福祉不一致的其他动机，超级人工智能很可能会随着时间的推移将人类消灭。

这个理论可能听起来像一个科幻寓言，但它却在领先的工程师和商业领袖中获得了出人意料的广泛认可。为了强调这种结果的可能性，支持者指出，高度先进的模型会自发地发展出其制造者意料之外的技能；这种技能很难检测，更不用说减轻了。最先进的语言模型已被证明极难以可靠的方式去理解或控制。人工智能系统已经能在人类最复杂的策略游戏中一贯击败最优秀的人类选手，甚至包括一些需要欺骗和操纵的游戏。如果高级人工智能脱离我们的掌握，这是一个黑暗的前兆。

然而，即便你我不相信人工智能将达到“神”一样的地位，还是会有另一个平行的担忧：一些人过于痴迷人工智能，并且试图将整个千年的资源都投入其中。那些掌握着人工智能最大进展的人，都怀有实现超级人工智能的乌托邦愿景，并提供近乎宗教般的承诺。

头部企业OpenAI的CEO山姆·阿尔特曼（Sam Altman）宣称，构建超越人类的人工智能是“也许是人类历史上最重要、最有希望、最可怕的项目”。Google的CEO孙达尔·皮柴（Sundar Pichai）也认为人工智能是“人类正在投身的最深刻的技术变革——比火和电还要深刻”。这种狂热者的名单很长，包括该领域几乎所有最有影响力的机构的领导者。

历史上充斥着实现乌托邦梦想而走上歧途的灾难性尝试。每年涌入实验室的数百亿美元，用来实现那些全身心投入到上述目标的人的愿望。这并不是一个好兆头，因为越来越多的人工智能公司正在逐渐放弃安全，只追求速度。考虑到新兴人工智能技术的高度实验性质、行业缺乏安全规范和标准，以及其领导者的危险野心，我们必须采取措施来控制多个层面不断增长的风险。

二、人工智能安全措施的风险

在人工智能之外，其配套的安全措施也存在风险。当前一个关键观点是，我们必须在评估中包括“治疗性成本”（iatrogenic cost）。如果不这样做，微小的边际风险可能会导致巨大的成本。例如，美国食品药品监督管理局对Covid-19疫苗的安全评估模型中，就未能包含由于疫苗延迟部署而导致的额外死亡。

对于人工智能的安全措施，必须要在这一点上进行额外的审查，因为其政策建议和成本效益分析的许多依赖于“尾部风险”（tail risks，译者注：在金融学中，尾部风险是指在巨灾事件发生后，直到合约到期日或损失发展期的期末，巨灾损失金额或证券化产品的结算价格还没有被精确确定的风险）的权重，即极低概率、极高成本的事件。尾部风险无法被完全忽略，但要论证它们却十分困难，因为使其发生的情况非常脆弱，越是高成本期望的情景，其发生的概率越小。对于人工智能安全的担忧，必须同时分析其潜在危险的可能性及其对应的成本。

两个因素可能会使我们对尾部风险场景的可能性产生怀疑。首先，虽然“这一次真的不一样”是可能的，但许多新技术都曾引发了歇斯底里的“警情”。与基因编辑或核技术相比，人工智能系统将要进入的混乱人类世界似乎充满了各种缺陷。当今世界，大多数关键系统仍然需要沉闷的手动操作，核导弹仍然运行在软盘上，我们很难想象人工智能如何悄无声息地进入物理世界，并且能启动自组装的纳米机器工厂。

其次，使得当前人工智能运行的前提，即其理解背景的能力，往往会降低其风险。大多数让人工智能发生风险的情景，其所需要的上下文前提往往非常“离谱”。例如，在一个名为“曲别针制造机”（Paperclip maximizer）的思想实验中，一个通用人工智能（Artificial General Intelligence，AGI），其效用函数就是制造尽可能多的曲别针。换而言之，它的终极目的是制造曲别针这个看似无害的目标，并且它对人类没有特殊的情感。但是，这样一个看上去无害的人工智能却很有可能对人类造成威胁。（译者注：关于强人工智能/通用人工智能AGI，有一种理论叫做“工具趋同”理论，它认为无论目的为何，强人工智能总是会选择相同的手段来更加有效地达成自己的目标：保证自身的存续，自我改进，以及攫取更多资源。于是我们提到的这个专做曲别针的强人工智能在老实做一段时间的曲别针之后，就会以指数级的速度用周围的资源增强自己，直到它将全宇宙的资源纳入自己的系统中，并将所有的资源全部做成曲别针为止。即使不考虑这种极端情况，曲别针制造机也很可能会把人类的生活必需品甚至人类都收集来做曲别针，从而威胁到人类的生存。）

然而，要达到这样强人工智能，就需要为大语言模型（Large Language Model，LLM）添加足够的上下文和广度，这就依赖直观的人类限制。目前看来，改善LLM的大小和范围似乎与改善其对人类上下文的理解是一回事。虽然围绕这个问题的研究仍处于早期阶段，但迄今为止，改善模型性能似乎也有利于人工智能在其初始状态下与人类社会的对齐。

大语言模型（图源：网络）

要完全减轻基于人工智能的存在风险，需要采取什么措施？一种共识指出，我们必须大幅度且有意地减缓发展的速度，特别放缓部署新的大语言模型。然而，由于人工智能提供了经济和军事优势，任何一国的单方面的禁令都存在落后于其他国家的风险，这再次落入了军备竞赛的情境。因此有观点认为，解决方案是开发和使用与人工智能安全目标一致的全球形式的权力（包括军事力量）。

在美国《时代》杂志上的一篇文章中，机器智能研究所创始人尤德科夫斯基（Eliezer Yudkowsky）写道：“如果情报显示一个未参加[人工智能安全]协议的国家正在建设图形处理器（GPU）集群（译者注：GPU作为一种高性能计算硬件，在人工智能应用中具有显著的优势），那么不要对国家之间的冲突感到害怕，而要担心各国违反停火协议；要允许我们通过空袭摧毁一个流氓数据中心。”

尽管尤德科夫斯基的立场处于的激进边缘，但更主流的人物提出了可能更极端的解决方案。在关于长期技术风险的“脆弱世界假设”的一篇文章中，畅销书《超级智能》（Superintelligence : Paths, Dangers, Strategies）作者、牛津大学未来人类研究所创始主任博斯特罗姆（Nick Bostrom）提出了“无处不在的监视或单极世界秩序”的发展趋势：允许未经许可的技术发展（包括通用人工智能、生物技术和纳米材料）可能对人类生存造成灾难性后果的发展，而不是通向物种长寿。但是，要实现这样的制度首先要建立前所未有的全球治理。

在关于人工智能长期取代人类的前景的最近一篇论文中，人工智能安全中心主任亨德里克斯（Dan Hendryks）得出了类似的结论。如果人工智能的优越性是命中注定的，那么人类生存的一条道路可能是积极建立一个“人工智能利维坦”，其中对人类友好的人工智能可以驯服或消灭所有其他潜在不友好的模型。

人文学者都应该对这些论点感到非常担忧——围绕技术发展来建立全球极权政治秩序，这似乎是可怕的未来。即便是在这个方向上的一些边缘尝试，也可能导致人类自由的急剧下降。如果尝试遏制人工智能的风险，如果构想不好，甚至可能会加剧其他灾难性风险。任何试图赋予一个有力的“拦阻者”（katechon）的尝试都有可能辩证地导致相反结果，变成一个“不情愿的加速者”。（注：在《圣经》帖撒罗尼迦后书2:6-8中，保罗谈及末日时提及了“拦阻者”Katechon的概念。按照保罗的字面含义，拦阻者阻挡在了上帝和不法者之间，似乎拦阻者只要不被移除，末日就不会降临，上帝就不会消灭这不法者。拦阻者也成为西方传统中一个重要的形象，许多西方思想家如施密特和施特劳斯以各自的方式应对他们的挑战，拦阻他们心中必须被拦阻的邪恶势力。施密特似乎认为，至关重要的是对政治本身的保护——对政治的保护，反对它被自动化技术本身的升级所威胁的中立化。）

在这种情况下，建立一个全球政府来停止无许可技术进步，反而会立即加剧气候变化和人口减少等迫在眉睫的文明风险。使用末日论调来构建全球政治制度将减缓全球经济增长，使未来看起来更加可怕，并且进一步抑制生育率。一个老龄化的社会往往创新更少，需要更多的年轻人照顾老年人，并且没有资源、能源和技术来减少碳排放并改善碳捕捉，从而加剧气候变化。世界末日的人工智能奇点仍属于科幻领域，但在当下，人类显然有能力创建一个全球的极权政治框架，扼杀未来并引发文明自杀。

三、人工智能安全的常识方法

因此，如果人工智能存在着真正的、严重的、难以把握的风险，但许多用来遏制这些风险的提案可能同样具有潜在的破坏性，那么我们能否找到一条前进的道路，既承认了风险，又促进了人工智能系统的改进呢？

接下来，我们将提出一种实现人工智能安全的“常识”方法，重点是迅速利用人工智能带来的生产力提升，同时减轻了日益复杂模型带来的某些危险。

人工智能的迅速发展可以沿两个轴线来看待：纵轴与横轴。纵轴指的是开发更大更强的模型，这带来了许多未知和潜在的生存风险。相比之下，横轴强调将当前模型集成到经济的各个角落，相对风险较低，回报较高。

对人工智能的任何监管都必须仔细区分这两个发展维度。虽然基于当前基于人工智能的各类应用也不是没有风险的，但与构建超级人工智能所带来的风险相比，两者在性质上有着质的不同。从算法偏见到深度伪造，这些较小的人工智能风险都可以通过加速研究来解决，而不是通过减慢研究进程。

恶意行为人将需要利用开源人工智能模型，因为这些活动显然违反了像OpenAI这样的头部企业的服务条款。幸运的是，开源模型在技术上往往落后于OpenAI等封闭技术。因此，善意行为人在对抗由人工智能生成的垃圾邮件的竞赛中具有优势。监管不应该限制善意行为人的努力，尤其是当恶意行为人并不会遵守监管规则时。

然而，监管是必要的，以防止强大的模型变成开源。以Meta公司的强大LLaMA模型为例，这是一个类似于ChatGPT的文本生成人工智能。Meta打算以受控的方式向研究人员提供LLaMA的访问权限，但该模型在宣布后仅一个星期就被泄露到了互联网上。在缺乏与此类安全漏洞相关的法规或罚款的情况下，Meta的公开回应相当于一个大大的“糟糕”。

第二类可管理风险源于生成式人工智能创造的大量输出。从“智能律师”到用简单的文本描述生成原创艺术，不管我们喜欢与否，大门已经敞开。幸运的是，在互联网时代，我们已经逐步养成了应对“信息海啸”的经验。以数字千年版权法（DMCA）下的受版权保护作品问题为例，尽管其远非完美，但它为解决在线版权争议提供了一个非法律程序的框架，因此有助于防止法律体系不被破坏。除了狭义的版权问题之外，我们需要对传统机构进行改革，以应对更高信息吞吐量的需求。

人工智能在纵轴上的研究是事情变得更复杂的地方。使用更多数据训练的更大、更强功能的模型，但这种训练的方向不可预测。只有少数几家大型公司有资源来推动人工智能前沿，而它们的行为力度取决于竞争压力。政府可以通过将最大的参与者聚集在一起，合作制定共享的安全协议，来阻止这些军备竞赛。这可以包括要求公开宣布和批准大规模训练运行的规定，以及通过国家标准和技术研究所创建安全测试的行业标准。像微软投资的OpenAI和谷歌投资的Anthropic这样的主要参与者，已经进行了深入的安全和“对齐（Alignment）”的研究。但重要的是，他们对人工智能对齐的见解不应成为商业机密。

对齐研究中最有前途的领域之一是“机械可解释性”（mechanistic interpretability）。机械可解释性可以被视为人工智能大脑的神经科学。通过严格研究人工神经网络中特定神经回路，研究人员可以了解“黑盒子”模型如何做到这一点。不幸的是，解释性研究仍然是一个相对新兴的领域，对于像GPT-4这样的大型模型的理解远远滞后。（译者注：机制可解释性对人工智能对齐具有重要意义。首先，可解释性方法可用于审计大模型，特别是在部署大模型之前。可以检查LLM的对齐功效，识别不对齐和错误的输出，并阐明它为什么会产生这样的输出。其次，可解释性评估指标可以作为优化人工智能对齐的奖励函数，以激励人工智能系统保持目标透明度，例如避免欺骗对齐。第三，除了检查/架构的透明度之外，还可以加强训练过程的透明度，能够了解和监控人工智能系统训练过程中发生的事情和变化，例如涌现行为/能力。）

机器学习模型的可解释性（图源：网络）

最重要的解释性研究需要再次投入大量资金，进而培训和重新培训模型变种。这本身是一个潜在的市场失败，因为对于人工智能公司而言，投入资金用于没有下游商业目的的模型的动机非常有限。不过，政府可以通过创建自己的超级计算集群来解决这些访问和成本问题。一个大规模的机械性可解释性研究测试平台将有助于推动该领域的发展，并使研究人员更容易访问大型模型的内部。此外，政府可以要求大型人工智能公司发布解释性和安全标准，以改善人工智能安全方面的知识共享。

此外，公共采购先进芯片将有助于国会实现建设美国国内半导体能力的目标，而先进芯片的公共所有权可能更为重要——这是作为对人工智能发展导致企业权力失控的一种保险。事实上，如果没有一个安全的平台来训练符合政府需求的模型，我们可能有一天会发现，国家的繁荣和安全将落入几个私人行为者的支配中。

四、结语

通过潜在的人工智能安全政策的几个示例，我们希望公众不要过度关注极端的尾部风险。相反，我们应该制定措施，进而改善我们可能部署的系统的安全性和可靠性，并且以尊重西方科技治理传统的方式来实施。

发展人工智能安全的关键在于，我们应吸纳各类型的知识和专家参与讨论。正如经济学家考恩（Tyler Cowen）所指出的，关于“人工智能暂停公开信”的一个令人震惊的事实是，除了计算机科技领域的领袖之外，其他领域的领导人几乎完全没有参与其中，着与核时代的类似公开信显然不同。多年来，人工智能的安全研究一直属于被理论计算机科学主导的隐匿领域，偶尔有一些分析哲学和物理学的参与。

如今，强大的人工智能已经出现，但相应的安全讨论却受到了学科的限制，尽管许多当前问题必然涉及其他类型的专业知识。安全研究的不足是经典的公共产品（public good）问题，因此经济学家可能会有一些看法。此外，对导致通用人工智能的军备竞赛的预测和分析，可能从国际关系学者那里获得启发。OpenAI的关于安全风险的白皮书有数十名技术研究人员，但其中的社会科学家和人文学者用一只手就数过来。为了制定既可获得又可实现的人工智能安全措施，我们需要整合来自人类所有知识领域的见解，而不是依赖在互联网留言板上无来由的科幻寓言。