多模态GPT-4被吹爆，但仍会“一本正经胡说八道”-观察者网

（文/贺喜格编辑/吕栋）

今年初以来，以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注，股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时，微软投资的OpenAI又推出了GPT-4，号称功能比GPT3.5更强大。

北京时间3月15日凌晨，OpenAI正式发布大型多模态模型GPT-4。据介绍，与ChatGPT只能接收文字不同，GPT-4能接收图像和文本输入来输出文本内容；扩写能力得到增强，能处理超过2.5万个单词的文本；更具创造力，回答准确性显著提高；能够生成歌词、创意文本，实现风格变化；并且能够处理更细微的指令。

“这是我们迄今为止功能最强大的模型！”OpenAI的高管和工程师在介绍视频里直言：“GPT-4是世界第一款高体验、强能力的先进AI系统，我们希望很快把它推向所有人。”

新的大模型一经发布，便受到网友们的热捧。但仍然值得的一提的是，虽然GPT-4的功能进一步增强，但仍然不完全可靠。OpenAI坦言，GPT-4仍然会产生幻觉、生成错误答案，并出现推理错误。

自去年11月推出以来，ChatGPT已经能够根据用户提示生成原创文章、故事和歌词，但它也引发了一些担忧。最近几周，人工智能聊天机器人（包括来自微软和谷歌的工具）因情绪反应过激、犯事实错误和完全“幻觉”而受到指责。

GPT-4文字输入限制提升至2.5万个单词

专业场景中接近人类水平

开发GPT大模型的OpenAI称，GPT-4能接受图像和文本输入，输出文本内容，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中已做到人类水平的表现。

之前人们使用的ChatGPT只有处理文本的能力，GPT-4开始接受图像作为输入介质。比如，给它展示一张图片，问它手套掉下午会发生什么，很快会得到“它会掉到木板上，并且球会被弹飞”的回答。

OpenAI还用一张“梗图”演示了GPT-4的新功能。用户提问：解释下图的笑点是什么，并对图片中的每部分进行描述。GPT-4会分别对每张图中的内容进行描述，并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口，是荒谬的。

GPT-4也能简练指出图片的违和之处。用户提问：“这张图片有什么不寻常之处”时，GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上使用熨衣板熨烫衣服”。

不仅是图像理解，它还可以阅读图片形式的论文。通过几张论文的图片，GPT-4可以总结内容，也可以对指定内容展开解释。

除了在文本输入的基础上进一步接受了图像输入外，GPT-4还升级成为了一个“学霸”，基准测试表现远远优于现有模型。OpenAI表示，如果是随意聊天，用户可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时，GPT-4将明显比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。“在我们的内部评估中，它产生正确回应的可能性比GPT-3.5高40%。”

根据测试，在“美国高考”SAT中，GPT-4的分数增加了150分，现在能拿到1600分中的1410分。它还通过了模拟律师考试，且分数在应试者的前10%左右；相比之下，GPT-3.5的得分在倒数10%左右。

此外，GPT-4对于英语以外的语种支持也得到了大大的优化。许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的性能，OpenAI使用Azure Translate将MMLU基准测试（一套涵盖57个主题的14000个多项选择题）翻译成各种语言。在测试的26种语言中，有24种语言，GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。

在API（应用程序编程接口）方面，GPT-4还开放了一个使用功能，允许修改“系统提示”。之前ChatGPT的回答总是冗长而平淡，这是因为系统提示中规定了“你只是一个语言模型……你的知识截止于2021年9月”。现在通过修改这句话，GPT-4就可以展现出更多样的性格，比如扮演苏格拉底。

OpenAI请GPT-4模型以苏格拉底风格教学，绝对不能给学生答案；相反地，还要不断提出好问题帮助学生思考。ChatGPT果真循循善诱，以提问代替直接回答。取自OpenAI官网

仍然不完全可靠

在体验ChatGPT之时，不少用户会发现ChatGPT时不时会“一本正经地胡说八道”，而GPT-4尽管号称功能更全面，但会出现幻觉、胡说八道的毛病还是没能完全改掉。

OpenAI介绍，尽管功能已经非常强大，但GPT-4仍与早期的GPT模型具有相似的局限性，其中最重要的一点是它仍然不完全可靠。GPT-4仍然会生成错误答案，并出现推理错误。

也就说，在GPT-4身上依然可以看到之前版本“一本正经地胡说八道”的情形。OpenAI强调，仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文，甚至在高风险情境中，要避免使用它。

不过OpenAI也提到，该系统已经接受了六个月的安全培训，在内部对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5高：“响应不允许内容的请求的可能性降低了82%，产生真实事实的可能性提高了40%，优于GPT-3.5。”

网传GPT-3和GPT-4参数对比图，但此次OpenAI没有给出GPT-4参数量

“它仍然存在缺陷，仍然有限，但它有明显的改进。它比以前的模型更有创意，它的幻觉明显减少，而且它的偏见也更少。”OpenAI公司CEO奥特曼在Twitter上称，GPT-4是其模型“最有能力且最符合”人类价值观和意图的模型。

这也意味着，相较之前的模型来说，GPT-4虽然仍可能“一本正经地胡说八道”，但频率有所减小。

不过频率的减小还是不能让人们放松警惕。在GPT-4发布后，微软营销主管表示，“如果你在过去六周内的任何时候使用过新的Bing预览版，你就已经提前了解了OpenAI最新模型的强大功能。”

这似乎可以理解为，微软的新必应早就已经用上了GPT-4。而结合前段时间对新必应的争议来看，已经用上了GPT-4的新必应还是出现了不少“发疯”行为。

此外，与前一代一样，GPT-4是基于2021年9月之前的数据训练的，所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解，也不会从其经验中进行学习。OpenAI表示：“GPT-4仍有许多已知的局限性，我们正在努力解决，例如社会偏见、幻觉和对抗性提示。”

本文系观察者网独家稿件，未经授权，不得转载。