OpenAI正训练GPT-4的继任者，GPT-5或将带来三个重大升级

站长之家5月29日消息:虽然 OpenAI 最近推出的模型 GPT-4o 在大型语言模型（LLM）领域有了重大突破，但该公司已经开始着手研发下一个旗舰模型 GPT-5。许多人在 GPT-4o 发布前期就期待着 OpenAI 推出备受瞩目的 GPT-5。为了澄清这种猜测，首席执行官 Sam Altman 甚至在 X 上发帖称 “不是 gpt-5，也不是搜索引擎”。

如今，仅仅两周后，在一篇博文中，OpenAI 宣布成立了一个新的安全和保障委员会，该委员会将为 OpenAI 董事会提供安全和保障方面的建议。在博文中，该公司确认正在训练其下一个旗舰模型，很可能是指 GPT-4的继任者 GPT-5。该公司表示:“OpenAI 最近开始训练其下一个前沿模型，我们预计所得到的系统将在通向人工通用智能（AGI）的道路上将我们带到新的能力水平”。

虽然 GPT-5可能需要几个月甚至更长时间才能向客户提供服务，因为训练 LLM 模型需要很长时间，但以下是对 OpenAI 的下一代模型的一些预期，从最不令人兴奋的到最令人兴奋的。

1. 🎯更高准确性:根据过去的趋势，我们可以期待 GPT-5在回答中变得更准确，因为它将在更多数据的基础上进行训练。生成式 AI 模型（如 ChatGPT）通过使用其训练数据来提供答案。因此，模型接受的训练数据越多，模型生成连贯内容的能力就越好，性能也会提高。每次发布的模型，其训练数据都有所增加。例如，有报道称 GPT-3.5的训练参数为1750亿，而 GPT-4的训练参数为1万亿。我们很可能会在 GPT-5发布时看到更大的飞跃。

2. 🌟增加多模态:根据每个主要旗舰模型（如 GPT-3.5、GPT-4和 GPT-4o）之间的差异，我们可以预测 GPT-5的能力。随着每一次的升级，模型变得更加智能，拥有许多升级，包括价格、速度、上下文长度和模态等。GPT-3.5只能输入和输出文本。GPT-4Turbo 可以输入文本和图像，以获取文本输出。GPT-4o 可以输入文本、音频、图像和视频的组合，并接收文本、音频和图像的任意组合的输出。按照这个趋势，GPT-5的下一步将是支持视频输出。OpenAI 在二月份推出了文本到视频的模型 Sora，这个模型可能会被整合到 GPT-5中，以实现视频输出。

3. 🤖实现自主行动能力（AGI）:聊天机器人无疑是令人印象深刻的人工智能工具，能够帮助人们完成许多任务，包括生成代码、Excel 公式、文章、简历、应用程序、图表和表格等。然而，我们越来越希望 AI 知道我们想要什么，并能在最小的指示下完成任务，即人工通用智能(AGI)。拥有 AGI，用户可以要求代理完成一个目标，它可以通过推理和计划来完成任务。例如，在理想的情况下，如果 GPT-5具备 AGI，用户可以请求 “帮我从麦当劳订一个汉堡”，AI 将能够完成一系列任务，包括打开麦当劳网站，并输入您的订单、地址和付款方式。你只需要担心的是吃汉堡。

作为人工智能的下一个前沿，AGI 可以完全提升我们从 AI 获得的协助类型，并改变我们对助手的看法。我们将不再依赖 AI 助手告诉我们天气如何，它们将能够从开始到结束地帮助我们完成任务，这是我们期待的事情。