AIGC大创新？多模态大模型「Gobi」能成真吗？

AIGC行业资讯1年前 (2023)发布管理员

多模态大模型「Gobi」能成真吗？

根据外媒 The Information 的说法，OpenAI 与谷歌正陷入一场旷日持久的大模型竞赛，瞄准了下一代多模态大模型。这类模型可以处理文生图任务、生成代码或者输出可视化图表等。

OpenAI 联合创始人兼总裁 Greg Brockman（左）与谷歌 DeepMind 联合创始人兼 CEO Demis Hassabis（右）

在这场竞赛中，谷歌几天前被传开始小范围测试多模态 ML 工具 Gemini，比训练 GPT-4 算力大 5 倍，多模态能力大大提升。谷歌希望借此扭转与 OpenAI 在大模型领域的劣势。但很显然，OpenAI 不希望看到这一幕在将来发生。

据一位知情人士透露，OpenAI 正紧锣密鼓地将 GPT-4 与类似于 Gemini 提供的多模态功能结合起来。OpenAI 虽然在 3 月份发布 GPT-4 的时候预览了相关多模态功能，但并没有推广开来。几个月后，OpenAI 又准备在更大的范围内推出 GPT-Vision 功能，但也没有正式发布。

至于为何迟迟没有推出，OpenAI 主要担心视觉功能会被人不当地使用，比如通过面部识别来跟踪人或者冒充人类自动解决验证码。但随着时间推移，OpenAI 似乎终于有能力解决由这类问题引发的技术担忧了。

因此，在 GPT-Vision 之后，OpenAI 被曝可能会推出更加强大的多模态大模型，名为 Gobi。与 GPT-4 不同的是，Gobi 一开始就被设计为多模态。不过 OpenAI 还没有开始训练该模型，所以 Gobi 最终能成为 GPT-5 的定论下的还为时尚早。

此外，OpenAI 还希望抢在谷歌发布 Gemini 之前推出 Gobi。

图源：推特 @amir

至于在这场多模态大模型之争中，究竟谁能先拔头筹，我们拭目以待。

OpenAI 还发布了新模型

与此同时，除了被曝出多模态大模型之外，OpenAI 还「悄咪咪」地发布了新的模型。

不少网友都收到了这封来自 OpenAI 团队的信件。OpenAI 推出了 GPT-3.5-Turbo-Instruct，用来替代原先的一些模型，如 text-davinci-003。

该模型是 InstructGPT 3.5 类模型，并且训练方式与之前的 Instruct 型号类似，如 text-davinci 系列，同时保持了与 turbo 模型相同的速度。该模型的定价与 GPT-3.5-turbo 4K 相同。

推特用户 @hwchase17 说到，该版本模型可以在就旧的完成端点使用，并表示这个版本很「健谈」，但是作为智能体的话并不理想。

有网友在使用过程中表示，该模型在一些情况下能更好的完成工作。例如，用户想让它生成较大的代码块时，它不会只是给出一个示例，而是直接生成一个很长的代码。

参考链接：https://www.theinformation.com/articles/openai-hustles-to-beat-Google-to-launch-multimodal-LLM