OpenAI将推出多模态大模型，志在阻击谷歌Gemini

谷歌在大约半个月前公布了自家的大模型 Gemini，消耗的算力是GPT-4的五倍之多，官方称之为“一种多模态和高效的机器学习工具”。Gemini的开发始于今年四月，谷歌将内部的两个AI实验室谷歌大脑（Google BrAIn）和DeepMind合并后正式启动。接下来几个月内Gemini的神秘面纱一点点被揭开，目前已知的大约有：将具有和GPT-4相似的参数量级；Gemini在训练中已经展示出了传统大模型产品中从未见过的多模态能力；一旦经过微调和严格的安全性测试，谷歌同样将提供不同尺寸和功能的Gemini版本，以确保部署在不同的产品、应用和设备上。

现在的最新消息有两则：一、谷歌已经允许一小部分周边公司使用Gemini软件的早期版本，可能很快就将被纳入消费者服务，并通过公司的云计算服务出售给企业。二、OpenAI正在积极将自家的多模态功能集成到GPT-4中，可能与Gemini预计提供的功能类似，争取赶在Gemini发布前推出，其代号为Gobi。OpenAI的目标很明确，就是要击败谷歌并保持领先地位。

OpenAI在今年三月推出GPT-4时就曾提出过多模态功能的预览。但当时仅为特殊群体，如专为盲人或弱视等群体提供服务的Be My Eyes公司提供服务，其他很多公司都未能获得这些功能。半年多后，OpenAI又准备推出这项名为GPT-Vision的功能，这次要面向更广泛的群体了。至于为什么要拖半年，外界推测主要是担心新的视觉功能会被居心叵测者利用，比如通过自动解决验证码问题来冒充人类，或者通过面部识别来跟踪他人。不过目前来看，OpenAI似乎正在致力于解决围绕这项新技术的法律担忧，或许很快就会有成果公布。

谷歌也面临着同样的问题。之前Gemini发布会后，曾有人问谷歌正在采取哪些措施来防止其被滥用。谷歌的发言人指出早在七月时就做出了一系列措施，以确保其所有相关产品能够被负责任地开发与运用。考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据为数不少，包括来自搜索引擎和YouTube等平台的数据等，Gemini多模态的发展方向可能就是为了发挥发挥谷歌多年的优势。据外媒援引一位使用过早期版本的人说，与现有常见的大模型相比，Gemini似乎已经很好的纠正了“AI幻觉”，即一本正经的胡说八道的问题。

OpenAI的CEO奥尔特曼在之前的各种采访中有意无意的表示，他们计划对GPT-4进行各种增强，新的增强大模型是其中可能的方向之一，现在说GPT-5还为时尚早。但很快的，这种说法就被穆斯塔法·苏莱曼揭老底，称“OpenAI一直在秘密开发与训练GPT-5，之所以经常被否认可能是因为其内部新起了个名字”。苏莱曼是DeepMind的联合创始人之一，称得上是奥尔特曼的同行和对手。老话说“同行才是最大的冤家”，此言得之。

虽然现在OpenAI表态要开发Gobi以保证自己在AIGC于大模型业内的领先地位，但也有消息表明Gobi似乎还没有开始训练，所以目前Gobi可能还处于技术验证，或者概念论证阶段。在之前接受采访时，谷歌CEO皮查伊表达了他对谷歌目前在AI领域地位的信心，并认可技术进步的持久性，以及他们在平衡创新与责任方面深思熟虑的战略。

无论如何，时代的浪潮一旦起步自然不会说停就停。面对传闻中谷歌要干掉自己的大杀器，OpenAI当然不会无动于衷，OpenAI与其他企业的竞赛就相当于AIGC与大模型时代的iOS与安卓之争。估计现在有很多人都正屏息以待Gemini的到来，不仅是期待它的强大功能，更因为它将揭示谷歌和OpenAI之间的差距到底有多大。此前李彦宏曾表态：“卷大模型没意思，不如去卷应用的机会更大。”不论iOS与安卓谁在智能机和移动互联网竞赛中胜出，最终都是微信等APP收获了数以亿计的用户，并逐渐渗透到越来越多的使用场景。