谷歌在大约半个月前公布了自家的大模型Gemini,消耗的算力是GPT-4的五倍之多,官方称之为“一种多模态和高效的机器学习工具”。Gemini的开发始于今年四月,谷歌将内部的两个AI实验室谷歌大脑(Google BrAIn)和DeepMind合并后正式启动。接下来几个月内Gemini的神秘面纱一点点被揭开,目前已知的大约有:将具有和GPT-4相似的参数量级;Gemini在训练中已经展示出了传统大模型产品中从未见过的多模态能力;一旦经过微调和严格的安全性测试,谷歌同样将提供不同尺寸和功能的Gemini版本,以确保部署在不同的产品、应用和设备上。
现在的最新消息有两则:一、谷歌已经允许一小部分周边公司使用Gemini软件的早期版本,可能很快就将被纳入消费者服务,并通过公司的云计算服务出售给企业。二、OpenAI正在积极将自家的多模态功能集成到GPT-4中,可能与Gemini预计提供的功能类似,争取赶在Gemini发布前推出,其代号为Gobi。OpenAI的目标很明确,就是要击败谷歌并保持领先地位。
OpenAI在今年三月推出GPT-4时就曾提出过多模态功能的预览。但当时仅为特殊群体,如专为盲人或弱视等群体提供服务的Be My Eyes公司提供服务,其他很多公司都未能获得这些功能。半年多后,OpenAI又准备推出这项名为GPT-Vision的功能,这次要面向更广泛的群体了。至于为什么要拖半年,外界推测主要是担心新的视觉功能会被居心叵测者利用,比如通过自动解决验证码问题来冒充人类,或者通过面部识别来跟踪他人。不过目前来看,OpenAI似乎正在致力于解决围绕这项新技术的法律担忧,或许很快就会有成果公布。
谷歌也面临着同样的问题。之前Gemini发布会后,曾有人问谷歌正在采取哪些措施来防止其被滥用。谷歌的发言人指出早在七月时就做出了一系列措施,以确保其所有相关产品能够被负责任地开发与运用。考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据为数不少,包括来自搜索引擎和YouTube等平台的数据等,Gemini多模态的发展方向可能就是为了发挥发挥谷歌多年的优势。据外媒援引一位使用过早期版本的人说,与现有常见的大模型相比,Gemini似乎已经很好的纠正了“AI幻觉”,即一本正经的胡说八道的问题。
OpenAI的CEO奥尔特曼在之前的各种采访中有意无意的表示,他们计划对GPT-4进行各种增强,新的增强大模型是其中可能的方向之一,现在说GPT-5还为时尚早。但很快的,这种说法就被穆斯塔法·苏莱曼揭老底,称“OpenAI一直在秘密开发与训练GPT-5,之所以经常被否认可能是因为其内部新起了个名字”。苏莱曼是DeepMind的联合创始人之一,称得上是奥尔特曼的同行和对手。老话说“同行才是最大的冤家”,此言得之。
虽然现在OpenAI表态要开发Gobi以保证自己在AIGC于大模型业内的领先地位,但也有消息表明Gobi似乎还没有开始训练,所以目前Gobi可能还处于技术验证,或者概念论证阶段。在之前接受采访时,谷歌CEO皮查伊表达了他对谷歌目前在AI领域地位的信心,并认可技术进步的持久性,以及他们在平衡创新与责任方面深思熟虑的战略。
无论如何,时代的浪潮一旦起步自然不会说停就停。面对传闻中谷歌要干掉自己的大杀器,OpenAI当然不会无动于衷,OpenAI与其他企业的竞赛就相当于AIGC与大模型时代的iOS与安卓之争。估计现在有很多人都正屏息以待Gemini的到来,不仅是期待它的强大功能,更因为它将揭示谷歌和OpenAI之间的差距到底有多大。此前李彦宏曾表态:“卷大模型没意思,不如去卷应用的机会更大。”不论iOS与安卓谁在智能机和移动互联网竞赛中胜出,最终都是微信等APP收获了数以亿计的用户,并逐渐渗透到越来越多的使用场景。