12月6日,谷歌上线原生多模态大模型Gemini单挑GPT-4,随即其媲美Gen-2、比肩Pika的文生视频模型W.A.L.T面世。就在12月14日,谷歌又上线了文生图模型Imagen 2,该模型被称为DALL•E 3和和Midjourney的最强竞品。
在多模态这条路上,谷歌已全面出击。
据谷歌介绍,基于谷歌最先进的文本到图像扩散技术,Imagen 2不需要复杂、专业的提示词,可根据自然语言提示生成高质量、逼真、高分辨率、美观的图像;具备强大的图像理解能力,可进行视觉问答,即为图像创建详细的长文标注,并对图像内元素提出的问题给出详细答案;可理解复杂抽象的概念(如诗歌、文学作品),并将这些描写可视化。
效果如何?
一直以来,AI绘画的一个缺陷在于不会画“手”,而Imagen 2的数据集和模型进步,让其能够生成逼真的手部和脸部图像,且对光线的处理堪称完美。

Imagen 2生成的手部和人脸示例

提示词:A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hAIr and a warm smile(一位32岁的年轻女性自然保护主义者,正在丛林中探险。她体格健壮,一头短卷发,面带亲切的微笑)

提示词:a french bulldog at the beach(海滩上的一只法国斗牛犬)
在理解抽象的文学作品上,Imagen 2同样出色,精确表述出了藏于文字中的意境之美。

提示词是美国作家Phillis Wheatley《晚间赞美诗》中的一句话“溪流潺潺,鸟儿啁啾,空中飘荡着它们混合的音乐”。


提示词是《秘密花园》中对知更鸟的描述:知更鸟从缠绕的常春藤上飞到墙头,张开嘴巴,唱出了一个响亮而甜美的颤音,只是为了炫耀自己。世界上就没有什么东西能比它更惹人喜爱了——它们几乎总是这样做。
Imagen 2还有哪些亮点?
功能上,Imagen 2还支持图像编辑功能,如修复(inpainting)和扩图(outpainting)。

用inpainting技术直接在原始图像中生成新内容

Imagen 2的AI扩图功能
除了英语之外,Imagen 2还支持另外六种语言(中文、印地语、日语、韩语、葡萄牙语、西班牙语),另有许多其他语言计划于2024年初接入该模型。
应用上,谷歌有意强调了Imagen 2的营销用途——该模型可用于logo生成、制作商品广告页。

Imagen 2可以在生成含有特定文字或短语的物体图像时,确保输出图像中包含正确短语

Imagen 2能为品牌、产品等生成多种创意和逼真的Logo
安全性上,Imagen 2集成了SynthID——用于加水印和识别 AI 生成内容的工具包,其生成的图片可添加不可见的数字水印;Imagen 2接受了数据安全训练,内嵌安全过滤器可防止生成潜在有害内容,如暴力、冒犯或色情内容。
值得注意的是,Imagen 2目前并没有向所有人开放,仅供许可名单上的Vertex AI客户使用。Vertex AI是谷歌云上集成多种工具的托管式AI平台,可以理解为谷歌为客户提供的AI应用训练场。
这正体现了谷歌在AI业务上的战略——依托谷歌云打造AI生态,更多地面向开发者。在8月份的谷歌云Next大会上,谷歌云的CEO透露,自从今年年初Vertex AI支持生成式AI技术,Vertex AI用户数量同比增长了15倍以上。