要了解生成式 AI 将如何彻底改变游戏,只需看看 @emmanuel_2 m 最近发布的这篇 Twitter 帖子。在这篇文章中,他探讨了使用 Stable Diffusion + Dreambooth(流行的 2 D 生成 AI 模型)为假设的游戏生成药水图像。
这项工作的变革性不仅在于它节省了时间和金钱,同时还提供了质量——从而打破了经典的“成本、质量或速度同时只能拥有两个”的三角关系。艺术家们现在可以在几个小时内创作出高质量的图像,而手工生成这些图像需要数周时间。真正具有变革性的是:
现在,任何可以学习一些简单工具的人都可以获得这种创造力。
这些工具可以以高度迭代的方式创建无数的变体。
一旦经过训练,这个过程就是实时的——结果几乎是即时可用的。
自实时 3D 以来,还没有出现过对游戏具有如此革命性意义的技术。花任何时间与游戏创作者交谈,兴奋和惊奇的感觉是显而易见的。那么这项技术将走向何方?它将如何改变游戏?不过,首先,让我们回顾一下什么是生成人工智能(Generative AI)?
什么是生成人工智能
生成 AI 是机器学习的一种,计算机可以根据用户的提示生成原创的新内容。今天,文本和图像是这项技术最成熟的应用,但几乎每个创意领域都在开展工作,从动画到音效,再到音乐,甚至创建具有完全充实个性的虚拟角色。
当然,人工智能在游戏中的应用并不是什么新鲜事。即使是早期的游戏,如 Atari 的 Pong,也有计算机控制的对手来挑战玩家。然而,这些虚拟敌人并没有像我们今天所知道的那样运行人工智能。它们只是游戏设计师编写的脚本程序。他们模拟了一个人工智能对手,但他们无法学习,他们只能和建造他们的程序员一样好。
由于更快的微处理器和云计算,现在的不同之处在于可用的计算能力。有了这种能力,就可以构建大型神经网络来识别高度复杂领域中的模式和表征。
这篇博文分为两部分:
- 第一部分包含我们对游戏生成 AI 领域的观察和预测。
- 第二部分是我们为这个领域制作的市场地图,概述了各个细分市场并确定了每个细分市场中的关键公司。
第一部分——观察和预测
假设
首先,让我们探讨一下这篇博文其余部分的一些假设:
1. 通用人工智能的研究量将继续增长,创造出更有效的技术
考虑一下 arXiv 档案中每月发表的关于机器学习或人工智能的学术论文数量图表:
如您所见,论文数量呈指数级增长,丝毫没有放缓的迹象。这仅包括已发表的论文——许多研究甚至从未发表过,直接用于开源模型或产品研发。结果是兴趣和创新的爆炸式增长。
2. 在所有娱乐中,游戏将受生成人工智能的影响最大
就涉及的资产类型(2 D 艺术、3 D 艺术、音效、音乐、对话等)的数量而言,游戏是最复杂的娱乐形式。游戏也是最具互动性的,非常强调实时体验。这为新游戏开发者创造了一个陡峭的进入壁垒,同时也为制作一款现代的、排行榜首的游戏付出了高昂的成本。它还为生成 AI 的颠覆创造了巨大的机会。
想想像 Red Dead Redemption 2 这样的游戏,它是有史以来最昂贵的游戏之一,制作成本接近 5 亿美元。原因很容易理解——它拥有市场上所有游戏中最美丽、最真实的虚拟世界之一。它还花费了将近 8 年的时间打造,拥有超过 1,000 个不可玩的角色(每个角色都有自己的个性、艺术作品和配音演员),一个近 30 平方英里的世界,超过 100 个任务分为 6 个章节,以及由 100 多位音乐家创作的近 60 小时的音乐。这个游戏的一切都很大。
现在将 Red Dead Redemption 2 与 Microsoft Flight Simulator 进行比较,后者不仅大,而且非常庞大。Microsoft Flight Simulator 使玩家能够在整个地球上飞行,包括 1.97 亿平方英里的地球。微软是如何打造如此庞大的游戏的?通过让人工智能来做。微软与 blackshark.ai 合作,训练人工智能从 2 D 卫星图像生成逼真的 3 D 世界。
这是一个游戏的例子,如果不使用 AI,实际上是不可能构建的,而且,从这些模型可以随着时间的推移不断改进这一事实中获益。例如,他们可以增强“高速公路三叶草立交桥”模型,重新运行整个构建过程,突然间整个星球上的所有高速公路立交桥都得到了改进。
3. 游戏制作中涉及的每一项资产都会有一个生成 AI 模型
到目前为止,像 Stable Diffusion 或 Midjourney 这样的 2 D 图像生成器已经抓住了生成 AI 的大部分流行兴奋,因为它们可以生成具有引人注目的特性的图像。但是,已经存在适用于游戏中几乎所有资产的生成式 AI 模型,从 3 D 模型到角色动画,再到对话和音乐。这篇博文的后半部分包括一张市场地图,突出显示了一些专注于每种类型内容的公司。
4. 内容价格将大幅下降,在某些情况下实际上会降为零。
在与正在尝试将生成 AI 集成到他们的生产流程中的游戏开发人员交谈时,最令人兴奋的是时间和成本的大幅减少。一位开发人员告诉我们,他们为单个图像生成概念艺术的时间从开始到完成已从 3 周减少到一个小时。我们相信在整个生产流程中也可能实现类似的节省。
需要明确的是,艺术家没有被取代的危险。这确实意味着艺术家不再需要自己完成所有工作:他们现在可以设定最初的创意方向,然后将大部分耗时和技术执行交给人工智能。在这方面,他们就像手绘动画早期的赛璐珞画家,技艺高超的“墨水工”画出动画的轮廓,然后成本较低的“画家”大军会完成耗时的绘画工作。动画 cels,填充线条。它是游戏创建的“自动完成”。
5. 我们还处于这场革命的初级阶段,很多实践还需要完善
尽管最近很兴奋,但我们仍处于起跑线上。在我们弄清楚如何将这项新技术用于游戏的过程中,还有大量的工作要做,并且将为迅速进入这一新领域的公司创造巨大的机会。
预测
鉴于这些假设,以下是对游戏行业如何转变的一些预测:
1. 学习如何有效地使用生成人工智能将成为一种有市场价值的技能
我们已经看到一些实验者比其他人更有效地使用生成人工智能。要充分利用这项新技术,需要使用各种工具和技术,并了解如何在它们之间灵活运用。我们预测这将成为一种适销对路的技能,将艺术家的创意视野与程序员的技术技能相结合。
克里斯・安德森 (Chris Anderson) 有句名言:“每一次丰富都会造成新的稀缺。”随着内容变得丰富,我们相信最短缺的是知道如何使用 AI 工具最有效地协作和工作的艺术家。
例如,将生成 AI 用于制作艺术品面临着特殊的挑战,包括:
- 连贯性。对于任何生产资产,您都需要能够在以后对资产进行更改或编辑。使用 AI 工具,这意味着需要能够使用相同的提示重现资产,这样您就可以进行更改。这可能很棘手,因为相同的提示可能会产生截然不同的结果。
- 风格。给定游戏中的所有艺术都具有一致的风格很重要——这意味着您的工具需要根据您给定的风格进行培训或以其他方式绑定。
2. 降低壁垒将带来更多的冒险精神和创造性探索
我们可能很快就会进入游戏开发的新“黄金时代”,在这个时代,较低的进入门槛会导致更多创新和创意游戏的爆发。不仅因为较低的制作成本导致较低的风险,还因为这些工具释放了为更广泛的受众创建高质量内容的能力。这导致下一个预测……
3. 人工智能辅助的“微游戏工作室”兴起
有了生成 AI 工具和服务,我们将开始看到由只有 1 或 2 名员工的“微型工作室”制作出更多可行的商业游戏。小型独立游戏工作室的想法并不新鲜——热门游戏 Among Us 是由 Innersloth 工作室创建的,当时只有 5 名员工——但这些小型工作室可以创建的游戏的规模和规模将会增长。这将导致……
4. 每年发行的游戏数量增加
Unity 和 Roblox 的成功表明,提供强大的创意工具可以打造更多游戏。生成 AI 将进一步降低门槛,创造更多的游戏。该行业已经面临发现挑战——仅去年一年就有超过 10,000 款游戏被添加到 Steam——这将给发现带来更大的压力。然而,我们也会看到……
5. 生成 AI 之前不可能创建的新游戏类型
我们将看到新的游戏类型的发明,如果没有生成 AI,这些游戏类型根本不可能实现。我们已经谈到了微软的飞行模拟器,但将会有全新的类型被发明出来,这些类型依赖于实时生成的新内容。
考虑一下 Spellbrush 的 Arrowmancer。这是一款角色扮演游戏,以 AI 创建的角色为特色,提供几乎无限的新游戏玩法。
我们还知道另一家游戏开发商正在使用 AI 让玩家创建自己的游戏内头像。以前他们有一组手绘的头像图像,玩家可以混合搭配这些图像来创建他们的头像——现在他们完全抛弃了这一点,只是简单地根据玩家的描述生成头像图像。让玩家通过 AI 生成内容比让玩家从头开始上传自己的内容更安全,因为可以训练 AI 避免创建令人反感的内容,同时仍然给玩家更大的主人翁感。
6. 价值将归于行业特定的人工智能工具,而不仅仅是基础模型
围绕 Stable Diffusion 和 Midjourney 等基础模型的兴奋和热议正在产生令人瞠目结舌的估值,但新研究的持续涌入确保了随着新技术的改进,新模型将会出现和消失。考虑 3 种流行的生成 AI 模型的网站搜索流量:Dall-E、Midjourney 和 Stable Diffusion。每个新模型都会成为人们关注的焦点。
另一种方法可能是构建行业一致的工具套件,专注于特定行业的生成 AI 需求,深入了解特定受众,并充分集成到现有的生产管道(例如 Unity 或 Unreal 游戏)。
一个很好的例子是 Runway,它通过视频编辑、绿屏移除、修复和运动跟踪等人工智能辅助工具来满足视频创作者的需求。像这样的工具可以建立特定的受众并从中获利,随着时间的推移添加新的模型。我们还没有看到像 Runway 这样的游戏套件出现,但我们知道这是一个积极发展的空间。
7. 法律挑战要来了
所有这些生成 AI 模型的共同点是它们是使用海量内容数据集进行训练的,这些数据集通常是通过抓取互联网本身创建的。例如,Stable Diffusion 接受了超过 50 亿个图像/标题对的训练,这些图像/标题对是从网络上抓取的。
目前这些模型声称在“合理使用”版权原则下运作,但这一论点尚未在法庭上得到明确检验。很明显,法律挑战即将到来,这可能会改变生成人工智能的格局。
大型工作室可能会通过建立基于他们拥有明确权利和所有权的内部内容的专有模型来寻求竞争优势。例如,微软在这方面的地位尤其有利,目前拥有 23 个第一方工作室,在收购 Activision 后还有另外 7 个。
8. 编程不会像艺术内容那样受到严重破坏——至少现在还没有
软件工程是游戏开发的另一项主要成本,但正如我们 a16 z Enterprise 团队的同事在他们最近的博客文章中分享的那样,艺术并没有死,它只是变成了机器生成的,使用 AI 模型生成代码需要更多测试和验证,因此与生成创意资产相比,生产力的提高较小。像 Copilot 这样的编码工具可能会为工程师提供适度的性能改进,但不会产生同样的影响……至少在短期内不会。
建议
基于这些预测,我们提出以下建议:
1. 现在开始探索生成式 AI
需要一段时间才能弄清楚如何充分利用即将到来的生成 AI 革命的力量。现在开始的公司以后会有优势。我们知道有几家工作室正在进行内部实验项目,以探索这些技术如何影响制作。
2. 寻找市场地图机会
我们市场地图的某些部分已经非常拥挤,例如动画或语音与对话,但其他领域则非常开放。我们鼓励对这一领域感兴趣的企业家将精力集中在尚未探索的领域,例如“游戏跑道”。
第二部分——市场地图
市场现状
我们已经创建了一个市场地图来捕获我们在每个类别中发现的公司列表,我们在这些类别中看到生成 AI 影响游戏。这篇博文逐一介绍了这些类别,对其进行了更详细的解释,并重点介绍了每个类别中最令人兴奋的公司。
2D 图像
根据文本提示生成 2D 图像已经是生成人工智能应用最广泛的领域之一。Midjourney、Stable Diffusion 和 Dall-E 2 等工具可以从文本生成高质量的 2D 图像,并且已经在游戏生命周期的多个阶段进入游戏制作。
概念艺术
生成 AI 工具擅长“构思”或帮助非艺术家(如游戏设计师)快速探索概念和想法以生成概念图,这是制作过程的关键部分。例如,一个工作室(保持匿名)正在使用其中的几个工具来从根本上加快他们的概念艺术过程,只需要一天就可以创建一个图像,而以前需要长达 3 周的时间。
- 首先,他们的游戏设计师使用 Midjourney 探索不同的想法并生成他们觉得鼓舞人心的图像。
- 这些被移交给专业的概念艺术家,他们将它们组装在一起并在结果上绘画以创建一个单一的连贯图像——然后将其输入到 Stable Diffusion 中以创建一系列变化。
- 他们讨论这些变化,选择一个,手动绘制一些编辑——然后重复这个过程,直到他们对结果满意为止。
- 在那个阶段,最后一次将此图像传回 Stable Diffusion 以“升级”它以创建最终的艺术作品。
2D 制作艺术
一些工作室已经在尝试使用相同的工具来制作游戏中的艺术品。例如,这里有一篇来自 Albert Bozesan 的精彩教程,介绍如何使用 Stable Diffusion 创建游戏中的 2 D 资产。
3D 艺术品
3D 资产是所有现代游戏以及即将到来的元宇宙的基石。虚拟世界或游戏关卡本质上只是 3D 资产的集合,经过放置和修改以填充环境。然而,创建 3D 资产比创建 2D 图像更复杂,并且涉及多个步骤,包括创建 3D 模型和添加纹理和效果。对于动画角色,它还涉及创建内部“骨架”,然后在该骨架之上创建动画。
我们看到几家不同的初创公司在这个 3D 资产创建过程的每个阶段都在努力,包括模型创建、角色动画和关卡构建。然而,这还不是一个已解决的问题——还没有任何解决方案准备好完全集成到生产中。
3D 资产
试图解决 3 D 模型创建问题的初创公司包括 Kaedim、Mirage 和 Hypothetic。更大的公司也在关注这个问题,包括 Nvidia 的 Get3 D 和 Autodesk 的 ClipForge。Kaedim 和 Get3 d 专注于图像到 3 D(image-to-3 D);ClipForge 和 Mirage 专注于文本到 3 D(text-to-3 D),而 Hypothetic 对文本到 3 D(text-to-3 D)搜索以及图像到 3 D(image-to-3 D)都感兴趣。
3D 纹理
3D 模型的逼真度取决于应用于网格的纹理或材料。决定将哪种长满苔藓、风化的石头纹理应用于中世纪城堡模型可以完全改变场景的外观和感觉。纹理包含关于光如何对材料做出反应的元数据(即粗糙度、光泽度等)。允许艺术家根据文本或图像提示轻松生成纹理对于提高创作过程中的迭代速度非常有价值。几个团队正在寻求这个机会,包括 BariumAI、Ponzu 和 ArmorLab。
动画
创建出色的动画是游戏创建过程中最耗时、最昂贵且最需要技巧的部分之一。降低成本并创建更逼真的动画的一种方法是使用动作捕捉,您可以让演员或舞者穿上动作捕捉服,并记录他们在配备特殊仪器的动作捕捉舞台上的移动。
我们现在看到了可以直接从视频中捕捉动画的生成 AI 模型。这样效率更高,既因为它消除了对昂贵的动作捕捉装备的需求,也因为这意味着您可以从现有视频中捕捉动画。这些模型的另一个令人兴奋的方面是,它们还可以用于对现有动画应用过滤器,例如让它们看起来喝醉了、老了或开心了。进入这一领域的公司包括 Kinetix、DeepMotion、RADiCAL、Move Ai 和 Plask。
关卡设计和世界建设
游戏创作中最耗时的一个方面是构建游戏世界,生成 AI 应该非常适合这项任务。Minecraft、No Man’s Sky 和 Diablo 等游戏已经以使用程序技术生成关卡而闻名,其中关卡是随机创建的,每次都不同,但遵循关卡设计师制定的规则。新的 Unreal 5 游戏引擎的一大卖点是其用于开放世界设计的程序工具集,例如植被放置。
我们已经看到该领域的一些举措,例如 Promethean、MLXAR 或 Meta 的 Builder Bot,并且认为生成技术在很大程度上取代程序技术只是时间问题。该领域的学术研究已经有一段时间了,包括 Minecraft 的生成技术或 Doom 的关卡设计。
期待用于关卡设计的生成式 AI 工具的另一个令人信服的理由是能够创建不同风格的关卡和世界。你可以想象在 1920 年的纽约拍板时代要求工具生成一个世界,对比反乌托邦的银翼杀手式未来,对比托尔金式的幻想世界。
以下概念是由 Midjourney 使用“一个游戏级别……风格”这个提示生成的。
音频
声音和音乐是游戏体验的重要组成部分。我们开始看到公司使用 Generative AI 来生成音频,以补充图形方面已经发生的工作。
声音特效
音效是 AI 极具吸引力的开放领域。已有学术论文探索使用 AI 在电影中生成“foley”(例如脚步声)的想法,但游戏中的商业产品还很少。
我们认为这只是时间问题,因为游戏的交互性使其成为生成 AI 的明显应用,既可以在制作过程中创建静态音效(“激光枪声,星球大战风格”),又在运行时创建实时交互式音效。
考虑为玩家角色生成脚步声这样简单的事情。大多数游戏通过包含少量预先录制的脚步声来解决这个问题:在草地上行走、在砾石上行走、在草地上奔跑、在砾石上奔跑等。生成和管理这些声音很乏味,并且在运行时听起来重复且不真实。
更好的方法是实时生成拟音效果的 AI 模型,它可以动态生成适当的音效,每次都略有不同,对游戏中的参数(如地面、角色体重、步态、鞋类等
音乐
音乐一直是游戏的挑战。这很重要,因为它可以像在电影或电视中一样帮助设定情感基调,但由于游戏可以持续数百甚至数千小时,它很快就会变得重复或烦人。此外,由于游戏的互动性,音乐可能很难在任何给定时间精确匹配屏幕上发生的事情。
二十多年来,自适应音乐一直是游戏音频领域的一个话题,一直追溯到微软用于创建互动音乐的“DirectMusic”系统。DirectMusic 从未被广泛采用,主要是因为以这种格式进行创作很困难。只有少数游戏,如 Monolith 的 No One Lives Forever,创造了真正的互动配乐。
现在我们看到许多公司正在尝试创建 AI 生成的音乐,例如 Soundful、Musico、Harmonai、Infinite Album 和 Aiva。虽然今天的一些工具,如 Open AI 的 Jukebox,计算密集度很高,不能实时运行,但大多数都可以在初始模型构建后实时运行。
语音和对话
有大量公司试图为游戏中的角色创造逼真的声音。考虑到尝试通过语音合成为计算机提供声音的悠久历史,这并不奇怪。这些公司包括 Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai 等等。
使用生成 AI 进行语音有多种优势,这在一定程度上解释了为什么这个领域如此拥挤。
即时生成对话。通常游戏中的语音是由配音演员预先录制的,但这些仅限于预先录制的录音语音。通过生成 AI 对话,角色可以说任何话——这意味着他们可以对玩家的行为做出充分的反应。结合用于 NPC 的更智能的 AI 模型(不在本博客的范围内,但现在是一个同样令人兴奋的创新领域),对玩家完全反应的游戏的承诺即将到来。
- 角色扮演。许多玩家想扮演与他们在现实世界中的身份几乎没有相似之处的奇幻角色。然而,一旦玩家用自己的声音说话,这种幻想就会破灭。使用与玩家头像相匹配的生成声音可以保持这种错觉。
- 控制。生成语音时,您可以控制声音的细微差别,如音色、音调变化、情感共鸣、音素长度、重音等。
- 本土化。允许将对话翻译成任何语言并以相同的声音说出来。像 Deepdub 这样的公司专门专注于这个利基市场。
NPC 或玩家角色
许多初创公司正在考虑使用生成式 AI 来创建可以与之互动的可信角色,部分原因是这是一个在游戏之外具有如此广泛适用性的市场,例如虚拟助理或接待员。
创造可信角色的努力可以追溯到 AI 研究的开端。事实上,经典的人工智能“图灵测试”的定义是,人类应该无法区分与人工智能和人类的聊天对话。
目前,有数百家公司在构建通用聊天机器人,其中许多由类似 GPT-3 的语言模型提供支持。少数人专门尝试构建以娱乐为目的的聊天机器人,例如试图构建虚拟朋友的 Replika 和 Anima。正如电影《她》中探讨的那样,与虚拟女友约会的概念可能比您想象的更接近。
我们现在看到了这些聊天机器人平台的下一次迭代,例如 Charisma.ai、Convai.com 或 Inworld.ai,旨在为完全渲染的 3 D 角色提供动力、情感和代理,并提供工具让创作者提供这些人物目标。如果他们要融入游戏或在推进情节中有一个叙事位置,而不是纯粹的门面装饰,这一点很重要。
多合一平台
Runwayml.com 是最成功的生成 AI 工具之一,因为它在一个软件包中汇集了广泛的创作者工具套件。目前还没有这样的视频游戏平台,我们认为这是一个被忽视的机会。我们很乐意投资具有以下特点的解决方案:
- 涵盖整个生产过程的全套人工智能生成工具。(代码、资产生成、纹理、音频、描述等)
- 与 Unreal 和 Unity 等流行游戏引擎紧密集成。
- 旨在适应典型的游戏制作流程。
结论
对于游戏创作者来说,这是一个不可思议的时刻!部分归功于这篇博文中描述的工具,生成构建游戏所需的内容从未如此简单——即使您的游戏与整个地球一样大!
甚至有一天可以想象一款完全个性化的游戏,完全根据玩家的需求为玩家打造。这在科幻小说中已经存在很长时间了——比如《安德的游戏》中的“AI 智力游戏”,或者《星际迷航》中的全息甲板。但是随着这篇博文中描述的工具发展得如此之快,不难想象这一现实指日可待。