GameNGen是什么:
GameNGen是由谷歌推出的世界首个完全由AI驱动的游戏引擎,旨在颠覆传统的游戏开发方式。这个引擎利用神经网络实时生成游戏画面,无需手动编写代码,支持在复杂环境中实现高质量的实时互动。GameNGen能够以每秒20帧的速度生成类似于《毁灭战士》这样的游戏画面,其逼真的画质和复杂的交互让人难以分辨AI生成与真实游戏之间的区别。
主要特点:
- 高质量实时交互:能够在单个TPU上以超过20帧每秒的速度实时交互式地模拟经典游戏DOOM,且在长轨迹上保持高质量。
- 强大的预测能力:其下一帧预测的PSNR值达到29.4,与有损JPEG压缩相当,人类评分者很难区分游戏短片和模拟短片。
- 独特的训练方式:采用两阶段训练,先让RL-agent学习玩游戏并记录训练会话,再训练扩散模型基于过去帧序列和动作生成下一帧,通过条件增强实现长轨迹的稳定自回归生成。
主要功能:
- 数据收集:训练自动RL-agent玩游戏,记录其训练过程中的动作和观察,作为生成模型的训练数据。
- 扩散模型训练:利用Stable Diffusion v1.4的小扩散模型,基于先前动作和观察(帧)序列进行条件训练,并在训练中对编码帧添加高斯噪声以减少自回归漂移,保持视觉稳定性。
- 潜在解码器微调:针对Stable Diffusion v1.4预训练的自编码器在预测游戏帧时产生的影响小细节的伪影问题,仅训练潜在自编码器的解码器,使用MSE损失针对目标帧像素进行优化,以提升图像质量。
使用示例:
- 实时游戏模拟:可以实时模拟DOOM等复杂游戏环境,为玩家提供沉浸式的游戏体验,且在长时间的游戏过程中保持画面的稳定性和高质量。
- 游戏开发辅助:为游戏开发者提供一个强大的工具,用于快速生成游戏场景和角色动画,加速游戏开发流程,降低开发成本。
总结:
GameNGen是一个创新的游戏引擎,它利用神经模型和扩散模型技术,实现了对复杂游戏环境的高质量实时模拟。其独特的两阶段训练方法和对潜在解码器的微调,使其在长轨迹生成中表现出色,为游戏开发和实时交互式娱乐应用提供了新的可能性。