从 Stability AI 和 Stable Diffusion 看 AIGC

AI应用信息2年前 (2023)发布

2022年10月17日，AIGC （AI Gererative Content）领域的知名项目 Stable Diffusion —— 背后的公司 Stability AI 宣布获得了来自 Coatue、光速资本以及 O＇Shaughnessy 总计 1．01 亿美元的种子轮投资，资金将用来面向图像、语言、音频、视频以及 3D 领域的 AI 模型开发，投后估值达到 10 亿美元。

作者｜Tim Jiang

编辑｜Tim Jiang

今年以来，AIGC 领域的相关创作工具如雨后春笋般出现，有概念词「AIGC」，也有大众词「AI 绘画」，更有技术词「txt2img」，但本质上它们都在讲一个功能逻辑 —— 文字叙述到计算机图像的生成。

我梳理了几个重要的项目和时间点供大家参考：

2021年10月，Somnai 在 Github 上创建了名为 Disco Diffusion 的项目，这是一款运行在 Google Colab 上的 AI 程序，Somnai 在今年 2 月发布了 5．0 版本，用户可根据场景关键词渲染对应图像，随后该项目开始在网络上出圈，但该工具分辨率和算力相对有限；

2022年4月，OpenAI 发布了 DALL·E 2代模型，名字来源于著名画家达利以及 2008 年的动画片《机器人瓦力》，是 DALL．E 的继任者，OpenAI 背后获得了微软和包括 Khosla Ventures 的支持，DALL·E 2 能够生成高度逼真的原创图像，这些图像的视觉风格各异，有梦幻的也有写实的，例如骑马的宇航员和在古埃及买面包的泰迪熊，但工具本身在内容创作边界上更加收敛和限制；

2022年5月，Google 推出了 Imagen，Imagen 是一种文本到图像的扩散模型，能够生成较为真实的图片，在精度和质量上优于 DALL·E 2，但目前主要用于学术目的并不开放，且在带有人物的创作上有更多限制；

2022年7月，Midjourney 项目进入公测阶段，这是该模型的第 3 版，第 2 版发布于今年 4 月。Midjourney 是一个独立的研究实验室，创始人是原先 Leap Motion的联创 David Holz，而 Disco Diffusion 项目的原作者 Somnai 也在今年 5 月加入了 Midjourney；

Stability AI 是一家什么样的公司

来到本篇的主角 —— Stable Diffusion，该项目由初创公司 StabilityAI 和慕尼黑大学机器视觉学习组和 AI 视频剪辑技术创业公司 Runway 合作开发，并得到了黑客组织 EleutherAI 和德国非盈利组织 LAION 的支持。

从 Stability AI 和 Stable Diffusion 看 AIGC

Source：Mostaque，Business Insider；

Mostaque 目前是 Stability AI 的 CEO 兼联合创始人，当前的人员在 75 人左右。Mostaque 希望通过这个项目为大众带来新的 AI 应用。在 Mostaque 和他的同事们看来，现有的 AI 技术只代表了人工智能艺术能够创造的冰山一角，未来相关的用例可能包括大幅改进的照片写实、视频和动画。

说来有趣，创立 Stability AI 的 Mostaque，既不是研发人员，也不是艺术家，他的背景是一名在伦敦从事 13 年对冲基金工作的金融人士。虽然从事对冲基金工作，但 Mostaque 也是妥妥的工科学霸，早年毕业于牛津大学数学和计算机专业。

Mostaque 希望通过这个项目为大众带来新的 AI 应用，在他和同事们看来，现有的 AI 技术只代表了人工智能艺术能够创造的冰山一角，未来相关的用例可能包括大幅改进的照片写实、视频和动画。

除了文章开头提到种子轮投资人，更早之前项目主要由 Mostaque 和一家名为 Eros Investment 进行天使投资。Eros Investment 认为 Stability AI 具备一定 3D 化身的能力，这些化身在未来将用于 AR／VR 游戏中，预计随着 Stability AI 引入更快、更好和更专业的模型，质量不断提高，未来将进一步添加音频、3D 和视频功能，并引入到 Canva 和 WordPress 等平台中去。

由于 Stable Diffusion 项目的底层技术是免费开源的，因此早期在商业模式上并没有明确的定位。8 月份的时候，CEO Mostaque 在接受 Youtube 上的网红机器学习工程师 Yannic Kilcher 采访时表示，Stability AI 已经与一些政府和领先机构建立了合作伙伴关系来销售这项技术，因此相比于其他起步就亏损的技术公司相比，公司将早早开始盈利。

Stable Disffusion 的创新是什么？

那么 Stable Disffusion 效果如何呢？你可以在几秒内就创作一张梵高绘制的碧昂斯肖像画，又或是日本十八世纪艺术家葛饰北斋创作的赛博朋克城市景观。

Source：KENRICK CAI via Stable Disffusion；

Stable Diffusion 项目带来的主要革新是将模型的计算空间从原先的像素通过技术手段，在保留足够丰富的信息与细节状态下降为到一个更低的数量空间里，然后再通过一系列的训练和图像进行计算，而这个更低维的空间被称为潜空间（Latent Space）。

潜空间对产业界来说，相比其它模型大幅降低了内存和计算的要求，举个例子，原先 512 x 512 对图像一下子变成了 64 x 64，需要的内存减少了 98％！原先只有研究人员才能进行创作的条件一下子达到了消费级，所以该项目出圈是必然的。

Stable Diffusion 开源后，一方面可以在大部分适配 GPU 的电脑上运行，例如一台 M1 的苹果电脑，而 DALL·E2 以及 Midjourney 只能通过云计算访问使用；另一方面，在内容创作的范围上，Stable Diffusion 较其它模型更加自由开放，用户拥有创作的图像权利，也可以自由地用作商业用途，Mostaque 表示开源能够让更多的人接触到这项技术。

Source：Stability AI 官网；

回到产品的使用上，对于普通用户 Stability AI 还推出了 DreamStudio，这就像是融合了Stable Diffusion 模型之后的在线 Photoshop，只不过新用户注册后需要按积分使用，不同参数条件下生成的图像所消耗的积分不同，新用户将获得 200 积分，默认条件是一张图消耗 1 积分。

Source：作者通过DreamStudio绘制；

例如，我尝试了用李白的《早发白帝城》的英文诗句输入到 DreamStudio，出来的效果还是不错的。

img2img 下的 AIGC 趋势

如果说 Stable Diffusion 的技术表述归纳为「text2img」，且多为 2D 平面内容，那么该项目的新方向则是通过「img2img」完成 3D 内容的创建。

什么是 img2img？Reddit 上的一名用户发布了 6 张图片，根据经典 MS－DOS 上的游戏画面进行图形优化，效果如下：

Source：frigis9 on Reddit；

img2img 技术也是 Stable Diffusion 中的新功能，能进一步将 text2img 生成的图片真人化，使2D变3D，降低了广大用户将创意落地的门槛，释放了大众创意，而对于本身就靠创意吃饭的艺术工作者，它们通过该技术表达创意的能力也会进一步提高，就像从纸面创意如同 8090 年代的 CAD 过渡那样，如果说 CAD 全称是 Computer Aided Design，那套个 AIGC 概念就是 AI Aided Design．．．．．．

Source：Mostaque，Twitter；

当然，与 DreamStudio 融合的实际效果和使用都需要一段时间的优化中，特别是用在个人计算机上还需要一个过程，毕竟生成图片的质量需要对原先的素材进行大量测试。

实际上，自今年 8 月份发布以来，Stable Disffusion 已经在全球范围吸引了 20 多万开发人员下载和使用，而面向大众的产品 DreamStudio 更是在 50 多个国家地区吸引了 100 多万的用户注册使用，目前为止已经累计创作了 1．7 亿张图像。

Source：《星际迷航》Holodeck，公开网络；

Stability AI 的 CEO Mostaque 表示，随着 GPU 和算力的提升，Stable Disffusion 可能一年之内就能在智能手机上运行，新技术将在更多低价的设备上进行训练，很快就能看到 AI 推动的创意出现指数级的增长，而 Stable Diffusion 和其他模型已经开始摩拳擦掌着手动态视频的生成了，可能首先会进入创作成本更低的短视频领域，而他希望这个创作过程是多模态的，就像《星际迷航》的全息甲板（Holodeck）一样。

Reference：

［1］《Stability AI Announces ＄101 Million in Funding for Open－Source Artificial Intelligence》，PR Newswire；

［2］《Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To ＄1 Billion》，Forbes；

［3］《Stable Diffusion， a milestone？》，AnalyticsIndiaMag；

封面：LOKESH CHOUDHARY

免责声明：在任何情况下，本文信息或表述，不构成任何投资建议；若有侵权，请后台联系删除。