AIGC的大爆发不仅有赖于AI技术的突破创新,还离不开产业生态快速发展的支撑,在技术创新方面,生成算法,预训练模型,多模态技术等AI技术汇聚发展,为AIGC的爆发提供了肥沃的技术土壤。
基础的生成算法模型不断突破创新,比如为人熟知的GAN,Transformer,扩散模型等,这些模型的性能,稳定性,生成内容质量等不断提升,得益于生成算法的进步,AIGC现在已经能够生成文字,代码,图像,语音,视频,3D物体等各种类型的内容和数据。
第二,预训练模型,也即基础模型,大模型,引发了AIGC技术能力的质变,虽然过去各类生成模型层出不穷,但是使用门槛高,训练成本高,内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变,高精度,高质量等需求,而预训练模型能够适用于多任务,多场景,多功能需求,能够解决以上诸多痛点,预训练模型技术也显著提升了AIGC模型的通用化能力和工业化水平,同一个AIGC模型可以高质量地完成多种多样的内容输出任务,让AIGC模型成为自动化内容生产的“工厂”和“流水线”。
第三,多模态技术推动了AIGC的内容多样性,进一步增强了AIGC模型的通用化能力,多模态技术使得语言文字,图像,音视频等多种类型数据可以互相转化和生成,比如CLIP模型,它能够将文字和图像进行关联,如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富,这为后续文生图,文生视频类的AIGC应用的爆发奠定了基础。
I平台化的生态搭建,以及充足广阔的产业实践空间。
大模型虽好,对于很多企业和创作者来说,想要自己从头开发一套大模型用来进行AIGC既不经济,也不现实,这时候,AI平台化,民主化就变得至关重要。
去年推出的许多多模态大模型,如紫东太初,文心,M6等,都通过AI平台进行开源,可以直接调用并通过云端算力进行训练,一些科技企业也将数字人技术开源开放,这些动作大大降低了企业和创业者的开发门槛,创作效率提升,进而助力高质量AIGC变得普及。
目前,南京,武汉等地,已经开始形成多模态应用的产业集群,而千行百业的数字化,数字经济的持续发展,也给予了AIGC前所未有的产业空间与实践场景,比如此次受资本追捧的一些AIGC公司,就瞄准了“游戏+AI”场景,通过算法生成数字人,语言互动等方式,满足玩家在虚拟世界中个性化,定制化的体验需求,而更多的产业实践,也会源源不断地产生新的数据,推动算法的迭代升级。