AI视频发展到什么阶段？用3~5年走完百年电影史

AIGC行业资讯9个月前发布 zhang

24 0 3

曾惊艳全球的sora并不好用？

作者／ IT时报记者贾天荣

编辑／孙妍

你有没有发现，AI生成视频开始在朋友圈和社交平台频繁出现。今年2月15日 OpenAI推出文生视频大模型Sora，惊艳了全球，关于文生视频的讨论空前激烈，不少圈内AI人士表示Sora加剧了中外的差距，国内与海外有了明显代差。

半年过去，文生视频成为国内大模型厂商竞逐的一条新赛道，2024年世界人工智能大会（WAIC）成为检验成效的关键时刻。

7月5日，WAIC视频生成前沿技术论坛上，众多AI视频领域的明星企业和专家学者齐聚一堂，千帆竞逐之中，文生视频发展到什么阶段了？曾经的差距是否缩小？前景几何？带着这些问题，视频生成技术成为论坛的焦点。

AI视频将用3至5年走完百年电影史

回望过去半年，国内文生视频大模型领域可谓百花齐放、百家争鸣。从生数科技与清华大学联手打造的Vidu，到北京大学推出的Open Sora，再到字节跳动、腾讯、右脑科技、上海人工智能实验室等纷纷布局，一系列创新成果如雨后春笋般涌现。

6月，视频大模型领域更是迎来了爆发式增长，多个产品相继问世，如，极佳科技联合清华大学发布的“视界一粟YiSu”、快手“可灵Kling”，以及美图奇想大模型V5。

就在WAIC召开首日，商汤科技打造的首个面向C端用户的可控人物视频生成大模型Vimi亮相，入选本届大会展览的“镇馆之宝”，一张照片就能生成1分钟的单镜头人物视频，人物可以保持稳定一致，不会随着时间劣化或失真，时长与sora对齐。

千帆竞逐之中，国内的视频大模型究竟发展到了什么水平？

在新加坡南洋理工大学助理教授刘子纬看来，如果将视频生成技术的发展轨迹与语言模型相对比，目前的状态大致相当于GPT-3的时代，距离GPT-3.5和ChatGPT的爆发点还有半年左右时间。

回顾文本生成图像技术的迅速崛起，从萌芽到大规模应用仅耗时一年半，而目前视频领域同样迎来了资本的涌入，数据、算力的双重加持，文生视频技术的飞跃或许指日可待。

美图公司集团高级副总裁陈剑毅

美图公司集团高级副总裁陈剑毅认为，当下的AI视频生成技术还在早期阶段，类似电影行业1分钟黑白电影的起点。该技术会经历快速演变，大概3至5年就能走完电影技术百年发展史。目前来看，文生视频有望在网文小说和教学内容领域率先落地。

当前文生视频发展有三种主流技术路径：Diffusion（基于图像生成扩展至视频）、基于Transformer（如Sora的结构）、基于语言模型的视频生成。刘子纬表示，对于短视频，Diffusion已足够，而长视频则更适合Transformer架构。他认为，自回归路径虽然目前视觉效果较弱，但其上升潜力巨大，可能成为融合多模态的未来解决方案。

曾经惊艳全球的Sora实际并不好用？

“现阶段AI视频的AI感太强，很容易看腻，短期内不太存在新的平台级产品的机会。”陈剑毅观察到，有个残酷的现实是，AI视频技术目前的普及度并不高，大部分C端用户难以理解“文生图”是什么意思，“文生视频”也是，绝大多数用户也不知道该如何写提示词。

另一方面，对于视频创作者而言，“AI视频目前最大的槽点是，看各种宣传视频都很好，实际不好用。”陈剑毅称，因为那些都是demo，就像demo车和量产车的区别，可能生成了几百条视频，从中抽出效果最好的一条，把这个效果做了很多后期处理，为了涨粉、引流，过度放大AI视频的价值。

他认为，ai视频生成的颠覆性，在短期一定是被高估的，但长期是被低估的。

在多位专家看来，技术端的挑战亟待解决，即使是Sora，也并非完美无缺。

达摩院视频生成负责人陈威华

阿里巴巴达摩院视频生成负责人陈威华也提到，尽管Sora的出现让大家看到了AI视频生成在高清晰度、高保真、高质量方面的巨大潜力和价值。但在实际应用过程中，有创作者反应其生成过程难以控制，特别是在处理复杂场景和角色时，往往需要引入大量的人工后期编辑才能达到理想效果。这不仅增加了创作成本，也限制了AI视频技术的广泛应用。

上海交通大学电子系教授倪冰冰

上海交通大学电子系教授、博士生导师倪冰冰认为，从技术角度看来，当前的生成算法在处理视频、图像和三维内容时，常遇到物件数量不准确、穿模现象以及细节模糊等。他解释道，这是因为现有技术本质上是一种采样过程，在高维空间如视频中，要做到完美无缺极具挑战，受限于技术框架和算力约束。随着数据量的增加和算力的提升，生成内容的质量会提高。

倪冰冰表示，生成式人工智能目前阶段性的成功是以算力与数据的过度消耗为代价的，未来我们应聚焦于媒体内容的新型表征与生成式计算新范式，积极打造更加优质高效的媒体新质生产力。

AI视频的“寒武纪”到来？

井英科技CEO朱江将当下AI时刻与生物进化史上的寒武纪生命大爆发作类比：正如寒武纪时期无数物种突然涌现、竞相生存一样，当前的AI生成式时代也充满了未知与变数，但同时也孕育着巨大的机遇。

广泛共识下，业界对视频生成技术这一前沿领域的前景满怀乐观。随着大模型的驱动，视频生成技术将不断提升，为内容创作和观众体验带来革命性的变革。

“视频生成模型不仅能生成视频内容，也是我们通过多模态学习基础感知能力的重要一步，是人工智能走向agi的必经之路。”Haiper AI创始人缪亦舒认为。

FancyTech（时代涌现）创始人、CEO空界表示，在传统行业中，如法律、教育、医疗等领域，专业拍摄和后期制作往往需要高昂的成本和专业技能。而AI视频生成技术通过降低操作门槛，使得普通用户也能轻松完成高质量的拍摄和编辑工作。这不仅降低了商家的成本，还创造了新的就业机会，让更多人能够参与到内容创作中来，实现创意和想法的变现。

五源资本合伙人石允丰则从投资的角度阐述了视频生成技术的潜在市场。“”我们看到了实体世界应用的巨大潜力，无论是机器人技术、自动驾驶，还是其他物理世界建模，视频生成技术都能显著提升预测能力和决策效率，这将极大推动相关产业的发展。”

石允丰表示，虽然当前视频生成技术面临内容消费价值低的挑战，但随着技术的成熟和市场的培育，这一局面有望得到改变。曾经的快手等短视频平台的成功经验表明，通过创新的产品设计和内容裁剪策略，可以有效激发用户的观看和分享欲望。未来，随着AI视频生成技术的不断进步和更多天才产品经理的涌现，我们期待更多高质量、有创意的视频内容涌现出来，从而推动内容消费市场的变革。

“在AI生成式时代，技术的更新换代速度极快，新的机会和挑战层出不穷。对于创业公司而言，能否在这个快速变化的环境中保持Tier 1的技术水准和理解力，将直接决定其生存与发展的空间。”朱江说道。

另一方面，技术最终会趋于收敛，但这并不意味着商业机会和用户需求的消失。相反，随着技术的成熟和普及，新的应用场景和客户需求将不断涌现。朱江表示，对于应用层创业公司而言，最关键的问题在于如何准确捕捉这些机会，深入理解并满足客户的真实需求。只有这样，才能在激烈的市场竞争中脱颖而出，实现商业价值的最大化。