字节豆包直面AI视频降本难题，压力给到了谁？

AIGC行业资讯6个月前发布 zhang

16 0 7

自Sora横空出世开辟了AI 视频的新纪元以来，国内外各大玩家陆续加入AI视频的竞逐赛。但是，当进入这一更交互、更沉浸的视频新时代，又该如何应对成本、质量和性能方面的挑战？

10月15日，火山引擎联合英特尔共同在视频云技术大会上发布了大模型训练视频预处理方案。《每日经济新闻》记者在发布会现场了解到，目前该技术方案已应用于豆包视频生成模型。

发布会上，Bytedance Research负责人李航介绍，豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案，充分利用了大量潮汐资源，为模型训练提供了有力支撑。

此外，抖音集团视频架构负责人王悦透露了字节自研视频编解码芯片的最新进展：经过抖音集团内部的实践验证，该芯片在同等视频压缩效率下，成本节省了95%以上。

“首先，超大规模视频训练数据集导致计算和处理成本激增。”王悦指出大模型厂商在预处理过程中面临诸多挑战，“其次是视频样本数据参差不齐，然后是处理链路环节多、工程复杂，最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”

图片来源：每经记者杨昕怡摄

自研多媒体处理框架，豆包直面AI视频降本难题

在9月24日的火山引擎AI创新巡展上，豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型一并发布，吸引业内外人士关注。其实，字节跳动在视频生成模型上下的功夫不止于此。

10月15日，火山引擎发布了大模型训练视频预处理方案，致力于解决视频大模型训练的成本、质量和性能等方面的技术挑战。

据介绍，对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息，从而使模型能更高效地学习视频中的特征和知识，提升训练效果和效率。

在视频生成模型的训练中，算力成本无疑是首屈一指的挑战。

一位国内视频生成模型的算法工程师在接受《每日经济新闻》记者采访时表示，在拥有高质量数据后，视频模型会比大语言模型更难训练，有更多的算力需求，“目前已知的开源视频模型没有特别大，主要是目前很多视频模型处于不知道如何使用数据的阶段，（用于训练的）高质量数据也没有特别多。”

计算机科学家Matthias Plappert的研究也显示，Sora的训练对算力规模的要求巨大，在训练环节大约需要在4200～10500张NVIDIA H100上训练1个月，且当模型生成到推理环节以后，计算成本将迅速超过训练环节。

为了解决降本难题，火山引擎借助Intel的CPU等资源，将大模型训练视频预处理方案依托于自研的多媒体处理框架。王悦表示，该方案还在算法和工程方面进行了调优，可以对海量视频数据高质量预处理，短时间内实现处理链路的高效协同，提高模型训练效率。

对于该方案的应用，李航在发布会现场透露，豆包视频生成模型PixelDance在训练过程中已采用该方案。同时，火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务，让模型的商业化应用有了保障。

此外，在此次发布会上，火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案，从视频的生产端、交互端到消费端，全链路融入AI能力。

拿到AI视频时代的“船票”之后，去向何方？

AI正全方位重塑着人们生产、传播和接受信息的路径。其中，不断涌现的视频新技术将人们从流畅、高清的数据世界带入了更加智能、更具交互体验的AI世界。

今年7月，商汤推出了首个面向C端用户的可控人物视频生成大模型Vimi；8月，“AI六小龙”之一的MiniMax发布了视频生成模型video-1；9月，可灵AI完成第9次迭代，发布“可灵1.5模型”，阿里云在云栖大会上推出全新的视频生成模型，字节也发布了2款视频生成模型⋯⋯AI视频产品的诞生和迭代几乎是以月来计时的。

对于AI视频产品的“爆发”，北京市社会科学院副研究员王鹏在接受《每日经济新闻》记者采访时表示，国内AI视频产品正处于快速发展和不断迭代的阶段，主要因为市场需求旺盛、应用场景广泛和商业化模式多样等。

目前市场上AI视频产品的落地大多在影视、电商营销等领域，例如今年7月，即梦AI和博纳影业合作推出了全国首部AIGC 生成式连续性叙事科幻短剧集《三星堆：未来启示录》；今年9月，快手联合贾樟柯、李少红等9位知名导演启动“可灵AI”导演共创计划。

与此同时，工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者指出，如今部分AI视频产品处于导入期，因为技术或合规性，很难在市场上铺开，“目前感觉开源（AI视频产品）比闭源的更受欢迎，因为AI视频生成的成本很高，而视频制作者往往缺少资金，所以利用开源的、下载到终端的AI算法可以更好地制作生成视频。”

在他看来，现阶段AI视频产品主要有算力和合规风险两方面的主要障碍。“算法、算力和数据方面都需要企业投入较多的资源和时间；另一难点在于合规风险，如今对隐私越来越重视，合规是绕不过去的话题，而AI视频有时可能会侵犯个人隐私。”他解释。

此外，易观分析研究合伙人陈晨也在接受《每日经济新闻》记者采访时表达了对视频生成大模型短期变现能力的担忧，“由于AI大模型高昂的模型训练与推理成本，加之C端用户对AI工具的需求相对分散，付费意愿不足，视频大模型在C端市场的商业化仍然会面临一个较长的培育期。”

AI视频的时代来到了，但这注定是一个长坡厚雪的赛道，如何降本增效、拿下更多市场也将成为互联网大厂和科技企业面对的不变命题。