豆包PixelDance – 字节跳动推出的AI视频生成大模型
一、豆包PixelDance简介
豆包PixelDance是由字节跳动旗下火山引擎发布的AI视频生成大模型,于2024年9月24日在火山引擎发布会上亮相。它基于DiT(扩散Transformer)架构,具备高效的DiT融合计算单元,这一架构和计算单元为其处理复杂的视频生成任务提供了基础支撑。
二、豆包PixelDance的特点
(一)理解复杂文本提示与多主体交互
- 语义理解能力
- 能够理解并执行复杂的文本提示,例如可以根据详细的场景描述生成视频。就像描述“一个充满活力的城市广场,人群熙攘,街头艺人表演,孩童嬉戏,情侣漫步”这样复杂的场景,它能精准捕捉多个主体之间微妙的互动,从眼神交流到肢体语言都能完美诠释,实现多个主体间的交互和时序性多拍动作指令。
- 多主体交互表现
- 在处理多主体场景时,不再局限于简单的单一主体动作。如在包含多个人物、动物或物体的场景中,可以呈现出它们之间复杂的关系和动态交互。比如人物的交互、背景的动态行为都能通过一个简单的提示完成,这是传统AI视频技术难以做到的。
(二)强大动态与炫酷运镜
- 动态效果的提升
- 针对高动态的复杂场景视频,模型设计的高效DiT融合计算单元发挥重要作用。使得生成视频的动作更灵动,以动物奔跑的场景为例,动物的奔跑姿势、速度变化等都能自然且逼真地呈现。
- 运镜能力多样化
- 支持超多镜头语言,如环绕、缩放、平摇、目标跟随等。例如在拍摄一个人物或者建筑物时,可以通过环绕运镜让观众多方位观看;缩放运镜能够聚焦主体的某些细节或者从宏观角度展示场景全貌;平摇运镜能平稳地移动视角呈现场景的两侧;目标跟随运镜则可以随着主体的移动而移动镜头,为观看者带来更加真实和全面的视频体验,使AI视频的视觉效果达到了前所未有的高度。
(三)一致性多镜头生成
- 故事性呈现
- 全新设计的扩散模型训练方法使得模型具备一键生成故事性多镜头短片的能力。例如在10秒内讲述一个起承转合的故事,像从温馨的家庭晚餐到激烈的街头追逐,再到感人的重逢场景,通过不同镜头的切换完整地表达故事内容。
- 多镜头一致性
- 在镜头切换时,成功攻克了一致性的难题,可同时保持主体、风格、氛围的一致性。也就是说,在整个视频中,不管是人物的形象特征、场景的风格特点,还是整个视频传递的情感氛围等都不会因为镜头的切换而产生突兀感,保持连贯和协调。
三、豆包PixelDance的功能
(一)人物复杂连续动作生成
- 突破简单动作局限
- 以往AI视频技术往往只能生成简单动作,如转身、跑步等,但PixelDance能够生成具有复杂连续动作的人物表演。例如人物从坐下到站起,再到走向雕像这样自然流畅且具有连贯性的动作序列,这不仅仅是技术上的进步,也在人物情感表达上更上一层楼,为影视创作等提供了更丰富的表现形式。
(二)多镜头组合视频
- 根据简单提示创作
- 仅需一张图和一个简单的提示(Prompt),就能生成风格、场景、人物一致的多镜头视频。这大大减少了制作多镜头视频在创意和素材准备上的难度,用户只需要有一个初步的想法和简单的引导素材,就可以让模型生成符合期望的多镜头视频内容,提高了视频创作的效率和便捷性。
(三)多样化风格和比例支持
- 风格多样选择
- 可生成3D动画、2D动画、国画、黑白、厚涂等多种风格的视频。不管是想要复古的黑白风格,还是现代前卫的3D动画风格,都能够满足需求,为创作者在艺术创作上提供了广阔的可选择性。
- 宽高比适配不同设备
- 支持1:1、3:4、4:3、16:9、9:16、21:9等多种宽高比,全面覆盖各种常见的显示器或应用。无论是传统电视、电影银幕、电脑显示器,还是各类移动设备,生成的视频都能完美呈现,确保视频在不同设备上的正常播放和最佳视觉效果。
四、豆包PixelDance的应用场景
(一)影视制作行业
- 情节创作辅助
- 在影视制作中,它可以帮助创作者快速生成创意片段用于预演。例如,对于一些复杂的动作场景或者多角色互动场景,能够迅速生成可视化的样片,以便创作者可以提前评估情节的可行性和视觉效果。像大场景中的战争场面,多个角色的打斗、追逐动作等,PixelDance可以生成连贯性好、动作复杂的视频,为后期实际拍摄或者特效制作提供参考。
- 镜头切换优化
- 它解决了多镜头切换一致性的难题,所以可以被应用于影视中的镜头组接工作。使从不同角度拍摄或者不同场景之间的过渡更加自然流畅,保持主体、风格、氛围的一致性,提升影片的整体品质。例如可以轻松将近景拍摄人物的表情镜头和远景展示环境的镜头进行有机切换,如果是科幻电影中不同星球的场景转换也能处理得很好。
(二)广告传媒领域
- 广告创意快速实现
- 对于产品广告,广告创意人员可以利用PixelDance快速将创意理念转化为视频。例如要推出一款新的运动型汽车,通过输入产品的特性、目标受众、想要的风格和场景等信息,就能生成包含汽车在不同路况上飞驰、产品细节展示、人物驾驶满意表情等元素的广告视频,大大缩短了创意从构思到可视化的时间。
- 吸引观众注意力
- 其强大的动态和炫酷运镜能力,像环绕、缩放等运镜方式,可以让广告更具视觉冲击力,从而更好地吸引观众的注意力。在竞争激烈的广告市场中,这种独特的视频效果可以使产品在众多广告中脱颖而出,提高产品的知名度和销售率。
(三)短视频内容创作领域
- 内容高效生成
- 在短视频创作中,创作者可以利用它快速生成具有故事性的短视频。比如制作一个搞笑短视频,只需要输入一些搞笑的情节元素、人物关系或者风格特点(如幽默夸张的动作风格),就能得到一个完整的短视频内容,满足当下快节奏下短视频内容快速更新的需求。
- 激发创作灵感
- 它支持多种风格、可以处理多主体互动等特点能够给创作者提供更多的创作灵感。创作者可以通过观察模型根据自己简单提示生成的视频内容,挖掘出新的创意元素或者故事线索,从而创作出更具个性和吸引力的短视频。
(四)直播行业
- 直播背景场景生成
- 在直播中可以用来生成虚拟的直播背景场景。例如对于一个旅游类的直播,主播可以通过PixelDance生成不同的著名旅游景点作为背景,增强直播的趣味性和视觉丰富性,而无需真实到达这些景点。
- 直播特效增强
- 它的动态效果和运镜功能也可以被用于为主播增加直播特效。像让主播的形象在直播画面中实现一些特殊的动态效果或者运镜效果,使直播内容更具观赏性和互动性。
(五)电商领域
- 商品展示创新
- 电商商家可以利用PixelDance生成独特的商品展示视频。例如对于服装产品,可以生成模特穿着服装在T台、户外、时尚场景中展示不同款式和颜色搭配的视频;对于电子产品,可以展示产品的实际使用效果、功能特点等,以一种更生动、多维度的方式展示商品,提高商品的吸引力。
- 促销活动创建
- 在电商促销活动期间,可以制作吸引人的促销视频。如在双十一、618等电商购物节时,生成包含产品优惠信息、赠送礼品、限时抢购等元素的促销视频,以更直观的方式向消费者传达促销信息,促进购买决策。