日前快手可灵大模型发布重磅更新,正式开放 ” 图生视频 ” 功能,可支持将静态图像转化为 5 秒时长的视频,并且用户可通过提示词控制图像中的运动效果。此次更新同时还推出了视频续写功能,支持对生成视频一键续写和连续多次续写,最长可生成是时长约 3 分钟的视频内容。
据了解,快手可灵大模型的 ” 图生视频 ” 功能可根据用户上传的图片进行深度解析,赋予其 5 秒的鲜活生命力。得益于其基础模型架构中的 3D 时空联合注意力机制,可灵在构建复杂时空运动方面具备更为出色的能力,在转换静态图像为动态视频时可细腻而准确地实现大幅度的运动场景。
同时可灵大模型还具备提示词融合技术,并深化了对图像语义和用户指令的理解整合,能够根据用户提供的不同文本指令变换视频中的动态表现。通过文本与图像意义的紧密联动,可灵大模型将按需定制的视觉叙事能力提升到了新的高度。此外其还支持不同风格的图像输入,不论自然写实、还是风格化图像都能处理,同时可兼容各种长宽比的输入。
此次可灵大模型更新的重点之一便是视频续写功能,可支持对生成视频一键续写和连续多次续写。据快手方面介绍,用户可先通过 ” 文生视频 ” 和 ” 图生视频 ” 两种模式生成约 5 秒钟视频,然后再使用视频续写功能,每次续写都能将视频延续约 5 秒,最终可实现长达 3 分钟的视频。
更为重要的是,视频续写功能与文本控制机制还进行了深度融合,这也就意味着每一段续写都能融入用户的创意和想法,通过添加不同提示词实现转换和场景过渡,进而确保新生成的部分与原视频间的连贯性及合理性,从而提升视频的生动性。
快手方面此前在 6 月 6 日正式发布旗下可灵视频生成大模型,率先开放的是 ” 文生视频 ” 能力,不但效果对标 sora、且在快影 App 同步开放邀测体验,目前累计已有约 14 万人排队申请。
此外,基于可灵大模型的更多应用也已经或即将落地,例如基于肢体驱动的 “AI 舞王 ” 已在快手和快影 App 落地,用户只需上传一张 全身或半身照片即可体验 ” 一键跳舞 “。而 “AI 唱跳 ” 也即将上线,仅需一张照片即可同时驱动表情和肢体动作,生成一段唱跳视频。
公开资料显示,可灵大模型为快手 AI 团队自研,其基于类 Sora 技术路线、并结合了多项自研创新技术,能够生成 1080P 分辨率、时长 2 分钟(帧率 30fps)的视频,且支持自由宽高比。
目前,快手方面已在 AI 领域展开全面布局,并先后发布了 1750 亿参数规模的通用大语言模型 ” 快意 ” 和文生图大模型 ” 可图 “,同时还推出了 Direct-a-Video、Video-LaViT、I2V-Adapter、UNIAA 等视频关键技术。