PixVerse 实测效果已超过 Pika,抖音经验让我们有足够优势

AI应用信息9个月前发布 XIAOT
113 0
今年 4 月宣布创办爱诗科技,加入视频生成赛道后,王长虎就消失在舆论场中了。他在抖音的职业经历,让爱诗科技在视频生成的牌桌上拥有一席重要位置。
2017 年,王长虎加入字节跳动开始担任 AI Lab 总监,在这个岗位上,他为抖音TikTok 从 0-1 构建了视频AI能力。用王长虎本人的话说,为抖音所做的工作,让他的团队涉猎了几乎所有与视频智能相关的领域,包括且不限于数据处理、内容生成、安全问题处理、视频内容精准理解以及全方位广告场景。
近期,王长虎接受了机器之心的独家专访。在采访中,王长虎详细介绍了抖音的视频智能化经验是如何被他复用到视频生成领域的,所积累的这些经验为他的新公司构建了数据、算法以及工程上的竞争优势。
爱诗科技在近期上线的视频生成工具 PixVerse,能够生成免费 4K 分辨率的高清视频,在光影细节和运动准确性等方面取得了进展。王长虎告诉机器之心,PixVerse 的性能在某些方面已经达到了 Pika 的水平,甚至在多项评测中超越了它们。
闲人一坤
,赞3203
创作者用PixVerse创作的短片
自媒体 KOL 歸藏在一次对比评测中,从物品特写、写实风景、写实人像、皮克斯 2.5D 风格、 2D 动画风格五种风格对 PixVerse、Pika 以及 Runway 三大模型进行比较,为这三者评分 74.5 分、 73.5 分、 64.5 分,PixVerse 位居第一。
歸藏认为,“PixVerse 的模型是这三者最为平衡的,可以有比较强的运动幅度,同时可以维持较好的一致性。Pika 在动漫和 2.5D 风格上的优势巨大,但图像质量以及一致性相对差一些。”
PixVerse、Runway 以及 Pika的对比 
王长虎认为,目前视频生成领域存在的两个最关键的技术问题是准确性和一致性,而在这两个核心维度上,Pika 和 Runway 还有提升空间。“在目前的实测中,PixVerse 欢迎投资人和同行以及用户来进行随机大样本量的对比,对比越多,越能发现我们的优势”。
王长虎表示,视频生成技术上的累进和商业化的运行已经可以同步开展。爱诗科技内部正在大量孵化基于视频生成技术的轻量应用,这些应用将面向使用抖音、快手等短视频平台的 C 端视频消费者,借助这些应用扩充产品影响力。
“产品效果超越 Pika”
机器之心:能否请您介绍下目前公司最新的情况?
王长虎:我们核心团队成员从 2017 年开始参与抖音从零到一的发展,负责抖音背后的视频人工智能能力构建,在视频 AI 领域积累了很多独特的实战经验。随着 AI 时代的到来,我们认识到 AI 视频生成的巨大潜力,而我们的经验让我们有信心(比别人)做得更快更好。
2023 年 4 月份,我们获得首轮数千万人民币的融资,6 月份核心团队基本成型。我们只用了 3-4 个月的时间就实现了重大进展,在某些方面超越了全球最大的竞争对手像 Pika 这样的公司。之前在抖音积累的视频处理经验,被成功应用在目前我们的 AI 视频生成项目上。
整体上,我们的产品发展分为两个阶段:
第一阶段:TO 创作者,提供更好的视频生成服务,更好地理解创作者动机。同时,也支持直接面向用户,接受用户反馈进行迭代。我们目前已经推出的产品 PixVerse,用户已经可以在网页端和 Discord 社区使用,利用文字或者图片生成 4K 高清视频。
在第二阶段,我们希望直接面向消费者,不仅仅是提供工具,而是要打通创作和消费的整个流程,直接提供 AI 原生的可消费内容。
机器之心:横向对比,目前,PixVerse 在哪些方面做得比较好?
王长虎:目前,我们认为在视频生成领域最关键的两个问题是准确性和一致性。准确性要求每一帧都能精确地反映用户需求,一致性要求在时间轴上,视频中物体的运动符合客观规律。
只有在这两方面上实现进步,让 AI 生成的视频准确反映用户需求,并且保证动态内容符合规律,运动具有连贯性,这样的视频才能应用于实际场景。就目前而言,我们发现在这两个核心维度上,Pika 和 Runway 各有明显的不足。
目前,在这两方面,我们已经取得了重大进展。我们已经可以生成 4K 高清的动态视频,并且在可用性上实现了提升。
举个例子,这是我们海外的一些创作者所实现的效果,一位创作者利用 PixVerse 制作的宣传片,其中每个素材都运用了我们的技术。
此外,我们还能制作一些基于电影、游戏素材的创新场景,比如钢铁侠在黄浦江游泳、让《原神》角色在其他游戏场景里跳舞等等。
prompt:wonder woman walking in the rain_神奇女侠在雨中行走
机器之心:你提到说在效果上已经 “超过了 Pika 和 Runway”,这个标准是什么?我们可以怎么感受到?
王长虎:我们可以用同一个 Prompt,对比一下 PixVerse 和 Pika 1.0、Runway 的效果。
比如,柯基跳舞的 Prompt(a corgi is dancing_一只柯基在跳舞)
在 Pika 1.0 的表现里,柯基主体非常精确且吸引人,但是它只进行了微小幅度的运动。观察它的画面,虽然每一帧单独看起来都不错,但当它们连在一起时,就不再呈现出视频的信息量。而Runway在柯基的表现上很好,但是基本没有跳舞的动作。
这本质上,是刚才我提到的 “运动一致性” 的问题,因为现在对于要让一个物体在时间轴上去做运动,本身是一个非常难的技术。
总之,整个行业在模型视频生成方面面临的最基础问题,就是准确率和运动一致性。如果我们制作的视频素材既不准确又缺乏一致性,就无法在任何场景中有效使用。因此,我认为这是全球这个行业首要解决的问题。在这方面,我们技术上可能走在了前列。
我们欢迎对我们的模型进行实时测试,事实上,测试的案例越多,我们的优势就越明显。现在视频生成领域还没有形成统一的竞争格局,我们认为在这个方向上,我们有机会在全球范围内取得领先地位。
机器之心:你们内部视频生成内容评价的标准是什么?
王长虎:目前我们内部已有一个评估标准,可以用于评估视频生成产品准确性和一致性。目前整个行业缺乏一个明确的判断标准,所以我们也在不断完善过程中,未来可能会发布出来。
我们将评估标准分为三个部分:主体动作风格、一致性(包括主体和背景),以及主体运动的合理性。我们还考虑了运镜技巧、创新瓶颈,以及丰富性,后者主要涉及画质和帧率。这些都是比较客观的维度。我们还评估信息量,即单位时间内的信息量。很多同行在研发时缺乏这样的逻辑。我们有一套体系来支持我们的迭代进程。
在效果评定上,除了主观与客观的标准,我们还采用盲测的方法做测试。向多个模型输入随机 Prompt,抹去水印,让足够样本的人做效果排序,来判断谁更优秀。
机器之心:你认为这种评估方式相对客观吗?
王长虎:是的,这种方法相对客观。虽然图片生成和视频生成的效果判断比较主观,但我们之所以能在市场上迅速崛起,是因为我们使用的模型和整个系统支持我们从数据角度快速作出评估。
机器之心:你们最近进行的盲测评估结果如何?
王长虎:根据我们最近的评估结果,我们的性能在某些方面已经达到了 Pika 平台的水平,甚至在多项评测中超越了它们。我们的产品在视觉效果、分辨率、画质上明显优于竞品。此外,在模型准确性、一致性和丰富性方面,我们的表现也更好。
通常情况下,如果有投资人或同行要进行测试,我们会建议他们出至少 20 个问题,以确保样本量足够大。我们会根据他们认为重要的方面来进行测试。在所有这些测试中,我们通常可以明显地看出我们的产品比竞品更优秀,这是肉眼可见的。
但最终判断哪个产品更好,很多时候并不仅仅是基于技术性的因素,而是主观上的偏好。如果大家普遍认为某个产品好,那么这个产品就被视为更优秀。
    © 版权声明

    相关文章