多模态学习 | AIGC工具导航

多模态学习

MGIE

MGIE 是苹果团队开源的一款 AI 图像编辑工具，它利用多模态大模型来增强图像编辑的指令引导能力。用户只需拍摄照片并输入文字指令，MGIE 便能够自动进行图像编辑，实现用户所需的视觉效果。

Step-1V

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

VideoPoet

强大的AI视频生成工具，它通过大型语言模型架构和多模态输入处理能力，实现了从文本到视频的转换、图像动画生成、视频风格化、视频编辑和音频生成等多种功能。

V-JEPA

创新的自监督学习模型，它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容，还能在图像任务上表现出色，具有广泛的应用潜力。