AI开源项目大全 - 汇集最新、最热门的人工智能开源技术

AI开源项目

Seaweed APT

一个具有突破性的AI工具，通过单步生成技术大幅提升了视频和图像生成的效率，同时保持了高质量的生成效果

Mochi 1

它通过高质量的视频生成、强大的文本提示一致性和先进的技术架构，为用户提供了强大的视频生成能力

Motionshop

一个强大的工具，能够快速将视频中的人物替换为3D虚拟形象，同时保持视频的自然感和连贯性

JoyHallo

一个功能强大的数字人模型，专注于普通话和英语的音频驱动视频生成。它通过优化模型结构和数据集支持，实现了高效的跨语言生成能力，并在推理速度和准确性上表现出色

Reflection 70B

https://reflection-playground-production.up.railway.app/

Swarm

Swarm是一个由OpenAI解决方案团队管理的教育框架，旨在探索轻量级、易于使用的多智能体编排技术。

Fluid

一个创新的文本到图像生成模型，通过使用连续标记和随机生成顺序，显著提高了图像生成的质量和性能

AtomoVideo

一个创新的图像到视频生成框架，它通过先进的技术和灵活的架构，为用户提供了一种从静态图像生成高保真视频的新方法

OpenVoice

一个强大的即时语音克隆工具，具有精确的音色克隆、灵活的风格控制和零样本跨语言克隆等优势

DeepTranslate

一款功能强大、使用便捷的免费AI双语页面翻译浏览器插件。它支持多种语言和翻译API，能够满足用户在不同场景下的翻译需求

EchoMimic

一个强大的音频驱动肖像动画生成工具，它通过创新的训练策略和多驱动方式，能够在多种场景下生成高质量、逼真的肖像动画

DreaMoving

一个强大的视频生成框架，通过其创新的Video ControlNet和Content Guider，实现了对视频内容的高度控制

CosyVoice2.0

先进的语音合成模型，通过其低延迟、高准确性和强稳定性的特点，为用户提供高质量的语音合成体验

Clapper

一个创新的AI视频创作工具，它通过提供一个交互式和直观的创作平台，降低了视频制作的门槛

EasyAnimate

基于Transformer架构的视频生成工具，提供了高效、灵活的视频生成解决方案

FunAudioLLM

由阿里巴巴集团通义语音团队开发的框架，旨在增强人类与大型语言模型（LLMs）之间的自然语音交互

NotebookLlama

Meta推出的将PDF文档转换成播客内容的开源项目。项目基于一系列自动化步骤实现，用LLaMa模型进行PDF预处理、生成播客脚本、增加戏剧化元素及文本转语音合成

GPT-SoVITS

一个功能强大的开源声音克隆项目，它通过创新的少量样本学习技术，使得用户能够快速训练出高质量的文本到语音模型

RMBG-2.0

由BRIA AI推出的一款下一代图像背景移除模型，它基于创新的BiRefNet架构，能够在复杂环境中提供高精度的背景移除结果

VideoDoodles

一个极具创意和实用性的工具，它将手绘艺术与视频编辑相结合，为视频创作者提供了一种全新的表达方式

GameNGen

由谷歌推出的世界首个完全由AI驱动的游戏引擎，旨在颠覆传统的游戏开发方式。这个引擎利用神经网络实时生成游戏画面，无需手动编写代码

Unique3D

个创新的单图像 3D 网格生成工具，以其高保真度、高效训练和优化以及强泛化能力脱颖而出

Seed-VC

一个创新的声音转换工具，它通过零样本学习技术，能够在不需要特定目标音色样本的情况下实现高质量的声音转换

EchoMimic

一款创新的音频驱动肖像动画生成工具，它通过结合音频和面部地标信息，能够生成逼真、自然的肖像动画

STranslate

一款实用的翻译和OCR工具，以其即用即走的特点、开源免费的优势以及社区支持的便利性，为用户提供了高效、便捷的文本处理解决方案

Roop

一个功能强大的换脸工具，以其简单易用和高性能的特点，为用户提供了一种便捷的方式来实现视频中的面孔替换

MaskGCT

一个功能强大的语音合成大模型，它不仅在技术上达到了行业领先水平，还在多语言支持、声音克隆和语音控制等方面表现出色

OmniParser

一个创新的屏幕解析工具，它通过与先进的视觉语言模型结合，显著提升了智能代理在用户界面中的操作能力

F5-TTS

一款功能强大、性能卓越的文本到语音转换工具，通过先进的深度学习技术和创新的架构设计，实现了高质量的语音合成

MinerU

一个功能强大的PDF内容提取工具，通过其多模态内容处理、结构和格式保留、公式识别与转换、干扰元素去除、乱码识别与处理以及高质量解析工具链等主要功能，能够高效地从PDF文档中提取高质量内容

WiseFlow

WiseFlow作为一个开源的AI信息挖掘工具，通过其强大的自动抓取、分类整理和智能处理功能，为用户提供了高效的信息管理解决方案

Tailor

一款集视频剪辑、生成和优化功能于一身的智能视频处理工具，凭借其简单易用的操作方式、强大的功能和智能高效的处理能力

EMO

一个创新的音频驱动肖像视频生成工具，凭借其简单的输入方式、丰富的表情生成能力、多语言支持以及对多种肖像风格的兼容性

HivisionIDPhotos

HivisionIDPhotos是一个功能全面、操作简便的AI证件照制作工具。它不仅能够满足用户对证件照的基本制作需求，还提供了人像抠图、底色添加、排版照生成等高级功能

eSearch

一款综合性的屏幕识别和搜索工具，它通过集成多种实用功能，为用户提供了一个便捷的工作流程，从截图到文本识别，再到信息搜索和翻译，eSearch都能够提供高效的解决方案

SUPIR

一款功能强大且多用途的图像恢复工具，它通过结合AI技术和文本驱动的智能恢复，能够为用户提供高保真度的图像恢复服务

SeedEdit

一款功能强大且创新的图像编辑工具，它通过先进的扩散模型技术，实现了对图像的高精度和高审美的编辑

Loopy

一个创新的音频驱动的肖像头像生成模型，通过长期运动依赖和音频到潜在空间的映射，实现了仅通过音频输入生成逼真、自然的肖像头像视频

美图奇想大模型

提升了视频和图像的生成质量，广泛应用于影像美化、视频剪辑、电商设计、口播视频制作、广告营销和游戏设计等多个领域

I2VGen-XL：阿里推出的图生视频模型

一个强大的图像到视频的生成模型，它通过创新的方法解决了AI视频合成过程中的语义准确性、清晰度和时空连续性的挑战。用户可以轻松地将静态图像转换为高质量的动态视频，生成的视频不仅清晰度高，而且时序连贯，细节丰富，具有很高的真实感和艺术性。

OmniGen

创新的统一图像生成模型，它通过简化架构和整合多种图像生成任务，为用户提供了一个强大而灵活的工具。它不仅能够处理文本到图像的生成，还能够执行图像编辑、主题驱动生成和视觉条件生成等任务，甚至能够处理一些经典的计算机视觉任务。

UniEdit

UniEdit 是一个强大的视频编辑工具，它通过利用预训练的文本到视频生成器，在无需调优的情况下，提供了一种简单而有效的方法来编辑视频的运动和外观。

TextDiffuser-2

一个功能强大的图像生成工具，它通过扩散模型技术，根据文本描述生成高质量的图像。这个工具为用户提供了一种创新的方式来探索和实现他们的创意视觉概念。

Snap Video

强大的文本到视频合成工具，它通过创新的技术架构和高效的深度学习模型，实现了高质量视频内容的生成。这款工具不仅在视频生成领域具有突破性，还为用户提供了一种全新的创作和表达方式。

StarCoder 2

一个强大的代码生成和理解工具，它通过大规模训练和多样化的模型规模，为开发者提供了一个高性能的编程辅助平台。

EMO

EMO通过其先进的音频驱动视频生成技术，为用户带来了一种创新的方式来创造个性化和富有表现力的视频内容。它不仅能够生成逼真的面部表情，还能根据音频内容自然地驱动头部动作，为用户提供了一种强大的工具来表达和分享他们的内容。

ChatMusician

通过结合先进的大型语言模型和音乐表示法，为音乐的理解和生成提供了一个强大的工具。它不仅能够创作音乐，还能理解和回答音乐理论问题，为音乐教育和创作提供了新的可能性。

OpenCodeInterpreter

通过结合大型语言模型和代码执行反馈，提供了一个强大的工具，可以帮助开发者在软件开发过程中提高效率和质量。

GPT-SoVITS

一个强大的语音合成工具，特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换，支持多种语言，并提供了易于使用的WebUI工具。

ScreenAgent

一个先进的计算机控制智能体，它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境，可以在真实计算机屏幕上执行多步骤任务。

ConsiStory

它提供了一种快速、高效且训练无关的方法来生成一致性图像，特别适用于需要保持主题一致性的应用场景。它不仅能够处理单主题场景，还能够应对多主题挑战，并与现有的图像编辑工具集成，提供了一个强大的图像生成解决方案。

VideoPoet

强大的AI视频生成工具，它通过大型语言模型架构和多模态输入处理能力，实现了从文本到视频的转换、图像动画生成、视频风格化、视频编辑和音频生成等多种功能。

DiT

创新的图像生成模型，它通过结合扩散模型和Transformer架构，实现了在图像生成任务中的高效和高质量输出。其可扩展性和条件生成能力使其在多个领域都有广泛的应用潜力。

Boximator

强大的视频合成工具，它通过创新的框约束机制和自跟踪技术，实现了对视频中对象运动的精细控制。这使得它在电影制作、游戏开发、VR/AR内容创作等领域具有广泛的应用潜力。

V-JEPA

创新的自监督学习模型，它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容，还能在图像任务上表现出色，具有广泛的应用潜力。

SFR-RAG

先进的大型语言模型，它通过强化对上下文的理解，提高了机器在生成文本方面的准确性和可靠性。无论是在客户服务、知识问答、内容创作还是专业咨询领域，SFR-RAG都能提供高质量的文本生成服务。

onewebot2

易于使用的微信AI机器人软件包，它通过简化的配置流程和一键运行功能，使得用户能够快速启动和运行微信机器人。无论是个人还是企业，都能通过oneWebot2创建智能助手，实现自动化服务

GOT-OCR2.0

创新的OCR模型，它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景，GOT-OCR 2.0都能提供强大的支持。

Depth Anything

强大的单目深度估计工具，它通过利用大规模未标注数据和先进的数据增强技术，实现了在多种复杂环境下的准确深度预测。其多任务学习和语义辅助功能使其在多个领域都有广泛的应用潜力。

PortraitGen

AI人像视频编辑工具，它通过先进的技术实现了对视频中人物的高质量编辑。无论是在影视制作、艺术创作、广告宣传、时尚展示、社交媒体还是游戏开发等领域，PortraitGen都能提供高效、自然的编辑解决方案。

AnimateDiff

通过预训练的运动建模模块，使得用户能够轻松地创作出丰富多样的动画内容，同时保持了原有模型的风格和特性。它的跨领域应用性和易于集成的特点，极大地扩展了个性化动画的创作空间。

MMMLU

重要的多语言、多任务语言理解数据集，它为研究人员和开发者提供了一个标准化的测试基准，用于评估和提升AI模型在不同语言和文化背景下的性能。

Llama 3.2

在图像理解和文本处理任务上展现出卓越的性能，并通过定制化微调和本地部署，推动了AI技术的开放性和可访问性。

MIMO

创新的AI框架，它通过空间分解建模技术，提供了一种先进的可控角色视频合成方法。

MotionCtrl

强大的视频生成工具，它通过精确控制视频中的相机和物体运动，为视频制作带来了新的可能性。无论是简单的运动场景还是复杂的交互动作，MotionCtrl都能够提供令人满意的解决方案。

Make-A-Character

创新的3D角色生成框架，它通过文本描述快速创建逼真的3D角色，具有高度的定制性和逼真度。它结合了最新的人工智能技术，提供了一个直观、灵活且高效的角色创建解决方案，适用于多种行业应用。

SafeEar

创新的音频伪造检测工具，它通过先进的AI技术保护用户的语音隐私，同时提供高效的伪造音频检测能力。

PDF2Audio

通过将PDF文档转换成音频内容，为用户提供了一种新的信息消费方式。无论是教育、播客制作还是无障碍访问，PDF2Audio都能满足多样化的需求。

MetaGPT

一个创新的多智能体编程框架，它通过模拟人类工作流程和采用标准化操作程序来提高代码生成的质量和效率。该框架特别适合解决复杂的软件开发任务，并为自动化编程和多智能体协作提供了一个有效的解决方案。

DiffusionGPT

一个创新的文本到图像生成系统，它通过结合大语言模型的解析能力和领域专家模型的生成能力，实现了从多样化文本提示到高质量图像的高效转换。

OLMo

一个开放的语言模型框架，它为研究人员和开发者提供了一套完整的工具和资源，以促进AI和语言模型的共同进步。

IP-Adapter

一个强大的工具，它通过引入图像提示来增强文本到图像扩散模型的能力。它的设计轻量且高效，易于部署和使用，同时支持广泛的应用场景，包括图像生成、转换和修复。通过解耦的交叉注意力机制，IP-Adapter能够更好地理解和利用图像信息，从而生成更准确、更丰富的图像内容。

Follow Your Pose

一个创新的文本到视频生成框架，它通过两阶段训练策略实现了高度的姿态控制和时间连贯性。该框架不仅能够根据文本描述生成视频，还能让用户通过姿态序列精确控制视频中角色的动作，生成具有多样化角色、背景和风格的视频内容。

Lepton Search

一个功能强大、易于使用的对话式AI搜索引擎，它提供了一个开源的平台，允许用户构建和运行自定义的搜索和AI应用。通过集成大语言模型和搜索引擎，Lepton Search能够提供快速准确的搜索结果，同时支持用户界面的定制和搜索结果的共享与缓存，非常适合需要构建复杂搜索功能的企业和开发者。

abab-music-1

一个强大的AI音乐生成工具，它通过先进的技术，使得音乐创作更加便捷和高效。无论是专业的音乐制作人还是业余爱好者，都能够利用这个模型来创作出高质量的音乐作品。

Vary-toy

一个小型但功能强大的视觉语言模型，它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能。

FineVideo

是一个多模态视频数据集，它为AI模型提供了丰富的上下文信息，使其能够更深入地理解视频内容。这个数据集在视频内容分析、情绪分析、故事叙述理解、媒体编辑和多模态学习等领域具有广泛的应用前景。

Void

它通过集成AI功能，为用户提供了一个高效、智能的编程和文本编辑环境。无论是代码开发还是文本编辑，Void都能提供强大的支持和便捷的操作。

ActAnywhere

一个强大的视频生成工具，它通过自动化的前景与背景融合技术，极大地简化了视频背景生成的过程。它的应用场景广泛，从电影制作到教育，都能提供高效、创新的解决方案。

Draw an Audio

创新的视频生成音频系统，它通过先进的AI技术，能够自动分析视频内容并生成与之匹配的声音效果。

RapidPages

一个开源的集成开发环境（IDE），专注于利用人工智能技术快速生成React和Tailwind CSS的UI组件。

DemoFusion

强大的高分辨率图像生成框架，它通过渐进式上采样、跳跃残差和扩张采样机制，实现了在不进行额外训练和不产生过高内存需求的情况下，将模糊的低分辨率图像变得更加高清。它易于使用，无需昂贵的硬件，并且可以快速迭代，适用于艺术创作、游戏开发、电影制作、虚拟现实等多个领域。

Ovis1.6

强大的多模态大模型，它通过创新的架构设计和全面的数据优化，在多模态任务上展现了卓越的性能。

Gummy

创新的语音翻译大模型，它通过端到端的设计和深度学习技术，实现了高质量的实时语音翻译。无论是在国际会议、教育培训、旅游导航还是客户服务和医疗咨询等场景中，Gummy都能提供高效、流畅的翻译服务，帮助人们跨越语言障碍，促进全球沟通。

Real-ESRGAN

一个强大的图像超分辨率工具，它利用深度学习和生成对抗网络，在没有真实高分辨率图像作为参考的情况下，通过合成退化过程来提升低分辨率图像的质量。

DDColor

用户可以轻松上传黑白图片，快速获得彩色结果，无论是对于修复老照片还是为动漫风景上色，DDColor都能提供令人满意的效果。

Screenshot to Code

无论是在线使用还是本地部署，它都为用户提供了灵活、高效的代码生成解决方案。此外，通过提供编辑功能和代码导出，它满足了用户对代码调整和个性化的需求。

cogvlm2-llama3-caption

强大的视频描述生成工具，通过先进的多模态处理和上下文感知能力，为用户提供了一种快速理解视频内容的方法。它的实时处理能力和定制化描述功能，使其在多种应用场景中都非常有用。

AnyText

一个创新的多语言视觉文本生成和编辑工具，利用先进的扩散模型技术，能够准确生成和编辑图像中的文本。它不仅支持多种语言和文本风格，还能在复杂的图像背景中保持文本的清晰度和一致性，为用户提供了强大的文本处理能力。

Motionshop

一个创新的AI角色动画框架，通过将视频中的人物替换为3D化身，实现了现实与虚拟的无缝融合。它利用多种先进技术，提供高质量的动画效果，极大地丰富了视频内容的表现形式。

MagicVideo-V2

一个创新的AI视频生成框架，它通过集成多个模块来生成高质量的视频内容。它不仅提高了视频生成的效率和质量，还确保了视频画面的流畅和逼真，为用户提供了极佳的观看体验。

书生·物华2.0（3DTopia 2.0）

采用创新的原语（primitive-based）三维表示方法PrimX，能够高效编码和生成具有物理基础渲染（PBR）特性的高质量三维资产。

FaceChain

它通过结合Stable Diffusion模型和LoRA风格化模型，为用户提供了一个简单易用的平台来生成个性化的数字形象和写真。无论是用于个人娱乐还是专业需求，FaceChain都能满足用户的多样化需求。

PhotoMaker V2

一个功能强大、操作简便的 AI 图像生成工具，它通过深度学习技术实现了快速、高质量的逼真人物图像生成。该工具不仅在技术上实现了突破，还在应用场景上展现了广泛的潜力，无论是在娱乐、艺术创作还是教育领域，都有着巨大的实用价值。

Outfit Anyone

一个创新的AI服装虚拟试穿工具，它通过智能技术为用户和模特提供了一种全新的服装试穿体验。无论是消费者、设计师、模特还是电商从业者，都可以利用这个工具来探索和展示服装，为服装行业带来新的创意和营销方式。

ReplaceAnything

一个功能强大且用户友好的图像编辑工具，它通过AI技术实现了图像中物体的智能替换。无论是设计师、摄影师还是普通用户，都可以利用这个工具创造出独特的视觉效果，为创意工作带来更多可能性。

StoryMaker

通过先进的 AI 技术，为创作者提供了一种生成具有高度一致性和个性化特征的图像序列的方法，特别适合需要角色和场景连贯性的创意项目

CogVideoX-Fun

基于 CogVideoX 结合 EasyAnimate 修改的 AI 视频生成工具，它提供更自由的生成条件，支持从文字、图片到视频的多模态内容生成。

Animate Anyone

一个功能强大且易于使用的图像到视频角色动画合成框架。它通过实时动画合成技术和用户友好的界面，使得动画制作变得更加简单和快捷。