AI图像革命才刚刚开始

得益于人工智能算法的进步和技术的普及，信息与数据处理技术正在迅速变革。其中一个应用领域就是AI图像处理。

从AI图像生成、医疗成像、目标检测和地图绘制，到实时人脸检测，人工智能在图像处理方面的能力被广泛应用于传媒、医疗、健康、安全等多个领域。

AI图像处理市场正在快速增长。数据显示，在AI图像编辑、生成、识别等多个领域，2024年至2030年的复合年增长率或将分别达到11%、17%和23%，并将被广泛应用于各行各业。

因此，我们有必要深入了解AI图像处理的基本原理、应用场景和最新技术发展，以便在不同的应用场景下，评估并把握AI图像处理的价值与机会点。

一、AI图像处理的精进之路

1. Transformer：从生成字符到“生成像素”

事实上，AIGC和计算机视觉（CV）技术已经有了相当长的发展历史，但随着大语言模型相关算法和技术的飞速进步，传统的AI图像处理技术在前沿应用中的可见度正在逐渐下降，而Transformer融合模型正迅速将生成下一个字符的能力扩展到“生成像素”的图像领域。

以公众最为熟知的AI图像生成器为例，Stable Diffusion作为一种经典的潜空间扩散模型，能够通过正向添加噪声和反向去噪还原图像的方式来控制图像生成，这一过程的关键，是让模型学会从随机噪声到清晰图像的转换方法。

自2022年发布以来，Stable Diffusion在1.0至2.0阶段中的这一关键环节由核心组件U-Net架构主导。U-Net作为编码器和解码器，负责将图像压缩到潜在空间，并在潜在空间中执行扩散过程，对于生成高质量图像起到了至关重要的作用。

今年2月份，Stable Diffusion 3.0正式发布，采用了MMDiT架构（Multimodal Diffusion Transformer，MMDiT），替代了原有的U-Net架构和骨干网络。

结合Transformer强大的序列建模能力和流匹配技术，图像的可控性大幅提升。它能够更好地理解涉及空间关系、构图元素、动作和风格的复杂提示，并在高分辨率（1024×1024像素）、复杂区域（如手和脸）的细节处理以及文字拼写方面，较上一代模型实现了颠覆性的进步。

6月中旬，拥有20亿参数的Stable Diffusion 3 Medium模型正式开源。该中等参数模型能够在消费级PC上运行，具有较低的VRAM占用，适合处理小数据集和定制化需求，进一步刷新了开源生产力。

Transformer架构的引入还开启了AI图像模型训练的Scaling Law。基于并行注意力的Transformer架构，较其他神经网络结构，有着将scaling law代入生图领域的重要潜力。它可以让图像模型能够消化更多的图像和视频数据，从而进一步增强图像领域的涌现能力。

例如，引入Transformer架构后，上述最新版本的Stable Diffusion 3.0模型的可选参数范围从800M到8B，8B的模型上限相比上一代提升了整整一个数量级。又例如，8月中旬，一家名为Black Forest Labs的新创公司（由前Stable Diffusion核心作者创立）成功发布了Flux.1，通过融合架构的优势，进一步将模型参数上限刷新至12B（截至发稿日，Flux模型已优化迭代至Flux1.1版本，模型参数规模不变）。

当前，Flux模型现已成为当前开放权重图像模型领域的顶流代表。从技术报告来看，与Stable Diffusion 3.0类似，Flux.1采用MMDiT架构，并采用流匹配、旋转位置嵌入和并行注意层等技术，重新定义了图像细节、提示遵循、风格多样性以及场景复杂性等方面的最新技术水平（SOTA）。

根据研究人员的说法，得益于大规模训练，Flux.1 Pro和Flux.1 Dev在视觉质量、提示一致性、尺寸和长宽比的可变性、排版以及输出多样性等方面，已经超越了Midjourney v6.0、Dall-E3和Stable Diffusion 3 Ultra。从官方发布的样张和网友的测试情况来看，Flux.1几乎达到了真假难辨的程度，AI图像生成的Scaling Law奏效了。（迭代版本Flux1.1相关技术尚未完全公开，官方称其运算效率与表现更佳，仍在进化中）

AI图像革命才刚刚开始

腾研AGI路线图图谱截选

Stable Diffusion 3与Flux.1

2. 从Prompt提示词到ControlNet控制

在AI技术的应用过程中，指令遵循性是一个通用且至关重要的指标。图像生成控制的方法有很多，包括Prompt（提示词）、LoRA（低秩适配器)、ControlNet（控制网络）等，还包括ComfyUI等一类用于配置工作流的外部应用程序。

Prompt是一个非常深入人心的概念，它使用来自用户的文本描述，指引模型生成特定的图像，例如，输入“一个穿红色裙子的小女孩”将促使模型生成符合该描述的图像。而通过调整prompt的内容和细节，用户可以进一步控制生成图像的主题、风格和细节。

LoRA的全称为Low-Rank Adaptation（低秩适配器），最早是微软在大语言模型的训练中发明并使用的一种低成本的模型微调技术。其根本出发点是降低大语言模型finetune的代价和大量Finetune模型加载的代价问题，更轻松地部署在专业生图领域，如建筑设计等。

ControlNet是一种神经网络结构，通过添加额外的条件输入来控制现有模型（如Stable Diffusion）的输出。它允许用户在生成过程中引入更多的控制信息，包括姿势、深度或边缘检测等，从而精确地引导生成结果，线稿、深度图或语义分割图等均可以作为输入条件。

实际上，ControlNet与LoRA的核心思路相似，都是通过旁路网络干预模型输出。不同之处在于，LoRA通过低秩压缩减少模型体积，但限制了其能力上限；ControlNet则不压缩模型参数，而是1比1复刻，以此实现更高控制精度。

进一步展开，我们可以看到，ControlNet已经可以提供一系列让人惊艳的精准控制能力：

例如，光影控制方面，ControlNet作者在5月发布了IC-Light（全称Imposing Consistent Light），用于操控图像的照明效果。该技术利用潜在空间一致性，确保在不同光源组合下外观的一致性，实现自然的光照变化。用户只需上传任意图片，系统就会自动分离主体并选择光源位置，配合说明，即可为图像自动添加AI打光效果。

例如，在轮廓控制方面，7月中旬，ControlNet作者发布了名为Paints-Undo的项目，灵感来源于绘画软件中的“撤销”功能，模型的输出过程类似于连续按下Ctrl+Z。该项目允许用户通过上传图片倒推其创作过程，包括素描、上色等步骤，还能生成展示整个绘画过程的25秒视频。高度一致的画面效果展现了ControlNet卓越的轮廓控制力。

例如，在画面构图方面，ControlNet架构还可以作为中间载体，将用户简短的Prompt提示词进行扩展，并精确控制图像生成的各项元素。ControlNet作者的新工具Omost通过LLM AI代理的自动扩展功能，能够根据简单的Prompt生成详细的图像构图描述，包括光照、轮廓、对象等全局和局部的具体要求。特定的生成器最终则根据LLM设计的蓝图来创建图像。

从Prompt提示词到LoRA再到ControlNet的控制，再结合工作流程设计工具（如ComfyUI），当前的AI图像处理模型已经为用户提供了极高的灵活性和控制能力。

AI图像革命才刚刚开始

腾研AGI路线图图谱截选

ControlNet

二、生成与理解的产业化现状

1. 1K分辨率的产业意义：从生成到理解

类比于基础语言模型的最长上下文，分辨率在AI图像处理中同样至关重要。更高的分辨率使模型能够捕捉更多信息和细节。同样地，当前的AI图像处理也会受到类似于“最长上下文”的限制，受制于计算资源、训练数据集、模型架构以及性能与质量平衡等多方面的因素。

AI图像处理，无论是AIGC还是多模态理解与识别，都已成功突破了1K分辨率的关键门槛。

例如，AI图像生成模型如Flux.1、Imagen 3、Midjourney v6、Stable Diffusion 3等，均可支持主流的1024×1024原生图像分辨率（一次生成），并且可以通过超分辨率技术进行2倍甚至更高的像素扩展，进一步提升图像细节；这对于艺术创作、广告、游戏开发以及影像制作等行业的辅助图像生成，可以起到较好的支持。

在图像理解方面，挑战则主要体现在多模态基础模型的输入限制上。由于高分辨率图像处理需要在架构和数据集等方面进行大量适配与再训练，这并非易事。

以GPT-4和GPT-4 Vision版本为例，它们在输入图像时采取了严格的限制。根据官方文件描述：“提前将图像缩小至小于预期的最大尺寸可以提高模型的响应速度。在低分辨率模式下，建议图像为512px x 512px。在高分辨率模式下，图像的短边应小于768px，长边应小于2000px。”同时，还列出了一系列“局限性”：不适用于医学图像解读、处理非拉丁文字效果较差、可能误解旋转或倒置的图像、对图表和不同线条样式的理解困难、空间定位能力有限等。

对于图像理解而言，为什么1K分辨率同样具有重要意义？以医学影像为例，计算机断层扫描（CT）的矩阵大小通常为512×512像素；磁共振成像（MRI）的分辨率范围较广，但一般在256×256到1024×1024像素之间；超声成像的分辨率通常约为512×512像素。因此，多模态基础模型需要基于或高于这些目标分辨率，改善模型以更好地处理医学影像等高精度数据。

例如，9月，Mistral发布了Pixtral 12B多模态大模型，采用专用视觉编码器和24GB容量，并结合GeLU和2D RoPE技术，优化视觉适配能力，使其能够更好地处理高分辨率图像（1024×1024像素）。同月，英伟达推出了Eagle系列模型，能够处理高达1024×1024像素分辨率的图像，显著提升了视觉信息的处理和理解能力。为了应对复杂的图像信息，Eagle采用多专家视觉编码器架构，不同编码器针对特定任务进行专门训练，实现了更全面的图像理解。

1K分辨率使生成式AI在图像理解方面具备了更高的应用潜力，尤其在法律、医疗、电子商务等行业中，这种能力有望带来更广泛的应用。

AI图像革命才刚刚开始

腾研AGI路线图图谱截选

Pixtral 12B与Eagle

2. 破解商业化：技术能力与产业场景的适配

在当前的生成式AI浪潮中，原生技术能力的展示已经能够吸引大量流量。AI生成的文本、图像、视频甚至音乐等内容，由于能够快速触达用户，并具备可视化和娱乐化的特点，获得了更多市场关注。然而，这并不一定能够形成有效的商业闭环。

相反，由于商业模式的限制，许多知名的生成式AI应用程序正被大公司收购，或并入更大的应用平台，亦或通过资源整合进入特定行业。

例如，今年年中，Stability AI面临严重的财务困境，亏损和债务不断累积，不得不寻求新一轮融资以重组公司并缓解财务压力。随后，Stability AI任命《阿凡达》视觉特效公司前负责人Prem Akkaraju为新任CEO，借助其在Weta Digital的丰富技术和营销经验，推动Stability AI将视频、图片、音乐等大模型与先进视觉特效技术相结合，以寻求财务状况的改善。

一个月后，在2023年完成融资估值上亿，目前年经常性收入3000万美元，团队规模120人的AI图像生成大厂Leonardo.ai，寻找Canva（一个用于图形设计和内容创建的在线平台）的收购，交易价格仅约3亿美元，整合其视频和图像生成模型。通过这次收购，Canva的主要目标是提升其AI技术储备，与Adobe展开竞争，加速收入增长并吸引更多企业客户。

从中可以看出，AI图像处理能力虽重要，但原生市场需求仍处于发育阶段。相关企业不得不寻求与更高层次的AI图像编辑和影视制作市场的融合，通过曲线救国的方式，推动商业化落地。

相比AI图像生成市场，图像理解与分析的热度虽稍低，但实际上早已更早地进入了行业融合的商业化模式。

医疗AI是其中最为瞩目的赛道之一，谷歌在多模态任务与医学领域投入了大量精力。5月份，谷歌DeepMind发布了Med-Gemini系列模型，专门针对医学领域的多模态任务进行优化，包括Med-Gemini-2D、Med-Gemini-3D和Med-Gemini-Polygenic。这些模型利用大规模医学图像数据，在多个医学图像分析任务上超越了现有最佳模型，特别是在胸部X射线、CT图像和基因组数据处理方面。测试结果显示，生成式AI在多模态医学AI任务中表现出色，尤其是在视觉问答和放射学报告生成领域。

类似的研究在学术界也取得了大量进展。例如，MIT开发的Mirai系统可以基于常规乳房X光检查预测乳腺癌风险，尝试提前五年发现潜在病例。另一个例子是上海交通大学的3D医学大模型SAT，该模型能够对497种人体器官和病灶进行3D图像分割，展现出强大的应用潜力。

此外，Geoffrey Hinton（杰弗里·辛顿）、LeCun（杨立昆）以及吴恩达等AI领域的领军人物也多次公开支持医疗AI及医疗影像分析方面的研究。

AI图像革命才刚刚开始

腾研AGI路线图图谱截选

Med-Gemini

三、技术到头了吗？远远没有

1. AI图像处理的Scaling Law刚刚开始

目前，各大图像生成模型尚未完全披露其技术细节，但从整体趋势来看，纯Diffusion路线正逐步融合Transformer架构。如DiT架构（此处指代大的架构类型，包含MMDiT架构），这也是Sora和Stable Diffusion 3，以及Flux.1的同款架构和关键技术，是一种基于Transformer架构的扩散模型。

正如上述，使用Transformer架构，可以扩展更多的图像数据处理能力，而这项技术的Scaling Law才刚刚开始不到半年时间。

回顾以往的各类扩散模型，大多数的参数量都在1B或更小的规模。而引入DiT架构后，Stable Diffusion 3和Flux.1的参数量分别达到了8B和12B。对比一年半前Midjourney V5惊艳全网的“情侣合照”，到如今Flux.1掀起的新一轮风暴，AI图像生成技术似乎迈上了一个全新的台阶。沃顿商学院AI方向的副教授Ethan Mollick在看到Flux.1的生成效果后，预言AI将在18个月内完成一次重大进化。而事实上，距离Sora和Stable Diffusion 3大规模应用DiT架构，仅过去不到半年。

相比于基础模型在文本训练数据上的丰富性，图像处理和多模态领域仍有较大的提升空间。

首先，当前的数据生成环境中，视频和文本数据的数量仍在增长，尤其是视频数据，增速尤为显著。据统计，全球每天生成约4.7亿个视频，约相当于数十PB的数据。例如，YouTube每天处理约720 000小时的视频内容，总计约4.3PB的数据。这些海量图片和视频数据将为图像处理和多模态领域的迭代提供源源不断的训练素材，推动技术持续进步。

其次，得益于开源生态，无论是DiT架构还是多模态基础模型，如今都处于一个开放且活跃的探索阶段。各行各业可以借助开源模型，针对特定业务场景进行定制化优化，从而探索每个领域的Scaling Law，例如在医疗影像和传媒娱乐等不同方向的应用潜力。

最后，更多资本和人才的涌入将推动图像处理进入新阶段。9月25日，导演詹姆斯·卡梅隆宣布加入Stability AI董事会，强调AI与CGI的结合将开创全新的叙事方式，引发了国内外的广泛关注。生成式AI与CGI的融合有望为艺术家提供前所未有的创作机会，推动视觉媒体的未来发展。随着大规模产业应用的展开，更多算力和资源的不断投入将持续提升AI图像生成能力。成功的商业模式将反过来促进技术进步，正如CGI产业多年的演进历程一样。

2. 从late fusion到early fusion的探索

传统AI，无论是文本生成文本（文生文）还是文本生成图像（文生图），通常为每种模态采用特定的“编码器”或“解码器”，将不同模态分开处理，这种方法被称为“晚期融合”（late fusion）。然而，这在一定程度上限制了模型的潜力，因为Transformer本身具备有效处理跨模态信息的能力，模块的分离的处理方式削弱了这种优势。

GPT-4o的发布改变了这一点，作为首个“端到端”模型，它能够通过单个神经网络处理所有模态。

5月16日，OpenAI总裁Greg Brockman通过X账户发布了GPT-4o生成的首张公共图像。这张逼真的图片展示了一位穿着印有OpenAI标志的黑色T恤的人，在黑板上用粉笔写着“不同模态之间的转换。假设我们使用一个大型自回归Transformer直接建模（文本、像素、声音）。这样做的优缺点是什么？”。

他还在发布中写道：“GPT-4o生成的图像——仅凭GPT-4o的图像生成能力，就有许多可以探索的领域。团队正在努力将这些能力推向世界。”

而类似的技术尝试仍在持续推进。GPT-4o发布不到一周后，开源模型厂商Meta发布了34亿参数的“Chameleon”模型，能够无缝处理文本和图像，使用10万亿token进行训练，性能接近GPT-4V。Chameleon采用统一的Transformer架构，实现了文本和图像的“早期融合”（early fusion），刷新了多模态视觉问答和图像标注的基准（SOTA）。

尽管该模型的设计面临技术挑战（事实上，GPT-4o至今也尚未正式发布其图像生成能力，网页端仅提供非正式版本的体验），但Meta通过架构创新和训练技术，优化了早期融合多模态大模型的性能与稳定性。与GPT-4o的端到端方法类似，成为了当前的重要方向。

8月底，Meta再次发布了最新研究成果——Transfusion模型，整合了Transformer和Diffusion技术，实现了文本与图像生成的统一。该模型在混合模态序列上进行训练，结合了语言建模和图像扩散的优势，大幅提高了模态之间的整合效率。实验验证表明，Transfusion在多模态AI领域表现出色，能够生成高质量的文本和图像，有望引领多模态交互式应用的发展。

AI图像革命才刚刚开始

腾研AGI路线图图谱截选

“Chameleon”与Transfusion

在当前技术发展的浪潮中，不仅所有应用都值得被最新的AI技术重写一遍，甚至所有相关的AI技术本身，也值得通过最新的AI架构和算法重新构建。这种持续迭代的过程推动了整个领域的快速进步。

让我们进一步展望未来，当Transformer架构的融合解决了scale up规模扩展的问题，显著提升了图像的分辨率与丰富度；当“早期融合”（early fusion）和“端到端”架构正在努力提升跨模态信息处理能力，推动大一统的进程。

OpenAI最新的o1推理模型是否能够解决生成中的“逻辑”问题，而不仅仅是相关性，使图像生成与理解更加贴合物理规律？这一点仍然未知。但从目前的发展情况来看，AI图像处理革命或即将迎来新一轮突破，且其技术、市场发展还远远没有达到上限。