SUPIR – 高保真的AI图像修复和画质增强模型

一、SUPIR的定义

SUPIR是Scaling – UP Image Restoration的缩写,是一种开创性的图像复原方法。它由XPixelGroup开发,这是一个由上海人工智能实验室、中科院深圳先进技术研究院、香港中文大学、南洋理工大学、澳门大学、腾讯、商汤科技等多所机构的优秀学者组成的国际化团队。

SUPIR的核心技术基于大规模扩散生成式先验的图像修复模型,旨在通过利用人工智能的能力,实现高保真的通用图像修复。其工作流程借助了生成先验和模型规模扩大的优势,采用了如StableDiffusion – XL(SDXL)这样的大型预训练图像生成模型作为生成性先验,SDXL包含26亿参数,并设计训练了一个具有超过6亿参数的适配器来有效应用这个模型,以此通过文本提示来指导图像修复的过程,达成智能、逼真的图像修复效果。

二、SUPIR的特点和功能

(一)文本驱动

用户可以输入描述性文字指定想要修复的图片的风格、内容、细节等,SUPIR会根据这些文字生成符合期望的图片。例如想要修复一张老照片,用户可以描述照片中的人物表情、场景氛围或者希望修复后呈现的效果(如暖色调、高清晰度等),SUPIR就会按照描述进行修复,这一特性使得修复过程更加个性化和精准化。这一优势源于其独特的技术设计,模型通过学习大量带有文本注释的高质量图像,能够理解文字与图像内容之间的关联,从而实现对用户输入文字提示的准确响应。

(二)智能修复

SUPIR能够自动识别图片中的各种问题,如缺陷、噪声、模糊等,并进行智能修复。对于那些存在模糊区域或者被噪声干扰的图片,SUPIR不需要用户特别指出问题的具体位置和严重程度,就能自行对图像中的这些不足进行改善,让图片变得更清晰、更完整、更真实。这种智能性得益于其核心的图像修复模型,通过深度学习图像中的特征模式,模型可以判断出哪些部分是图像中的异常情况,并利用从大量数据中学到的经验知识进行修复处理。

(三)多样化修复对象

无论是风景、人物、动物、建筑、游戏画面、电影画面等不同类型的图片,SUPIR都可以进行高效、高质量的图像修复。例如修复风景照片中的因雾霾导致的画风模糊,或是修复人物照片中的面部噪点和发丝细节缺失等情况。其背后是基于庞大的训练数据集,这2000万张高分辨率、高质量图像涵盖了各种类型的图像内容,让模型具有很强的泛化能力,不会因图像类型的差异而导致修复效果大打折扣。

(四)高质量修复效果

  1. 借助大规模数据集与文本注释:SUPIR从包含2000万张高分辨率、高质量图像且每张图像都附带有描述性文本注释的数据集上进行学习。这些注释为模型提供了更多的图像相关知识,使其有更好的理解能力,从而在修复时能够更精准地还原图像的原始质量或提升视觉效果。
  2. 采用负质量提示来提升感知质量:SUPIR还使用负质量提示提高图像的感知质量。比如用户可以告诉模型不要出现油画效果、卡通化、模糊或者脏乱、低质量等不期望的图像特征。模型在恢复过程中会避免这些特征,通过利用对应负质量提示生成的图像纳入训练数据,确保模型能够学习到这些负质量概念,从而提升整体图像质量。
  3. 恢复引导采样保持一致性:采用一种新颖的恢复引导采样方法,在扩散过程中有选择性地引导预测结果接近低质量图像,以保持恢复的一致性。这种方法解决了在基于生成的恢复中可能遇到的保真度问题,确保在生成修复后的图像时不会因为过度生成而偏离原始图像过多,尽可能地保留原始图像的关键特征并恢复退化部分的合理效果。

(五)多模态处理与模型相关特性

  1. 多模态处理能力:SUPIR不仅懂图像,而且能够结合文字信息,将图像和文本处理技术结合起来。这种多模态处理方式利用了如CLIP、LLaVA等视觉 – 语言模型的优势,使得修复结果更加准确、更有智慧。例如在处理一幅古老的历史建筑照片时,结合文字描述中的历史背景信息和特定要求(如体现出建筑的古老沧桑感而又不失真),综合文字与图像信息进行修复和优化图像效果。
  2. 模型扩展提高能力:通过扩大模型规模(例如采用较大参数的生成先验模型和适配器)提升了处理复杂图像的能力,能够应对各种各样严重退化的图像问题。并且在多阶段处理流程中的第一阶段进行初步修复,第二阶段进行精细化处理,还引入了如CFGscale、噪声强度等一系列自适应控制的参数,可根据不同图像自适应调整修复和处理的策略,以更好地适应各种图像的不同状况。

三、SUPIR的应用领域

(一)图像修复方面

  1. 老照片修复:在处理年代久远导致褪色、模糊、破损的老照片时,SUPIR可以发挥显著的作用。例如家庭中珍藏的多年前的黑白老照片,可能因为保存条件不佳或者时间过长而出现模糊不清、有划痕或者部分缺失等问题,SUPIR通过理解与照片内容和修复需求相关的文字描述(如想要修复到某个特定时间段的效果),能够智能地将老照片修复成清晰、完整且具历史感的照片,还原珍贵的记忆画面[8][14][15][21]。
  2. 各类退化图像修复:能够处理由于各种原因(如压缩、噪点、模糊等)导致的图像退化。比如照片经过多次压缩后惨不忍睹的画面质量或者手机拍摄的低光照环境下满是噪点的照片,SUPIR都可以进行有效的修复,将低质量的图像恢复到接近原始状态的高质量版本,恢复图像的清晰度和真实性。
  3. 艺术创作相关的图像修复:在数字艺术创作领域,如果艺术家的创作作品受到损坏或者需要在已有的图像基础上进行特定风格的重新创作和修复(例如将一幅破损的油画的电子版照片进行修复并风格化处理),SUPIR可以依据创作者的文字提示对图像进行修复,并朝着特定的艺术风格方向生成最终的优化效果,为艺术创作提供了一个辅助创作和修复的有力工具。

(二)图像增强与处理

  1. 图像放大增强:作为一种强大的图像放大工具,SUPIR可以在保持与原始输入图像高度一致的同时放大图像。无论是将小尺寸的低分辨率图像扩大到满足打印需求的大尺寸,还是在需要查看图像细节时对图像进行放大操作,SUPIR都能实现图像的无损放大和高清恢复,提升图像质量的同时不损失原始信息。这在需要处理高清图像以满足不同需求的领域(如数字图像处理、图像印刷、广告制作等)具有重要的价值。比如处理广告海报的封面图片或者艺术展览画册中的图片,既能满足观看者对于图片细节的需求,又不会造成图片失真,保证了图片的视觉效果与原始意图。
  2. 画质提升与优化:为摄影爱好者、数字艺术家或图像增强爱好者提供图像处理和上采样体验。在日常的摄影作品或者数字图像上利用SUPIR可以进行画质增强的操作,如消除因摄影设备性能不足或者拍摄条件不佳带来的画质问题,提升照片整体的视觉质量。例如提升在阴天条件下拍摄照片的色彩饱和度和对比度,让照片更加生动、逼真;或者在处理野生动物拍摄照片时,增强动物毛发细节部分的清晰度,提高照片的画质和观赏价值。

(三)在摄影与娱乐产业

  1. 电影与视频制作:在电影制作中,可以用SUPIR对原始视频素材中的图像进行修复和优化。例如对老电影胶片数字化后的画面进行修复,去除画面中的划痕、噪点、颜色失真等问题,这有助于传统经典电影的数字化修复与保存,使其能够以更好的画质呈现在现代观众面前;同时也能够对手持拍摄或者低画质拍摄的影片素材进行增强处理,提升画面质量以满足电影制作的高标准要求。在视频内容的图像放大方面,SUPIR也能提供支持,例如在视频中需要突出展示某一特定物品或者画面时将相应部分无损放大[15]。
  2. 社交媒体内容创作:如今的社交媒体平台上用户需要经常分享具有吸引力的视觉内容。SUPIR可以帮助用户修复、优化和美化自己的照片或者视频中的图像内容。例如在博主或者网红发布的照片或视频中,使用SUPIR来提升拍摄宠物、风景或者美食照片的质量,使内容更加美观、吸引关注,从而获得更多的点赞和互动,这在一定程度上也推动了社交媒体社交时效性与视觉效果的提升[15]。

四、SUPIR的发展历程

目前关于SUPIR的发展历程还没有非常详尽的长时间跨度历史记录,但透过已有的一些技术信息仍可大致窥视其发展脉络。

(一)技术基础构建阶段

SUPIR基于大规模扩散生成式先验的图像修复模型开展研发工作,构建之初就选定了利用AI能力来实现高保真图像修复这一目标。在此期间,其背后的国际化研发团队XPixelGroup聚集了来自多各机构(如上海人工智能实验室、中科院深圳先进技术研究院、香港中文大学等)的优秀学者,整合不同机构在人工智能、图像处理等方面的学术成果和研发经验,一同投入到SUPIR的基础技术构建中。

(二)模型训练与优化

  1. 数据集的组建:为了训练SUPIR,研究人员收集了包含2000万张高分辨率、高质量图像的数据集,并且每张图像都附带有描述性文本注释,这无疑是一项非常庞大且重要的工作。这些数据为模型的学习提供了丰富的素材,使其能从多种类型图像中获取信息,并能理解图像和文本映射关系,从而为后续的图像修复过程奠定了坚实的基础。
  2. 模型的规模扩大与适配
  • 生成性先验模型的选择与适配:采用StableDiffusion – XL(SDXL) 作为强大的生成先验,其包含26亿参数。为了有效应用这个模型,研究者专门设计并训练了一个包含超过6亿参数的适配器,以确保模型能更好地识别低质量图像中的内容,并且能够在像素级别上精细控制生成过程。这种模型规模的扩大和参数适配工作极大地增强了SUPIR处理复杂图像修复任务的能力。
  • 解决模型相关工程性问题:在应用SDXL进行图像复原(IR)时,面对现有适配器设计技术难题(要么过于简单无法满足IR的复杂需求,要么太大无法与SDXL一起训练),研究人员通过修剪ControlNet并设计了一个称为ZeroSFT的新连接器,成功实现与预训练的SDXL一起高效进行IR任务的同时,还降低了计算成本;并且对图像编码器进行微调,提高其对图像降解变化的鲁棒性,从多个方面优化模型性能。

(三)功能提升与完善

  1. 修复技术的强化
  • 创新采样方法的引入:开发了一种恢复引导的采样方法,针对性地防止在生成过程中出现图像失真的问题,尤其是在基于生成的恢复过程中经常遇到的保真度问题上有很好的改善效果。这种方法在扩散过程中有选择性地引导预测结果接近低质量图像,以保持恢复的一致性,使得修复后的图像更加忠实于原始图像,同时质量又有明显提升。
  • 负质量提示改进质量:引入负质量提示技术,帮助模型理解不希望出现的图像特征,通过使用SDXL生成对应于负质量提示的图像,并将这些图像纳入训练数据中,让模型学习到这些负质量概念,从而在实际修复中能够避免这些不良特征的出现,提升图像的整体感知质量。
  1. 应用相关改善:从目前来看,SUPIR在应用的易用性方面有了一定的改进,如提供了Gradio交互界面,为非专业用户提供图形化操作界面,极大地方便了不同程度用户操作该工具;此外,还开发了如ComfyUI – SUPIR插件这样的工具,便于用户在不同操作环境下能够快速进行图像修复和处理相关工作,并且在不同的模型版本(如SUPIR – v0Q或SUPIR – v0F)方面也进行了适配和优化,不同版本针对不同的图像状况和应用场景有着不同的优势,方便用户根据自身需求进行选择[13][15]。

五、SUPIR与类似概念的比较

(一)与传统图像修复方法的比较

  1. 修复效果
  • 传统方法的局限性:传统图像修复方法往往在处理复杂的图像退化情况时效果不佳。例如,早期针对超分辨率、降噪和去模糊等问题往往是独立探索的方法,这些方法是基于特定的降级假设,每一种技术只能处理一种类型的图像退化,缺乏对其他类型退化的泛化能力,并且在处理效果上无法达到很高的真实感和细节丰富度[2]。
  • SUPIR的优势:SUPIR利用深度学习的强大能力,特别是基于大规模的生成模型(如SDXL)和庞大的高质量图像数据集,可以综合处理各种混合的图像退化情况,并能生成具有高真实感和丰富细节的修复结果。无论是模糊、噪点、色彩失真等问题同时存在,SUPIR都可以通过一次处理得到较好的修复[8]。
  1. 自适应能力
  • 传统方法缺乏自适应:传统的图像修复方法除了对特定类型退化效果的局限,在自适应调整修复能力方面也比较薄弱。它们通常是被设计针对某一种固定类型或者有限几种固定类型的问题进行修复操作,不能根据不同图像的实际情况(如不同的内容结构、不同的退化严重程度等)进行自适应修复处理。
  • SUPIR的自适应能力:SUPIR构建了较为复杂的模型结构并且有大量的数据支撑,具备强大的自适应能力。其多模态的设计可以让模型根据输入的图像和文本提示进行灵活的图像处理。同时,采用了如CFGscale、噪声强度等一系列自适应控制的参数,可根据不同图像自适应调整修复策略,能够处理如不同比例的图像压缩、各种复杂环境下产生的噪点等多种差异较大的图像退化问题[9]。
  1. 修复效率
  • 传统方法耗时:一般传统的图像修复算法往往在处理较大量或者复杂度较高的图像修复任务时,可能会消耗大量的时间。因为这些方法缺乏像现代AI技术这样基于大规模预训练模型和并行计算优化策略。
  • SUPIR的高效修复:SUPIR由于采用了如ControlNet等先进的网络架构并利用了大规模的生成先验模型,通过优化模型结构和加载过程,大大降低了等待时间,大大提高了图像修复和处理的效率。例如在处理批量的图像或者大尺寸的高分辨率图像修复时可以更快地生成修复结果。

(二)与其他AI图像修复工具的比较

  1. 文本引导修复的独特性
  • 其他工具文本引导的差异:虽然现在也有一些其他的AI图像修复工具具有一定的文本引导功能,但SUPIR在文本引导修复方面具有自己的特点。其他工具可能在文本理解和对图像修复的实际指导作用上不够全面或者深入,更多地是基于一些预定义的规则或者模板进行图像修复操作。
  • SUPIR的文本驱动优势:SUPIR凭借其从海量图像和文本注释数据中的学习,能够更好地理解输入的文字描述背后的语义信息,并能依据这些语义信息对图像的各个方面(如内容、风格、细节等)进行深度修复和调整。用户可以更加灵活地使用文字输入来精准控制修复的效果,从修复特定的物体、改变物体材质纹理等细致要求到根据高级语义调整图像的大风格都能够实现。
  1. 模型规模与效果关系
  • 其他工具的模型特点:部分AI图像修复工具可能采用较小规模的模型或者算法复杂度较低的模型结构,这样在处理一些较为复杂的图像退化(如由多种因素导致的严重模糊或者高度压缩后的图像恢复)时可能无法达到理想的效果,并且在处理效果的稳定性上也相对较差。
  • SUPIR的大规模模型优势:SUPIR通过构建大规模的模型(如借助SDXL这一大型的预训练图像生成模型并搭配相当规模的适配器)能够处理各种各样严重退化的图像问题,可以处理低质量到高质量不同水准之间跨越较大的图像修复工作,并且由于模型规模的优势在处理效果上更加稳定,具有更好的重复性和准确性。在图像放大方面,利用其大规模模型可以实现更高质量的无损放大和超细节缩放等功能,这些都是其他小型规模模型难以实现的效果[3][21]。
  1. 数据集支撑与修复多样性
  • 其他工具的数据集局限性:一些AI图像修复工具所使用的数据集规模可能相对较小或者多样性不够丰富,这可能会限制其对各种不同类型图像的处理能力。可能在某种类型或者某几种类型的图像修复上效果不错,但一旦遇到其他类型的图像或者特殊的图像退化情况就会出现修复效果不佳的现象。
  • SUPIR多元数据优势:SUPIR基于2000万张包含不同场景、对象类型的高分辨率、高质量图像且附有丰富文本注释的数据集进行训练。这使得SUPIR能够适应多种类型(如风景、人物、动物、建筑、游戏画面、老电影等)的图像修复任务,无论是哪种类型的图像退化(如压缩、噪点、模糊等因素导致),也不管是哪种特定的风格要求,都能有较好的修复效果[1][2][8]。