超多，超快，超强！百度飞桨发布工业级图像分割利器PaddleSeg

AI应用信息1年前 (2024)发布 XIAOT

209 0 70

1. PaddleSeg 重磅发布

飞桨的新产品 PaddleSeg 全新上线，重点针对图像分割领域，面向开发者提供了完备且易用的工业级分割模型库。

是的，你没有看错，真正经得起考验的【真. 工业级】的分割模型库。

据介绍，PaddleSeg 已经在百度无人车、AI 开放平台人像分割、小度 P 图和百度地图等多个产品线上应用或实践，在工业质检行业也已经取得了很好的效果。

飞桨官方提供的 PaddleSeg 全景图如下图所示：

2. 图像分割是什么？

图像语义分割通过给出每一个图像中像素点的标签，实现图像中像素级别的语义分割，它是由图像处理到图像分析的关键步骤。

就像下图中所看到的那样，可以对车辆、马路、人行道等实例进行分割和标记！

相比于传统的图像分类任务，图像分割显然更难更复杂，

但是，图像分割是图像理解的重要基石，在自动驾驶、无人机、工业质检等应用中都有着举足轻重的地位。

3. PaddleSeg 三重惊喜

3.1. 一次性开源 15 个图像分割领域主流模型，大礼包带来大满足

PaddleSeg 对所有内置的分割模型都提供了公开数据集下的预训练模型，

全面覆盖了 DeepLabv3+、ICNet、U-Net 等图像分割领域的主流模型实现，并且内置了 ImageNet、COCO、CityScapes 等数据集下的 15 个预训练模型，

满足不同场景下的不同精度需求和性能需求！

15 个预训练模型，请参考 https://github.com/PaddlePaddle/PaddleSeg/blob/master/docs/model_zoo.md

其中，最重要的三种模型介绍如下：

（1）支持 U-Net 模型：轻量级模型，参数少，计算快

U-Net 起源于医疗图像分割，整个网络是标准的 Encoder-Decoder 网络，特点是参数少，计算快，应用性强，对于一般场景的适应度很高。U-Net 的网络结构如下：

（2）支持 DeepLabv3+模型：PASCAL VOC SOTA 效果，支持多种 Backbone

DeepLabv3+是 DeepLab 系列的最后一篇文章，其前作有 DeepLabv1，DeepLabv2, DeepLabv3。在最新作中，DeepLab 的作者通过 Encoder-Decoder 进行多尺度信息的融合，同时保留了原来的空洞卷积和 ASSP 层，其骨干网络使用了 Xception 模型，提高了语义分割的健壮性和运行速率，在 PASCAL VOC 2012 dataset 取得新的 state-of-art performance，即 89.0mIOU。DeepLabv3+的网络结构如下：

在 PaddleSeg 当前实现中，支持两种分类 Backbone 网络的切换：

MobileNetv2:
适用于移动端部署或者对分割预测速度有较高要求的场景，PaddleSeg 还提供从 0.5x 到 2.0x 不同 DepthMultiplier 的模型。
Xception:
DeepLabv3+原始实现的 backbone 网络，兼顾了精度和性能，适用于服务端部署。PaddleSeg 提供了 41/65/71 三种不同深度的预训练模型。

（3）支持 ICNet 模型：实时语义分割，适用于高性能预测场景

ICNet（Image Cascade Network）主要用于图像实时语义分割。相较于其它压缩计算的方法，ICNet 既考虑了速度，也考虑了准确性。ICNet 的主要思想是将输入图像变换为不同的分辨率，然后用不同计算复杂度的子网络计算不同分辨率的输入，然后将结果合并。ICNet 由三个子网络组成，计算复杂度高的网络处理低分辨率输入，计算复杂度低的网络处理分辨率高的网络，通过这种方式在高分辨率图像的准确性和低复杂度网络的效率之间获得平衡。ICNet 的网络结构如下：

3.2. 多卡训练速度比对标产品快两倍，工业级部署能力，时间节省超痛快

在速度方面，PaddleSeg 也提供了多进程的 I/O、优秀的显存优化策略，性能方面得以大大提升。

PaddleSeg 的单卡训练速度是对标产品的 2.3 倍，多卡训练速度是对标产品的 3.1 倍。

与对标产品相比，PaddleSeg 在训练速度、GPU 利用率、显存开销和 Max Batch Size 等方面都有着非常显著的优势。详细的对比数据如下图：

测试环境与模型：