“魔搭”来了！一文深度解读达摩院推出的AI模型社区

AI应用信息2年前 (2024)发布 XIAOT

11月3日，2022云栖大会杭州现场，阿里达摩院联手CCF开源发展委员会共同推出AI模型社区“魔搭”ModelScope，旨在降低AI的应用门槛。首批合作方还包括澜舟科技、智谱AI、深势科技、哈工大讯飞联合实验室、中国科学技术大学等多家科研机构。达摩院等率先向社区贡献300多个经过验证的优质AI模型，超过三分之一为中文模型，全面开源开放。

魔搭社区重点关注AI的应用难题。为什么AI应用难？

首先是开发门槛高，模型开发往往需要大量数据的准备，以及匹配的海量GPU算力。通常只有大公司才有这方面的投入，对于中小企业则存在一定的难度。

其二是模型的定制化需求高，在具体的问题上面，通用的模型效果不是特别好，还得做相应的定制化微调，这对开发人员提出了很高的要求。

第三是今天模型众多，调用方式不同，AI开发者需要查看很多的资料，来修改这个那个参数，使用不同模型的难度比较大。

最后，目前在国内没有通用的模型交流平台，缺乏系统化的模型分享渠道。这也导致了查找模型、比较不同模型效果的门槛较高，最终导致模型交流分享的困难。

什么是模型即服务？

为了解决这些实际的AI应用困难，达摩院提出了模型即服务Model as a Service的理念，魔搭社区就是践行这种理念的产品。过去，我们通常会把硬件资源、通用的软件能力、底层框架等来提供服务，现在，模型也上升到底层框架服务的维度，开始成为第一生产力。

与此同时，魔搭社区将模型、数据和算法有机结合起来，来降低模型体验的门槛，让模型能够被快速的被使用，并且能快速的被微调，最终让适合具体业务场景的微调后的模型，能快速云端部署。

达摩院希望通过模型即服务的理念，实现 AI for Everyone。无论是AI兴趣者，使用者，开发者还是研究人员，都能够在魔搭社区，很好的使用模型解决实际的问题。

模型丰富中文特色

魔搭社区首批上架模型超过300个，覆盖了视觉、语音、自然语言处理、多模态等AI主要领域，覆盖任务超过60个。上架模型均经过专家筛选和效果验证，包括150+SOTA（业界领先）模型和十多个大模型，均已开源代码或开放使用。

社区鼓励中文模型的开发和使用，希望实现中文模型的丰富供给，并更好满足本土需求。目前已上架的中文模型超过100个，总量占比超过三分之一，其中包括一批探索人工智能前沿的中文大模型，如阿里通义大模型系列、澜舟科技的孟子系列模型、智谱AI的多语言预训练大模型。

展开来说：

在计算机视觉领域，社区开源了多种视觉任务近百个模型，覆盖多模态图文表征大模型、图像/视频生成大模型，以及各类下游迁移应用模型，既有SOTA的技术热门模型，也有久经考验的应用模型，包括最基本的视觉理解，如识别分类、目标检测、分割抠图等，也包括视觉生产中的画质增强、图像编辑、内容生成等大类，初步构建了以多模态生成和表征大模型为基础的开源模型体系。为AI开发者提供丰富的、一站式的视觉AI模型选择。
在自然语言处理领域，社区提供了包括 structBERT, PALM, mPLUG, 中文GPT3等预训练模型为底座，共计100+ NLP 应用模型，涵盖了分词，词性，命名实体识别等基础技术，文本分类，情感分类，对话问答，OCR, 机器翻译等应用技术。既有基于预训练模型finetune的多种任务模型（作诗，小说续写），又有取得了VQA首次超人类，机器翻译最佳论文等的业界领先技术，还涵盖了包括通用，新闻，电商，医疗等多领域，中，英，法，西等10+语言的多语言模型。从模型深度，广度，学术界数据集到应用场景，都提供了丰富易用，性能领先的模型库。
在智能语音领域，社区覆盖语音识别、语音合成、语音信号处理、语音唤醒等语音领域最主流的能力，首批上线逾40个模型。其中，“UniASR语音识别通用领域模型”阿里云语音识别API背后的模型，这次通过魔搭社区免费开放，这种开放公共云背后的算法模型的做法在业界尚属首例。开发者可基于该模型，通过领域数据finetune进一步增强垂直领域语音识别准确率。“SAMBERT高表现力多情感语音合成模型”同样是阿里云语音合成API背后的算法模型。达摩院还同步开源了SAMBERT模型训练代码和流程。通过魔搭社区开放，任何有高品质录音数据的模型开发者均可制作出与达摩院同样品质的语音合成音色。“Paraformer语音识别模型”是达摩院下一代非自回归端到端语音识别模型，刚刚于InterSpeech-2022发表，即已通过魔搭分享给业界。Paraformer是当前学术界在非自回归技术路线上研究探索的SOTA模型之一。模型结构先进，相比自回归模型在保持精度的同时，在推理效率上最高能达到10倍提升，将有效降低语音识别线上服务的成本。
在多模态领域（所谓多模态模型，就是跨越文本、图像、声音等多种数据类型之间的理解和生成问题，人处理任务通常也是以多模态的方式进行。），魔搭社区这次也提供了丰富的多模态模型矩阵。它不仅包含了不同类型的图文多模态预训练模型，比如我们提供了一个原生CLIP模型的中文版，以及像OFA/Team/mPLUG这样自研的多模态预训练模型；同时魔搭也包含了使用这类模型创建的包括图像描述、视觉定位、视觉问答、图文检索等各类多模态典型任务。（另外，为了满足不同部署条件的开发者，我们很多模型都有不同规模的版本可供选择。社区同样也可以很方便的在这些预训练模型，或者他们的下游模型上进行二次开发。）

此外，社区还在AI for Science等新领域积极拓展，深势科技在社区开源了蛋白质折叠预测模型和3D分子模型。

魔搭社区的使用优势

魔搭社区提供模型的索引和发现功能，AI模型都有自己的标签和相应的索引，让不同的模型使用者，能够根据自己的需求，快速的找到相应的模型。每个模型都配套一个详细的模型的卡片来描述模型背后的机理，以及相关的一些文献。

魔搭社区也提供在线体验的能力，能够让众多使用者能够快速的在不开发代码的情况下，去体验各种模型的效果。社区还提供相关的模型开发的代码，引导社区的开发者以编程的方式，结合社区的python library，快速使用模型。除了模型以外，社区同时还提供了丰富的数据集。帮助模型进行训练和调优。而社区分享频道，方便模型的使用者和开发者能够方便的交流心得和体会，推动模型的应用。

ModelScope魔搭社区覆盖全频谱的使用/开发者

为了构建这些完整的平台体验，魔搭提供了一个功能强大的开源Python package，package提供了不同模型接入魔搭生态的接口和实现，底层能够兼容各种机器学习框架，无缝衔接模型应用与开发。只需要import对应的python package，通过简单的一行代码，就可以完成模型的发现，模型的自动下载，以及模型的加载和使用。在体验过模型后，还可以方便的一站式的部署到云端，供APP使用。

技术架构图

模型的开发离不开算力，魔搭社区的生态和云的生态实现了无缝的集成。阿里云为魔搭社区提供了一定的免费的算力，来促进社区的快速发展。同时魔搭社区和多种云产品结合，如阿里云弹性加速计算EAIS和机器学习平台PAI，覆盖了模型的开发的方方面面。从魔搭社区，用户们可以进行开发，并能够快速的连接到云生态。能够完善今天整个模型的开发的链路。

值得注意的是，魔搭社区坚持开源开放，框架兼容各种机器学习的框架，通过这样的方式，不仅阿里巴巴各个团队的模型都可以轻松的接入社区，同时外部的科技公司和高校也可以通过这样的方式，快速接入各种模型。