多模态大模型推动AI迈向“通感”时代

如同人类的“五感”互相连通密不可分，人工智能（AI）的视觉、语言、音频等模态间的边界也在日渐融合。随着人工智能感知、交互和生成能力的快速发展，多模态大模型正推动人工智能迈进“通感”时代。

记者昨天从上海人工智能实验室获悉，该实验室发布的书生多模态大模型在全球80多种多模态和视觉评测任务中性能领先，超过谷歌、微软、OpenAI等研发的同类模型。

书生多模态大模型包含200亿个参数，由80亿个海量多模态样本训练而成，支持350万语义标签的识别和理解，覆盖开放世界常见的类别和概念，已具备开放世界理解、跨模态生成、多模态交互3方面核心能力。

当ChatGPT横空出世，专家就预言它将改变人机交互的“接口”。当下，多模态理解、生成和交互能力正成为大模型新一轮演化的重要方向，一个人人都能用语音“指挥”AI的低门槛时代或许已近在咫尺。

从预定义任务到开放任务，解锁真实世界理解力

在快速增长的各类应用场景需求下，传统计算机视觉已无法处理真实世界中数不胜数的特定任务和场景需求，迫切需要一种具备通用场景感知和复杂问题处理能力的高级视觉系统。书生多模态大模型融合了视觉、语言及多任务建模三大模型能力，即通用视觉大模型、用于文本理解的超大语言预训练模型（LLM）和用于多任务的兼容解码建模大模型，这使它能够更接近人类的感知和认知能力。

在人工智能研究中，“开放世界”是指非预设、非学术集或封闭集定义的真实世界。传统研究中，AI仅能完成预定义任务，即学术集或封闭集定义的任务，而这种任务范围与真实的开放世界存在很大差距。例如，ImageNet-1K学术集包含1000种物体，其中约有两种花、48种鸟和21种鱼；而在真实世界中，花、鸟、鱼的种类分别约为45万、1万和2万。

在开放世界中，书生多模态大模型正通过不断学习，获得更接近人类的感知和认知能力。在语义开放方面，它可以识别和理解开放世界中超过350万种语义，覆盖日常生活中常见的物体类别、物体动作和光学字符等，完成了从解决预定义任务到执行开放任务的蜕变，为未来多模态通用人工智能（AGI）模型研究提供了有力支持。

看图写诗，跨模态生成同时给出“创作思路”

眼下，AI技术的发展正面临着大量跨模态任务的挑战。如在自动驾驶场景下，需准确辅助车辆判断交通灯状态、道路标志牌等信息，为车辆的决策规划提供有效信息输入。

看图写作是一种经典的模态转换能力。在“欣赏”了张大千的《湖山清夏图》后，书生多模态大模型根据要求创作了一首七言绝句，诗篇如下：“山峰高耸入云天，云雾缭绕自成烟。忘身物外心自适，静听松涛入画眠。”上海人工智能实验室表示，书生多模态大模型已经具备了由图像到文本的跨模态生成能力，最后一句还借鉴了唐代诗人韦庄的名句“春水碧于天，画船听雨眠”，体现出一定文化积累。

生成文本的同时，书生大模型还给出了“创作思路”：首先确定图片中描绘的元素；其次，从画面中寻找能够表达出诗人思想情感的元素，如山峰高耸、云雾缭绕、松涛等；第三，根据元素构思诗句；最后，根据诗句的韵律和格律完善表达。

将图像视为新语言，多模态交互降低使用门槛

当人工智能迈入“通感”时代，对人们最近的影响是什么？上海人工智能实验室有关专家表示，书生多模态大模型可以将图像视为一种新的语言，用户可利用自然语言指令，灵活定义和管理任意视觉任务。

打个比方，当你输入一张照片，并用语音“指挥”AI将其转换成一段文字并发送给父母时，它能立即理解并完成指令。多模态交互功能降低了AI任务的门槛，使AI有望成为万千大众都能使用的生产工具。

也就是说，人机交互的“接口”即将改变。过去，我们在不同场景中借助不同软件与虚拟世界相连，这意味着我们还处于图形界面用户时代；未来，多模态大模型将把我们带入自然语言对话界面时代，如钢铁侠拥有了AI助手贾维斯。