四大维度深度体验多模态性能，GPT-4o为何被称作“最强大模型”？

去年3月，GPT-4震撼发布，距今已逾一年。尽管科技巨头如谷歌、Meta，以及硅谷新贵如Mistral AI、Anthropic在那之后都争相发布了竞品大模型，但似乎至今还未有第二款大模型达到与GPT-4一般横扫科技圈的力量——直到GPT-4o的诞生。

当地时间5月13日，OpenAI在万众期待中推出了名为GPT-4o的新一代旗舰AI模型。当日，OpenAI首席执行官阿尔特曼发推文表示，新的GPT-4o是OpenAI“有史以来最好的模型”。

据悉，GPT-4o支持文字、图像、语音和视频输入和输出，OpenAI承诺未来将免费让普通用户使用，同时将开放API给GPT开发者，价格直接便宜50%。目前，该模型仅开放了文本和图像功能。

本周，《每日经济新闻》记者从图像和文本两大层面深度体验了GPT-4o的效果，着重识图能力的测试。综合来看，GPT-4o在反应速度上有极大的提升，识图方面冠绝群雄，不仅能够准确识别图片，还能以类人的思维理解图像内容。而在长文本总结方面，与当前模型的差距并不突出。

GPT-4o到底是如何“炼”成的？当地时间5月15日，OpenAI联合创始人之一John Schulman在接受科技播客主持人Dwarkesh Patel采访时透露，后训练是提高模型性能的关键因素。

GPT-4o的识图能力有多牛？四大维度深度体验

基于图片类型，记者将识图功能的测评分为4大维度，分别为普通图像、特定专业领域的图像、数据图像和手写图像。

一、普通图像识别

（1）内容较为单一的图像

记者首先选取了一张波士顿动力机器人跨越障碍物的图像，内容较为简单，图上无文字，随后要求大模型仔细识图并描述内容。GPT-4o非常出色地完成了任务，细节描述无可匹敌，准确无误地识别了机器人的运动状态、地面障碍等丰富细节。

图片来源：GPT-4o

（2）内容较为复杂的漫画

接着，记者选取了由多个图像组成、内容较为复杂的漫画。GPT-4o可以完整地总结出每一格漫画的内容，并以准确的顺序进行讲述。更令人吃惊的是，GPT-4o完全以类人的思维解构了漫画的逻辑，它能够理解这是一种“拟人和夸张的手法”，并准确理解了漫画的幽默感。

图片来源：GPT-4o

二、特定专业领域的图像

（1）医学领域

记者准备了一张mRNA疫苗工作原理图，图像并未直接说明这是一张疫苗工作原理图，但图上写有相应文字，例如“刺突蛋白”、“蛋白质翻译”和“脂质纳米颗粒”等术语。

GPT-4o的表现惊艳，不仅准确识别了该图的主旨内容，并依据图示上的过程用通俗的语言解释了mRNA疫苗的工作原理。

图片来源：GPT-4o

（2）房地产领域

接着，记者选取了一张建筑面积134平方米的户型图，让大模型识图并总结户型优劣势。GPT-4o呈现了总体令人较为满意的结果，该模型不仅能识别户型基本情况，分辨出“半赠送”的建筑面，也能够清楚地总结户型的优劣势，但在数据准确性上有待提高。