腾讯科技方面宣称,该模型准确识别图像元素并生成自然语言描述,全方位理解并洞察细节。此次测评覆盖了 12 个国内外高代表性的多模态理解大模型,腾讯混元模型在多模态基础能力和应用能力中获得 71.95 的分数。
IT之家查询得知,8 月榜单中涵盖国内外最具代表性的 12 个多模态理解大模型。腾讯混元大模型在总榜上位居第二,仅次于 GPT-4o。GPT-4o 取得 74.36 分,领跑多模态基准,基础多模态认知能力和应用能力均有 70 + 分的表现,在技术和应用方面均有一定领先优势。
▲ 图源“
”公众号,下同SuperCLUE 评价称,在基础能力方面,国内大模型较海外模型仍有一定差距,尤其在细粒度视觉认知任务上,国内外最好模型有 5 分的差距,需要进一步对多模态深度认知能力做优化提升。
本次测评选取了 4 个海外模型和 8 个国内代表性多模态模型。其中为进一步评估开源和闭源的不同进展,本次参评模型包括 4 个开源模型、8 个闭源模型。