近年来,国内AI大模型行业蓬勃发展,市场上AIGC产品如雨后春笋般涌现,产品功能、体验和玩法日趋丰富,同时用户对于AIGC产品的使用兴趣度不断提升,生成式AI普及范围持续扩大,截止2023年12月,生成式AI移动应用全网安装渗透率达6.7%,MAU已超2000万。为跟上技术迭代的步伐,月狐数据发布《2023 AIGC应用app智能化评测报告》,该报告为中国市场首份围绕AIGC应用app的智能化水平以及智能体能力的专业测评报告,旨在通过多维度量化指标帮助用户更直观地评估现有主流AIGC应用产品的能力。
在报告中,AIGC应用app智能化评估体系的主要评估对象为当前国内主流的拥有自主大模型的对话式AIGC移动应用产品,包括文心一言app、通义千问app、讯飞星火app、豆包app、天工app、360智脑app和智谱清言app。该评估体系由基础能力、使用体验、生成质量、智能体能力、安全合规5个一级指标以及23个二级指标构成,采用了500道封闭题和开放题,结合自动化测试和专家评分的形式对各大AIGC应用产品进行打分。
评估结果显示,文心一言app智能化综合指数位居第一,其次是讯飞星火app、豆包app。拆分二级指标来看,文心一言app在基础能力、安全合规、使用体验、生成质量、智能体能力各方面表现突出,除此之外,通义千问、智谱清言app在基础能力方面也相对领先,讯飞星火、天工app在安全合规方面也展现出较明显的优势。
“生成质量”和“智能体能力”这两个维度能够较明显地体现出各大AIGC产品的能力区隔。具体看生成质量方面,各家app在不同类型的内容生成上各有优势,其中文心一言app在逻辑推理、多轮行程规划、情感对话、角色扮演等多个场景下生成的内容质量更好,而通义千问app更擅长创意写作,在多轮行程规划场景上也有较好的表现,讯飞星火和360智脑app则在数学计算上表现突出,智谱清言app在专业知识问答、情商问答场景上获得最高分,豆包、360智脑app在专业知识问答上的表现也相对较强。
智能体能力则是月狐数据基于当下大模型技术的最新发展趋势所增设的评测维度。智能体是指以AI为核心构建的一个集合立体感知、全域协同、精准判断、持续进化等特征的智能系统,是各家大模型厂商目前着重布局的应用场景,基于智能体功能用户可以按照自己的需求打造出更具个性化的AIGC方案。2023年,随着各大厂商积极开发和迭代智能体功能,各应用智能体的能力在内容契合和个性化方面取得了质的提升;2024年初,AI智能体能力在“交互沉浸”和“角色还原”方面实现进一步创新,产生较多具有沉浸态和数字生命形态的智能体。因此,加入智能体能力评测指标,一方面能够更加全方位地测量AIGC应用产品的能力,除了大模型的底层能力之外,也能测量到大模型技术的应用场景落地能力,另一方面能够直观体现国产大模型的最新发展进程。
评测结果显示,文心一言app在智能体能力方面表现突出。在用户创建智能体功能方面,文心一言app支持用户通过上传图片或拍照的方式制作智能体形象,同时支持用户通过录制自己的音频的方式来创建智能体声音,还有丰富多元的性格标签供用户选择,支持用户创建出个性化程度更高的智能体。在智能体交互体验方面,文心一言app官方构建的智能体在形象、声音、语气等方面可以较高程度地复刻本体,有较完整的数字人形象,躯体动作和表情均可动态化,同时支持语音交互、电话聊天等,强大的内容生成能力也让智能体能够较大程度地输出契合设定(个性、功能、专业等)的内容。
例如2024春节期间,文心一言app推出了AI费翔智能体,智能体不仅以较完整、立体的形象展示,同时有动态的躯体动作和表情,支持语音和电话的形式进行聊天,智能体逼真的形象和声音、同步的表情,给用户带来高度沉浸的交互体验。
可以预见,在各大科技厂商的技术加持下,未来国内AIGC应用产品的落地能力和成熟度将会持续提升,不断适应更加复杂多样化的交互场景,加速向各行业、各应用场景中渗透,成为广大用户生活、工作、学习的全能助手。