大模型落地应用元年②:
2023,随着ChatGPT的横空出世,大模型迎来了前所未有的关注。2024,业内普遍认为,大模型将迎来落地应用热潮。大模型落地应用元年,人工智能技术也行至产业应用的临界点。红星资本局采访多家国内大模型企业,聚焦大模型应用行业前沿关键节点。
5月中旬,OpenAI推出新旗舰模型GPT-4o,一个多月之后的世界人工智能大会上,商汤科技(00020.HK)正式推出“日日新5o”,直接对标GPT-4o。据悉,这也是国内首个“流式交互”多模态大模型。
所谓多模态大模型,是近年来兴起的一个新的研究热点,指的是可以同时处理多种不同类型数据(如文本、图像、声音或视频等)的模型。也有业内观点认为,多模态已成为大模型的标配。
商汤科技联合创始人林达华在接受采访时谈到,预计下半年,大模型的推理成本会快速下降,且比上半年下降一个数量级甚至更多。他认为下半年还会催生出更新型的实时交互体验。
大模型的真正考验
在近日召开的人工智能大会的发布现场,工作人员与“日日新5o”对话,后者能瞬间自动识别出工作人员脖子佩戴的胸卡带子上的字眼,判断出现场就是世界人工智能大会会场,并表示在这个地方可以“好好学习”。当工作人员随便翻开一本书的任何一页,“日日新5o”能自动介绍,不是简单的OCR识别文字,而是识别图文给出易于理解的总结,做到实时交互。
日日新5.5现场演示:流式模型实时理解并处理信息 图由受访者提供
据了解,“日日新5.5”是基模型,而“日日新5o”是“日日新5.5”的多模态模型。今年4月发布的“日日新5.0”是国内首个对标GPT-4 Turbo的国产大模型,两个多月时间,全新“日日新5.5”体系迎来多项升级,综合性能较“日日新5.0”平均提升30%,交互效果和多项核心指标实现对标GPT-4o。
外界常说,大模型是“文科强,理科弱”。林达华坦言,包括ChatGPT-4o和国内的各大模型在内,在推理的技术层面依然面临着很大的挑战。
“现在市面上头部的大模型其实在知识这个层面都已经做得相当不错了,相互之间差距并不大。”林达华认为,真正考验模型的是推理能力。“这是非常困难的。因为大模型它有包括幻觉,包括一些概率性的问题。这就使得它每走一步都有一定可能会出错。当你要走很多步才能得到结论的时候,中间可能会有很大概率会出现偏差和结论不正确。”
林达华指出,如果要实现大规模的推理能力的提升,需要一个成规模的思维链构造技术,然后把思维链送到模型里面去,让它形成一个基础的推理能力的提升。在这基础之上,再把大模型跟一些探索性的方式,包括寻找答案的方式、算法结合在一起,才能把大模型的基础推理能力再延伸到一个更强的、更远的过程。
他也判断,随着大模型架构的革新,推理成本会快速下降。“我们判断,到今年下半年,同样能力的大模型的推理成本应该会比上半年下降一个数量级甚至更多。”
大规模落地需要提供“真实价值”
一直以来,大模型的场景落地、应用始终是业内困囿。大模型的价值在于“应用”,同时“应用”也成了难点。
“当前AI行业确实很热,但还没有到一个‘超级时刻’。”商汤科技董事长兼CEO徐立认为,目前AI暂未真正走进行业垂直应用,或引起广泛变化。“超级时刻”的关键点则在于“应用”。他提出,若要实现没有延迟的交互,端侧是一个非常重要的突破点。
林达华认为,最终真正能去大规模落地的是要给用户带来非常真实的价值,比如情感价值,或者是能够给用户带来便利的、提高用户处理事情效率的工具。
“下一阶段,大模型会真正能够成为用户的全方位助手,而不是单方面的助手。比如说一个读文档的APP,如果能够串联用户的长知识需求,比如说处理我的文档,我的日程,我读过的书,我看过的话,这些如果能够相互连接在一起,价值会更大。”
林达华坚信,“真正帮助用户提供端到端的价值”会成为未来大模型的一个发展趋势。“把各方面的信息融合在一起,给用户更好的建议和服务。最终这些用户助手类的工具会慢慢地整合成一个单一的应用或者模型。它能综合运用用户的各种知识,给用户提供更到位的服务,或帮用户更好地处理问题。同理,这也可以运用到帮助企业身上。”
林达华认为,一旦形成了整体的价值闭环,大模型未来的商业空间和落地广度就会远远被拓展。各种单点功能的提供,仅仅是大模型应用落地的第一步。如果把整个场景的各种信息打通,形成模型综合服务能力的话,那么它的整体价值空间就会比现在大出不止一个数量级。
大模型指向“通专融合”
近段时间,不少业内专家都提到了“通专融合”,即通用模型和具备专业能力的模型配合,构建一个既具有泛化性又具备专业能力的AI系统。
林达华也认同这样的发展方向,“基础能力所形成的差异化水平并不足够,就需要在专门的领域,无论是To C还是To B的一些专门领域,去形成更加差异化的领域积累,从而在这一领域里形成更高的用户价值和竞争力。”
业内普遍认为,2024将成为大模型落地元年。我们将会看到大模型应用的形态多样性,还有应用面的大范围铺开和增长。之所以有这样的判断,是因为端侧大模型成为一个主要焦点,像手机相关、教育领域、医疗场景等等,这些场景的应用侧发展非常迅速。
伴随应用的拓展,其价格成本影响着推广使用的效果,这也会倒逼大模型架构产生非常多的创新。
林达华认为,今年多模态的水平已非常高。在多模态能力的提升以及推理成本下降的情况下,会导致另外一种交互形态发生。“如果之前都是一种回合式的一问一答的这种聊天,我相信在下半年开始会催生出更新型的交互体验,比如说通过一个视频,或者语音视频直接对话,更加实时的交互体验就会出现。同时也能解锁出很多应用的形态。”