“未来通用人工智能有两个方向要走”

相比于ChatGPT问世时的火爆，大模型“聊天”的魅力似乎正在悄然消退。

在本月最新文章中，网络分析公司Similarweb表示，随着新鲜感的消失，ChatGPT的流量正在下降。据初步估计，今年6月ChatGPT网站的全球访问量下降了9.7%，这是该网站访问量首次录得环比下降。在美国市场上，该网站访问量环比降幅录得10.3%。

很明显，“Chat”并不是大模型的全部，只靠写诗、作画也无法重构人类社会。

Similarweb文章截图

不过，自问世以来，大模型“聊天”一直在向垂直领域下沉，不断重塑着人们的生活。

国际权威期刊《JAMA InternalMedicine》一项研究表明，当需要仔细回答患者提问时，医生平均回复长度是52个单词，聊天机器人是211个单词。它的回复不仅内容更多，而且质量更好，更加富有同理心。在评估中，78.6%的人更喜欢聊天机器人的回答，而不是医生的回答。

将大模型投入产业应用，也正在成为国内外众多企业的选择。不久前在上海闭幕的第六届世界人工智能大会（WAIC）上，京东等不少企业介绍了自己的解决方案和相关思考。围绕“贴合行业场景”，有人选择让通用大模型下沉向行业，也有人选择直接打造垂直大模型。

头脑风暴一下：除了更好地理解“场景”，人工智能今后还会往哪些方面发展？

京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬表示，通向真正的人工智能，多模态是必经之路。“人始终是一个核心存在，所有技术最后都要服务人。未来的AI需要通过语言、视觉和语音和人类进行交流，所以未来的AI也必须理解语言、语音。做好多模态，才能更好的服务好人类。”

在当下的竞争环境中，“场景落地”，才是大模型的终极目标。

大模型应用落地，理解场景是关键？

今年WAIC最热门的话题之一，就是如何让大模型应用落地。

这本身不难理解：国内外大模型不能局限于“聊天”。基于智能交互，它本身就是一种提升生产效率的工具。任何大模型，未来最终都要落地于具体的行业应用，提高生产力；在大模型竞争中，中国和其他国家相比各有千秋，虽然存在差距，但中国行业多、发展成熟，这或许是一个可以“超车”的机会。

从数据来看，在算力等方面，中国未必就处于劣势。

中国工程院院士邬贺铨曾指出，按2022年年底的数据，美国占全球算力36%，中国占31%，单看算力总规模，中国与美国确实有差距，但差距并不大；若以GPU和NPU为主的智能算力规模来看，2021年美国智算规模占全球智算总规模15%，中国占26%。

但差距依然值得重视，例如深度学习框架还需要经受考验、继续打磨；例如生成式AI拓展到产业应用，需要将多个大模型高效融合，由此带来很多问题；例如大模型需要海量数据训练，但目前中文可供训练的语料挖掘还不足；例如大模型训练所依赖的英伟达A100芯片，被限制向中国出口……中国依然面临众多挑战。

图源英伟达网站

在新一轮全球人工智能竞赛中，大模型本身确实是必啃的“硬仗”。但中国其实有一个出“奇兵”的机会。

数据、算力和“钞能力”对大模型而言缺一不可，但大模型的发展同样离不开“场景”。本质上，大模型改变的是人类获取信息和服务的方式。它不仅需要满足信息匹配的需求，更要让AI精准地理解人类的用途，精准地完成人类交付的任务。“精准”，就基于对场景的理解。

在WAIC大会上，京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬表示，伴随着大模型的出现，世界未来必然会走向智能交互时代，让机器更好地帮助我们完成专业域、更广泛的任务。何晓冬表示，训练好大模型就需要场景，“场景和数据是这个时代训练大模型的抓手。”

或许这会是中国的机遇所在。

拿工业来说，中国拥有41个工业大类、207个工业中类、666个工业小类，是全世界唯一拥有联合国产业分类中所列全部工业门类的国家；在互联网方面，中国有大量电商、社交、搜索领域的企业，拥有成熟经验和庞大数据，大模型和这些行业、场景的结合，或许会带来大量机遇。

生产车间一景图源新华社

例如电商。网经社此前发布的《2022年度中国电子商务市场数据报告》显示，2022年国内网络零售市场交易规模达137853亿元；中国网络零售用户规模达8.45亿人，占网民整体的79.2%。这个“大场景”下涌现了直播、社交、美妆、母婴等“子场景”，电商、物流、客服……它们都可能成为大模型应用落地的入口。

理解场景之后，AI的下一站是多模态能力？

围绕行业场景，一些“解决方案”已经出炉。

据何晓冬介绍，通过5分钟的形象和数据采集，基于大模型能力，京东可以重构整个数字人形象，并推向应用场景。比如在电商这个场景中。言犀虚拟主播已经在京东上线了4000+品牌直播间，累计带动8亿GMV（商品交易总额）。

不过重视场景应用，或许只是大模型全球竞赛的现在，而非将来。

何晓冬表示，人们不要只关注到ChatGPT带来的语言大模型。实际上，大模型技术在很多其他模态上也在迅速应用起来，比如语音识别和语音合成，比如视觉领域的图像识别和视频合成——当然也包括数字人。“数字人既有形象，又有语音，还有手势，还有语义，还有各种情绪在里面。”

何晓冬表示，多模态是必经之路，无论是发明神经网络或者是注意力机制，其实都是基于对人本身学习机制的理解和灵感的激发，从而去引领我们发明一系列模型。有趣的是，今年不少参会企业，似乎都对“数字人”情有独钟，由此可见各界对多模态能力的重视。

今年WAIC大会上，腾讯云MaaS（Model-as-a-Service）一站式服务迎来升级。腾讯云行业大模型能力将被应用到金融风控、交互翻译、数智人客服等场景中。通过平台提供的AI生成算法、生成式动作驱动，再结合行业大模型能力，企业可以获得个性化、专业、逼真的数字员工。数字人，其实就涉及到多模态能力。

《人机共生——大模型时代的十大AI趋势观察》报告指出，多模态技术的发展正在助力AI解决更为复杂的问题。拥有图像和语音的感知、输入，大模型未来可以基于动作、表情、情感等信息进行分析，提升自己的交互能力和表现能力。目前基于文本的交互，也将走向基于语义的交互，强化对人类情绪的感知和表达。

现场图

需要承认的是，在多模态等通往未来的赛道上，挑战依然存在。

ChatGPT-4早已开始接受图像作为输入介质，它已经能简练地指出图片的违和之处。如下图所示，当用户提问，“这张图片有什么不寻常之处”时，GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上，使用熨衣板熨烫衣服。”

在今年的WAIC大会上，谈及国内外在大模型方面的差距，旷视科技联合创始人、CTO唐文斌对《科创板日报》表示，不管是基础语言模型还是多模态模型，国内外都存在一定的距离。“不过，这是可以迎头赶上的。在应用的探索上，也处于相对初期的状态。但未来会是繁荣的生态。”

方兴未艾，眼下正是国内企业积极作为之时。

在接受观察者网采访时，何晓冬表示，未来通用人工智能有两个方向要走，一个方向是多模态，大模型必须具有视觉能力，未来甚至可以更进一步延伸向嗅觉、触觉；另外一个方向是走向具身智能，包括机器人、机械臂、无人车等，让通用人工智能走向物理世界。