从实现爆发性发展的语言智能,到初步显现巨大潜力的空间智能——展望2025年的人工智能行业,世界模型、合成数据、具身智能等引领行业前沿的方向,有望将人工智能的“洪荒之力”从虚拟世界加速拓展到物理世界,成为驱动AI行业发展的重要驱动力。
世界模型探索AI新前沿
刚刚过去的12月,“世界模型”成了AI行业热词,所谓世界模型,是指AI系统用来表示和理解外部世界运行规律的内部模型,通过大量图像、音频、视频和文本数据训练得来。近来,国内外世界模型成果频频。去年12月初,有“AI教母”之称的斯坦福大学教授李飞飞在同年组建的World Labs发布大型世界模型;谷歌DeepMind发布新一代世界模型Genie 2;Meta推出了导航世界模型NWM;此前智源研究院发布全自研原生多模态世界模型Emu3,实现了视频、图像、文本三种模态的统一理解和生成。
“有经验的老司机在开车时,对‘鬼探头’等状况会有预判,这得益于人通过规则学习建立了一个简化的世界驾驶模型。”极佳视界联合创始人兼首席科学家朱政说。
李飞飞将人类智能归结为两大智能,一是语言智能,二是空间智能。她认为,如果想让AI超越其自身当前能力,人们需要可以行动的AI。“我们需要从大型语言模型转向大型世界模型。”她说。
智源研究院在近日发布的2025十大AI技术趋势中提出,作为赋予AI更高级别的认知、适应和决策能力的技术,世界模型有望突破传统的任务边界,探索人机交互的新可能。“解决空间智能问题是关键一步。在2025年,空间智能的界限很可能会再次突破。”李飞飞说。
合成数据欲破“数据瓶颈”
数据,如同AI大模型的“血液”和“燃料”,其质量与数量直接决定了模型性能的上限。然而,随着大模型急速发展,近来人们不得不面临一个问题——能够用来“喂”给大模型的高质量数据越来越少了。
马斯克近日接受采访时表示,现实世界中能用来训练AI模型的资料,已经消耗得差不多了。《自然》《麻省理工科技评论》等多家科技杂志也提出,滋养无数模型成长的传统数据集正被大语言模型开发人员过度“开垦”。据人工智能研究机构Epoch AI的报告,在2026年以前,AI训练将用尽互联网上包含音视频在内的高质量数据,而现存真实数据集或将在2030年至2060年间耗尽。
除了“不够用”,现实世界数据还存在“不好用、不能用”等情况,数据质量参差不齐,可能使模型分析结果产生偏差。同时,随着监管加强,对个人信息等数据的保护力度加大,数据获取会戴上“紧箍咒”。
合成数据,成为业界探索解决人工智能未来发展“数据瓶颈”的解药。所谓合成数据,是指通过计算机算法生成的模拟数据,它不直接来自于现实世界。“合成数据将成为大模型迭代与应用落地的重要催化剂”,智源研究院在2025十大AI技术趋势中写道。
“暴雪天气、行人突然闯入道路……有很多危险驾驶场景很难在物理世界真实采集,因此我们需要合成数据。”一位自动驾驶从业者告诉记者。
在智源研究院看来,合成数据可以降低人工治理和标注的成本,缓解对真实数据的依赖,不再涉及数据隐私问题。此外,合成数据可以缓解通用数据被大厂垄断、专有数据存在获取成本等问题,促进大模型的应用落地。
具身智能或进入爆发“元年”
“通用机器人的时代即将到来,这将是世界上有史以来最大的技术产业。”在近日举行的国际消费类电子产品展览会(CES)开幕式上,英伟达创始人兼首席执行官黄仁勋说。在他看来,AI的下一个前沿方向就是“物理AI”,其中蕴藏着价值数万亿美元的机会。
2024年,全球范围内具身智能机器人竞争日益白热化。截至去年底,国内发布或者在研人形机器人厂商接近100家,融资已超过100亿元,被行业内戏称为“百人大战”或“百机大战”。CES开幕式上站在黄仁勋身后的14台具身智能机器人中,就有6台来自中国。
智平方创始人兼CEO郭彦东认为,从高危作业到重复性任务,再到家庭日常,具身机器人将在未来5到10年全面融入社会生活,重塑每一个行业的运作模式。
智源研究院预测,2025年将进入“具身智能元年”,近百家具身初创企业或将迎来洗牌,厂商数量将开始收敛。技术路线上,端到端模型继续迭代,“小脑”大模型的尝试或有突破,在商业变现上,更多的具身智能应用将在工业场景落地,部分人形机器人将迎来量产。