专访面壁智能李大海:大模型能力迭代没有变慢,而是在加速

AIGC行业资讯6个月前发布 jzawxc
10 0

通往agi的路并不好走。为此,一众大模型公司各展所长,以求留在牌桌。

阶跃星辰坚信从单模态到多模态,再由多模理解和生成的统一走向世界模型,是到达AGI的必由之路;月之暗面则认为长文本是打开AGI大门的钥匙;零一万物、科大讯飞、商汤科技等企业则面向C端用户发布了一系列AI产品,以“落地为王”为方向。

在奔赴AGI的浩荡大军中,面壁智能稍显特殊——大部分公司卷参数规模,面壁智能却希望尽可能将参数做小。事实上,很多由大规模参数支撑的大模型,效率并没有实现最大化。

在接受时代周报记者采访时,面壁智能联合创始人、CEO李大海多次提及“高效”一词。他认为,“高效大模型是通向 AGI 的更现实的路径。要打造更高效的Scaling Law(模型能力与尺度间的渐进关系)增长曲线,实现同等参数性能更优、同等性能参数更小的效果。”

面壁智能成立于2022年8月,专注大模型技术创新与应用转化。创始团队主要来自清华大学自然语言处理实验室。CEO李大海是Google中国的创始员工,2015年加入知乎,2023年出任面壁智能的董事和CEO。今年6月5日,李大海辞任知乎CTO,并不再担任执行董事;另一名联合创始人、首席科学家刘知远,是清华大学计算机科学与技术系副教授。

面壁智能是李大海第四个创业站点,也是他首次担任公司一号位。李大海对AGI、大模型的前景极为乐观。谈及最近辞任知乎CTO并不再担任执行董事一事,他解释称,这只是一次正常的工作调动和安排,没有特别值得夸大和解读的地方。

“高效”理念贯彻面壁智能团队上下。刘知远认为,高效和通用就是AI可持续发展和应用的本质,也是面壁做大模型的核心。面壁智能CTO曾国洋也曾表示,他并不过分担忧落后的问题。在他看来,OpenAI的技术路线可能并不普适,需要根据自己的实际情况和优势来制定发展策略,“一味地追求模型参数量这条路是走不通的,大模型的效率会很关键”。

在试图将“高效”落地的过程中,面壁智能发现了端侧模型的巨大潜力。端侧模型相比云侧离用户更近,虽然云侧大模型性能相对来说会更好,但端侧有它的生态位。“端云协同基本被业界认同是未来大模型的一个主流应用模式,苹果推出Apple Intelligence,就带头做了一个示范。”

李大海认为,端侧对芯片算力和内存要求苛刻,它必然是一个足够高效的大模型,这要求研发团队对大模型有足够深的底层洞察,积累很多Know-How,在大模型Scaling Law之外建立Scaling Prediction(使用小规模模型的实验数据预测大模型性能水平)的能力。

“面壁智能的长期征程是AGI。而大模型一定是通往AGI的当前所有技术里能走得最远的,但它能不能直接达到,还有很多未知因素。”李大海总结道。

“现有商业模式都不是终极形态”

时代周报:面壁智能为什么没有选择从大模型直接走向应用,而是将大模型与Agent(智能体)率先结合?

李大海:关于ai agent有各种各样的视角和说法。但归根结底,就是将大模型的能力,向外输出,变成实际解决问题的能力。

大模型就像汽车引擎。然而,要制造出一辆完整的汽车,除引擎外,还需要转向系统、底盘、内饰以及其他所有必要组件。同样,要充分发挥大模型的潜力,我们还需要在这个“引擎”基础上加入一系列高级技术,如增强的记忆能力和使用工具的能力,这样才能开拓更广泛的应用领域和想象空间。而 AI Agent正是集合这些技术能力的载体。

时代周报:目前“大模型+Agent”的进展如何?

李大海:公司成立的第一天,我们目标就是要做最好的大模型。公司的英文名字 ModelBest ,倒一下顺序其实就是 Best Model。一个朋友评价说,面壁智能是最懂 Agent 的大模型公司。实际上我们本质是大模型公司,Agent,包括我们在 2021、2022 年最早做的 Infra,其实都是为了把大模型做好。

在我看来,现在大模型主要作为知识压缩; Agent 技术,不管是外化的 Agent 技术,还是未来内化到大模型里面去的Agent技术,将大语言模型和其结合到一起,能够更好地到达 AGI 最终的目标。

时代周报:当下一些互联网大厂也跻身应用赛道,如果将来应用层爆发,大模型很可能被淡化。而to B方面,又不得不面临单纯做大模型交付,实际商业链路较短的局限。你怎样看待这两种商业模式?

李大海:目前的大模型技术还仍处于高速发展阶段,商业模式也在随之持续构建和迭代,无论是to B还是to C,我认为大家都是在解决“让智能更好服务于人”的这个共同命题,同样走在以大模型为主要智能来源的技术道路,不存在优劣之分。

不可否认的是,无论to B还是to C,一项技术能够被大规模普遍的商用前提,一定是技术的使用成本低过某个临界点,而考虑到技术阶段和算力等诸多因素,目前整个行业都还在加速冲向这个临界点的路上,所以现有的产品和商业模式都还在探索,而非终极形态。

时代周报:面壁智能是怎样接近这一临界点的?

李大海:面壁基于端侧的大模型解决方案,就是在通过技术方式提升用户的使用体验,让用户在端侧能够有更可靠、隐私更有保障的端侧智能;同时也实现了充分开发端侧现有算力,从而达到用技术降低使用成本这件事。

我们不仅要建设更强的大模型,还要高质量、低成本地建设大模型,让每个人都能用得上、用得起大模型的通用智能。MiniCPM的诞生正也是基于这样的愿景以及智能会无所不在的判断。未来面壁未来的发展会集中依托于端侧大模型所开展。

时代周报:你刚提到模型迭代的核心支撑力还是技术,但在GPT-4o发布之后,很多业内人士认为大模型能力迭代的速度普遍慢了下来。

李大海:我认为,大模型能力的迭代速度没有在变慢,而是在加速。从国内到国外,大模型领域里每天都有新的想法、新的技术在尝试、并且跟各行各业结合有新的产品落地形态,正在快速变化。面壁智能应该不存在迭代变慢的问题,并且也有令人激动的新产品正在开发中。

竞争中的高效

时代周报:在模型能力上,中外的架构差异其实不大,造成差距的主要因素还是数据质量和数据能力。面壁智能会选择消耗昂贵的成本来丰富和标注数据,还是倾向于与数据质量较高的互联网企业合作来缩小与国外公司的差距?

李大海:现在大家都在讲怎么把模型做大,我觉得大模型的“智能密度”也是一个非常重要的事情。有可能当有一天达到AGI的那一天时候,还要做的事情是今天庞然大物一样的大模型已足够小型化。

譬如,如果把用一个10万亿的参数模型做到AGI达到的智能水平,从能不能把10万亿模型的参数降到1万亿、降到1000亿,这也是一个要持续去突破的事情。

时代周报:把目光放到国内,大模型厂商用相似的训练方法,采用相似的语料,难以产生明显的竞争优势,面壁智能在这方面有什么考量?

李大海:我认为核心还是“高效”。目前公司已完成了贯彻高效训练、高效落地与高效推理的大模型全栈技术生产线布局。

高效训练方面,2024年初发布的“性能小钢炮”MiniCPM,已经意味着面壁大模型高效训练模式的彻底跑通。我们做了上千次面壁“模型沙盒实验”,对大模型训练过程进行精准建模、预测,打造出更加高效的ScalingLaw增长曲线,以更快的速度、更低的成本,提供智能实现的最优解决方案。

高效落地方面,面壁智能将通过AI Agent持续推动建设这一大模型落地应用的最后一公里。

高效推理方面,我们以“衔尾蛇投机采样”为代表的协同推理技术,在云侧建立起大小模型之间的协同,极大提升云侧大模型的服务速度。与面壁端侧模型相结合,有望实现端云两侧协同推理的新范式,进一步显著降低大模型使用成本。

时代周报:所以在秉持高效的前提下,你对Scaling Law也会有不同的理解?

李大海:对于大模型的发展,Scaling Law是公认的经验公式。但训练模型中的训练方法本身对于Scaling Law、对于智能的影响是比较显著的。因为现在参数规模不断往上,但是让端侧芯片支撑某个固定规模范围的模型难度比较大。所以要做到足够好的智能,那数据质量、训练方法这些都变得非常重要。

所以,相对于“把模型做大”,我们更关心如何让模型“有效训练更多数据”。

时代周报:面壁智能是不是一位擅长错位竞争的选手?

李大海:我认为“高效”也可以用来解释竞争层面的问题。比如我们做端侧,就是看到了端侧能更早更快落地的可能性。最近有机构做过一个调研,发现全国10亿用户的手机端侧的算力,相当于差不多100万片H100。这是一个非常夸张的数字。如果不同的手机上的算力能够被好好利用起来,很多应用就可以落地了。

当然,现在这个阶段,包括现在到未来,都需要端侧跟云侧模型好好协同。端侧有端侧的优势,它的优势是隐私性好、更可靠、响应快,但是云上的模型目前肯定要比端侧现有能力强大,这是我们跟其他所有模型公司要一起协作的事。

时代周报:你一直认为百花齐放才是春,当下大模型开启价格战这对中小厂商和整体行业是利空吗?

李大海:当前所谓的价格战,多多少少有一些营销的成分在,但是我相信未来一定会比现在的价格还要低,并且大家都有利润,这才是健康的方式,并且才真的能让千行百业的应用往下落地。

时代周报:英伟达A100、H100等产品售价飙涨、一卡难求,助推了国内算力租赁市场繁荣。最近英伟达面临反垄断调查,你认为国产算力的发展空间是否可持续?

李大海:算力只是基础设施的一部分,基础设施的更新与否,即使面对不确定的情况,应该也会有替代方案。毕竟大模型未来释放出庞大的需求,产生了可观的效益后,一定会有人把配套做好。商业利益的驱动力量不可低估。

    © 版权声明

    相关文章