数据枯竭、边际效益递减……大模型从训练转向推理
为了提升模型性能,秉持着数据量、计算量和模型参数量规模越大越好(即Scaling law)的原则,各大科技巨头纷纷哄抢当前市面上性能最为强悍的英伟达GPU,让囤积的GPU数量给AI模型效用“做担保”。
然而,高强度、大规模的模型训练正在“榨干”全球数据库,并且模型扩展边际效益递减的同时算力成本仍然高企,这引发了对AI训练阶段是否已经即将终结的讨论。
随之而来的问题是:Is Scaling is All you Need?我们真的还需要再消耗更高的成本来训练更好的AI吗?
外界的目光开始移至AI大模型的下一阶段——逻辑推理。
作为大模型预训练的下一阶段,逻辑推理是指基于现有大模型,开发AI在各细分垂直领域的应用以实现终端落地。
随着AI大模型日趋成熟,有观点认为,以ASIC(专用集成电路)为代表的推理芯片将逐步取代以GPU为代表的训练芯片,成为各大AI公司的“新宠”。
而博通CEO对ASIC市场的乐观预期在一定程度上印证了外界对AI范式转向的预期,进而引发了上周五的股价暴涨。
ASIC是什么?比GPU更“专一”
半导体大致可以分为标准半导体和专用集成电路(ASIC)。标准半导体拥有标准化规格,只要满足基本要求,就可以应用于任何电子设备,而ASIC则是半导体制造商根据特定产品要求生产的半导体。
因此,ASIC一般会被应用于特定设计和制造的设备中,执行必要的功能。
AI运算也就由此衍生出两条路径:一种是英伟达GPU代表的通用路径,适合通用高性能计算,另一种是ASIC定制芯片为代表的专用路径。
作为标准半导体成品,GPU在处理大规模并行计算任务时表现出色,但当处理大规模矩阵乘法时,存在内存墙问题,而经过特殊设计的ASIC就可以解决这个问题,一旦大规模量产,ASIC的性价比会更高。
简单来说就是,GPU贵在目前产品成熟、产业链成熟,而ASIC的想象力在于更“专一”,并且在处理单个运算任务时能实现更高的处理速度和更低的能耗,因此也更适用于推理端边缘计算。
为科技巨头定制AI芯片,成了迈威尔和博通的“摇钱树”
由于GPU产能趋紧且价格昂贵,众多科技巨头开始加入自研ASIC芯片的队伍,仅供自家使用。
有观点认为,谷歌是AI ASIC芯片的先驱,因其于2015年发布第一代TPU(ASIC)产品,同样具有代表性ASIC芯片还包括亚马逊的Tranium和Inferentia、微软的Maia、Meta的MTIA以及特斯拉的Dojo等。
在自研AI芯片的上游供应链上,迈威尔和博通是常年称霸的两大制造商。
作为迈威尔的主要竞争对手,博通同样拥有谷歌、Meta和字节三家大客户。
随着AI大模型进入“下半场”,真正的推理端刚刚开始,关于芯片的又一场鏖战即将打响。正如博通的CEO Hock Tan此前所预言:
“未来50%的AI Flops(算力)都会是ASIC,甚至CSP(超大规模云计算产商)内部自用100%都将是ASIC”。