大约在本世纪初,人工智能实验室注意到,不断扩大算法或模型的规模,并持续为其提供更多数据,可以极大地提高算法和模型的性能。
最新的一批AI模型拥有数千亿到超过万亿个内部网络连接,并通过消耗互联网的大量资源,学会像我们一样编写代码。
训练更大的算法需要更强的计算能力。因此,根据非营利性人工智能研究机构EpochAI的数据,为了达到这一点,专门用于人工智能训练的计算能力每年都在翻两番。
如果这一增长持续到2030年,未来的AI模型将拥有比当今最先进的算法(如OpenAI的GPT-4)高出10,000倍的计算能力。
Epoch在最近的一份研究报告中写道:“如果继续下去,我们可能会在本十年末看到人工智能的巨大进步,就像2019年GPT-2的简陋文本生成和2023年GPT-4的复杂问题解决能力之间的差别一样。”
但现代人工智能已经吸纳了大量的电力、数以万计的先进芯片和数万亿的在线实例。与此同时,该行业已经经历了芯片短缺,而且研究表明它可能会耗尽高质量的训练数据。
假设公司继续投资人工智能扩展:这样的增长速度在技术上可行吗?
Epoch在报告中探讨了人工智能扩展的四大制约因素:电力、芯片、数据和延迟。总结:保持增长在技术上是可能的,但并不确定。原因如下:
01.动力:我们需要大量电力
电根据Epoch的数据,这相当于23000个美国家庭的年耗电量。但是,即使提高了效率,在2030年训练一个前沿人工智能模型所需的电力也将是现在的200倍,即大约6千兆瓦。这相当于目前所有数据中心耗电量的30%。
能提供这么多电力的发电厂很少,而且大多数发电厂可能都签订了长期合同。但这是假设一个发电站就能为一个数据中心供电。
Epoch认为,企业将寻找可以通过当地电网从多个发电厂供电的地区。考虑到计划中的公用事业增长,走这条路虽然吃紧,但还是有可能的。
为了更好地打破瓶颈,公司可以在多个数据中心之间分配训练。在这种情况下,它们会在多个地理位置独立的数据中心之间分批传输训练数据,从而降低任何一个数据中心的电力需求。
这种策略需要快速、高带宽的光纤连接,在技术上是可行的,谷歌双子座超级计算机的训练运行就是一个早期的例子。
总而言之,Epoch提出了从1千兆瓦(本地电源)到45千兆瓦(分布式电源)的各种可能性。公司利用的电力越多,可训练的模型就越大。在电力有限的情况下,可以使用比GPT-4高出约10000倍的计算能力来训练模型。
02.芯片:能否满足计算需求?
所有这些电力都用于运行人工智能芯片。其中一些芯片向客户提供完整的人工智能模型;一些则训练下一批模型。Epoch仔细研究了后者。
人工智能实验室使用图形处理器(GPU)训练新模型,而英伟达是GPU领域的佼佼者。台积电(TSMC)生产这些芯片,并将它们与高带宽内存夹在一起。预测必须考虑到所有这三个步骤。根据Epoch的说法,GPU生产可能还有剩余产能,但内存和封装可能会阻碍发展。
这考虑到预计的行业产能增长,他们认为2030年可能会有2000万到4亿个AI芯片用于AI训练。其中一些将用于现有模型,而人工智能实验室只能购买其中的一小部分。
范围如此之大,说明模型存在很大的不确定性。但考虑到预期的芯片容量,他们认为一个模型可以在比GPT-4高出约5万倍的计算能力上进行训练。
03.数据:人工智能的在线教育
众所周知,人工智能对数据的渴求和即将到来的稀缺性是一个制约因素。有人预测,到2026年,高质量的公开数据流将枯竭。但Epoch认为,至少在2030年之前,数据稀缺不会阻碍模型的发展。
他们写道,按照目前的增长速度,人工智能实验室将在五年内耗尽高质量的文本数据,版权诉讼也可能影响供应。
Epoch认为这给他们的模型增加了不确定性。但即使法院做出有利于版权持有者的判决,像VoxMedia、《时代》、《大西洋月刊》等公司所采取的复杂的执法和许可协议也意味着对供应的影响将是有限的。
但至关重要的是,现在的模型在训练中不仅仅使用文本。例如,谷歌的Gemini就是通过图像、音频和视频数据进行训练的。
非文本数据可以通过字幕和脚本的方式增加文本数据的供应。非文本数据还可以扩展模型的能力,比如识别冰箱食物的图片并推荐晚餐。
更推测性的是,它甚至可能导致迁移学习,即在多种数据类型上训练出来的模型优于仅在一种数据类型上训练出来的模型。
Epoch称,还有证据表明,合成数据可以进一步扩大数据量,但具体有多少还不清楚。
DeepMind长期以来一直在其强化学习算法中使用合成数据,Meta公司也使用了一些合成数据来训练其最新的人工智能模型。
但是,在不降低模型质量的前提下,使用多少合成数据可能会有硬性限制。而且,合成数据的生成还需要更昂贵的计算能力。
不过总的来说,包括文本、非文本和合成数据在内,Epoch估计有足够的数据来训练人工智能模型,其计算能力是GPT-4的8万倍。
04.延迟:规模越大,速度越慢
最后一个限制因素与即将推出的算法的规模有关。算法越大,数据穿越其人工神经元网络所需的时间就越长。这可能意味着训练新算法所需的时间变得不切实际。
这一点有些技术性。简而言之,Epoch考察了未来模型的潜在规模、并行处理的训练数据批次规模,以及在人工智能数据中心服务器内部和服务器之间处理数据所需的时间。这样就能估算出训练一个一定规模的模型需要多长时间。
主要启示以目前的设置来训练人工智能模型终究会遇到天花板,但不会持续太久。
据Epoch估计,按照目前的做法,我们可以用比GPT-4高出100万倍的计算能力来训练人工智能模型。
05.扩展规模:10000倍
我们会注意到,在每种限制条件下,可能的人工智能模型的规模都会变大,也就是说,芯片的上限比功率高,数据的上限比芯片高,以此类推。
但是,如果我们把所有限制因素放在一起考虑,那么模型只能在遇到第一个瓶颈时才有可能实现。在这种情况下,瓶颈就是功率。即便如此,技术上还是可以实现大幅扩展。
Epoch认为:“如果综合考虑,这些人工智能瓶颈意味着到本十年末,训练运行高达2e29FLOP是可行的。”
这将代表着相对于当前模型的大约10,000倍的扩展,意味着历史上的扩展趋势可以不间断地持续到2030年。
虽然所有这些都表明持续扩展在技术上是可能的,但这也做出了一个基本假设:人工智能投资将按需要增长,以资助扩展,并且扩展将继续产生令人印象深刻的进步,更重要的是,有用的进步。
目前,各种迹象表明,科技公司将继续投入历史性的巨额现金。在人工智能的推动下,新设备和不动产等方面的支出已经跃升至多年来从未见过的水平。
Alphabet首席执行官Sundar Pichai在上一季度的财报电话会议上表示:“经历这样的曲线时,投资不足的风险要远远大于投资过度的风险。”
但支出还需要进一步增长。Anthropic公司首席执行官Dario Amodei估计,今天训练的模型成本可能高达10亿美元,明年的模型成本可能接近100亿美元,此后几年每个模型的成本可能达到1000亿美元。
这是一个令人眼花缭乱的数字,但企业可能愿意为此付出代价。据报道,微软已经为其Stargate人工智能超级计算机投入了这么多资金,该项目是微软与OpenAI的合作项目,将于2028年推出。
不言而喻,投资数百亿或数千亿美元的意愿并不能保证。毕竟这一数字超过许多国家的GDP和科技巨头目前年收入的一大部分。随着人工智能的光芒逐渐褪去,人工智能能否持续增长可能会变成一个“你最近为我做了什么”的问题。
投资者已经在检查底线。如今,投资金额与回报金额相比相形见绌。为了证明加大投入是合理的,企业必须证明其规模不断扩大,能够生产出更多更强大的人工智能模型。
这意味着即将推出的模型面临着越来越大的压力,必须超越渐进式的改进。如果收益下降,或者有足够多的人不愿意为人工智能产品买单,情况可能会发生变化。
此外,一些评论家认为,大型语言和多模态模型可能只是个昂贵的死胡同。而且,总有可能出现突破,就像这一轮的突破一样,表明我们可以用更少的资源完成更多的任务。我们的大脑只需一个灯泡的能量就能持续学习,而不需要互联网那样庞大的数据量。
Epoch称,尽管如此,如果目前的方法“能将相当一部分经济任务自动化”,其经济回报可能高达数万亿美元,足以证明花费的合理性。许多业内人士都愿意下这个赌注。但究竟结果如何,目前还不得而知。