中国发展AI不能靠“堆芯片”

美国依靠软硬件优势，在用规模“堆”出全球最强人工智能（AI）的这条道路上狂奔不已。美国富豪马斯克近日在社交媒体上宣布，旗下AI初创公司xAI已开始用10万块H100 GPU组成的“孟菲斯超级集群”进行AI训练，号称是“全球最强大的AI训练集群”。中国是否应该跟随美国引领的这条技术路线？近日在由中国智能计算产业联盟与全国信标委算力标准工作组共同主办的2024中国算力发展专家研讨会上，多名院士专家给出了各自的观点。

未来超智融合将分为三个阶段

中国科学院院士陈润生在研讨会上表示，“人工智能大模型是新质生产力的代表，大模型和超级计算的融合发展十分重要，我国需要认真地去布局、去考虑。”中国科学院计算技术研究所研究员张云泉提到，大模型的迅猛发展彰显出新质生产力的特质，但目前也遇到了算力瓶颈。鉴于中国在超算领域拥有深厚技术积累，希望超智融合（超级计算与以大模型为代表的智能计算进行融合）能有效化解这一挑战。国家信息中心信息化和产业发展部主任单志广解释说，“超智融合是随着当前基础算力、智算算力、超算算力等的应用多元化发展而诞生的，即能否用混合型算力资源或者融合型算力体系，来解决同时满足多种不同算力的应用需求。”

在预测未来超智融合的进程时，中国科学院院士钱德沛认为，将沿着for AI、by AI和being AI三个阶段清晰演进，从硬件到软件全方位地进化，以适应和推动人工智能技术的发展。在第一阶段for AI，将着重于对现有计算机系统的改造与升级，发展专用硬件，确保可高效地支持和执行AI任务，为人工智能研究提供坚实的基础设施。在第二阶段by AI，将要用AI改造传统的计算，一方面用AI的方法来求解传统超算问题，另一方面AI也在影响传统计算机的结构，这个趋势也会逐渐明显。在最终的being AI阶段，计算机系统将呈现内在的智能特性，人工智能不再是一种外加的能力，而成为计算机的核心属性和基本组成，可能计算的能力或者智能化的水平，会远远超过我们今天的超算或智算。

陈润生注意到，目前科学界和产业界一直在企图解决超算和智算融合的问题。例如英伟达最新推出的GB200架构，其实是两块GPU加上一块CPU，某种意义上就可以算是把智算和超算的优势都用上了，在两块GPU执行机器学习的布局中，加上CPU提供的数据高速传输。但他认为，这种架构并没有从根本上解决效率问题。“超算与智算的结合是必然的，将会有机融合，而不是简单地把它们凑在一起”。

中国工程院院士郑纬民也表示，大模型的开发、训练、微调及推理各个环节均离不开算力，且算力成本占据着整体开销的大头，特别是在训练阶段，其占比高达70%，而在推理阶段更是高达95%。鉴于此，算力成为支撑大模型发展的关键因素。

智能计算应该参考“人类智能”

对于中国当前的大模型热潮以及跟随美国“堆规模”的技术路径，中国院士专家们提出了各自观点。钱德沛表示，中国现在搞出的大模型数量和种类比美国还多，也都在搞通用人工智能，但我们不但在硬件上受到美国的严格限制，而且用于大模型训练的数据的质量和数量也都偏少，“这样做出来的大模型能比美国好吗？我想我们还是要符合中国国情，不能够完全跟着美国人走”。

陈润生也认为，中国现在出现的大模型基本上是在美国提出的大模型和算法上进行改进，但是对于整个大模型的基础理论考虑甚少。他在研讨会上提出，对比传统超算采用的局域式记忆模式，智能计算展现出了根本性的差异——信息的分布式存储。这种存储方式模仿了人脑神经网络的复杂结构，通过大规模、密集互联的芯片网络来承载日益庞大的模型。但是如何有效地将人类知识嵌入这些复杂系统，以及信息具体如何在系统中分布存储，其背后的算法与技术理论仍未充分探索。“随着模型规模的无节制扩张，导致一个不可克服的问题是能源耗竭，因此一味地增加芯片，依靠增加系统的复杂度来解决大模型的存储问题是不完全可取的”。

由此陈润生认为，未来智能计算还是应该参考“人类智能”，也就是模拟人脑的运行机制。人脑的体积非常小，能耗只有几十瓦，但它所产生的智能，超过了现在最先进的、能耗相当于一整座城市的AI。“大模型与智算的发展，不只是应用层面的模型和算法上改进，还需要从基础理论角度去有所突破。现在大模型只是发展了前10%，还有90%的工作没做，我也相信大模型绝对不是靠着越堆芯片越多实现的，一定像人类的大脑一样学习，把空间复杂度、时间复杂度压缩得更小，能耗降得更低。所以我觉得最基本的问题，是要研究目前空间复杂度来完成智算的基础理论。如果我们能在基础理论上有所发展，我们就能完成根本和原始创新。”

北京应用物理与计算数学研究所研究员袁国兴认为，不可能指望一种通用大模型在各行各业都能够解决问题。从实际情况看，不同的应用有不同的技术，要求用不同的算法，对计算能力也有不同的要求。例如在科学计算方面，对计算精度的要求越来越高，而随着计算机的规模扩大，数据越来越多，可信度在不断地下降。美国国家航空航天局（NASA）也提出类似的观点，他们对计算精度提出很高的要求。因此未来不同的应用会有不同的大模型、不同的计算，解决不同的问题。现在的大模型对计算精度和算法的要求完全不一样。

中国信通院云计算与大数据研究所所长何宝宏补充说：“计算和训练对底层基础设施要求并不一样，也需要判断在什么场景下要屏蔽差异性，在什么场景要体现差异性。”

需要发展主权级大模型

张云泉表示，美国最近通过一系列举动试图在发展人工智能方面对我国“卡脖子”，包括禁售高端GPU、终止共享大模型的源代码以及中断生态方面的合作等。同时现在大模型的运算规模达到1万块GPU，甚至10万块时，就需要通过发展大模型专用超算来突破能耗墙、可靠性墙、并行墙等技术瓶颈。在此背景下，想要在短期内突破大模型算力瓶颈，中国有一条路可走：利用过去二十多年积累的先进超算技术，研发大模型专用超算，克服大模型算力瓶颈问题，使我国可以紧紧咬住全球大模型最先进水平，不至于掉队。

张云泉在介绍超智融合体系下的“主权大模型”计划时表示，我国在超算领域拥有深厚技术积累，近年又投入巨量资金发展智能算力，聚焦建立以超智融合算力体系为中心的体系工程响应大模型的算力需求，希望能最大化利用超算技术优势破解算力挑战。按照“主权级大模型”计划的部署，“主权级大模型”创新联合体将依托国家超算、中科院和全国重点院校的知名教授团队、智能芯片企业、大模型解决方案企业等共同打造类似OpenAI的开放组织，由非营利性部门组织“主权级大模型”研发，由营利性部门组织“主权级大模型”落地。他建议说，超算是“国之重器”，需要用来攻克最大、最难的挑战。主权级大模型是一个能支撑国家发展的根模型，不是一般的大模型。类似的国家级超级大模型也受到其他国家的高度重视，例如美国微软公司携手 OpenAI发布了计划投入1000亿美元全新人工智能超级计算机的计划，日本最近也宣布要投入巨资发展国家级大模型。

陈润生认为，根据中国目前的基础条件以及大模型必然要发展的趋势，我们完全跟随西方的做法是不现实的，也是很难在短期内赶上的。所以找到一条发展主权级大模型的路，更为重要。