华为AI存储助力中国移动构建超大规模智算集群

　　大模型领域普遍存在规模化定律，即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理，其发展离不开海量数据信息的投入。面对智算集群目前存在的可用度、推理体验等问题，华为推出业界首款AI存储——OceanStor A800，致力于成为支撑智算集群发展的关键基座。

智算集群为千行万业发展新质生产力夯基筑石

近年来，智能计算已经成为推动社会发展进步的重要力量。从计算机视觉到自然语言处理、多模态等基础大模型研究，再到面向自动驾驶、生命科学等重点行业的专用大模型研发，各行各业都展示出对智能算力的巨大需求。

中国移动抢抓数字经济发展新机遇，立足自身资源禀赋和能力优势，以算为中心、以网为根基、以存为引擎，打造多种信息技术深度融合、可提供一体化服务的算力网络，对内满足“九天”人工智能大模型训练，对外面向千行万业提供一站式智能计算服务，加快发展新质生产力。

借助智算集群提供的服务，运营商行业加速数智化转型，可汇聚数百万个基站、数亿用户以及数百PB级历史数据，实现L4级网络自动驾驶；金融行业可对信贷申请进行快速处理，时间从原来的数天缩短到一分钟，甚至最快一秒钟即可完成审批。

华为AI数据湖方案助力中国移动智算中心构建坚实底座

中国移动智算中心（哈尔滨）节点充分利用中国移动（哈尔滨）数据中心软硬件优势、自然冷源地域优势，提前4个月攻坚完成3千多平方米机房的供电、制冷、建筑结构等重大调整改造，涉及5000多台设备、7万多根线缆、20多万个端口、千万级精密器件的大规模集群复杂施工。在30多个单位、千余人的协同支持下，历经7个月时间，超万卡规模智算集群建成，存力规模达150PB。

在智能融合分级存储集群的设计初期，中国移动面临几大挑战：在吞吐性能方面，万亿级参数大模型需要至少10TB/秒的吞吐量，而传统存储系统难以满足这一要求；在多协议处理方面，数据从归集到处理再到训练，涉及对象存储和文件存储的频繁转换，这对传统存储架构是一个巨大挑战；在数据管理效率方面，随着数据的动态变化，热数据与冷数据需要按需流动，传统系统主要依赖人工干预，效率较低。

为应对上述挑战，华为为中国移动提供AI数据湖解决方案，构建智算中心数据底座，实现聚合带宽8TB/秒，IOPS（每秒读写次数）达2.3亿。受益于AI数据湖高可靠、高性能等特点，大幅降低集群故障概率，缩短了断点续训时间，使得90天单训练周期内GPU的等待时间从7天减少到2天。

在训练方面使智算集群实现从“堆算力”到“提效率”的转化

华为推出AI数据湖解决方案，基于OceanStor AI存储和OceanStor Pacific分布式存储的诸多技术创新，可支撑千亿/万亿级参数大模型高效训练与推理。

大模型训练系统对算力需求很大，计算密度空前，对数据吞吐量的要求也与时俱增，要求达到传统应用的数十倍甚至百倍。对于存储来说，首先就是要快速将数据源源不断地投入大模型。

为最大程度发挥每块算力卡的“潜力”，华为OceanStor A800首创数控分离架构，让数据从接口卡直接传输到存储介质，避免CPU和内存等潜在的瓶颈，大幅提升存储带宽和IOPS能力。在2024年MLPerf TM存储基准性能测试比拼中，OceanStor A800荣登榜首，其2节点性能高达679 GB/秒。

面对训练过程中的海量数据汇聚与高效存储问题，华为AI数据湖解决方案构建了全局文件系统、无损多协议互通、EB级扩展以及热温冷数据智能分级存储等能力，用一套存储实现AI各阶段数据的免拷贝和格式免转换，加速数据价值释放，并实现整体拥有成本（TCO）最优。

在推理方面使大模型实现从“快思考”到“慢思考”的转化

大模型产品具有即时问答的“快思考”能力，让AI变得更“聪明”，就要使其具备逻辑梳理、应对变化的“慢思考”能力。

使AI具备“慢思考”的能力，关键在于记录下AI推理过程中的每一次“思考”结果，使其再遇到相同的复杂问题时不需要重新计算。专门记录大模型思考结果的存储被称为“长记忆内存型存储”，作为内存的扩展，以分级的方式实现月级/年级的记忆能力，甚至是“终生”记忆能力。

华为OceanStor A800是业界首款提供“长记忆”能力的存储，通过“多级键—值缓存（KV—Cache）机制”将所有的思考结果持久化保存并高效使用，让大模型推理具备“慢思考”能力，以减少大模型在预填充阶段的重复计算。如此，客户进行AI推理的时延可降低近八成，单个计算卡的吞吐量提升约2/3，可在实现推理体验提升的同时降低成本。

如今，智算中心正从千卡集群向万卡甚至超万卡集群演进。华为将与中国移动等企业持续深入合作，一起应对超万卡集群建设和运营带来的前所未有的挑战，抓住人工智能发展的历史机遇，打造自主创新的智算中心可靠数据底座。