去年6月,MiniMax自研文本大模型MiniMax-ABAB(“阿巴阿巴”)快速迭代到第二个版本,随着参数规模增长、海量数据涌入,彼时的计算资源捉襟见肘。
如果算力不足,大模型研发进度将被严重影响。而带来的后果可能是,这家国内最早入场之一的大模型创业公司,将会失去他们好不容易获得的市场先机。
解决算力问题,刻不容缓。
// 向云看,底座大升级
不同于上一波人工智能的“算法制胜”,大模型更像是一个用算力”大力出奇迹“的工程。
在规模不大时,依靠自购服务器、自建小规模的算力平台,还能够满足业务需求。
但一旦上量,弊病就逐步显现:
- 每一台物理服务器上架、通电、调试都要耗费大量人力,即使不考虑供应链紧张的问题,光是采购、搬机器、通电开机也要耗费数周,效率很低;
- 更关键的是,大模型训练、推理,不是单台服务器所能完成,需要由成百上千台服务器共同处理。如果没有成熟经验就自己搭架构,很容易在性能和成本上落后。
MiniMax找到了腾讯云团队——
腾讯云布局异构计算多年,在深度学习、科学计算、芯片仿真等高性能计算场景下积累的多年经验,还面向大模型推出了「HCC高性能计算集群」。
它协同优化了单机算力、网络架构和存储性能:
借助自研星脉网络,将集群通信带来的算力损耗降到更低;腾讯云CFS Turbo、COS+GooseFS高性能存储,让上千个计算节点能同时高速读取训练数据。
双方先拿出少量服务器做性能验证。随着实测符合预期、可用性达到99.9%,集群规模很快提升到千卡级以上。
随后,业务逐步开放,MiniMax也迎来了创立以来首个的模型验证、推理任务的洪峰,在云底座的支撑下,激增的并发计算量被稳健扛住。
在保证研发进度的情况下,MiniMax也完成了一次顺滑的底座升级。
// 抠成本,资源利用率再高一点
大模型创业,算力是成本的大头。对MiniMax而言,一个理想的算力基础设施,不仅要能承载海量任务,还要足够高性价比。在整体支出不变的情况下,提升利用率成为了MiniMax努力的方向。虽然云计算工程师们已经能把故障率降得很低很低,但由于大模型任务和环境的复杂,仍然有可能出现偶发的中断。一个粗略的计算是,一小时异常,在千卡规模下可产生数以十万计的成本开销。怎么把这部分成本抠出来?MiniMax和腾讯云提出的解决方案是云原生。一方面,利用腾讯云TKE,MiniMax实现了对不同规格云服务器的统一管理和调度,各种类型的应用和服务得以部署在同一套基础设施上,资源实现了高效整合,资源利用率大幅提升;另一方面,云原生的管理方式,支撑7*24小时的全局监控视角,支持编排、框架、实例等多层级的指标监控。一旦触发故障,能够在5分钟内恢复任务、10分钟内恢复基础设施,无需人工干预完成,能够最大化保障任务连续进行。统计下来,基于云原生的支撑,MiniMax整体用云成本降低了至少20%。这些成本,也将进一步投入到MiniMax的业务研发中。// 用大数据,给大模型性能做诊断
大模型需要的不止是算力,也包括大数据分析、安全防护。比如,在研发时,为了确定大模型的优化方向,需要根据准确率和召回率等性能指标评估大模型性能。一套存算分离的海量大数据分析架构被迅速拉起。通过腾讯云的数据集成DatAInlong、流计算Oceanus、数据湖计算DLC等云原生大数据产品提供的数据处理能力,对大量数据做实时或离线分析,满足了MiniMax在各个阶段的数据分析需求,实现数据的快速灵活部署。以容器化的方式使用大数据组件,使得模型验证、推理等任务得以按计划推进。此外,大模型研发过程中,MiniMax对云上资产安全、Web业务运营风险、DDoS攻击防护等高度关注。通过引入腾讯云的防火墙、WAF、主机安全、漏洞扫描、数据加密、iOA零信任安全管理等一系列安全产品,MiniMax实现了对云上资产的全方位保护,确保业务的稳定运行和数据的安全性。将业务搬到云上,经过这些大量的改进调优,MiniMax的更多难题被逐一攻破,大模型研发得以加速。从以月为单位更新,到每周一个改进版本。“基础设施的问题要说完全靠自己,可能也能解决,但一定不是最有性价比的方案。MiniMax打算进一步扩大用云规模,将训练、推理等更多核心环节放到云上。“MiniMax业务副总裁魏伟说。除了算力集群、向量数据库,腾讯云还推出涵盖模型预训练、模型精调、智能应用开发的一站式行业大模型解决方案,助力企业快速搭建专属模型。 © 版权声明
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权或其它疑问请联系
AIGC工具导航或
点击删除。