MiniMax：大模型，云上造！

AI应用信息1年前 (2024)发布 XIAOT

189 0 50

去年6月，MiniMax自研文本大模型 MiniMax-ABAB（“阿巴阿巴”）快速迭代到第二个版本，随着参数规模增长、海量数据涌入，彼时的计算资源捉襟见肘。

如果算力不足，大模型研发进度将被严重影响。而带来的后果可能是，这家国内最早入场之一的大模型创业公司，将会失去他们好不容易获得的市场先机。

解决算力问题，刻不容缓。

// 向云看，底座大升级

不同于上一波人工智能的“算法制胜”，大模型更像是一个用算力”大力出奇迹“的工程。

在规模不大时，依靠自购服务器、自建小规模的算力平台，还能够满足业务需求。

但一旦上量，弊病就逐步显现：

每一台物理服务器上架、通电、调试都要耗费大量人力，即使不考虑供应链紧张的问题，光是采购、搬机器、通电开机也要耗费数周，效率很低；
更关键的是，大模型训练、推理，不是单台服务器所能完成，需要由成百上千台服务器共同处理。如果没有成熟经验就自己搭架构，很容易在性能和成本上落后。

MiniMax找到了腾讯云团队——

腾讯云布局异构计算多年，在深度学习、科学计算、芯片仿真等高性能计算场景下积累的多年经验，还面向大模型推出了「HCC高性能计算集群」。

它协同优化了单机算力、网络架构和存储性能：

借助自研星脉网络，将集群通信带来的算力损耗降到更低；腾讯云CFS Turbo、COS+GooseFS高性能存储，让上千个计算节点能同时高速读取训练数据。

双方先拿出少量服务器做性能验证。随着实测符合预期、可用性达到99.9%，集群规模很快提升到千卡级以上。

随后，业务逐步开放，MiniMax也迎来了创立以来首个的模型验证、推理任务的洪峰，在云底座的支撑下，激增的并发计算量被稳健扛住。

在保证研发进度的情况下，MiniMax也完成了一次顺滑的底座升级。

// 抠成本，资源利用率再高一点

大模型创业，算力是成本的大头。对MiniMax而言，一个理想的算力基础设施，不仅要能承载海量任务，还要足够高性价比。

在整体支出不变的情况下，提升利用率成为了MiniMax努力的方向。

逻辑很简单——

虽然云计算工程师们已经能把故障率降得很低很低，但由于大模型任务和环境的复杂，仍然有可能出现偶发的中断。

一个粗略的计算是，一小时异常，在千卡规模下可产生数以十万计的成本开销。

怎么把这部分成本抠出来？MiniMax和腾讯云提出的解决方案是云原生。

一方面，利用腾讯云TKE，MiniMax实现了对不同规格云服务器的统一管理和调度，各种类型的应用和服务得以部署在同一套基础设施上，资源实现了高效整合，资源利用率大幅提升；

另一方面，云原生的管理方式，支撑7*24小时的全局监控视角，支持编排、框架、实例等多层级的指标监控。一旦触发故障，能够在5分钟内恢复任务、10分钟内恢复基础设施，无需人工干预完成，能够最大化保障任务连续进行。

统计下来，基于云原生的支撑，MiniMax整体用云成本降低了至少20%。这些成本，也将进一步投入到MiniMax的业务研发中。

// 用大数据，给大模型性能做诊断

大模型需要的不止是算力，也包括大数据分析、安全防护。

比如，在研发时，为了确定大模型的优化方向，需要根据准确率和召回率等性能指标评估大模型性能。

一套存算分离的海量大数据分析架构被迅速拉起。通过腾讯云的数据集成DatAInlong、流计算Oceanus、数据湖计算DLC等云原生大数据产品提供的数据处理能力，对大量数据做实时或离线分析，满足了MiniMax在各个阶段的数据分析需求，实现数据的快速灵活部署。

以容器化的方式使用大数据组件，使得模型验证、推理等任务得以按计划推进。

此外，大模型研发过程中，MiniMax对云上资产安全、Web业务运营风险、DDoS攻击防护等高度关注。

通过引入腾讯云的防火墙、WAF、主机安全、漏洞扫描、数据加密、iOA零信任安全管理等一系列安全产品，MiniMax实现了对云上资产的全方位保护，确保业务的稳定运行和数据的安全性。

将业务搬到云上，经过这些大量的改进调优，MiniMax的更多难题被逐一攻破，大模型研发得以加速。从以月为单位更新，到每周一个改进版本。

“基础设施的问题要说完全靠自己，可能也能解决，但一定不是最有性价比的方案。MiniMax打算进一步扩大用云规模，将训练、推理等更多核心环节放到云上。“MiniMax业务副总裁魏伟说。

云上的一系列技术与产品，是大模型的助推器。

除了算力集群、向量数据库，腾讯云还推出涵盖模型预训练、模型精调、智能应用开发的一站式行业大模型解决方案，助力企业快速搭建专属模型。

腾讯云助力下，更多探索正在加速启航。

# AI应用信息 # AI # MiniMax # 云计算 # 人工智能 # 大数据 # 大模型 # 数据分析 # 数据处理 # 深度学习 # 芯片

本文转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权或其它疑问请联系AIGC工具导航或点击删除。

检测AI写作的网站，如何识别并应对人工智能生成的内容？

人工智能知识图谱架构，深度学习与图数据库的完美结合

AIGC来袭，量化基金经理他们的工作会被取代吗？

能源与智能工程学院自动化这个专业怎么样

以人工智能赋能新质生产力发展

文章影响因子和杂志影响因子

MiniMax：大模型，云上造！

ChatPaper更新：自动总结论文、启动问题

腾讯首次投资大模型！Minimax被曝完成2.5亿美元新融资

相关文章

DeepSeek满血版

AIGC合成检测平台

领新人体验大礼包

热门文章

热门网址