生成式人工智能,特别是大语言模型(LLM,large language models),将在软件开发等方面发挥关键作用。
为了开发和扩展企业级大语言模型,成功的机器学习操作计划包含以下核心特征。首先是始终如一地部署机器学习模型,用标准化的流程和控制措施监控模型的变化、数据和特征质量。
企业应该能够复制和重新训练机器学习模型,通过质量保证和治理流程进行部署,从而无需大量人工工作或重写。最后,应该确保机器学习基础设施是有弹性的,比如保证多区域可用性和故障恢复、持续扫描网络漏洞、并对其加以妥善管理。
当这些工作就位之后,大语言模型还会面临更复杂的挑战,需要细致入微的方法和考虑,包括基础设施、能力、风险解决方案和人才储备。
使用传统机器学习模型进行推理,通常涉及将模型打包为容器,并将其部署在推理服务器上。随着对模型需求的增加,比如更多的使用请求、更多的客户和更多的运行决策,扩展模型所需要做的就是添加更多的容器和服务器。
在大多数企业的设置中,CPU 可以很好地进行传统模型的推理。但是,托管大语言模型是一个复杂得多的过程,其需要额外的考量。
大语言模型由 token 组成,即文本的基本单元,模型用它来生成类似人类的语言。它们通常基于先前生成的标记,预测的方式是以自回归的方式逐个标记,直到到达一个停止词。
这个过程很快就会变得很麻烦:生成 token 的过程要根据模型、任务、语言和计算资源而变化。部署大语言模型的工程师不仅需要基础设施经验,例如在云上部署容器,还需要了解最新的技术以保持推理成本可控,并能满足性能服务等级协议。
在企业环境中部署大语言模型,意味着必须建立向量数据库和其他知识库,并让它们与文档存储库和语言模型实时协同工作,以产生合理的、与上下文相关的准确输出。
例如,零售商可以使用大语言模型通过消息传递接口与客户进行对话。该模型需要访问存有实时业务数据的数据库,以调用最近的交互信息、产品目录、对话历史、退货政策、最新促销和广告、客户服务指南和常见问题的解答。
这些知识库正在越来越多地发展为矢量数据库,以便通过矢量搜索和索引算法对查询进行快速检索。
大语言模型还面临一个额外的挑战:针对特定的企业任务进行微调以获得最佳性能。大型企业级语言模型可能有数十亿个参数,这需要使用比传统机器学习模型更加复杂的方法,包括具有高速网络接口的持久计算集群、用于训练以及微调的 GPU 等硬件加速器。
这些可编程硬件设备可以被定制,以便实现特定的计算能力,比如矩阵向量运算。而公共云基础设施是这些集群的重要推动者。
风险管控,在模型的整个生命周期中是至关重要的。可观察性、日志记录和操作追踪,是机器学习操作过程的核心。它们有助于监控模型发布后的准确性、性能、数据质量和漂移,但是还需要考虑额外的基础设施层。
大语言模型可能会产生“幻觉”,它们偶尔会输出错误的内容。企业需要适当的保护措施,比如规定好特定的格式或策略,以确保大语言模型在真实应用中返回可接受的回答。
传统的机器学习模型依赖于定量的统计方法,来解决模型不准确和使用时的漂移。对于大语言模型来说,这会变得更加主观。它可能涉及到对模型输出进行定性评分,然后在带有预设护栏的 API 上运行它,以确保得到一个可接受的答案。
企业对大语言模型的治理将是一门艺术和科学,许多组织仍在学习如何将它们纳入可操作的风险阈值。随着新进展的迅速出现,尝试开源和商业解决方案是明智的,这些解决方案可以针对特定用例和治理需求进行定制。
而这就需要一个非常灵活的机器学习平台,特别是以高度抽象为基础的控制台,并与更广泛的生态系统保持同步,而不会影响其用户和应用程序。
Capital One 公司认为,构建一个可扩展的、管理良好的、具有高抽象水平和多租户的平台控制台,对于满足这些需求至关重要。
根据训练数据规模和生成的 token 的不同,大语言模型的性能可能会有很大差异。训练或微调非常大的模型,并在真实环境中大规模地为它们服务,是一项重大的科学挑战和工程挑战。这要求企业必须招聘和留住大量的人工智能专家、工程师和研究人员。
例如,对于一个向数万名员工提供服务的虚拟助手来说,当为其部署大语言模型和矢量数据库时,意味着需要将各种领域的工程师聚集在一起。还需要部署量身定制的提示(prompt),以提供准确的答案,而这需要复杂的专业知识。
此外,人工智能专家的能力储备也需要跟上最新的发展,以便建立和微调模型。任何人工智能项目的长期成功都涉及到将数据科学、研究、设计、产品、风险、法律和工程专家结合起来,这些人才和经验会将人类用户置于中心。
虽然企业大语言模型仍处于早期阶段,新的技术能力每天都在发展,但成功的关键之一是拥有坚实的机器学习设施和人工智能基础设施。
人工智能将继续快速发展,尤其是在语言模型领域。这些进步有望以前所未有的方式进行变革。与任何新兴技术一样,潜在的好处必须与管理良好的操作实践和风险管理相平衡。
有针对性地、全方面地考虑整个模型的机器学习操作战略,可以提供一种全面的方法,从而加速实现更广泛的人工智能功能。