开源模型还是商业模型？阿里云智能张翅提出金融企业选择大模型的6大挑战

大模型发展背景与趋势

大模型是DT时代标志性产物

大模型是数字转型（DT）时代的产物，标志着人工智能技术的一次重大突破，尤其是在自然语言处理（NLP）、图像识别、推荐系统等领域。这些大模型，如OpenAI的GPT系列、Meta的Llama、Google的Gemini，基于Transformer架构，通过消化海量数据集进行预训练，获得了对人类语言、图像等数据的深入理解和处理能力。

AI大模型：人类知识存储、传承和使用方式的一次重构

在数字转型时代，大模型为企业提供了前所未有的机遇，使其能够通过高效的数据分析和决策，实现业务流程的智能化、优化客户体验和创新产品服务。从金融行业的智能投顾和欺诈监测，到医疗行业的智能诊断和药物发现，再到零售行业的个性化推荐，大模型的应用正深刻改变着传统行业的运作模式和价值链。

在《全域数据“观”》一书中，我们曾断言：“数据的下一站是智能，数据最终会走向与业务系统的数智融合”，数据消费正在由“人”变成“系统”。未来数据技术将与云原生和智能化全面融合，形成“云数智一体化”服务。云原生技术栈，为企业带来了资源弹性、异构算力、容器和微服务等技术手段，为业务创新和系统建设提供了高效、敏捷以及成本低、可扩展的解决方案；数据中台的兴起，让企业将数据库里“不会说话”的表格，转换成指标、标签、因子、特征等数据资产形态，并直接用于分析与业务决策。现如今，AI大模型正在以惊人的速度重构各行各业的业务流程与系统产品，一方面云原生为大模型训练与推理提供了资源保障，数据中台为大模型应用提供高质量语料和结构化知识；另一方面在大模型全面“智能涌现”能力的驱动下，将传统偏零散化的数据能力进一步体系化和智能化，加快BI+AI的融合，实现从“洞见”到“决策”，推动企业加速走向“云数智一体化”的终极形态，最终为客户带来更为全新的产品服务体验。

大模型发展的趋势

趋势一：“Cloud+AI”大模型与云的结合日益紧密

在信息技术领域，无疑地，云计算和人工智能（AI）大模型的快速发展正日益成为推动现代社会进步的两大驱动力。特别是在中国和美国，这两种技术不仅诞生并蓬勃发展，还持续引领着全球技术革命的浪潮。随着时间的推移，大模型与云计算的结合日益紧密，这种融合在推动着科技界走向新的里程碑。

首先，观察全球技术发展格局可以发现，中国和美国无疑是云技术和AI大模型诞生与创新的两大中心。这两个国家不仅拥有领先的技术研发实力，还具备广阔的市场应用场景和成熟的产业生态，促进了云计算和AI大模型技术的飞速发展，并在全球范围内形成了巨大的影响力。

进一步而言，大模型的迭代进化主要发生在云端。这是因为云计算提供了高度可扩展的计算资源，使得研究人员和开发者能够在无需自建庞大物理基础设施的情况下，进行模型的训练和部署。云平台上的弹性资源和高效管理工具为大模型的开发和优化提供了理想的环境，极大地加速了AI大模型的迭代周期，使得模型能够更快地进化和优化，更好地适应各种复杂的应用需求。

而且，大模型所遵循的scaling laws（规模定律）正重塑着算力基础设施。随着模型规模的不断扩大，其对计算资源的需求也呈指数级增长，这一现象催生了对更高性能、更高效率算力基础设施的需求。云计算平台通过部署先进的硬件技术、优化计算资源分配和加强数据处理能力来应对这一需求，进而推动了算力基础设施的快速进化。这种进化不仅满足了当前大模型对算力的高需求，也为未来AI技术的持续创新和应用提供了坚实的支撑。

大模型与云计算的紧密结合，不仅体现在中国和美国这两个技术强国的快速发展上，更在于云端成为大模型迭代进化的主战场，以及大模型对算力基础设施的重新塑形。这种趋势预示着，未来科技的进步将在这样的融合与互动中继续加速，推动人类社会进入一个全新的智能时代。

趋势二：“AI Everywhere”大模型无处不在，成为企业数字化标配

在当今的数字化时代，大模型技术以其强大的数据处理能力和智能化水平，正逐步成为企业数字化转型的标配。其广泛的应用不仅仅局限于传统的计算中心，更是与小模型、新终端以及数据中台结合，共同构筑起一个多元化部署与互联互通的新生态，极大地深化了对数据资源的挖掘与运用能力。

首先，大模型与小模型的结合体现了模型部署的多元化。大模型因其强大的学习和预测能力，成为许多复杂任务的首选。然而，针对一些对实时性、资源消耗有严格要求的场景，小模型以其轻量级、高效率的特性，更为适合。通过将大模型预训练的强大认知能力与小模型的灵活部署结合，企业能够更高效、更经济地解决广泛的业务问题，实现智能决策和操作的优化。

接着，大模型与新终端的结合拓展了模型链接的多元化。随着物联网(IoT)的蓬勃发展，智能终端遍布生活的每一个角落。大模型不再局限于服务器端的运算，而是通过云计算和边缘计算下沉至各种智能终端，如智能手机、智能家居、自动驾驶车辆等。这种变化使得大模型的应用场景得到极大拓展，为用户带来更加丰富、便捷、个性化的智能服务。

最后，大模型与数据中台的紧密结合，促进了图像、音视频、文本等数据集的多元化。数据中台作为企业数据管理和运营的核心平台，为大模型提供了丰富、高质量的数据支持。通过有效地聚合和整合企业内外的各类数据资源，大模型可以在更加多元化的数据基础上进行训练和优化，能够处理和理解更加复杂多变的业务场景，如图像识别、语音视频处理、语言应用等，从而极大地提高了企业的业务处理能力和用户交互体验。

大模型正逐步渗透到企业数字化建设的各个层面，与小模型、新终端以及数据中台等多元化的元素相结合，进一步拓宽了其应用范围，提升了处理效率和智能水平。大模型无处不在，已经成为推动企业数字化转型的关键力量。

趋势三：“AI Native SaaS Rise”大模型企业级市场崛起，向深度化、产业化、垂直化方向发展

大模型技术的崛起已成为推动企业级市场向深度化、产业化、垂直化方向发展的关键动力。企业正越来越倾向于将这一技术作为核心驱动力，深入挖掘其在特定行业中的应用价值和潜力，进而实现智能化升级与业务创新。

首先，大模型在企业级市场中的深度化应用成为一种不可逆转的趋势。它们不仅被应用于优化传统的数据处理和分析流程，更在预测分析、个性化服务、自动决策制定等领域中展现出强大的能力。这种深度化应用的背后，是企业对于数据价值认知的提升以及对于操作效率和决策质量改进的需求。

“小切口，大纵深”的发展策略，正加速大模型在特定行业中的垂直化和产业化落地。企业通过聚焦于行业的细分领域，利用大模型深耕特定的痛点和需求，不仅提升了解决方案的适配性和有效性，也推动了整个行业的智能化水平。这种策略的实施，充分显示了大模型在解决复杂行业问题时的独特优势，促进了技术与行业深度融合，实现了产业升级。

企业间的开放新形态，特别是在金融领域涌现的新的Open Banking模式，为大模型技术的应用开辟了更加广阔的舞台。Open Banking带来的数据共享和API开放不仅有利于现有金融服务的增值，还为金融科技创新和跨行业合作打开了大门。这为大模型技术的应用和发展提供了更加广阔的舞台和应用场景。

大模型技术在企业级市场的崛起，不仅预示着企业对于数据和智能的更深层次应用和挖掘，也引领了向产业化、垂直化方向的战略发展。

趋势四：“AI API First”大模型功能性能力突破性增长

近段时间以来，大模型正在经历功能性能力的快速增长和重大突破，其中多模态、Agent模式以及Assistant API成为了推动这一进程的关键力量。这些技术革新不仅扩展了大模型在不同领域的应用范围，还为人机交互和应用开发带来了新的可能。

多模态技术的出现和成熟拓展了大模型的广度，让机器能够同时处理和理解文本、图像、音频等多种类型的数据，实现了对人类沟通方式的更全面理解。这标志着AI从处理单一类型数据向综合理解不同数据类型的重大进步。多模态大模型在提升信息获取的全面性和准确性方面展示了巨大潜力，极大地丰富了AI在自动化内容创作、跨媒体信息检索、以及增强现实等方面的应用场景。

Agent模式的崛起，成为人类与AI协作的一种重要方式。在这种模式下，AI可以作为一个个体（agent），拥有自我学习和自主决策的能力，在特定的环境中根据既定的目标执行任务。这不仅表明了AI的工作模式正变得更加智能化和个性化，也为人类提供了强大的助手，从简单的数据分析到复杂的决策制定，AI Agent能够有效地辅助人类完成各种任务，推动人机协作进入新的阶段。

Assistant API的推出，为开发者提供了全新的能力，大幅降低了开发门槛。通过简单的API调用，开发者可以轻松地将大模型的强大功能集成到自己的应用或服务中，无需深入了解模型内部的复杂机理，即可搭建出智能化程度高、用户体验好的应用产品。这种开放的、低门槛的开发方式，不仅加速了创新应用的推出，也让更多企业和个人能够享受到AI技术带来的红利。

趋势五：“AI Cyber Security”大模型更重视隐私和数据安全

随着大模型的广泛应用，对隐私和数据安全的重视程度日益增强。企业和研究机构正在通过实施一系列措施，来加强对用户数据的保护，确保信息安全和隐私被妥善处理。这些措施的核心在于构建一个有效、可靠的数据管理及隐私防护框架，确保大模型安全评估体系的全面性，并解决AI工作的可解释性问题。

有效的数据分类分级制度成为奠定数据管理及隐私防护框架的基础。通过对数据进行系统的分类和分级，明确不同类别数据的处理要求和安全标准，可以更加有针对性地制定保护措施。这种方法不仅有助于提升数据处理的效率和精准度，也有利于识别和保护那些最敏感和价值最高的数据，从而有效减少数据泄露和滥用的风险。

构建一套全面的安全评估体系对于大模型体系至关重要。这套体系应涵盖大模型训练、部署、应用生命周期的各个阶段，从数据的收集、存储、使用到销毁等，每个环节都应进行严格的安全审查和评估。通过定期进行安全审计、漏洞扫描和风险评估等活动，可以及时发现和修复安全漏洞，强化系统的安全防护能力，减轻外部攻击和内部泄露的风险。

随着大模型应用到越来越多的场景，其工作的可解释性问题越来越受到重视。大模型，特别是transformer的架构被认为是“黑盒”，难以解释其决策逻辑和过程。增强AI工作的可解释性不仅有助于建立用户对AI决策的信任，也是确保模型公平、无偏见的关键。通过开发和应用新的解释性技术和方法，让AI的决策过程更加透明，可以有效提升模型的公正性和安全性，减少错误决策和偏差带来的风险。

金融企业拥抱大模型面临的挑战

“科技本质上是工具，其真正价值在于解决我们面临的各种问题，而非仅限于自我展示的华丽舞台。”这一观点在大模型领域同样适用且更具象化。我们可以定位大模型：“大模型之于问题，恰似钥匙之于锁，其存在的意义在于解锁通往智慧殿堂的大门，而非仅供观瞻的浮华装饰。”

大模型在金融领域的广泛应用并非一片坦途，它在为金融机构带来显著价值增益的同时，亦暴露出一系列不容忽视的问题与挑战。这些问题不仅关乎技术层面的可行性与稳定性，更延伸至合规、安全、伦理等多个关键维度，对金融企业的稳健运营与长期发展构成潜在考验。因此，深入探讨金融企业采用大模型可能面临的问题，对于理性评估其战略价值，制定科学的应对策略，乃至推动整个行业在技术创新与风险管理之间找到平衡至关重要。

问题1: “有限算力+持续进化的算力”，双重制约下的算力资源

“有限算力+持续进化的算力”，这种双重制约下的算力资源现状，体现了大模型时代中一个核心的矛盾和挑战：如何在当前资源的限制之下，同时规划和适应不断进化和增强的计算能力。这对应用场景选择、资源投入、大模型部署方式等方面提出了复杂的要求。

1、算力永远短缺：随着大模型参数量的持续膨胀，其对算力资源的消耗显著增长。同时，在AI持续“重塑”业务流程的过程中，对算力资源的需求也出现了急剧飙升。这两方面因素相叠加，共同加剧了现有算力资源供不应求的局面，使得算力短缺成为了一个常态性的挑战。

2、硬件高速迭代：GPU每18到24个月，迭代出一代新产品，配备更先进的架构和更强大的计算能力，而通常采购周期都以年为单位，使得我们将不得不面对，刚上线的算力资源，就被新一代所淘汰，性价比下降，同时还要面对算力利用率不高，资源极度浪费的情况。

3、资源兼容优化配置：国内外的不同厂商GPU算力水平参差不齐，技术框架互不兼容，整合这些异构的资源，管理配置和优化算力的使用，将是我们面临的又一个挑战。

问题2: “开源模型 vs 商业模型”，左右互搏的自建大模型之路

在大模型选型之路上，是选择开源模型还是商业模型？开源大模型和开源软件是一回事吗？

成熟开源软件与当下开源模型区别：

1、成熟开源软件通常是技术和能力相对成熟和稳定的软件应用和系统，分享的是完整的代码库和文档，用户可以自由地对与自身业务有关的代码进行修改，一般以使用核心能力为主定制为辅，版本迭代周期相对比较慢，同时也会规定了用户使用软件的权利和限制条件。

2、当下开源模型是专注于数据科学、人工智能和相关领域，作为数据处理和分析的关键组件，正处于技术迭代的高速发展期，一般以月或季度为单位进行新版本发布，并且技术和能力持续性攀升，一般版本开源是有限的，无法按照客户业务进行深度的定制，并且全局能力一般不建议调整。

开源模型与商业模型的优势与不足：

1、开源模型：通常允许用户审查和验证模型的代码和架构，不需要支付额外的许可费用，能够通过社区迭代升级。但需要专业人才研究和业务磨合尝试，周期长见效慢，缺少专门维护和支持，不包含商业产品中的安全和稳定性，文档和易用性支持较弱，模型升级迭代周期一般6-12个月，业务集成应用的时间会更长。我们不应该拘泥于对种类繁多参数的基础模型进行训练或微调，模型能力比对和测评，应该把更多精力放在如何让模型在业务中产生价值，因为不同的模型因训练数据的差别，业务适配能力又有不同。

2、商业模型：提供商虽然提供全面的客户支持和服务，附带明确的服务等级协议（SLA），模型迭代升级非常快，公有云以月为单位小版本迭代，线下以季度订阅更新，并提供对兼容性、稳定性和安全性的保证，能够满足金融行业的法规和遵从性要求，也提供完整的解决方案，软硬件产品的良好整合，降低业务场景落地的风险。但技术透明性较差，长期依赖特定的商业模型和平台可能导致供应商锁定，降低切换供应商的灵活性。

问题3: “大模型 vs 越来越大的模型”，模型size的军备竞赛

OpenAI的研究者在2020年发现，大语言模型也遵循着规模定律（Scaling Law），模型参数数量的增加常常被看作是提高模型性能的一个关键因素。这导致了一种被业界戏称为“模型参数的军备竞赛”的现象，即科研机构和科技公司不断推出参数量更大、计算需求更高的模型，以追求在特定任务上的最佳性能。然而，这种军备竞赛带来了诸多挑战：

越来越大的模型通常具有更强的学习能力和泛化能力，因为有更多的参数可以捕捉数据中的复杂特征和模式。能够处理更复杂的任务和数据集，通常在各种基准和实际问题上表现更好。随着参数数量的增加，模型通常能够更好地理解语言的细微差别或更精准地识别图像中的对象。

但越来越大的模型带来能力提升的同时，也带来了海量的算力消耗，如何根据不同的业务场景选择合适的模型将是一个迫在眉睫的问题？

大模型推理运行时，核心消耗的资源是显存，推理过程中除了要加载对应参数的模型，还与输入输出的参数量有关，输入参数越多显存消耗越大，输出参数量越多模型响应越慢，我们根据一个简单的估算公式，来评估不同业务场景的资源消耗：

大模型推理的总显存占用公式： ≈1.2∗

（详见参考：Transformer Inference Arithmetic | kipply’s blog）

以72B参数的模型，在BF16精度下（浮点数2个字节）

≈1.2*（72亿*2）≈172.8G

运行一个72B的大模型至少需要3张A100（80G），现以企业知识库和智能外呼场景为例进行资源评估：

知识库检索场景：典型的RAG增强检索高并发场景，输入少输出多，每次问题请求处理时间在1-2s，峰值支持50并发（按照5000人的金融机构有1%的并发率），需要的GPU卡的数量在150-300张A100（80G），如果想要更精准的回复，可以选择200B或更大的模型，但200B大模型算力消耗会有2.7倍的增加。

智能外呼场景：典型的高并发低延时场景，输入多输出少，每次意图识别响应时间200-300ms，峰值支持1000并发，需要的GPU卡的数量在600-900张A100（80G）。

在正式生产业务应用时，业务是有典型的波峰波谷的，如果我们按照波峰要求建设算力池，势必会带来资源的低效使用，例如：知识库检索应用的平均资源利用率在20%-30%；智能外呼应用的平均资源利用率在5%-10%。如何提高算力资源利用率将是一个颇具挑战的问题？

问题4: “大模型RAG一天入门 vs 365天的持续优化”，RAG系统的修行

Retrieval-Augmented Generation (RAG) 技术巧妙融合了信息检索与文本生成的双重优势，为应对复杂查询和生成任务（如问答系统、内容创造）提供了强有力的支持。尽管RAG技术展现出显著提升模型效能与拓展应用领域的潜力，它也遭遇了几点核心挑战，制约着其性能的极致发挥：

1、语义检索难关：实现精准的语义检索面临重重障碍，首要在于深入理解用户查询与文档内容的深层含义，并准确评估两者间的语义契合度。当前普遍采用基于数据向量化的手段，在向量空间通过距离或相似度指标来衡量语义接近度，但这种方法难以完美解决语义多义性、信息粒度不匹配、全局与局部相关性的权衡，以及向量空间分布不均带来的检索效率与效果问题。

2、信息增强的精细度：整合检索信息的过程中，若缺乏对上下文的把握，生成的文本容易显得碎片化，连贯性缺失。特别是在处理来自多个来源、风格迥异的段落时，既要避免内容重复，又要依据查询语境对检索片段精挑细选并合理排序，以确保输出的一致性和流畅度，这一过程考验着信息增强机制的智能化水平。

3、延迟挑战：在即时交互场景，如在线客服对话系统中，检索与生成的响应时间直接关系到用户体验。为了减少延迟，优化模型效率与系统架构成为迫切需求，要求RAG技术能在高时效性要求的应用中稳定运行。

问题5: “杀手级通用大模型 vs 百花齐放专属大模型”，企业级AI应用的价值自证？

企业在利用大模型进行业务升级改造时，选择使用一个杀手级通用大模型，还是百花齐放的专属大模型，取决于您具体的业务需求、战略目标和资源限制。无论选择哪种模式，都会面临挑战和价值自证。

杀手级通用大模型：选择大参数的基础模型，结合企业的数据进行微调，构建企业级的杀手级通用大模型。其优势在于能快速处理多样化的任务和应用场景，更快的带来直接的业务价值和经济收益；其挑战在于越大参数的模型微调需要的数据量就越大，算力消耗也更大，而且也较难应对特殊的高并发低延时场景。

百花齐放的专属大模型：根据不同知识域的业务需要，选择适合参数的大模型微调业务专属大模型，能够吸引和满足更广泛的客户群体和个性化定制服务的需要。通常情况越小参数的大模型，微调的效果越好，越大参数的模型微调的效果越难保障。多样化的模型和应用需求，可以快速推动企业在不同领域进行技术和业务创新。但多样化专属大模型，贵在精不在多，如何决策需要构建哪些专属大模型呢？又如何解决多个专属大模型统一运维管理的挑战？

无论选择哪种方式，都要确保大模型构建的AI应用能够与企业的长期战略相契合，并在实现业务目标的同时，提升客户体验和企业运营效率。因企业的自身特有数据量有限，大模型的微调需量力而行，比如当前千亿参数以上的大模型就不适合微调，不仅成本消耗大且能力提升有限，有可能还会影响原有大模型的推理能力。更为重要的是要建立收集反馈和定期评估应用的机制，推动大模型和业务应用的优化，在不断调整和完善中体现出AI大模型的价值。

问题6: “大模型广泛应用 vs 应用安全隐患”，大模型面临的安全挑战

随着大模型深入应用，一些因大模型关联引发的安全问题让大家重视起来，如大规模数据采集和应用带来的个人隐私泄露和滥用的问题，大模型生成内容可能带有的偏见歧视、违法违规、科技伦理类问题，以及利用大模型强大能力用于欺诈等恶意应用场景的问题等。总的来说，大模型在安全方面面临大模型自身安全和模型应用安全两个方面的挑战。

大模型自身安全的挑战：

1、大模型训练安全：如何使用数字加密技术和差分隐私技术在训练过程中保护敏感数据安全？如何清洗训练数据，以避免潜在的恶意数据注入或偏差造成的训练问题？如何定期对训练数据和模型权重进行审计，以检测潜在的安全隐患或异常模式？

2、大模型生成的风险：涉及敏感知识点的问题不允许答错：但大模型本身的幻觉问题严重，怎样避免？隐晦风险和多轮对话上下文：传统的防控手段很难应对这么复杂的风险，怎么办？复杂的指令对抗：对于层出不穷的诱导、变种等攻击，怎样能做到全面的防控？

大模型应用与部署安全的挑战：

1、大模型部署安全：如何针对模型抵抗对抗性攻击做强化训练，例如将对抗性样本加入训练集进行鲁棒性提升？如何对模型输入实施严格的验证和过滤机制，以防止恶意输入？如何实施访问控制和身份验证机制，确保只有授权用户才能访问和使用模型？

2、模型应用部署安全：如何针对模型应用服务访问控制和输入输出进行安全防控？如何进行防御DDoS攻击、防范恶意勒索、大促安全风控、远程办公安全等风险的实时防护？如何持续监控模型性能和行为，以及它们对输入反馈的响应，以便及时发现问题，实施日志记录和异常检测系统来追踪潜在的安全事件？如何构建有效的大模型安全围栏，制定安全措施和策略，保障大模型应用的完整性、隐私、可控性和抵御外部攻击？

金融级AI原生的要素与蓝图

金融级AI原生的发展

讲到AI，业内主要分为生成式AI（Generative AI）与判别式AI（Discriminant AI）这两种不同类型的机器学习模型，它们在数据建模和应用领域上存在显著差异。

判别式AI，主要关注基于已有数据进行分析和预测。它通过学习输入和输出之间的关系来建立决策边界，对新的输入数据进行分类或回归等任务。常见的判别式AI模型包括逻辑回归、支持向量机和深度神经网络等。判别式AI在推荐系统、风控系统等领域有广泛应用。

生成式AI则关注学习输入数据的分布规律，并模拟出与输入数据类似的新数据。它不仅能预测数据之间的关系，还能够生成新的数据。

AI原生系统从一开始就被设计成能够充分利用判别式AI和生成式AI技术，以实现数据驱动、智能化决策和服务的自动化。AI原生涵盖了从数据处理、模型训练、推理应用到迭代优化的全过程，目的是让AI技术如同操作系统一样成为日常业务运行的基础。

AI原生是一种全新的技术架构和思维方式，将AI技术作为一种基础能力，深度整合到企业的基础设施、业务流程、产品设计和服务模式中。

金融机构作为国民经济的中枢支柱，其运作效能、风险管控及服务质量对社会经济的整体稳定与发展具有深远影响。金融级AI原生（Financial-Grade AI Native）是一个综合性概念，旨在描述那些专为满足金融行业最严格需求而设计和优化的AI系统和应用。这些系统不仅在技术层面上高度先进，还在安全性、可靠性、可扩展性和合规性等方面达到了金融行业的高标准。

金融级AI原生的六大要素

AI技术在金融行业中扎根生长并深入应用，必须严格遵循金融行业的业务规则与标准，这就催生了专为金融领域打造的金融级AI原生。综合考虑金融级行业要求、AI原生核心技术，我们将金融级AI原生总结为如下6大要素：

要素1：可靠性和稳定性

当前金融行业随着数字化、智能化的转型，越来越多的金融级AI原生应用涌现，大规模智算资源的统筹管理和编排调度，对于确保金融基础设施的连续性与稳定性成为至关重要的能力基石。下面从训练态和推理态两个方面来说明智算平台需要提供怎样的能力来保证应用的可靠性和稳定性。

训练态：

智算平台需要大规模集群调度管理，洞察集群状态与性能变化，掌控系统全貌。通过训练引擎自动容错来屏蔽底层错误，提升任务稳定性和鲁棒性。通过实时保存模型文件，大幅度提高训练任务的整体效率。通过云原生性能测试平台，完成一键测试系统性能，及时发现隐藏的瓶颈。

推理态：

目前大模型的推理部署还没有一个事实标准，一方面不断有新的模型发布，另一方面也不断有新的训练和推理方法被提出，再者国产化GPU硬件和软件生态也在快速迭代，这给大模型推理服务生产上落地带来不小挑战。为了应对上述挑战在模型准备和部署阶段，我们建议遵从以下原则：

分层设计：由于模型本身文件较大，模型加载和启动时间往往以分钟甚至小时计。在模型准备阶段，将运行依赖环境、模型文件、推理代码分层设计统一验证并推送到合适的存储服务层；在模型部署阶段，通过云平台存算分离，共享挂载、缓存加速等方式实现模型的快速部署和加速启动；

统一调度：基于K8S 对IaaS 云服务或者客户 IDC 内各种异构的计算（如CPU，GPU，NPU）、存储（OSS，NAS， CPFS，HDFS）、网络（TCP， RDMA）资源进行抽象，统一管理、运维和分配，通过弹性和软硬协同优化，持续提升资源利用率。

云化部署：借助K8S调度框架和云化基础设施，实现对大模型应用的多实例高可用部署和故障自动切换。

要素2：低延时与高并发

大模型在实现低延时和高并发处理方面是AI原生应用的重大挑战之一，尤其是在需要实时响应和服务大量用户的应用场景中。

实时交易的场景下，系统需要几乎实时地处理和响应用户的查询或请求。如银行行业客户通话的场景中，需要应用大模型实时识别用户意图，并实时反馈相应的话术，这个场景对大模型的时延要求非常高，需要在很短的时间来做出相应的应答。同样在保险行业中，利用大模型处理车险、健康险等理赔案件，需要迅速分析上传的图片、视频及其他证据材料，快速准确地完成初步定损工作。当前，推理优化、加速主要有几种方式，如模型架构（使用MoE架构）优化、模型本身（剪枝、量化、知识蒸馏等）优化，和利用多机多卡环境进行数据并行、模型并行，分散模型负载，加速计算过程。

高并发场景是指在短时间内有大量用户请求涌入系统，要求系统能快速响应并处理这些请求，保证服务的稳定性和用户体验。如红包发放的促销活动期间，大量用户同时进行请求，在红包领取的同时需要应用大模型做实时推荐。高并发可以通过调度优化来支撑，调度系统可以根据请求状态的动态变化对调度决策进行适应性调整，并以此实现如负载均衡、碎片整理、请求优先级、高效的实例扩缩容等一系列调度特性和优化。

我们来看一个实际的案例：一家互联网金融企业，在外呼过程中，通过大模型识别客户意愿，完成多轮客户对话交互。

从当前业务模式观察，存在显著的忙闲周期：在需求高峰时段，必须确保充足计算能力以维持业务运营，确保客户享受到优质的外呼体验；而到了低谷期，则需释放这些资源，以便供给其他业务利用。然而，当这些释放的计算资源无其他业务承接时，便会造成极大的资源闲置。专为某特定业务保有大量计算资源是不切实际的，因为通常情况下，这些资源的使用效率极低，仅能达到约10%。因此，寻找一种既能应对峰值需求，又能高效利用资源的策略显得尤为重要。而混合云架构可以较好地解决这个问题，利用金融云的弹性资源来满足波峰波谷的业务需求。

要素3：扩展性与多样性

大模型的扩展性与多样性是确保其在未来可持续发展和适应新需求的关键属性。这两个概念在大模型的设计、开发、部署和维护过程中扮演着重要角色。

扩展性是指为了满足业务发展的需求，需要一种弹性的伸缩架构，满足大模型应用对不断增长算力的需求。通过这种弹性的伸缩架构，来解决了前面提到的“有限算力”的问题。

对于金融客户来说，目前有三种算力资源扩展的形态可以选择：

一、直接使用金融云的公共资源池。对于数据可以上云的客户来说，企业无需自行构建复杂的算力基础设施或大模型开发平台，而是直接利用公共资源池来进行模型推理和高效微调。金融云提供了简便的应用开发平台，开发完毕的应用能够便捷地通过API接口进行业务集成与调用，在金融云环境中，可以按需随意进行算力资源的扩缩容，从而极大地提升了效率和灵活性。

二、金融云客户VPC方式。对于有数据安全管控需求的客户，建议采用VPC方式。大模型应用及知识库部署在金融云客户VPC环境中，确保推理过程中产生的数据及微调所用的数据均存储在客户VPC的区域内，以此加强数据的隐私性和安全性。应用的开发工作在公共资源池的平台进行，同时该平台支持大模型的微调及推理等功能。一旦应用开发完成，便部署到客户VPC区域，并通过API接口无缝对接公共资源池中的大模型服务，实现高效、安全的资源调用与协同作业。在客户VPC方式中，同样可以根据需要对算力资源进行动态扩缩容。

三、线下IDC与金融云混合方式。对于私有数据不能出域的客户，可以采用线下数据中心(IDC)与金融云混合的方式。企业在其内部的IDC中构建智能计算集群，部署大模型及应用开发平台。应用的开发全程在IDC内完成，并在IDC环境中部署运行。在面对业务高峰或IDC资源紧张的情况下，企业可以采取灵活策略，将大模型扩展到金融云的资源池中，实现流量的智能分配，将部分业务负载转移到金融云上进行高效的模型推理，以应对高并发需求。同时，根据实际需要，可以选择性地将微调数据迁移至金融云，利用其强大算力进行模型的微调，进一步优化性能和服务能力。

混合云解决方案支持大模型在私有云和公共云之间无缝迁移和部署，用户可以通过统一的云管理平台对分布在不同环境下的计算资源进行集中管理和调度，简化运维复杂性。在网络互联上，通过先进的混合云网络技术，实现网络的高速稳定互联。

我们来看一个实际的案例：某证券公司通过大模型将咨询、公告、年报、研报、路演、业绩通告视频等多模态信息纳入知识库，满足内部分析师和机构用户的知识问答、观点总结生成。应用大模型准确理解用户搜索意图并提供逻辑分析能力、归纳总结能力。

1、客户线下IDC进行大模型微调，对微调好后的模型在线下IDC和金融云两套环境进行模型部署；

2、业务调用时，分为两种情况：

1）业务流程正常的情况下，直接使用线下IDC的资源，为业务提供在线推理服务。

2）当业务流量高峰期间，如果线下IDC资源不足以应对业务调用，采用分流的方式，将用户请求调拨至金融云，从而实现高效的SLA保障。在这种调用方式下，考虑到私有数据不能出域的情况下，需要在线下IDC完成敏感信息处理工作，将脱敏后的内容调用金融云上的大模型。

大模型的多样性体现在多个方面，包括模型尺寸的多样性、多模态、模型部署形态的多样性、和应用场景的适配性。为顺应不同场景用户的需求，有不同参数规模横跨5亿到1100亿的多款大语言模型。在模型的部署形态上，小尺寸模型可便捷地在手机、PC等端侧设备部署。在应用场景的适配性上，大尺寸模型如千亿能支持企业级和科研级的应用；中等尺寸如30B左右的在性能、效率和内存占用之间找到最具性价比的平衡点。

正是因为大模型的多样性，使得在具体的业务场景，可以采用大小模型相结合，既能充分利用大模型的优点，又能保持成本效益。通过将任务分解，用大模型处理那些需要高准确性的复杂分析，用小模型则快速处理那些对时效性要求高的任务。

以我们在财管领域的一个客户为例，通过大模型来进行问题规划和任务分解，通过小模型来构建各种Agent，实现了跟蚂蚁支小宝相似的效果。通过大小模型相结合的方式，既满足了需要，也降低应用成本。

大小模型相结合构建理财机器人

要素4：安全性与合规性

2023 年 8 月 15 日，国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》开始正式施行，办法对大模型训练数据、数据标注、内容生成规范、内容生成标识、算法备案机制、监督和责任都提供了相应的指引和要求。

生成式人工智能的安全管理需要贯穿产品的全生命周期，包括模型训练、服务上线、内容生成、内容传播各阶段。

● 在模型训练阶段，奠定了模型的能力基础，也决定了模型自身的安全性；这个阶段会涉及到数据和模型，不会和用户发生关联。相应的风险治理工作包括：训练数据的筛选和过滤、模型安全评测、模型对齐与内生安全增强、算法机制机理审核。

● 在算法服务上线阶段，服务提供者需要选择安全有效的模型作为基座构建完整的算法服务。在这个阶段并不涉及模型的训练、使用的数据，但是会决定对模型的核验、对模型的使用方式、调用的工具集等。

● 在内容生成阶段，大模型生成的内容是用户和模型交互的结果。用户的输入，以及模型对用户之前输入的反馈，都影响到模型当前的生成。用户使用生成式人工智能服务的目的、是否主观上给出恶意输出和诱导，很大程度上决定了模型输出内容的安全性。

● 在内容传播阶段，内容的传播方式和途径、范围是风险的决定性因素之一。在传播环节出现的风险，需要建立相应的风险治理技术手段和工作机制。

在整个产品的全生命周期中，其中的模型安全和内容安全是两个最关键的点。模型安全关乎技术底层的坚固与防御能力，是支撑系统运行的根基；而内容安全则侧重于对外交互的信息质量与合法性，是保障用户体验和社会影响的表层防护。两者相辅相成，共同构建AI产品全生命周期的安全体系。

模型安全：通过自动发现大模型有害的行为（red teaming）和安全增强（Safety Enhancement）来不断增强模型安全。

内容安全：采用知识计算的风险防控模式（采用人机协同的方式定义计算框架），主要涉及到数据层、知识层、算子层三个层面的能力。

● 数据层汇聚了涉及内容风险的原始数据，以及针对不同风险领域精炼加工的结构化数据；

● 知识层包含预训练模型和知识图谱，预训练模型用于实现对通用数据的归纳，知识图谱实现对风控专业知识的组织与沉淀，解决知识碎片化、数据获取难的问题；

● 算子层拆解出目标更明确的简单任务，构建端到端的神经算子，实现风险复杂判定逻辑简化解耦。

大模型的合规性关乎遵守相关法律、法规和内部政策，确保大模型的应用不违反任何法律规定，并保护消费者的利益。

数据隐私与保护，语言大模型的主要功能是模拟人类的思维活动方式生成人类可以理解和使用的内容，模型的训练对语料库这一类知识性内容有强烈的需求，但不依赖和使用用户行为数据。

透明度和可解释性，金融等行业的监管机构要求理解AI模型的决策过程，尤其在关系到重大决定如贷款审批或保险索赔时。因此提高模型的透明度和可解释性是一个重要的合规要求。

偏见和公平，消除这些偏见并确保模型对所有人群公平是模型合规性的重要部分。

持续监管和审计，合规性不是一次性的任务，而是需要持续监管和审计。金融机构等需要确保使用的大模型在整个生命周期内都符合监管要求，并能适应法规的变化。

大模型的合规性是一个多层面的、涉及多个利益相关者的挑战，需要综合技术、法律和道德考虑来处理。金融机构在使用大模型时需要密切关注相关法律法规的发展，并且可能需要专门的法律和技术专家团队来确保模型遵循所有适用的合规要求。

要素5：准确性与严肃性

大模型的“准确性”与“严肃性”是两个评估模型性能和适用性的关键维度，特别是在涉及专业场景和重要决策时尤为重要。

准确性是衡量大模型输出结果与预期目标或实际情况相符的程度。模型在处理给定任务时，例如回答问题、分类文档、翻译文本或者识别图像时，其输出与真实答案或标准标签的匹配程度。严肃性在大模型的语境下，更多指模型生成内容的专业性、可靠性、责任性和道德规范性。在金融这个高度专业化和监管严格的领域，大模型产出的信息必须是经过严格筛选、无误导性且遵循行业规范的。严肃性还包括模型不得滥用或传播不实、不恰当或有害的信息。

为了保证大模型的准确性和严肃性，不仅要在技术层面提升模型的泛化能力和知识完备性，还要在训练数据、模型设计、后处理步骤等方面进行严格控制，并结合领域专家知识、实时监控和用户反馈进行持续优化和修正。同时，对于可能出现的伦理和社会影响问题，也要有相应的政策和机制来预防和应对。

下面是某证券公司的实施案例：

1、构建知识库：基于咨询信息、专业内容、投教百科研报、投研框架、指标信息等，构建基础投研知识库。并将以往历史问答、专家经验以投研框架的方式进行回流，实现持续性的知识生产和知识库运营。

2、知识加工：将各种知识，经过以下的步骤进行处理，文本分段（chunking）、类目标签、实体抽取、质量分、向量表示、item的时效性等，形成相应的向量。

3、知识检索：用户的query进来，经过Query改写、向量召回和相关性模型打分等几个步骤，把得分高的知识送到大模型。

4、观点打分：对与大模型生成观点，由专家进行打分。作为RLHF的训练样本，从而不断优化模型。

要素6：开放性与兼容性

金融级AI原生开放性的核心，在于确保安全合规的基础之上，借助先进的技术架构与广泛的生态合作力量，驱动金融服务向智能化方向转型升级，加快创新步伐，满足日益增长的市场需求。而大模型的开源实践，则成为了实现这一开放性愿景最为直接且高效的战略路径。

开源对于创新活力、产业生态、行业发展、模型优化都具有重大意义。开源模型可以降低技术门槛，使得更多的研究者和开发者能够访问最先进的AI工具，受到启发，提升创新活力。开源大模型通过社区的方式，吸引开发者和研究人员共同改进模型，以及在模型的基础上构建各种工具，推动模型的深度应用，打造产业生态。促进行业发展，一方面，企业间开放共享可以减少重复开发相同功能的模型所浪费的资源，使得企业能够集中精力在差异性的研究上；另一方面，开源允许任何人在代码级别检查模型的行为和性能，增强了大模型的代码透明度。最后，开源社区的使用者往往具有较高的技术水平，开源模型可以让企业获得来自社区的宝贵反馈，有助于改进模型的性能和功能。

通过开源模型+商业版模型组合方式的积极实践，得益于开源社区的生态支持和开发者反馈，使得模型可以在性能及能力上不断优化和增强，另外商业版模型提供了持续的技术支持与咨询服务，以及企业级的安全与隐私保护，所以金融企业在商业化大模型应用时，往往采购商业版本的基础模型。

大模型相较于传统深度学习模型，在规模上实现了显著的扩容，随之而来的是对计算资源的大幅增长需求。在各种GPU资源出现时，推理平台能兼容各种芯片，成为了亟待解决的基本问题。与此同时，开源领域的创新势头迅猛，不仅涌现出Llama、Qwen、Mistral/Mixtral、ChatGLM、Falcon等诸多新型模型，还在模型优化方面不断突破，例如发展出有损与无损的Attention算法、多种量化技术革新、投机采样及LookAhead等新颖采样策略，要能适应算法的更新发展。推理层面上，主流的推理框架如vLLM、HuggingFace TGI (Text Generation Inference)、FasterTransformer以及DeepSpeed，引领了推理特性的新变革，对推理提出了新的要求。

针对上述挑战，一个综合模型、系统、集群与应用层面的协同优化、兼容异构GPU、各种大模型、推理框架的平台显得尤为重要，旨在实现卓越的性能与成本效益比。

模型层面：MQA（Multi Query Attention）和GQA（Group-Query Attention）是许多大模型推理优化的核心探索方向，以及模型的MOE（Mixture-of-Experts）架构。

系统层面：聚焦于高性能计算算子的开发，优化模型并行执行、显存管理与执行框架，同时强化请求调度能力，确保系统运行的高效与流畅。

集群层面：通过智能的请求调度机制，最大化集群处理能力，有效整合异构资源，提升资源利用率至最优状态。

应用层面：深入分析LLM的工作负载特性，将Prompt缓存等针对性优化措施融入系统设计，进一步增强应用的响应速度与用户体验。

构建金融级AI原生的蓝图

AI原生，特别是大模型的发展对资源管理与调度、训练、推理提出了全方位的新要求。首先，在资源管理与调度层面，由于大模型训练所需的计算资源量庞大且计算密集，要求系统具备高效能计算资源的精细化管理和动态调度能力，以适应大规模训练任务和异构硬件环境。这包括合理分配和调整计算资源、优化存储策略以降低存储成本和提高数据访问效率、支持异构计算、实现弹性伸缩以应对任务需求变化，以及关注能源效率以实现绿色计算。

其次，在模型训练环节，大模型训练需要强大的大规模分布式训练能力，妥善处理数据并行、模型并行、流水线并行等策略下的通信开销与数据同步问题，确保训练的稳定性和收敛速度。同时，混合精度训练、自适应学习率调整技术的应用有助于降低计算和内存开销，提高训练效率。对于超大规模模型，模型并行化与规模化的要求使得模型架构设计、通信优化、梯度聚合等方面面临更高挑战。

最后，在推理阶段，大模型应用对实时性、低延迟响应有严格要求，推理系统需配备高效的推理引擎，通过模型优化、硬件加速等手段减少推理时间。推理服务化与部署灵活性是另一重要需求，要求模型易于部署到多种环境并支持服务化接口，同时具备模型版本管理、灰度发布等运维功能。

金融级AI原生的平台架构

金融级AI原生的平台架构分为：智算设施、智算平台、模型服务和应用服务等4个领域。

智算设施（IaaS）：提供大模型所需的底层计算资源和基础架构的服务层，这些资源包括但不限于服务器、存储、网络以及相关的数据中心设施。对于运行大模型来说，IaaS层提供了弹性伸缩性、灵活、高可靠性和安全性的基础设施解决方案，可以大幅简化模型开发和部署的过程，加快创新速度。

智算平台（PaaS）：提供资源调度与任务管理、训练框架、推理框架以及数据服务。资源调度与任务管理通过拓扑感知调度、多级配额资源模型、多种队列策略、配额间资源共享等一系列核心能力，让物理算力集群利用率逼近理论上限。模型训练包括训练快照、训练时自动容错和作业的重启、训练加速等功能。推理框架提供了模型兼容、推理加速、推理对抗和推理监控等一系列功能。数据服务提供了向量数据库、图数据库和云原生数据库等数据服务。

模型服务（MaaS）：一站式大模型生产平台，提供从大模型开发、训练到应用的全套解决方案。

全链路的模型训练及评估工具：全链路模型服务覆盖数据管理、模型训练、评估和部署等关键环节。数据管理整合了离线和在线数据集，确保训练数据的质量和完备性。模型训练允许用户选择各类开源大模型、多模态模型，并通过透明化工具监控模型状态。模型评估提供多种资源，包括单模型和多模型对比，以对标行业标准。并提供一键化的模型部署功能。

集成丰富多样的应用工具：强调了开箱即用的特性，包括预置检索增强、流程编排、Prompt模板应用、插件中心支持接入企业系统、

基于大模型快速构建业务应用agent：智能体中心，并为企业和开发者提供智能体API的调用。其中，智能体应用包含支持RAG、分析、创作等链路。同时，为保持开放性，整合并优化了开源框架如LlamaIndex，提供封装的原子级服务和SDK。插件中心预设了多样插件，并支持企业和开发者自定义插件，以提升大模型的调用效率。

应用服务（SaaS）：在应用层上，考虑到金融领域的多方位需求，将应用划分为两大类别以实现广泛适用性与行业特异性。一类是通用应用场景，跨越整个金融行业，涵盖诸如智能客服来提升服务体验、智能营销以增强市场触达，以及工作助手以提高日常办公效率。另一类则专注于金融细分市场的独特需求，例如银行业专注于信贷报告自动化生成与严谨的合规性审查；证券业则侧重投资研究与顾问服务的智能化；而在保险业，致力于通过“保险数字生产力”提升业务效能，具体体现为智能核保流程的优化以及代理人培训系统的智能化。

智能客服：大模型凭借其强大的自然语言理解和生成能力，可以作为智能客服系统的核心组件，提供24/7全天候在线服务。用于客户的咨询、外呼和客户交互过程中，识别客户意图，进行更好的、贴心的服务。

智能营销：大模型能够根据不同的客户群体特征和营销目标，自动生成具有吸引力的营销文案、广告创意、邮件推送、营销视频等个性化内容。

工作助手：大模型可以集成到日常工作中，提供咨询服务、编程辅助服务、数据分析、内部公共助手、以及用于法律法规方面的审核工作，在减轻员工负担的同时，也可以提升工作效率。比如，知识助手、开发助手、用数助手、会议助手和审查助手。

信贷报告生成：大模型能够自动读取和整合来自多个来源的数据，包括财务报表、征信记录、市场数据等，进行快速而全面的信息分析。这不仅限于数值数据，也包括文本信息，如征信报告、企业年报、行业报告等，从而形成一个综合的信用视图。

合规审核：大模型可以被训练来识别和分析各类交易、合同、报告中的合规风险点。通过模式识别和自然语言处理技术，模型能够迅速扫描文档，比对监管要求，自动标记潜在的不合规内容。

投研投顾：在投资研究领域，大模型能够分析海量的经济数据、新闻报道、社交媒体情绪等信息，辅助投资者识别市场趋势，为投资策略提供数据支持。在投顾领域，大模型能根据个人投资者的风险偏好、资产状况和投资目标，提供定制化的投资建议，优化资产配置，提升投资组合的表现。

保险数字生产力：通过分析保险申请中的文本描述、图片，大模型能基于保险规则，自动判断核保申请，辅助保险员加速申请审核流程，提升客户满意度。保险公司利用大模型创建“数字员工”，来模拟不同的角色，帮助代理人快速上岗，提升工作效率。

金融级AI原生应用实践

1、应用场景与技术架构选型

知识密集型数字化应用

金融行业因其高度的专业性和对精确度的严格要求，成为一个知识密集型的领域。它涵盖了广泛的子领域，包括银行业务、投资、保险、资产管理等，每个领域都有其独特的术语、规则和业务流程。在银行行业，理财产品经理需要在充分理解监管合规政策的前提下，设计有市场竞争力的产品；在证券行业，投研人员需要阅读大量的研报和资讯，做出对市场的判断，给客户提供有价值的投资建议；在保险行业，大量复杂的核保/核赔规则，业务员需要熟记于心并在展业时能高效查阅。

而大语言模型作为一个参数化的知识容器，其最突出的能力就是构建世界模型、理解人类知识，并以自然语言的方式进行交互。大模型通过学习广泛的语料，能够积累和反映不同领域的知识，包括金融行业特有的概念、术语和逻辑关系。这使得大模型能够在上述金融行业各类知识密集型场景中，提供自然语言理解和生成、知识检索与问答、信息总结摘要等能力。

以保险行业为例，核保是一个非常重要的业务流程，保司有大量的业务员在外面做拓客，为C端用户设计保险方案。在这个过程中，还有一类角色叫核保员，在投保阶段帮助业务员判断是否能出保单，并给出建议方案。这里面涉及到大量的核保规则业务知识，我们希望能让大模型学会理解这些并运用在业务流程当中，提高核保员工作效率。

典型的用大模型来重构核保的业务流程，如上图示意：

原始核保规则：核保规则源于保险公司内部的核保政策，有集团级别的、每个省市分公司也有自己特定的规则，需结合起来用，这是核保决策的依据。这类知识的特点是，内容多、逻辑复杂、还有很多行业术语，一般核保员上岗后学习6个月，才能开展核保业务。

大模型核保知识构建：核保政策的格式和来源非常多样，有pdf、word，甚至是某分公司发的一封全员邮件。这些知识需要被构建成一种层次化的知识体系，便于更新、维护，以及被大模型理解与应用。在业务流程中，大模型需要从与业务员的对话中提取出核保要素，例如：年龄、地域、工种。当要素不完备时，以反问等方式让业务员提供，直到收集完整下一步推理决策所需信息。

大模型推理决策：基于上一步构建的知识，大模型进行不同的逻辑处理。简单分有三种：a）准入性判断，一些关键要素若不符合，可直接拒保；b）条件性推理，依据各种核保规则，逐条检查客户提供的要素是否满足；c）推荐投保方案，若有不符合的要素，大模型给业务员调整的建议，改变核保要素，直至承保。

在上述业务流程重构过程中，面临最大的两个技术挑战是：核保规则量多质差、推理逻辑复杂。因此，在方案上采用金融知识增强+Multi-Agents框架来解决，如下图所示：

金融知识增强：原始核保政策来源非常多，上千页的Word、复杂单元格结构的Excel、甚至是一封核保政策调整的邮件。面对此类多源异构数据，需要先做格式和内容的治理，形成一种分类、分级、分块的立体化通用知识表示，便于长期维护更新，以及被下游大模型Agent理解与使用。在过程中，还需要引入金融领域专有知识做增强，例如：对行业和工种的分级分类、专对保单版面的内容识别算法。

Multi-Agents分治：在试验过程中我们发现，大模型的能力也是有上限的，面对的知识太多或规则太复杂，也会有不稳定输出的情况。因此在通用知识表示之上，按任务类型把整个核保过程拆解到不同角色的Agent上完成，并由中控协调Agent统一协调和路由。最终面向业务员，大模型扮演“核保员”，以多轮会话的方式提提供推理决策和承保方案推荐。

全链路数字化应用

大模型在金融业务的全流程中扮演了重要角色，其支撑作用体现金融行业的不同业务场景。如客户服务与关怀方面，大模型能够提供24小时不间断的客户服务，包括咨询解答、产品介绍、客户关怀、投诉处理等，提升用户体验。风险管理与信贷评估方面，大模型帮助金融机构进行信用报告生成、欺诈检测和风险评估，提高贷款审批的准确性和效率，减少人为错误和潜在的信用风险。精准营销与客户洞察方面，创造多样化、创新且风格连贯的跨媒体营销内容变得轻松自如，这包括社交媒体帖文、广告标语、宣传海报、创意视频剧本等，确保每项内容都能精准对接目标受众。通过对客户数据的深度分析，大模型能够构建精准的用户画像，帮助金融机构设计个性化营销策略，提升营销活动的转化率和客户满意度。投资咨询与资产管理方面，大模型能够分析市场数据、新闻资讯和经济指标，生成投资建议和资产配置方案，辅助投资者做出决策。对于机构投资者，它还能提供复杂的财务模型分析和投资策略优化。自动搜集、整理并分析大量研究报告、公司公告和宏观经济数据，为分析师和投资者生成深度研究报告，提高研究质量和速度。运营优化与自动化方面，在后台运营中，大模型可以自动化处理交易结算、合规审查、文档管理等工作，减少人工操作，提升运营效率并降低成本。

风控作为金融的基石，正遭遇多元化的挑战，这些挑战随技术演进、市场波动及欺诈策略的迭代而日新月异。以下是当前尤为突出的几个难题：

1. 业务冷启动没经验，上线周期长：新业务上线，缺少相关的冷启动经验和数据。上线周期长，容易错过商机。

2. 风险变化快，风险决策响应慢：数据分析周期慢，业务人员给技术人员提需求经常需要等排期。策略/模型构建和迭代周期慢，无法跟上快速变化的风险

3. 模型的敏捷性与深度构建：金融市场瞬息万变，欺诈手段层出不穷，要求风控模型不仅要具备高度的适应力和灵活性，还需迅速掌握新兴风险模式，同时维持对既有风险的严密监控。这一挑战促使模型复杂度与更新速度的需求不断攀升。

通过大模型的风控多agent体系，可以很好缩短风险决策周期，提升风控人效，响应快速变化的风险。

智能策略助手集成了专家的风控策略知识库，可以帮助业务实现快速冷启动。通过自然语言的形式，可以轻松进行策略分析、上线测试、部署和生成报告，及时响应快速变化的风险环境。

智能数据助手通过内嵌的报表知识以及NL2SQL能力，使得用户无需复杂的编程过程，只需通过自然语言的交互就能快速构建所需的报表，进行指标查找和数据诊断。

智能建模助手提供建模功能、深度变量分析报告和一键部署功能，能够大大提升工作效率和模型的准确性。

多模态数字化应用

随着大模型技术的高速发展，尤其OpenAI发布“Sora”后，加速从自然语言向多模态大模型的演进。多模态大模型不仅能够进行图像、视频的要素识别和场景提取，还可以根据提取的信息创作出更多原创图片和视频；同时多模态在语音上支持人机交互语言接口，不需要转文字，就可以在语境中识别复杂和抽象概念，加速智能客服拟人化服务和定制化服务效果。多模态大模型已经开始在各种业务领域进行探索，例如：智能催收、智能客服、智能推荐和智能运营等领域，随着多模态大模型与业务创新场景的持续性融合，展现其更高的用户粘性和商业价值，必将开启了企业构建多模态数字化应用的新时代。

智能提醒：企业通过多模态大模型，将外呼语音通话进行识别和数据抽取，构建用户意图和客服话术的知识库，同时通过语音特征分析，识别用户的个性化特征，并与用户特征知识库进行比对和更新。在实时和离线语音交互过程中，通过规则质检和风控，确保人工或机器人的回复符合领域规范，如果存在舆情风险，会提交人工复审，再进行知识库信息更新。如果符合规范，将进入新一轮的智能语音交互，通过大模型判断历史交流的用户意图，结合用户特征，进行个性化语音话术播报（例如：方言定制化），直至达到本通外呼目的为止。

智能客服：企业可以通过多模态大模型，将语音客服、私域咨询和售后交流的文字、图片和视频信息进行识别和数据抽取，例如：将用户提交的保单、病例等进行识别和数字化，存储到专属客服知识库和用户特征知识库，通过智能质检和风控，确保提交和回复数据的准确性和安全性。同时根据客户意图识别和个性化生成，满足用需要的回复或报告，再根据用户个性化特征生成专属文字或语音和视频回复，最后根据用户评价和人工抽检，收纳知识语料。

智能推荐：根据企业业务场景和市场规划目标，通过多模态大模型快速生成文案，在公域或私域传播，比如广告语、微博文章、微信公众号文章和抖音视频等，同时与多模态图片或视频AI工具相结合，自动生成宣传海报、宣传视频等视觉内容，提升营销素材的生成效率。通过自然语言交互或私域数据运营，为客户提供个性化的产品推荐和购买建议。根据用户特征数据分析客户的需求、偏好、风险承受能力等信息，快速准确地推荐适合客户的产品，提高保险销售效率和客户满意度。

智能运营：在企业和商户私域运营中，通过多模态数字化应用方案能够解决全链路高效运营。在商户入驻时，通过多模态场景和内容识别能力，完成摊位门头照自动化审核，同时识别商户和销售商品及价格；在商户运营中，通过多模态识别和生成能力，进行菜单初始化和商品效果图生成，降低门槛和成本；在日常运营中，通过多模态营销文案、图片和视频的生成能力，根据时节定制化营销文案和营销海报，以及宣传视频等，增加商户的收益和订单成交量。

多模态数字化应用基于企业外呼、客服、推荐、运营等多模态业务场景，与多模态技术的丰富和灵活的AI服务进行结合，快速实现业务效果。通常调用这类多模型API可以分为三步骤：准备和优化输入提示（Prompt）、使用API进行模型调用、处理和展示结果。

Prompt优化：明确通过多模态大模型实现什么样的任务，基于任务需求构建有效的提示信息。对于文本任务，这可能意味着撰写清晰、具体的指令或问题；对于图像相关任务，则可能包括选择适当的图像作为输入。通过实验和反复测试，找到最能引导模型输出期望结果的Prompt表达方式。调整文本提示的措辞或添加关键信息，改变图像输入的尺寸和质量。

Assistant-API调用：

选择API：确定适合你任务的API服务。不同的多模态大模型可能通过不同的API提供服务，选择合适的API是关键。

准备请求：遵循所选API的文档准备请求。这通常涉及设置合适的HTTP请求头、选择正确的API端点、准备必要的认证信息以及构建请求体。

发送请求：将准备好的请求发送给API服务。这可以通过编程方式使用HTTP客户端库或使用命令行工具完成。

处理响应：对API返回的结果进行处理。这可能包括解析JSON格式的响应内容、错误处理以及转换模型输出以便进一步使用。

结果召回展示：分析模型返回的数据，对结果进行质量评估。根据需要，可能还要进行后处理，比如图像的裁剪或调整大小，文本的清理等。将处理过的结果以用户友好的方式展示出来。根据应用场景，这可能包括在网页上显示生成的文本或图像、在应用程序内部展示音频播放控件等。

2、AI原生应用实施路径

大模型技术仍在飞速发展，国内外大模型厂商的产品快速推陈出新，在商业化大模型和开源大模型社区，每个月、每周、甚至每天都有新的模型和框架出现。同时，算力资源短期内将持续紧张，大规模应用的铺开，直接导致对模型推理资源的需求持续上涨，而金融机构不仅要解决资源的供给问题，还需要持续提升算力的使用效率，支撑企业大模型场景的全面落地。

金融机构一直是IT技术的先行者，在数字化转型和技术创新方面不断寻求突破。如何能跟上大模型技术的快速发展，不掉队，客观理解新技术，快速识别合适场景，验证大模型的技术与业务价值，成为了企业面临的首要问题。“百舸争流，奋楫者先”，我们提出一条可行的路径，在解决算力资源短缺的同时，又能保障金融机构用上最新的大模型技术，为业务与客户带去价值。

“云上试航”：快速完成大模型可行性与价值验证

大语言模型横空出世，带来的不仅仅是单点技术的创新，更是全套技术栈的革新。GPU服务器、大模型全周期管理平台、推理加速框架、RAG知识增强、Multi-Agent智能体，这些新的事物在不停地刷新技术从业者的认知。以上种种技术，要在客户IDC完整搭建一套，难度极高成本极大，尤其是在大模型的价值尚未被完全验证与挖掘的前提下。

这个阶段，金融云成为了企业的最佳选择。算力层面，云厂商资源储备充足，为客户提供了多样化的算力选择，且弹性按需付费；模型层面，主流云厂商不仅提供商业化大模型，还提供业界优秀的开源大模型服务，客户可按需自由选择，以MaaS API的方式调用；平台工具层面，更是为客户提供了极大的选择空间，从大模型全周期管理平台到智能体应用，从检索引擎到向量数据库，以上这些，企业都可以灵活组合使用，快速验证新技术的价值，避免前期无谓的投入和时间浪费。

“小步快跑”：大模型应用试点的选择与落地

过去一年，大模型在金融机构的应用，也经历了快速的发展。最初期的尝鲜者们，都从RAG知识问答场景开始，通过构建企业级知识库，引入大模型技术，充分感受其在语言理解与生成上的能力。随着大模型自身变得更加成熟，以及从业者对大模型的技术掌控力增强，大模型的应用已经从最初的“问答机器人”，开始渗透到金融行业的核心业务流程当中，并开始扮演Copilot（辅助驾驶）的角色，提升员工工作效率，提升客户服务效果。

在银行行业智能客服领域，大模型被用于识别客户意图和情绪，为客服人员提供话术辅助与推荐；在证券行业投研投顾领域，大模型被用于读取海量的研报、资讯，以自然语言的方式提供观点问答和内容摘要等服务；在保险行业核保领域，大模型被用于理解复杂的核保政策，针对客户提交的材料做合规性审核与保险计划生成。这些被验证过的场景，都适合处于大模型建设初期的金融机构作参考，选择2-3个相对有容错性、投入产出比高的作为试点。

在这个阶段，可暂不考虑太多平台化的事情，宜采用“以用带建”的思路，选定场景后，引入一个经过验证的商业化大模型，提供持续稳定的服务和安全合规方面的保障。工程上可以在大模型应用层面，选择轻量化的RAG、Agent产品，配合商业化大模型，对外提供MaaS API的调用以及Workflow编排能力，快速支撑业务场景的落地。

“平台筑基”：建设LLMOps技术栈，实现中台化管理

走过试点阶段后，企业内大模型应用将会全面铺开，这时就不再适合从某几个应用出发单独建设了，技术团队需要在平台层面做整体规划，基于业界领先的LLMOps理念，围绕大模型的构建与应用流程，构建大模型全周期管理平台，实现基础能力的中台化管理与服务，支撑大模型在多业务场景的快速落地。

具体来讲，大模型全周期管理平台主要包含两个部分。模型中心，主要承载模型层面相关工作，语料管理、模型微调、推理加速、模型评测等；应用中心，在模型之上，提供RAG知识库、Multi-Agent框架、Prompt工程、Workflow编排等能力，支撑业务快速基于大模型的能力，构建起应用链路。

企业在小步快跑阶段会使用一些主流开源框架做快速落地，例如：LlamaIndex、OpenAI的Assistants API。到了平台化阶段，不仅要考虑低代码大模型开发范式的支持，同时要考虑全代码开发范式，面向技术人员提供高效的开发与集成框架，并兼容主流开源框架，实现原有应用的平滑迁移到平台上。

“云端融合”：大模型混合云架构，充分利用云上资源

随着大模型应用全面铺开，场景从服务内部为主，转向直面外部C端客户，对大模型推理资源的需求会呈指数级增加。从当前大模型技术发展趋势和落地案例来看，未来推理服务会成为大模型资源需求的绝对主力。

正如前文例子，部署一个72B大模型推理实例，需要3张A100（80G）的资源。当业务上需要50并发时，需要的GPU卡的数量在200张左右A100（80G）。无论从供给资源还是采购成本来讲，这都是一笔不小的成本。在这个阶段，算力资源会再度成为制约企业全面拥抱AI大模型的瓶颈。通过构建混合云架构，在安全合规的前提下，把本地算力作为固定资源池，同时把云上充足的弹性资源使用起来，成为金融机构在大模型时代的最佳选择。

结语

正在本文截稿之时，OpenAI在春季新品发布会上搬出了新一代旗舰生成模型GPT-4o，一系列新的能力让我们无比坚信，AI大模型技术势必会颠覆和重塑未来产品的形态。而当大模型在金融行业落地，重塑金融企业应用时，我们必须考虑金融行业独特性的要求。在与众多金融客户进行大模型应用联合共创之后，我们对金融客户面临的主要挑战进行了剖析，定义了金融级AI原生的蓝图和六大要素，并挑选了知识密集型、全链路数字化、多模态数字化等三类具备较大业务价值的场景，阐述其技术架构的选择和落地路径，旨为金融企业的数智化创新提速。