达观数据陈运文：“曹植”大语言模型的创新与应用

AI应用信息1年前 (2024)发布 XIAOT

达观数据是一家2015年在上海浦东张江创立的人工智能企业，专注于文本智能处理技术，并以此在人工智能领域崭露头角。经过几年不断发展，达观已在行业中取得领先地位，并荣获国家级“专精特新”小巨人奖。

书面类长文本更具价值

DATAGRAND

从本质上来讲，大语言模型的核心价值是发展大语言模型，提炼出知识，并以知识为驱动形成智能的过程。文字是人类文明的起点，也是实现人工智能的关键要素。大语言模型，尤其是GPT（Generative Pre-Trained Transformer）生成式预训练模型，近年来越来越受到关注，因为它解决了从文字中提炼人类知识的重要任务。文字资料处理人类知识有两大应用场景，一是用来做沟通和交流等短文本；二是用于书面文字资料，如文档、书籍、报告、资料等长文本。尽管目前很多大模型如ChatGPT主要处理对话类的短文本，但书面类长文本更具价值。因为书面文字资料的知识密度高、专业化程度高，对于训练大语言模型有着重要价值。

过去几年，达观一直致力于优化长文本处理的各个环节，包括数据的积累、工程实践以及产品系列的打磨。在模型层出不穷的今天，我们认为，专业化、特长化、产品化的模型才是未来发展的关键。基于这种理念，达观开发了自己的独特大语言模型——“曹植”大语言模型。

他山之石可以攻玉，达观参考海外经验，如今年3月份推出的BloombergGPT，它是全球第一个专门用于金融领域的优秀大模型，为达观提供了宝贵的参考。BloombergGPT的效果出众，尤其在金融领域的专业任务上表现出色。

“曹植”大语言模型

DATAGRAND

为此，达观研发了自己的大语言模型技术架构，运用了通用无监督训练和领域有监督训练，以及大量的专业领域语料。最终成功开发出了自己的“曹植”大语言模型，这是一款垂直、专用、国产的大模型，具备长文本、多语言、垂直化三大特点。

视频加载失败，请刷新页面再试

达观数据陈运文：“曹植”大语言模型的创新与应用刷新

“曹植”大语言模型，名字的灵感源自于曹植的“七步成诗”以及其作品《洛神赋》。前者展现了模型强大的写作能力，后者作为一篇超过1000字的长文本，彰显了“曹植”在处理长文本方面的专业性。在构建这一模型的过程中，我们结合了通用语料和专业垂直语料的混合训练数据方案，其中包括50%的混合语料和50%的垂直专用语料，以确保模型既具备通用处理能力，又能够专业应对特定行业领域的语言处理任务。

在研发过程中，我们充分利用了自身多年积累的专业文档资料报告等信息，使得模型在垂直领域的语言能力和写作能力都达到了优秀的水平。我们也采用了多模型并联（Ensemble）的创新方法，通过整合经典的知识图谱、搜索引擎等工具和大语言模型，实现了模型性能的优化和提升。并且，模型包括了不同参数规模的多种模型，如数十亿、数百亿等，未来还将研发数千亿的模型。同时，还可以与其他第三方的大模型进行对接，实现模型间的融会贯通，进一步提升模型的价值。

“曹植”特点1：长文本

DATAGRAND

“曹植”大语言模型也是针对处理长文本而特别研发的产品。长文本不仅包含文字信息，还包含许多复杂的结构，如表格、文档样式、签名、盖章等，甚至还有图片等多模态的内容。这些复杂的元素，需要大模型具备高级的理解和分析能力。对于长文本，我们进行了详尽的处理和优化。例如，我们进行了段落篇章的解析，表格的解析等工作，以应对表格复杂的形式和样式。此外，我们还进行了版面分析，以深入了解文本的组织结构和版面布局，这对于专业报告等文档尤为重要。

因此，达观的”曹植”大语言模型不仅具有优秀的长文本写作能力，更具备专业性的写作能力。用户只需提供标题，模型即可生成文章的提纲，并根据提纲生成专业报告。

这一过程中，我们强大的AIGC多模态能力也会发挥作用，例如，可以根据用户的文字描述生成相应的图表，并将其插入到文档中。

“曹植”特点2：多语言

DATAGRAND

此外，我们的大模型还具备多语言处理能力，可以根据用户的需求生成不同语种的专业报告。

尤其是长文本的翻译能力，这一能力不仅包括语义翻译，还包括版面分析与版面还原。在翻译过程中，我们能够精确地提取原始报告的格式和版式，并在翻译完成后进行精确的还原，以确保报告的专业性和整洁性。

“曹植”特点3：垂直化

DATAGRAND

我们认为，大模型的产品形态不应只限于一问一答，而应该和行业应用相结合，才能打造出真正优秀的产品。因此，我们的大模型已经与多个行业专业领域的产品相结合，能够处理各种报告，处理专业领域的应用场景。

我们还开发了专门的WPS和Office插件，让用户在专业写作工具中直接使用“曹植”的能力。用户在写作过程中，可以直接从企业的知识库中调取所需的数据和信息，大幅度提高工作效率。这一插件分为个人免费版本和企业专属版本，我们可以为每个企业定制内部的知识库，使其更加专业和垂直。

“曹植”大模型能力拓展

DATAGRAND

在过去的几年中，我们积极推动RPA产品的开发，并将其视为大模型能力拓展的重要组成部分。在当前的大语言模型时代，我们从企业的ERP、OA、知识库以及各种外部数据源中获取知识和数据，以提升大模型的能力。在这方面，我们深受GPT和复旦最新版本的MOSS插件库的设计理念的启发。同时，我们也看到，具有丰富插件功能的大语言模型，才能真正具有生命力，并发挥出巨大价值。