“曹植”诞生记，且听达观数据CTO纪达麒的讲述

AI应用信息1年前 (2024)发布 XIAOT

“曹植七步成诗。作为建安七子之一，他写的最著名的篇章《洛神赋》就是古代文学作品里典型的首屈一指的长文本。这也是‘曹植’大模型的专长，做长文档资料智能化的分析写作工作。”2023年世界人工智能大会（以下简称“WAIC2023”）上，达观数据有限公司（以下简称“达观数据”）董事长陈运文正式发布“曹植”垂直领域大语言模型（以下简称“曹植”大模型）时如此介绍道。

这是国内首个垂直行业专用的自主可控的国产GPT大语言模型，可准确完成多类型、复杂结构的长文本写作，自动起草多种类型的文档，未来将实现多模态内容生成，如长文档中的表格、图表、图片等。

电梯停靠在5楼，到达达观数据办公区。一面高3米、长10米的深灰色企业文化墙吸引了记者注意。从中国文字起源、文字演化发展历程，到现代文字的编码与处理、人工智能处理文本、ChatGPT等，详尽的介绍以白金相间的大字印在墙面上。

成立于2015年的达观数据成长于上海浦东软件园，其创始团队都是与中国文字打过十几年交道的程序老兵，并深耕于NLP（自然语言处理）领域。八年间，达观数据在金融、政务、制造等行业积累了垂直领域的大量数据、人才与NLP行业技术。今年3月，随着垂直、专用、自主可控的国产版ChatGPT“曹植”大模型的发布，达观数据正不断推动着NLP技术向不同行业领域深度结合。

Part. 01

以迁移学习攻破长文本关键难题

自然语言处理（NLP，Natural Language Processing）被誉为AI皇冠上的明珠。从互联网拓宽至更广泛行业，达观数据在金融、政务、制造等行业积累了垂直领域的大量数据、人才与NLP传统架构。达观数据联合创始人、CTO纪达麒与来自金融、政务、制造等行业的客户进行了广泛的交流后，逐渐发现NLP技术在办公文档方面有着广阔的应用前景。

2017年，谷歌发表论文《Attention is all you need》，提出了NLP关于“理解”和“生成”的两个技术路线，开启了NLP的新篇章。

“基于达观数据当时的优势资源和未来发展，我们一开始就选择了‘理解’这条技术路线。”纪达麒告诉记者，“相比较生成，理解这条技术路线在当时来看更容易落地。”

达观数据联合创始人、CTO纪达麒

这一年，纪达麒和研发团队运用知识图谱、文字识别等技术开发的IDP智能文档审阅系统进入市场。从技术到产品需要解决的最大难题便是“跨越理解客户需要的鸿沟”。

“我们要去理解客户需要，然后转化为应用场景，进而翻译为技术问题，最后实现相关的功能模块。”纪达麒解释。彼时，达观数据曾聘请数十名行业专家，充当客户与程序员之间的“翻译员”，尝试解决这一难题。

随着人工智能的不断发展，机器智能处理长文本的需求日益紧迫。随后，达观数据便投入到大语言模型（LLM，Large Language Model）的开发工作中，纪达麒担任该项目总负责人。这就是如今的“曹植”大模型诞生的起点。

“想要让一个大模型真正能够处理长文本，它需要聪明地应对多模态的内容，同时能够对复杂的结构元素进行理解和分析。”陈运文曾如此强调大语言模型的难点。

以分析证券领域的研报为例，计算机要像人类般智能，充分理解每个版面的区域含义、板块分布，然后才能用大模型的语义理解做进一步的阅读理解工作。此外，它还要解析没有边框或是有各种复杂嵌套的表格等。在现实应用中，对各种各样的文档资料进行理解与分析是其中难点。

在许多实际应用场景中，想要实现大模型智能化处理长文本，其长文本关键信息抽取任务是很多应用的前置任务。如在企业内部，合同合规审查中，合同中的关键信息抽取如果错误或遗漏，则会导致后续的审核结果出现错误，造成很大的风险。

“其实，我们这个行业碰到的大的问题就是训练标注量少。”纪达麒介绍，信息抽取任务通常被看作是序列标注问题，虽然在一些领域基于成熟的标注数据，信息抽取已经取得较好的效果，但在一些垂直领域，尤其是实际业务场景下，往往由于字段类型的不同及标注数据量少的原因，效果不是很好。

迁移学习是提升小数据集模型效果的重要手段之一。在机器学习中，迁移学习可以利用已有的数据，在新领域小数据训练集上取得更好的效果。“以合同审核为例，我们的‘曹植’大模型在某大型航空公司上线半年里，帮助他们发现了700多万元的合同风险。”纪达麒透露。

Part. 02

“培养”出人工智能版“曹植”

“我们想‘培养’出人工智能版的‘曹植’，希望它能像我国的历史名人曹植一样快速地生成长文本。”提及“曹植”大模型这一名称的由来，纪达麒笑着说，“这是我们员工在四五十个名字中票选出来的。”

“长文本”是“曹植”大模型的目标任务。在WAIC2023发布会现场，陈运文接受采访时曾强调，“曹植”大模型的能力不是问答，而是写报告，它的界面是完全针对写报告这种应用场景来定制的。

区别于一问一答的简单短文本生成，“曹植”大模型可准确完成多类型、复杂结构的长文本写作，自动起草多种类型的文档，同时具有自动排版、智能纠错、文本润色、自动生成摘要等特色功能；还可实现多模态内容生成，比如长文档中的表格、图表、图片等；支持中文、英文、法语、德语、日语、韩语等数十种语言的写作，辅助人工大幅提高办公效率；在长文档翻译方面，对原文的标题、段落等内容实现1:1版式还原，提供实时的翻译体验，广泛应用于多语言文档密集处理的场景。

这也是国内大规模语言模型中首批可落地的产业应用级模型，目前已在金融领域AIGC多场景投入应用。基于“曹植”系统，“曹植”大模型进一步夯实了达观数据产业应用智能化基座，全面增强AI全产品矩阵能力。

“垂直、专用、国产化”是“曹植”大模型的三个特点。“曹植”大模型在生成垂直领域的专业内容方面，如法律文书、红头文件和研究报告等，更具优势。众所周知，专利、合同、客户等数据属于商业机密，若放在公共服务器会有隐私泄露的风险。为了保护数据隐私与安全，企业更需要进行本地的私有化部署。

相比通用大模型，企业采用“曹植”大模型所需的参数少，私有化部署需要的显卡资源便少，具有明显的成本优势，更容易进行私有化部署。

据悉，训练ChatGPT通常需要数千张价值万元的顶级GPU同时运行，才能训练完毕，其费用高昂。但参数更少的“曹植”大模型仅需要数百张，甚至数十张GPU就能达成训练目标。

“以ChatGPT3为例，‘曹植’大模型的参数规模可以缩小到它的十分之一。”纪达麒介绍，参数更小相当于算力需求更小，那么算力的成本也就越小。

结合精准数据和低算力成本，“曹植”大模型反而可以达成更好的效果。针对不同行业、领域的文案需求，“曹植”大模型可进行深度优化和个性化定制。如根据实际的办公应用场景，达观数据将把“曹植”大模型设计成一个个解决办公痛点的产品，更好地提升日常办公的效率。同时，赋能原有产品，使得已有产品的效能再上新台阶。换句话说，未来，达观数据可以比较快速地切入很多应用场景。