这是国内首个垂直行业专用的自主可控的国产GPT大语言模型,可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,未来将实现多模态内容生成,如长文档中的表格、图表、图片等。
电梯停靠在5楼,到达达观数据办公区。一面高3米、长10米的深灰色企业文化墙吸引了记者注意。从中国文字起源、文字演化发展历程,到现代文字的编码与处理、人工智能处理文本、ChatGPT等,详尽的介绍以白金相间的大字印在墙面上。
2017年,谷歌发表论文《Attention is all you need》,提出了NLP关于“理解”和“生成”的两个技术路线,开启了NLP的新篇章。
“基于达观数据当时的优势资源和未来发展,我们一开始就选择了‘理解’这条技术路线。”纪达麒告诉记者,“相比较生成,理解这条技术路线在当时来看更容易落地。”
“我们要去理解客户需要,然后转化为应用场景,进而翻译为技术问题,最后实现相关的功能模块。”纪达麒解释。彼时,达观数据曾聘请数十名行业专家,充当客户与程序员之间的“翻译员”,尝试解决这一难题。
随着人工智能的不断发展,机器智能处理长文本的需求日益紧迫。随后,达观数据便投入到大语言模型(LLM,Large Language Model)的开发工作中,纪达麒担任该项目总负责人。这就是如今的“曹植”大模型诞生的起点。
“想要让一个大模型真正能够处理长文本,它需要聪明地应对多模态的内容,同时能够对复杂的结构元素进行理解和分析。”陈运文曾如此强调大语言模型的难点。
以分析证券领域的研报为例,计算机要像人类般智能,充分理解每个版面的区域含义、板块分布,然后才能用大模型的语义理解做进一步的阅读理解工作。此外,它还要解析没有边框或是有各种复杂嵌套的表格等。在现实应用中,对各种各样的文档资料进行理解与分析是其中难点。
在许多实际应用场景中,想要实现大模型智能化处理长文本,其长文本关键信息抽取任务是很多应用的前置任务。如在企业内部,合同合规审查中,合同中的关键信息抽取如果错误或遗漏,则会导致后续的审核结果出现错误,造成很大的风险。
“其实,我们这个行业碰到的大的问题就是训练标注量少。”纪达麒介绍,信息抽取任务通常被看作是序列标注问题,虽然在一些领域基于成熟的标注数据,信息抽取已经取得较好的效果,但在一些垂直领域,尤其是实际业务场景下,往往由于字段类型的不同及标注数据量少的原因,效果不是很好。
迁移学习是提升小数据集模型效果的重要手段之一。在机器学习中,迁移学习可以利用已有的数据,在新领域小数据训练集上取得更好的效果。“以合同审核为例,我们的‘曹植’大模型在某大型航空公司上线半年里,帮助他们发现了700多万元的合同风险。”纪达麒透露。
“长文本”是“曹植”大模型的目标任务。在WAIC2023发布会现场,陈运文接受采访时曾强调,“曹植”大模型的能力不是问答,而是写报告,它的界面是完全针对写报告这种应用场景来定制的。
区别于一问一答的简单短文本生成,“曹植”大模型可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,同时具有自动排版、智能纠错、文本润色、自动生成摘要等特色功能;还可实现多模态内容生成,比如长文档中的表格、图表、图片等;支持中文、英文、法语、德语、日语、韩语等数十种语言的写作,辅助人工大幅提高办公效率;在长文档翻译方面,对原文的标题、段落等内容实现1:1版式还原,提供实时的翻译体验,广泛应用于多语言文档密集处理的场景。
这也是国内大规模语言模型中首批可落地的产业应用级模型,目前已在金融领域AIGC多场景投入应用。基于“曹植”系统,“曹植”大模型进一步夯实了达观数据产业应用智能化基座,全面增强AI全产品矩阵能力。
相比通用大模型,企业采用“曹植”大模型所需的参数少,私有化部署需要的显卡资源便少,具有明显的成本优势,更容易进行私有化部署。
据悉,训练ChatGPT通常需要数千张价值万元的顶级GPU同时运行,才能训练完毕,其费用高昂。但参数更少的“曹植”大模型仅需要数百张,甚至数十张GPU就能达成训练目标。
“以ChatGPT3为例,‘曹植’大模型的参数规模可以缩小到它的十分之一。”纪达麒介绍,参数更小相当于算力需求更小,那么算力的成本也就越小。
结合精准数据和低算力成本,“曹植”大模型反而可以达成更好的效果。针对不同行业、领域的文案需求,“曹植”大模型可进行深度优化和个性化定制。如根据实际的办公应用场景,达观数据将把“曹植”大模型设计成一个个解决办公痛点的产品,更好地提升日常办公的效率。同时,赋能原有产品,使得已有产品的效能再上新台阶。换句话说,未来,达观数据可以比较快速地切入很多应用场景。