“曹植”诞生记,且听达观数据CTO纪达麒的讲述

AI应用信息11个月前发布 XIAOT
94 0
“曹植七步成诗。作为建安七子之一,他写的最著名的篇章《洛神赋》就是古代文学作品里典型的首屈一指的长文本。这也是‘曹植’大模型的专长,做长文档资料智能化的分析写作工作。”2023年世界人工智能大会(以下简称“WAIC2023”)上,达观数据有限公司(以下简称“达观数据”)董事长陈运文正式发布“曹植”垂直领域大语言模型(以下简称“曹植”大模型)时如此介绍道。

这是国内首个垂直行业专用的自主可控的国产GPT大语言模型,可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,未来将实现多模态内容生成,如长文档中的表格、图表、图片等。

电梯停靠在5楼,到达达观数据办公区。一面高3米、长10米的深灰色企业文化墙吸引了记者注意。从中国文字起源、文字演化发展历程,到现代文字的编码与处理、人工智能处理文本、ChatGPT等,详尽的介绍以白金相间的大字印在墙面上。

“曹植”诞生记,且听达观数据CTO纪达麒的讲述
成立于2015年的达观数据成长于上海浦东软件园,其创始团队都是与中国文字打过十几年交道的程序老兵,并深耕于NLP自然语言处理)领域。八年间,达观数据在金融、政务、制造等行业积累了垂直领域的大量数据、人才与NLP行业技术。今年3月,随着垂直、专用、自主可控的国产版ChatGPT“曹植”大模型的发布,达观数据正不断推动着NLP技术向不同行业领域深度结合。

Part. 01

以迁移学习攻破长文本关键难题

自然语言处理(NLP,Natural Language Processing)被誉为AI皇冠上的明珠。从互联网拓宽至更广泛行业,达观数据在金融、政务、制造等行业积累了垂直领域的大量数据、人才与NLP传统架构。达观数据联合创始人、CTO纪达麒与来自金融、政务、制造等行业的客户进行了广泛的交流后,逐渐发现NLP技术在办公文档方面有着广阔的应用前景。

2017年,谷歌发表论文《Attention is all you need》,提出了NLP关于“理解”和“生成”的两个技术路线,开启了NLP的新篇章。

“基于达观数据当时的优势资源和未来发展,我们一开始就选择了‘理解’这条技术路线。”纪达麒告诉记者,“相比较生成,理解这条技术路线在当时来看更容易落地。”

“曹植”诞生记,且听达观数据CTO纪达麒的讲述
达观数据联合创始人、CTO纪达麒

这一年,纪达麒和研发团队运用知识图谱、文字识别等技术开发的IDP智能文档审阅系统进入市场。从技术到产品需要解决的最大难题便是“跨越理解客户需要的鸿沟”。

“我们要去理解客户需要,然后转化为应用场景,进而翻译为技术问题,最后实现相关的功能模块。”纪达麒解释。彼时,达观数据曾聘请数十名行业专家,充当客户与程序员之间的“翻译员”,尝试解决这一难题。

随着人工智能的不断发展,机器智能处理长文本的需求日益紧迫。随后,达观数据便投入到大语言模型(LLM,Large Language Model)的开发工作中,纪达麒担任该项目总负责人。这就是如今的“曹植”大模型诞生的起点。

“想要让一个大模型真正能够处理长文本,它需要聪明地应对多模态的内容,同时能够对复杂的结构元素进行理解和分析。”陈运文曾如此强调大语言模型的难点。

以分析证券领域的研报为例,计算机要像人类般智能,充分理解每个版面的区域含义、板块分布,然后才能用大模型的语义理解做进一步的阅读理解工作。此外,它还要解析没有边框或是有各种复杂嵌套的表格等。在现实应用中,对各种各样的文档资料进行理解与分析是其中难点。

在许多实际应用场景中,想要实现大模型智能化处理长文本,其长文本关键信息抽取任务是很多应用的前置任务。如在企业内部,合同合规审查中,合同中的关键信息抽取如果错误或遗漏,则会导致后续的审核结果出现错误,造成很大的风险。

“其实,我们这个行业碰到的大的问题就是训练标注量少。”纪达麒介绍,信息抽取任务通常被看作是序列标注问题,虽然在一些领域基于成熟的标注数据,信息抽取已经取得较好的效果,但在一些垂直领域,尤其是实际业务场景下,往往由于字段类型的不同及标注数据量少的原因,效果不是很好。

迁移学习是提升小数据集模型效果的重要手段之一。机器学习中,迁移学习可以利用已有的数据,在新领域小数据训练集上取得更好的效果。“以合同审核为例,我们的‘曹植’大模型在某大型航空公司上线半年里,帮助他们发现了700多万元的合同风险。”纪达麒透露。

“曹植”诞生记,且听达观数据CTO纪达麒的讲述
Part. 02

“培养”出人工智能版“曹植”

“我们想‘培养’出人工智能版的‘曹植’,希望它能像我国的历史名人曹植一样快速地生成长文本。”提及“曹植”大模型这一名称的由来,纪达麒笑着说,“这是我们员工在四五十个名字中票选出来的。”

“长文本”是“曹植”大模型的目标任务。在WAIC2023发布会现场,陈运文接受采访时曾强调,“曹植”大模型的能力不是问答,而是写报告,它的界面是完全针对写报告这种应用场景来定制的。

区别于一问一答的简单短文本生成,“曹植”大模型可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,同时具有自动排版、智能纠错、文本润色、自动生成摘要等特色功能;还可实现多模态内容生成,比如长文档中的表格、图表、图片等;支持中文、英文、法语、德语、日语、韩语等数十种语言的写作,辅助人工大幅提高办公效率;在长文档翻译方面,对原文的标题、段落等内容实现1:1版式还原,提供实时的翻译体验,广泛应用于多语言文档密集处理的场景。

这也是国内大规模语言模型中首批可落地的产业应用级模型,目前已在金融领域AIGC多场景投入应用。基于“曹植”系统,“曹植”大模型进一步夯实了达观数据产业应用智能化基座,全面增强AI全产品矩阵能力。

“曹植”诞生记,且听达观数据CTO纪达麒的讲述
“垂直、专用、国产化”是“曹植”大模型的三个特点。“曹植”大模型在生成垂直领域的专业内容方面,如法律文书、红头文件和研究报告等,更具优势。众所周知,专利、合同、客户等数据属于商业机密,若放在公共服务器会有隐私泄露的风险。为了保护数据隐私与安全,企业更需要进行本地的私有化部署

相比通用大模型,企业采用“曹植”大模型所需的参数少,私有化部署需要的显卡资源便少,具有明显的成本优势,更容易进行私有化部署。

据悉,训练ChatGPT通常需要数千张价值万元的顶级GPU同时运行,才能训练完毕,其费用高昂。但参数更少的“曹植”大模型仅需要数百张,甚至数十张GPU就能达成训练目标。

“以ChatGPT3为例,‘曹植’大模型的参数规模可以缩小到它的十分之一。”纪达麒介绍,参数更小相当于算力需求更小,那么算力的成本也就越小。

结合精准数据和低算力成本,“曹植”大模型反而可以达成更好的效果。针对不同行业、领域的文案需求,“曹植”大模型可进行深度优化和个性化定制。如根据实际的办公应用场景,达观数据将把“曹植”大模型设计成一个个解决办公痛点的产品,更好地提升日常办公的效率。同时,赋能原有产品,使得已有产品的效能再上新台阶。换句话说,未来,达观数据可以比较快速地切入很多应用场景。

    © 版权声明

    相关文章