达观数据宣布研发国产版GPT模型“曹植”系统

AI应用信息1年前 (2024)发布 XIAOT

今年以来，最火热的人工智能工具无疑是ChatGPT。ChatGPT是自然语言处理（NLP）下的AI 大模型，其出现带动的大模型热潮，扑面而来，包括谷歌、微软、百度、阿里、腾讯、字节在内的多个大厂争相布局。在浦东，不少创新企业也开始发力。

记者最新从浦东人工智能创新企业——达观数据获悉，基于多年文本智能技术积累和垂直领域场景业务经验，该公司研发团队正在积极探索大语言模型（LLM）的实践，研发国产版GPT“曹植”系统，作为垂直、专用、自主可控的国产版ChatGPT模型，未来可持续赋能金融、政务、制造等多个垂直领域。这也是国内大规模语言模型中首批可落地的产业应用级模型。

大模型或将成为下一代基础设施

在通用领域，以ChatGPT为代表的生成式大规模语言模型展现出卓越的知识学习和文字创作能力，受到国内外的广泛关注。

近日，在由中国人工智能学会主办，达观数据携手中国人工智能学会自然语言理解专委会、真格基金共同承办，中国信通院云计算与大数据研究所支持的“ChatGPT及大模型专题研讨会”上，开展了一场围绕ChatGPT和大规模语言模型发展应用的“头脑风暴”。

现场，与会专家们一致认为，对于“国产‘ChatGPT’和大模型的发展上，自然语言处理这一方向比起其他领域，跟海外先进企业的差距要小很多。ChatGPT带动了自然语言处理整体上下游以及芯片的思考和发展，某种程度上大模型可能将成为下一代的基础设施，而中国需要有自己的基础模型体系，来保证安全性、并发性、稳定性等问题。

“ChatGPT带来了人工智能技术和应用的新一轮发展热潮，虽然它离通用人工智能的距离还非常遥远，但应充分认识到借助人工智能技术进行分析、理解、生成的道路是正确的。这对于中国乃至全球人工智能企业而言，既是机遇也是挑战。”中国信通院云计算与大数据研究所所长何宝宏表示。

国产模型如何追赶，甚至超越？业内专家认为，在这一过程中需要给国产模型一些时间，一定要远离概念炒作，扎扎实实做出成绩。

“曹植”大模型已获得重要技术突破

一直深耕自然语言处理领域的达观数据再次成为了“先行者”。

ChatGPT本质上是通过超大的统计语言模型，对词语序列的概率分布进行建模，利用上下文信息预测后续词语出现的概率分布，这也突破了目前AI发展的技术瓶颈。而达观数据作为国家级专精特新“小巨人”企业、AI届最高奖“吴文俊“人工智能奖获得企业，一直致力于用AI技术替代大量繁琐的重复性工作，提升金融、政务、制造等行业的运营管理效率，进一步释放劳动力价值。

达观数据董事长兼CEO陈运文表示，“深化大模型在垂直领域的应用，真正把大模型融入到企业的实际业务中，对于商业化和大语言模型研究都具有重要意义。”

本次达观数据的创新突破，将以“曹植”大模型作为支撑，为达观全栈AIGC（AI Generated Content，是指利用人工智能技术来生成内容）智能产品带来革命性效果提升。

例如，达观企业申报材料自动生成，基于达观AIGC智能写作能力，可适配各类材料申报业务场景，基于已有各结构化类数据，快速撰写各类制式和非制式文档，应用于公文、招投标、投行申报文档、法律文书等专业写作场景。

“‘曹植’垂直领域大语言模型将进一步夯实达观产业应用智能化基座，全面增强AI全产品矩阵能力。”陈运文表示，“未来可持续赋能金融、政务、制造等多个垂直领域和通用场景人工智能的落地和发展。”

深耕深度学习语义智能领域十余年，达观数据与北京大学、清华大学、复旦大学等多个高校算法实验室和科研团队建立了深度交流合作机制。在算法方面，达观不断探索GPT3模型的原理验证和垂直行业知识的强化训练，不断提高模型的准确性和实用性。

据悉，目前“曹植”大模型已获得重要技术突破，在垂直领域内的理解和生成的任务上都达到了很好的效果。未来达观数据将建立多个垂直领域的专用语言大模型，为各行业的智能化需求提供更加专业和高效的解决方案。