通义听悟诞生背后，AI大模型打响应用第一枪

AI应用信息1年前 (2024)发布 XIAOT

2023年伊始，ChatGPT的爆火出圈，迅速引发了业界对于生成式AI应用的关注，AI 大模型的竞争更是愈演愈烈。

作为参与其中的重要玩家，阿里云先是在4月11日举行的阿里云峰会上，推出了通义千问大模型。紧接着6月1日，阿里云宣布通义大模型进展，聚焦音视频内容的AI新品“通义听悟”正式上线，成为国内首个开放公测的大模型应用产品，这意味着阿里云大语言模型，又向前端应用迈进了一大步。同时其基于AI大模型应用的发布，也相当于给当前纷争正劲的“大模型混战”，掷下了一枚重磅炸弹。

千模大战一触即发

近几个月，随着微软、谷歌、亚马逊等硅谷大厂，纷纷公布大模型及AIGC进展，通过AI搜索引擎、AI办公软件等一系列应用打响AI竞赛，国内互联网云大厂也陆续全军出击了。不只是大厂就连很多初创企业，VC/PE机构、各行各业巨头，都涌入了AI大模型赛道，试图从中分一杯羹。据不完全统计，目前公布推出AI大模型计划的大企业，不下于50多家，其他参与者更是不计其数。

从格局上来看，以“BATH”等为代表的互联网科技公司，凭借场景、算力、全栈技术能力等综合实力，稳居行业第一梯队；而处于二线的重要行业企业，如商汤科技、中国电信、京东、360等，则借助其在相关领域的影响力，位列行业第二梯队；紧随各行业巨头之后的是，包括美团联合创始人王慧文、前搜狗CEO王小川等在内的各路知名创业者，他们有认知、有机构加持和相关背景，但由于还处于初始阶段，因此在AI大模型混战中暂居第三梯队。

从分类上来看，围绕通用大模型以及专用大模型，各个企业都有自己的定位和分工。根据业内人士介绍，目前国内大模型主要可以分为两类：一类是对标GPT的通用大模型，聚焦基础层的公司，如阿里、百度等公司；另一类是在开源大模型基础之上训练垂类大模型，聚焦垂直行业的企业，如应用于金融、医疗、交通等领域的垂类大模型。由于前者的技术要求高、成本大，因此当前很多行业已经开始基于自身的情况，纷纷采取与通用大模型企业合作的方式，来训练适合自己行业的垂类大模型了。

从产业链上来看，算力厂商、云服务厂商、前端应用厂商都有参与，体系完整、联系紧密且范围宽广。目前包括算力厂商英伟达、云服务厂商阿里云，前端应用厂商如金山办公、用友网络、云从科技等，都在积极参与AI大模型的技术研发和场景落地。总之，当前围绕AI大模型的混战正在陡然升温。

通义听悟打响大模型应用第一枪

而从AI大模型涉及的层面来看，主要可以分为应用层、模型层、框架层和芯片层等四个层次，而目前市面上大部分公司都还在模型层，深一点的涉及到框架层和芯片层的研究，前端应用目前业内还没有。作为业内首个公测的大模型应用产品，通义听悟的示范作用极为明显。

一方面，相比底层技术，靠近应用前端的技术价值将更具想象空间。纵观所有的技术演变历史不难发现，技术的价值核心在于应用普及程度，以及对用户问题解决的程度。正因为如此，承担这一职责和使命的前端应用，往往具备更大的想象空间。

以6月1日阿里云推出的通义听悟为例，它通过接入阿里的通义大模型，其作用已经不仅仅是简单的具备音视频转写的工具了，而是已经成为帮助人们在音视频场景之下的高效AI助手了。它为人们提供自动做笔记、整理访谈、提取PPT等多种办公服务，而且能够实现音视频转化成图文内容、分章节摘要和总结全文观点等能力，具备了“类人”的高效检索分类能力。

此外，在细分场景中，它还具备不少“宝藏”功能，比如可以打开Chrome插件，外语学习者和听障人士，可以借助双语悬浮字幕条随时随地看无字幕视频，日程冲突时，听悟还可成为职场人士的“开会替身”，在静音情况下入会AI可代为记录会议、整理要点；转写结果可下载为字幕文件，方便新媒体从业者视频后期制作；听悟梳理的问答回顾可以让记者、分析师、律师、HR等群体整理访谈更高效。总之，在解决具体场景问题的能力上，它已经超出了现有音视频应用的能力范畴，也刷新了以往用户体验的上限，必将在业内掀起不小的风浪。

另一方面，从阿里云自身来说，通义千问大模型刚刚对外推出不久，就能够迅速推出基于AI大模型的技术应用，说明阿里云AI大模型的确已经比较成熟，具备了衍生AI应用的能力。

从模型层到应用层，从AI大模型到大模型应用的诞生，看似简单实则实现起来并不容易。通常来说，垂类应用是依托于通用大模型这个技术底座来实现的，撇开通用大模型的话，这些通常无法实现，而这要求其所依托的通用大模型本身是足够成熟的，否则其很难推出相对好用且超出现有产品能力的应用。拿通义听悟来说，其所呈现的技术实力，在业内并不是所有玩家都有的。

全体系AI基础设施成决胜关键

从AI大模型本身所需要的动轧千亿的参数训练要求来说，其推进的难度和复杂性可能远超外界想象。长远来看，具备全栈AI大模型技术能力和基础设施能力的企业，才能够走得更远。

一来，由于生成式AI的发展速度远超外界预期，任何单一环节的进步对整体的大模型训练促进作用有限。据OpenAI测算，自2012年以来，全球头部的AI模型训练算力需求，3-4个月翻一番，每年增长幅度高达10倍。但根据摩尔定律，芯片计算性能每隔18-24个月才能翻一番，也就说是芯片性能远远跟不上AI大模型的发展要求。具体到相关领域来说，基于CPU的计算体系，难以满足大模型训练之下，高带宽、低时延的网络传输要求，这些问题的解决，依靠单一的“堆砌算力”很难短期内见效，并且可能并不经济，必须借助来自算法、算力、框架等多层次的整体系统支持，才能更好地应对这种变化。

二来，由于发展通用大模型所需要的算力需求大、推理训练成本高、数据量要求高，导致其本身的门槛非常高，不具备全栈大模型研发、场景落地能力、生态开放能力的公司，很难保持较快的更迭速度，很容易被淘汰出局。据业内人士分析，要做成一个成功的可对外商业化输出的通用大模型，需要厂商拥有全栈大模型训练与研发能力，业务场景落地经验、AI安全治理举措，以及生态开放性等核心优势，而一般的企业很难完全具备这些能力。

而阿里云作为亚洲第一、全球第三的云计算服务商，其拥有国内最强的算力支撑体系。比如，阿里云飞天云操作系统，可实现单集群10万台规模、千亿文件数运算能力，其飞天智算平台可实现千卡并行效率达到90%，自研网络架构可对万卡规模的AI集群，提供无拥堵、高性能的集群通讯能力，阿里云自有的深度学习平台PAI，可以将计算资源利用率提高3倍以上，AI训练效率提升11倍，推理效率提升6倍。另外，阿里云还牵头建立了国内最大规模的AI模型服务社区“魔搭”，降低大模型开发成本、助力AI普惠；算法方面，阿里在语言以及多模态能力、超大模型、通用统一模型等多个技术维度，处于国内第一梯队，这都是阿里通义大模型能够迅速“出圈”的核心原因。

三来，从商业可能性来看，拥有全体系AI基础设施能力的公司，在MaaS（模型即服务）到来之后拥有更大的商业价值，在市场竞争方面会有更大的“回旋余地”。以阿里云为例，其后期既可以通过提供通用大模型服务，获取平台服务费；也可以出租算力和推训平台，赚取租金，变现路径相对更多，在市场竞争中可以根据情况灵活调整产品定价，以应对经营挑战。

产业迎来AI惠普时代

随着AI大模型应用的诞生，以深度AI普惠为特征的全新时代，也在逐渐拉开帷幕，AI深度嵌入产业实体，将成为不可逆转的行业趋势。

一方面，通用大模型的高门槛和广泛的垂类领域差异化需求，决定了基于通用大模型的专属大模型和产业应用，会成为未来主流的应用方向，推动AI加速进入千行百业。正如前文所述，通用大模型的高门槛，决定了国内外能够做成通用大模型的公司只是少数，而且随着AI模型变大，AI产业正从“手工作坊”组成的轻工业走向集约化生产，需要高性能、低成本的体系化基础设施，才能完成工业化生产。

这种能力不仅很多中小企业没有，即便是对于各行业头部企业，从0到1优化大模型训练，本身也并不经济，各行各业都需要成本足够低的AI基础设施。而且对于现有的厂商而言，继续加入这个领域“重复造轮子”并无多大必要。相比之下，垂类大模型本身的训练成本相对较低，而且一些专业领域拥有丰富数据场景的公司，做垂直大模型条件更好、数据质量更优，推出的产品更能够适应垂类行业需求，因此未来各类垂类行业GPT，或将成为主流大模型应用，推进AI迅速渗入产业。

另一方面，发展AI大模型的短期瓶颈是算力，长期来看是数据，因此高质量的前端应用有助于加速企业积累充分的数据资产，增强自身长期竞争力，加速产业应用普惠进程。当前来看，大模型的迅速迭代和进化，迫使所有的参与玩家不断累积算力资源，从芯片、云服务等各方面来优化配置，保证大模型训练所需要的算力支持。不过，从更长远来看，训练AI大模型的算法还在不断优化调整之中，未来随着算法的突破，算力可能不再是瓶颈，而高质量的数据资源将成为一种稀缺的资源，会受到更多关注。

作为业内首个基于AI大模型的应用，通义听悟的面世，有利于阿里加速积累优质数据资源，加速产业普惠进程，为更长期的发展奠定良好基础。