「通义听悟」能自动做笔记、翻字幕、提取PPT

AI应用信息1年前 (2024)发布 XIAOT

261 0 40

从2023年6月1号到现在，阿里的通义听悟已经上线了2个多月，从最开始使用的需要邀请，到现在注册就能使用，通义听悟的在申请体验使用上获得了长足的进步。

现在我这边的开会和视频转文字，使用的就是通义听悟，有相同需求的人，也可以体验下，现在通通免费使用。

第一，可在网页上安装通义听悟的插件，不用在线听，它可以为你一键记录。

第二、在记录完成后，可以为你一键总结出了关键词、全文摘要和学习要点。并且也会根据不同的发言人总结出他讲话的重点，以及提取这个视频中的PPT内容（提取PPT是属于新上线的内容）。

第三，以当成实时字幕翻译来使用。

第四、听悟已经和阿里云盘打通，存放在云盘中的音视频内容可以一键转写，在线播放云盘视频时还能自动显示字幕。并且在企业版本中，AI整理后的音视频文件将来还可以在内部快速分享。

通义听悟背后技术：大语言模型+语音SOTA

通义听悟主要是接入了通义千问大模型的摘要及对话能力。具体而言，是以通义千问大模型为基座，融合了研发团队在推理、对齐和对话问答等方面的研究成果。

首先，如何准确抽取关键信息，是这类神器提升工作效率的关键。这就需要借助大模型的推理能力。

阿里AI团队在2022年提出了基于大语言模型的知识探测与推理利用框架Proton（Probing Turning from Large Language Models）。相关论文发表在KDD2022和SIGIR2023等国际顶会上。

该框架的核心思路在于，探测大模型的内部知识，以思维链为载体进行知识流动和利用。

在通用常识推理CommonsenseQA2.0、物理常识推理PIQA、数值常识推理Numbersense三大榜单上，Proton曾先后取得第一。

在TabFact（事实验证）榜单上，Proton凭借知识分解和可信思维链技术，首次实现了超越人类的效果。

其次，为了确保摘要内容和格式符合用户预期，在对齐方面，听悟还用上了ELHF，即基于人类反馈的高效对齐方法。

该方法仅需少量高质量人工反馈样本，就能实现对齐。在模型效果主观评测中，ELHF能使模型胜率提高20%。

在此之外，听悟背后的研发团队，还发布了首个中文超大规模文档对话数据集Doc2Bot。该团队提升模型问答能力的Re3G方法，已经入选ICASSP 2023：该方法通过Retrieve（检索）、Rerank（重排序）、Refine（精调）和Generate（生成）四个阶段，能提升模型对用户问题的理解、知识检索和回复生成能力，在Doc2Dial和Multi Doc2Dial两大文档对话榜单中取得第一。

除了大模型能力，听悟还是阿里语音技术的集大成者。

其背后的语音识别模型Paraformer，来自阿里达摩院，首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题：

不仅在推理效率上较传统模型提升10倍，刚推出时还“屠榜”多个权威数据集，刷新语音识别准确率SOTA。在专业第三方全网公共云中文语音识别评测SpeechIO TIOBE白盒测试中，目前，Paraformer-large仍是准确率最高的中文语音识别模型。

大模型开卷，用户受益

据中国科学技术信息研究所报告，据不完全统计，目前国内已经发布了79个大模型。

这种大模型开卷的趋势下，AI应用进化的速度再次进入到一个冲刺阶段。

站在用户的角度来说，喜闻乐见的局面正逐步形成：

大模型的“统筹”之下，各种AI技术开始在应用侧百花齐放，使得工具越来越高效，越来越智能。

从一个斜杠就能帮你自动写完工作计划的智能文档，到快速帮你总结要素的音视频记录和分析工具，生成式大模型这朵AGI的火花，正在让越来越多的人感受到AI的魔力。

与此同时，对于科技企业来说，新的挑战和新的机会，无疑也已经出现。

挑战是，所有产品都将被大模型的风暴席卷，技术创新已经成为了无可回避的关键问题。

机会是，对于新的杀手级应用而言，重写市场格局的时间点已经到来。而谁能拔得头筹，就要看谁的技术准备更充分，谁的技术进化速度更快了。