「通义听悟」能自动做笔记、翻字幕、提取PPT

AI应用信息10个月前发布 XIAOT
233 0
「通义听悟」能自动做笔记、翻字幕、提取PPT

从2023年6月1号到现在,阿里的通义听悟已经上线了2个多月,从最开始使用的需要邀请,到现在注册就能使用,通义听悟的在申请体验使用上获得了长足的进步。

现在我这边的开会和视频文字,使用的就是通义听悟,有相同需求的人,也可以体验下,现在通通免费使用。

第一,可在网页上安装通义听悟的插件,不用在线听,它可以为你一键记录。

「通义听悟」能自动做笔记、翻字幕、提取PPT

第二、在记录完成后,可以为你一键总结出了关键词、全文摘要和学习要点。并且也会根据不同的发言人总结出他讲话的重点,以及提取这个视频中的PPT内容(提取PPT是属于新上线的内容)。

「通义听悟」能自动做笔记、翻字幕、提取PPT「通义听悟」能自动做笔记、翻字幕、提取PPT「通义听悟」能自动做笔记、翻字幕、提取PPT

第三,以当成实时字幕翻译来使用。

「通义听悟」能自动做笔记、翻字幕、提取PPT

第四、听悟已经和阿里云盘打通,存放在云盘中的音视频内容可以一键转写,在线播放云盘视频时还能自动显示字幕。并且在企业版本中,AI整理后的音视频文件将来还可以在内部快速分享。

「通义听悟」能自动做笔记、翻字幕、提取PPT

通义听悟背后技术:大语言模型+语音SOTA

通义听悟主要是接入了通义千问大模型的摘要及对话能力。具体而言,是以通义千问大模型为基座,融合了研发团队在推理、对齐和对话问答等方面的研究成果

首先,如何准确抽取关键信息,是这类神器提升工作效率的关键。这就需要借助大模型的推理能力。

阿里AI团队在2022年提出了基于大语言模型的知识探测与推理利用框架Proton(Probing Turning from large language models)。相关论文发表在KDD2022和SIGIR2023等国际顶会上。

该框架的核心思路在于,探测大模型的内部知识,以思维链为载体进行知识流动和利用。

在通用常识推理CommonsenseQA2.0、物理常识推理PIQA、数值常识推理Numbersense三大榜单上,Proton曾先后取得第一。

在TabFact(事实验证)榜单上,Proton凭借知识分解和可信思维链技术,首次实现了超越人类的效果。

其次,为了确保摘要内容和格式符合用户预期,在对齐方面,听悟还用上了ELHF,即基于人类反馈的高效对齐方法。

该方法仅需少量高质量人工反馈样本,就能实现对齐。在模型效果主观评测中,ELHF能使模型胜率提高20%。

在此之外,听悟背后的研发团队,还发布了首个中文超大规模文档对话数据集Doc2Bot。该团队提升模型问答能力的Re3G方法,已经入选ICASSP 2023:该方法通过Retrieve(检索)、Rerank(重排序)、Refine(精调)和Generate(生成)四个阶段,能提升模型对用户问题的理解、知识检索和回复生成能力,在Doc2Dial和Multi Doc2Dial两大文档对话榜单中取得第一。

除了大模型能力,听悟还是阿里语音技术的集大成者。

其背后的语音识别模型Paraformer,来自阿里达摩院,首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题:

不仅在推理效率上较传统模型提升10倍,刚推出时还“屠榜”多个权威数据集,刷新语音识别准确率SOTA。在专业第三方全网公共云中文语音识别评测SpeechIO TIOBE白盒测试中,目前,Paraformer-large仍是准确率最高的中文语音识别模型。

「通义听悟」能自动做笔记、翻字幕、提取PPT

大模型开卷,用户受益

据中国科学技术信息研究所报告,据不完全统计,目前国内已经发布了79个大模型。

这种大模型开卷的趋势下,AI应用进化的速度再次进入到一个冲刺阶段。

站在用户的角度来说,喜闻乐见的局面正逐步形成:

大模型的“统筹”之下,各种AI技术开始在应用侧百花齐放,使得工具越来越高效,越来越智能。

从一个斜杠就能帮你自动写完工作计划的智能文档,到快速帮你总结要素的音视频记录和分析工具,生成式大模型这朵AGI的火花,正在让越来越多的人感受到AI的魔力。

与此同时,对于科技企业来说,新的挑战和新的机会,无疑也已经出现。

挑战是,所有产品都将被大模型的风暴席卷,技术创新已经成为了无可回避的关键问题。

机会是,对于新的杀手级应用而言,重写市场格局的时间点已经到来。而谁能拔得头筹,就要看谁的技术准备更充分,谁的技术进化速度更快了。

无论如何,技术开卷,终将是用户受益。

    © 版权声明

    相关文章