根据阿里云智能首席技术官周靖人介绍,听悟集成了阿里最先进的语音和语言技术。其内置阿里新一代工业级语音识别模型,识别准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对 10 人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确与要点完备性国内领先,支持跨多音视频内容的精准问答理解。
事实上,通义听悟的前身是阿里云内部一个名为“听悟”的产品,主要功能包括实时会议、音频转写功能,“听悟”自2022年年底就开始小范围内测。而如今,在阿里云通义千问大模型的加持下,通义听悟成为了人们工作学习的AI助手,从会议讨论、教学培训到调研访谈,通义听悟都能极大提高人们工作效率。
“打工人”的好帮手
通义听悟具有极强的工具属性,而在看重软件生产力的办公领域,能够帮助“打工人”自动做笔记、提取PPT、整理访谈的通义千悟自然一亮相就受到大众的高度关注。目前通义千悟提供小程序和PC网页两个使用途径,其中,移动端通义听悟界面设计相对简单,提供“上传手机音频视频”“实时记录”“权益加油站”三个选项,通常简单的会议记录喜欢用手机直接做“实时记录”,不过遗憾的是通义听悟建议在PC端体验更多功能,这意味着手机端更多的操作还是以“上传手机音视频”为主。
上传之前,通义听悟会让用户选择“转写语言”及是否“区分发言人”,提前做好预设之后,明显能更准确地获得文字转写记录。而在选择上传内容界面,让笔者比较惊喜的是除顶部工具条按照“图片”“音频”“视频”“文档”做了分类,方便用户选择本地文件外,用户还可以打通第三方应用提取音视频文件。
比较有意思的是通义听悟自身介绍时表示可以打通同阿里云盘的内容关联,但在移动版通义听悟内容选择界面,其加入了“中国移动云盘”这一选项。笔者尝试点击“中国移动云盘”后发现,能很好地识别网盘里面的内容,但是无法提取文件。
顺带尝试了一下“录音机”发现同样无法提取,而显示的是系统“录音机”功能界面,但即便是录音却也无法导入,从测试结果看,移动版通义听悟在第三方应用兼容上还有待提升。转而尝试PC版通义听悟。
登录通义听悟官方网站(tingwu.aliyun.com)后,用户使用手机号即可。进入首界面之后比较直观的就是“开启实时记录”和“上传音视频”两个选项,点击“开启实时记录”后即可开始录音。
在点击“开始录音”按钮以前,用户可以和移动版一样选择“转写语言”和“翻译”,点击“开始录音”按键后,通义听悟会开始工作。PC端的通义听悟在语音编辑这块带给笔者极大的惊喜。用户停止同步录音后,会跳转到编辑界面。左侧为智能总结界面,非常清晰地展示“关键词”“全文概要”等内容,用户也可以手动进行编辑。
而在左侧的编辑界面中,用户可以利用PC键盘进行高效编辑,而且还可以直接插入图片、表格等元素,在功能上完全可以和部分轻办公的在线文档一较高低。除了高效编辑功能的搭载外,通义听悟在顶部快捷工具栏上还设置了翻译、高亮标注、AI实验室等功能。
相对于人们熟悉的高亮标注、翻译功能,AI实验室提供“发言人区分”“问题回顾”“待办事项”等细分功能,开启这些功能后,智能算法会根据自己的理解对本次记录中的内容进行标注与分类。完成一系列操作之后,用户可以点击界面左侧边栏,选择导出文件,除文字内容可以以doc\pdf\srt等多种格式导出外,笔记、音频文件也可以按用户需求进行导出。
除强大的编辑功能外,多人访谈的录音转文字应用也是通义听悟的一大特色,其能自动根据语音对文字内容进行分类,让用户能够对多人会议或者电话采访录音进行高效转录及整理。
学生群体的一对一私教
随着远程教育的发展,网课资源变得格外丰富,不过动辄数百小时的视频课程,虽然直观生动地对知识点进行了讲解,可对于中高年级学生而言,一些难度相对较低的课程,文本形式的内容获取方式更为高效,而较难的内容,配合文本概要,同样能起到事半功倍的效果。
通义听悟可以实现学习视频的批量转写,帮助用户轻松掌握学习秘籍。打开「上传音视频」功能,选择「上传本地音视频文件」并上传,即可生成课程记录。最棒的还是PC版通义听悟打通了同阿里云盘的链接,可以选择「导入阿里云盘文件」并上传。
初次使用需要用户先绑定阿里云盘账号,用户通过手机APP扫码、账号密码或手机验证码等多种方式登录并同通义听悟绑定阿里云盘账号。完成绑定后会弹出文件目录让用户选择,文字分级菜单让用户选择起来非常方便,而右上角也提供“音频”“视频”两个选项也为用户筛选提供了便利。
通义千悟在内容识别整理方面绝对是令人惊喜的,其播放课程视频,文字与视频进度可以实现一一对应,用户可以点击文字跳转进度,随心切换感兴趣的内容。以左侧工具栏中的“关键词”为例,用户点击相应关键词之后,视频也会相应的滚动到相应的部分,而内容框也会出现该视频内容的文字翻译,为用户提供最详细的内容拆解。
通义听悟非常强悍的是它会为用户总结全文概要、章节速览,方便学生了解课程要点,回顾讲解片段。对于网课学生而言,这样的整理能够为用户节省下大量笔记时间,进而让学生在网课过程中更集中注意力在课程内容本身。
除全程记录课程要点外,通义听悟更难能可贵的是支持问题回顾。用户打开通义听悟实验室,开启问题回顾,即可查看课程中的答疑内容。
而有了详细的原文内容之后,用户就可以在通义听悟里面进行原文内容的重点标准,让学习和复习效率更高。同时,通义听悟支持中英互译,在顶部翻译功能入口,开启翻译即可。可以选择双语显示/只看译文。
最受学生好评的还是笔记整理功能,用户可以在右侧笔记中,记录核心知识点,将课程原文一键摘取至笔记中。在该功能的加持下,几小时的课程,往往只需5分钟即可完成笔记。而这一系列操作都可以在通义听悟右侧文本编辑界面中完成,而每完成一个课程的笔记本整理后,即可点击页面左侧「导出」按钮,可以将转写结果、笔记等内容导出至本地或阿里云盘。你可以选择需要的文件格式。