AIGC开发平台AI开源项目

Gummy

创新的语音翻译大模型,它通过端到端的设计和深度学习技术,实现了高质量的实时语音翻译。无论是在国际会议、教育培训、旅游导航还是客户服务和医疗咨询等场景中,Gummy都能提供高...

标签:
chatglm
chatgpt
Gummy

Gummy是什么:

Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型,能够实时流式生成语音识别与翻译结果,支持十余种语言的语音输入,并将其翻译成目标语言。

主要特点:

  1. 多语言支持:支持中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等。
  2. 端到端翻译:直接将语音翻译成目标语言,无需依赖中间的文本阶段。
  3. 低延迟翻译:翻译延迟低至0.5秒以内。
  4. 高质量翻译:在多个测试集上取得SOTA的翻译质量结果。
  5. 流式翻译:支持随说随翻,适合实时交流场景。

主要功能:

  1. 多语言混翻:无需指定源语种,流畅地将各国语言翻译至目标语种。
  2. 术语干预:能够根据特定领域或术语进行翻译调整。
  3. 领域提示:支持根据特定领域进行翻译优化。

技术原理:

  1. 端到端设计:简化开发流程并提高系统性能。
  2. 深度神经网络:学习语音到文本的复杂映射关系。
  3. 实时流式处理:实现边听边翻译。
  4. wait & predict机制:自动判断翻译时机,优化翻译质量和延迟。

应用场景:

  1. 实时语音翻译:为国际会议、多语言谈判提供同声传译服务。
  2. 教育和培训:辅助语言学习,提供多语言教学内容的实时翻译。
  3. 旅游和导航:为旅行者提供实时语音翻译。
  4. 客户服务:作为多语言客服助手,提供快速准确的语言支持。
  5. 医疗咨询:提供多语言的医疗咨询翻译服务。

总结:

Gummy是一款创新的语音翻译大模型,它通过端到端的设计和深度学习技术,实现了高质量的实时语音翻译。无论是在国际会议、教育培训、旅游导航还是客户服务和医疗咨询等场景中,Gummy都能提供高效、流畅的翻译服务,帮助人们跨越语言障碍,促进全球沟通。

    相关导航