FishSpeech

AIGC音频工具AI语音生成-文转音

FishSpeech

由 FishAudio 团队开发的开源、先进的多语言文本到语音（TTS）合成项目。它旨在通过结合大语言模型（LLM）技术，提供高质量、多语言的语音合成解决方案。

标签：AI语音生成-文转音

链接直达手机查看

d.design

tusi

FishSpeech

FishSpeech简介

Fish-Speech 是一个由 FishAudio 团队开发的开源、先进的多语言文本到语音（TTS）合成项目。它旨在通过结合大语言模型（LLM）技术，提供高质量、多语言的语音合成解决方案。Fish-Speech 支持零样本文本到语音（TTS）、多语言和跨语言支持，并且具备强大的音色控制和情感表达能力。该项目适用于多种应用场景，包括但不限于语音助手、语言学习工具和内容创作等领域。

FishSpeech主要功能

零样本与少样本 TTS
用户可以通过输入 10 到 30 秒的语音样本，生成高质量的 TTS 输出。
多语言与跨语言支持
支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语等多种语言，用户无需担心语言切换问题。
无需音素依赖
模型不依赖音素进行 TTS，能够处理任何语言脚本的文本。
高精度与快速合成
在 5 分钟的英文文本中，字符错误率（CER）和词错误率（WER）约为 2%，并且在 Nvidia RTX 4060 和 RTX 4090 上分别实现了 1:5 和 1:15 的实时率。
WebUI 和 GUI 推理
提供基于 Gradio 的 WebUI 推理界面，兼容 Chrome、Firefox、Edge 等主流浏览器；同时支持 PyQt6 图形界面，适用于 Linux、Windows 和 macOS 系统。
易于部署
支持在 Linux、Windows 和 macOS 上快速搭建推理服务器，减少速度损失。
端到端集成
自动集成自动语音识别（ASR）和 TTS 部分，无需额外插件，实现真正的端到端语音合成。
音色与情感控制
支持通过参考音频控制语音音色，并能够生成带有强烈情感的语音输出。

FishSpeech主要特点

高精度与低延迟
在多语言文本合成中表现出极高的精度和快速的推理速度，适合实时应用场景。
强大的语言通用性
不依赖音素，能够处理多种语言脚本，无需额外的语言模型支持。
灵活的音色与情感控制
用户可以通过参考音频调整语音的音色和情感表达，提升语音合成的自然度和表现力。
多平台支持
提供 WebUI 和 GUI 推理界面，支持主流操作系统，方便用户根据需求选择使用方式。
开源与开放性
项目开源，支持社区贡献和二次开发，适合开发者进行定制化扩展。
端到端集成
真正的端到端语音合成，无需额外插件，简化了使用流程。

相关导航

TTS-Voice-Wizard

TTS-Voice-Wizard

TTS语音向导是一种工具，允许用户通过微软Azure语音识别和TTS将语音转换为文本，然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项，包括100多种不同的声音，20多种支持的语言，并能够显示歌曲标题，艺术家和用户以上的进度。

iMyFone VoxBox

iMyFone VoxBox

iMyFone VoxBox是一款集多种声音制作功能于一体的AI声音生成器，适合各种使用场景，从视频配音到有声书叙述，再到播客和游戏角色配音等。

FineVoice

FineVoice是一种人工智能数字语音解决方案，可以帮助用户增强声音，并实时改变声音。它配有实时变声器，无限的音频和声音效果，录音室质量的录音机，文本到语音，语音到文本。

讯飞智作-AI配音

AI配音、语音合成、人脸建模、唇形预测、图形处理等，为用户提供的一个音视频生产平台。

Fish Audio

一个专注于生成式人工智能（AI）的文本转语音（TTS）和声音克隆工具。它提供了一个强大的语音代理解决方案，支持多种语言，并且可以快速克隆声音，适用于配音、语音合成等多种场景

LOVO.AI

LOVO AI是一个功能强大的AI语音生成器，它通过提供多样化的语音选项和易用的编辑工具，帮助用户快速创建引人入胜的视频和音频内容。