ChatTTS – 开源的用于对话的生成式语音合成模型

ChatTTS是一个开源的专为对话场景设计的语音生成模型，特别适用于大语言模型(LLM)助手的对话任务，以及诸如对话式音频和视频介绍等应用。ChatTTS 不仅能说中文，英文也能 hold 住，还支持一些细粒度控制，它允许你加入笑声、说话间的停顿，还有语气词，可玩性很强。它通过使用大约100,000小时的中文和英文数据进行训练，ChatTTS在语音合成中表现出高质量和自然度，实现了自然流畅的语音合成，同时支持多说话人。

一、ChatTTS工具是什么

ChatTTS是一款文字转语音的工具。它专注于将输入的文字转换为自然流畅的语音，以满足用户在多种场景下的需求。它支持多线路的文字转语音操作，这意味着在转换过程中可能有多种转换路径或方式来优化语音输出，提高转换效率和质量。这一工具还提供更多特色，如众多的真人老师配音，可满足使用者对于不同风格配音的需求，并且在普通话、英语、粤语、四川话、东北话、湖南话、台湾话等多个音色上均有很好的支持，适用范围广泛，包含了多种日常用到的语种和地区特色口音，为用户提供更多样化的选择。此外，ChatTTS还有衍生项目ChatTTS – UI，这是一个针对新手操作更加友好的AI文字生成语音工具，通过它可以更便捷地进行文字到语音的转换操作，为不同需求和技能水平的用户都提供了可行的使用方式。

946616d25bec0142d4419be2da4dc3b0

二、ChatTTS工具的功能特点

优质的语音生成
- 高度逼真自然：ChatTTS以生成接近真人发声的语音为主要目标。它通过先进的Transformer架构（以其强大的上下文理解能力和生成质量而著称，特别适合自然语言处理任务）以及大规模预训练技术，使得生成的语音在自然度、音色等方面表现出色。无论是对于中英文还是其他特定的语言文本转换，都能够达到较高的质量标准，不会给人很机械的感觉，特别是在对话场景中表现尤为自然流畅。
- 精确的韵律控制：该工具能够精确预测和精细调控语音中的韵律特征，例如笑声、停顿以及插入语等。这样的能力使其在韵律表达上超越了众多现有的开源TTS模型，能够很好地模拟人类说话时的韵律习惯，让语音听起来更加生动、富有情感和表现力，更加贴合人类日常交流的语音模式。
- 多语言支持：ChatTTS支持多种语言，典型的如中文和英文，部分版本或应用场景下可能还涉及到更多语种。这种多语言支持的特性使得它在全球化的场景下使用时，可以满足不同语言需求的用户。无论是国际商务会议需要进行英文文档转语音，还是中文文学作品的有声制作，都可以用ChatTTS来实现，并且能够较好地处理中英文混合的文本内容，实现无缝切换发音，例如在多语言的语音导航或者跨国交流相关的配音等场景中应用。
丰富的个性化设置
- 多音色选择：除了之前提到的多种口音之外，在发音人的选择上也有很大的灵活性。可以选择不同的说话风格，例如可以是正式的播音风格，也可以是比较轻松活泼的风格，适用于各类场合，满足不同内容创作的风格要求。例如广告促销场景可能需要一种比较富有激情的音色风格，而有声阅读则可能更适合温和、舒缓的音色风格。
- 速度等参数调节：用户能够自由调节配音的语速，这一功能在很多场景下非常实用。比如在语言学习中，用户可以将其调节到较慢的速度来仔细听清楚每个单词的发音；而在快节奏的广告或者短视频旁白中又可以提高语速以配合画面的节奏。同时，用户还可以调节发音人的停顿语气，以进一步加强对语音节奏的掌控。
便捷的应用辅助功能
- 海量模板：提供海量的广告模板，种类涵盖广告促销、地摊叫卖、美食餐厅、产品宣传等众多行业。使用者无需在空中构建框架，借助这些模板可以快速地生成相关类型的语音内容，节省创意构思和制作时间，同时这些模板也能保证语音适合特定场景的风格和要求，例如地摊叫卖的语音模板就具有比较高的重复频率和吸引顾客的语调，广告促销的模板则具有强调卖点和优惠信息等特色语音表达方式。
- 导出功能强大：既可以将音频文件导出为MP3格式，方便将音频直接导出至手机、电脑或U盘，以供离线播放等应用场景；也可以导出为MP4格式，这一功能对于手机短视频配音剪辑制作非常有帮助，用户可以轻松地将生成的语音与视频内容进行进一步整合，在各种移动设备上播放视频时不会出现音频不兼容等问题，满足了自媒体人和视频创作者的多样化需求。

三、ChatTTS工具的使用方法

安装使用
- 在线使用：可以直接使用ChatTTS官网在线运行功能，无需安装任何本地程序，直接访问ChatTTS官网即可使用。不过，需要注意在使用官网生成语音时，如果生成50个字左右的语音可能需要22 – 30秒的时间，并且这个时间还可能会因为硬件设备（如显卡性能等）而有所不同。如果显卡性能较好，整个过程会相对快一些。
- 本地部署（多种方式）：
  - 使用一键包：ChatTTS有一键无脑运行包，所有需要的文件和工具都已经集成在一个包内，无需联网及额外配置。在个人电脑上，只需一次点击即可快速启动并使用。下载并解压压缩包后，输入解压密码，然后双击exe即可启动程序，通过直观的WEBUI界面进行操作，操作简单且方便，而且这个包一般遵循了一键运行无脑使用的原则，适合普通用户快速上手。
  - 常规本地搭建（针对有经验用户）：如果想进行常规的本地部署，例如在Windows环境下Win10、Win11的本地部署，可以先克隆仓库（git clone），然后如果是直接安装要求本地有Python环境（但不太建议这种方式，因为可能涉及较为复杂的环境配置）。如果从Conda安装（对于没有安装Conda的用户需要自行搜索安装教程，当然嫌麻烦的用户直接使用一键包即可），按照步骤如创建conda环境（conda create – n chattts python = 3.10），激活环境（conda activate chattts）后，再安装相关需求（pip install – r requirements.txt 等操作）就可以逐步实现本地的安装过程。如果想要开启GPU推理则需要额外按照特定的步骤进行相关软件（如torch相关组件）的安装和代码（如修改chatTTS目录中的core.py 文件中的第124行左右代码等）的调整，但这一过程相对复杂，需要用户有一定的技术基础。
实际操作
- 输入设置：在实际转语音操作中，操作相对很简单。只需打开选定的运行方式（在线或本地化运行后的界面），在输入框输入想要转换为语音的文字内容。要注意如果是复杂的文本内容，比如长文本，目前ChatTTS在处理超过30秒的音频效果可能不佳（可能需要手动修复），并且对于中文标点和阿拉伯数字当前版本可能支持有限（建议转换为读音友好的形式）。输入文本框就像是一个内容源，将所有成语音的“原料”输入进去等待转化即可。
- 参数调整：可以对一些关键参数进行设置，例如可以设置相同的AudioSeed确保重复生成一致的语音（常用于实验和调试场景）；对于文本生成阶段初始化随机数生成器的种子值也可以进行类似调节。通过调整数值可以控制输出的随机性（数值越高，生成的语音越可能包含意外变化；数值较低则趋向于更平稳的输出），还可以通过Top_K来限制模型考虑的可能词汇数量（设置为一个具体数值后，模型将只从这最可能的K个词中选择下一个词）。如果是采用本地部署WebUI或API的方式甚至可以进行更细粒度的控制，比如调整笑声、停顿和口音等更细致的发声效果设置。
- 生成及导出：输入文字并调整好参数后就可以点击生成语音的按钮，然后在短时间内就能得到生成的语音内容。如果需要使用该语音内容进行其他应用，如在没有网络环境下播放，可以利用其强大的导出功能。可将音频根据需求导出为MP3或MP4格式，MP3适合纯音频的场景，可以导出到手机、电脑或者U盘里供离线收听等，MP4则方便在视频剪辑配音场景下使用，直接整合到短视频之中进行后期制作等。

四、ChatTTS工具的优点

优点
- 语音质量高：它以高质量的语音合成效果而著称。生成的语音自然度高，接近真人发声，这是由于采用了如Transformer架构等先进技术和大规模预训练数据。它在发音准确性、语调自然度以及语音连贯性等方面都有较好的表现。无论是简单的单句还是较长的段落，都能较为流畅地转换为语音，不会有明显的机械感，在语音合成方面是较为出类拔萃的，能广泛适用于多种应用场景，如语音助手、有声读物制作等场景。
- 功能丰富多样：
  - 个性化定制：用户可对语音进行多方面的个性化定制。在音色方面有多种选择，并且可以调整发音风格（如主播风格可选）以适配不同内容和使用场景。在速度上能自由调节，从较慢速度用于语言学习到较快速度适应快节奏的促销广播等都可以轻松生成。甚至在韵律方面可调节停顿，并且部分操作还能精确控制一些额外的韵律特征如笑声、感叹词等，另外，还能通过特定方式（如设置种子值等）实现重复生成一致的语音，这对于特定的创意制作或者调试等场景非常有用。
  - 多语言与模板支持：对多语言（典型如中英文）的支持能满足全球化需求。同时海量的广告模板涵盖众多行业领域，节省了用户的创作时间并且保证语音适合对应行业场景，在不同的应用需求区域里都能迅速生成合适的语音方案。
- 简单易用：
  - 安装环节：无论是选择简单的在线使用，还是使用专门的一键包来进行本地部署，总体对于普通用户来说安装和入门难度不大。例如一键包不需要额外配置只需解压和简单操作即可运行，对于一些不太熟悉软件安装和配置的普通用户非常友好。
  - 操作流程：实际操作时只需要输入文字、选择语言和一些基本的参数（如音色等为可选），然后点击生成就能够得到语音，还可以进行导出等后续操作。整个流程简单明了，基本不涉及复杂编程或者过多的理论理解，新用户能够较快地上手使用。
- 广泛的适用性：
  - 应用场景广：从有声阅读，如将小说、杂志、课本、童话等转换为有声读物；到广播类，像学校、企业、车站、机场、商场的广播播音；再到影视类，如广告片配音、影视片配音、专题片配音、动画后期配音等众多领域都能很好地适用。同时在像自媒体视频配音这样新兴的领域也能展现其价值，适配剪映、快影等本地导入功能，满足创作者的快速配音需求。
  - 对不同对象有用：对于创作者来说，可以提高创作效率和作品质量，例如能帮助播客快速生成语音内容；对于普通用户而言，能方便地将文字转化为语音进行收听，如可以将英语读物转化为音频进行英语听力练习等；对于有特殊需求的群体，例如视障人士，可以将网页内容、电子书等文本转化为语音用于信息获取，在不同用户群体中都能发挥作用。
- 开源社区支持（部分版本）：作为开源项目（如ChatTTS的某些版本或衍生项目），可以得到开源社区的支持。开源社区的开发者可以对其进行改进优化，提供丰富的文档和示例代码，这对普通使用者来说，能够借助社区的资源更好地理解和使用该工具；对于开发者则可以在这个基础上进行二次开发，或者改进功能以适应特殊需求等，例如可以根据开源项目提供的预训练模型在此基础上进行进一步的开发与创新应用。

五、ChatTTS工具的应用场景

内容创作领域
- 短视频制作：ChatTTS在短视频制作中是一个非常实用的工具。短视频往往需要旁白来讲解画面内容或者传达某种观点、情感等。创作者可以将写好的旁白脚本输入ChatTTS，选择合适的音色和语速，快速生成旁白语音。例如在旅游类短视频中，创作者用生动的语言描述景点和旅行经历，ChatTTS能将其转换为富有感染力的语音，并且还能通过调整参数适应视频的时长和节奏要求，帮助增加视频的趣味性和信息含量。而且生成的语音可以通过导出MP4功能方便地整合到视频剪辑软件中，完成后期制作。因为其在线使用相对便捷，也为一些突发奇想或者即时创作的短视频制作节省了时间，不需要复杂的设备和软件支持就可以初步得到语音素材。
- 有声读物制作：无论是小说、杂志、课本还是童话等，都可以借助ChatTTS转换为有声读物。对于一些不具备专业配音能力的个人或者小型出版商来说，这是一种低成本、高效率制作有声读物的方式。它可以通过选择合适的音色，如温和舒缓的 voice来营造良好的阅读氛围。而且在一些网络文学流行的当下，将热门小说快速制成有声版有助于满足广大读者的听书需求，同时由于它支持多种语言，也可以为国际化的文学作品提供多语种的有声读物制作可能性，进一步扩大作品的传播范围。
- 广播与播客领域：
  - 广播播音：在学校、企业、车站、机场、商场等场所的广播播音中，ChatTTS可以根据不同场景需求，将预先写好的通知、公告、温馨提示等文字内容转换为语音。例如在学校中可以将上课铃声之后简短的课程通知或者校园活动通知快速转化为广播语音，在企业内可以将会议通知等转换为语音广播给全体员工，车站和机场则可以播报车次和航班等信息，商场可用于促销活动通知等，其多音色和多风格选择能够很好地适应不同场景的严肃性或者活泼性的氛围需要。
  - 播客制作：播客主播可以利用ChatTTS快速生成节目中的语音内容。比如在一些资讯类的播客中，主播可以将准备好的新闻稿件或者评论内容等转换为语音片段，并且根据自己的风格和节目节奏调整语音的语速、停顿等；在访谈类播客中也可以将嘉宾故事或者对话内容转换为语音引入节目。这有助于加快播客制作流程，特别是对于一些单人制作或者小型播客团队来说，可以提高节目产出效率，同时也能保证语音的质量和可听性。
- 影视制作相关：
  - 广告片配音：在广告片制作过程中，从创意脚本出来到最终成品往往需要快速进行配音来呈现整体效果。ChatTTS海量的广告模板可以为广告片配音提供很好的创意起始点，并且能够根据产品类型、目标受众等快速生成相应风格（如时尚、活力、稳重等风格）的语音。例如对于年轻消费群体的时尚类产品广告，可以选择轻快活泼的音色和富有激情的语速进行配音，节省了寻找配音演员的时间和成本，同时也可以快速进行多版本的配音试听对比，提高制作效率和保证最终产品与创意初衷的契合度。
  - 影视片、专题片、动画后期配音：除了广告片外，在影视片、专题片和动画后期配音方面也可以发挥作用。对于一些预算有限或者需要临时修改配音内容的项目，ChatTTS可以快速提供多种选择。例如在动漫制作后期需要对某个角色的台词进行修改补充时，ChatTTS能立即生成合适的语音用于预览或者直接使用（当然根据项目质量可能还需要进一步润色等操作）。它同样可以用于一些纪录片或者专题片的旁白制作，根据不同的主题选择不同风格的语音来配合画面传达信息，也有助于导演或者制作团队在早期创意阶段进行快速概念验证和可行性测试等操作。
教育与学习领域
- 语言学习辅助：对于语言学习者来说，ChatTTS是一个很好的辅助工具。它可以将英语读物或者其他语言的学习资料转换为语音，便于学习者进行听力练习。比如学习者可以将一篇英语文章输入ChatTTS，选择英语为发音语言，然后按照自己的水平调整语速，在听的过程中提升听力理解能力。同时，因为部分版本可以对韵律、停顿进行控制调整，也有助于学习者学习语言中的语音语调规律，尤其是对于一些与母语语音差异较大的外语发音学习有很好的辅助效果。而且在学习一些国际标准语言或者小语种的时候，通过多语言的支持能够方便地获取不同语言类型的学习资源语音版本。
- 教材内容转化：在教育领域，教材很多时候是以纸质或者电子文档的形式存在。ChatTTS可以将教材内容转化为语音版。对于视障学生或者一些更倾向于用听的方式学习的学生来说非常有帮助。例如将课本中的课文、知识点讲解、练习题等转化为语音，学生可以在移动设备上随时随地听学，不受场地和空间的限制，相当于为教育资源提供了更多元化的转化和传播途径，有助于增加教育内容的可获取性和包容性。
日常生活中的应用
- 个人语音助手：可以为个人的智能助手、聊天机器人等设备提供语音输出能力。例如在自己制作或者定制智能语音助手时，利用ChatTTS可以让自己输入的回复内容转换为语音来回应。在日常对话场景下，如果将其与聊天机器人相结合，当用户输入文字内容后，机器人可以以生动的语音形式进行回复，这样可以让交互更加智能、便捷，像是给自己打造一个专属风格的语音交互伙伴，而且即使没有复杂设备，通过在线使用也能快速实现功能。
- 特殊群体辅助工具：对于视障人士或者阅读困难者来说，ChatTTS能够将文本内容直接转换为语音，方便他们获取信息。比如将网页中的新闻资讯、电子书中的内容等快速转化为语音，使他们可以像视力正常者一样方便地获取到这些内容，这在一定程度上提高了特殊群体在信息社会中的参与度和融合度，促进了信息平等的实现给予特殊群体更多的便利和可能性来融入现代信息交流社会。
- 工业领域应用：在工业领域，例如防盗、报警、车辆船舶导航系统的语音录制等场景下，ChatTTS也能发挥作用。它可以将预定义的报警提示语、导航提示等转换为语音，以方便使用。如在车辆导航系统中根据不同的路况、位置信息等输入文本后转换为语音提示，告知驾驶者转向、道路信息等内容，并且可以根据车辆行驶的不同环境（如快速度行驶场景下可能需要简洁明了快速提醒或者在临近复杂路口需要更详细的预告等情况）进行语速、语调等参数调整，使语音能够更好地适应用户的需求来进行信息播报。