Spark TTS：基于大型语言模型的文本转语音模型

Spark-TTS 是一个先进的文本转语音系统，利用大型语言模型（LLM）的强大功能，实现高度准确和自然的声音合成。它被设计为高效、灵活且强大，适用于研究和生产用途。

Inference Overview of Voice Cloning

spark tts infer voice cloning

Inference Overview of Controlled Generation

spark tts infer control

立即体验 Spark TTS 立即体验Text to Speech

立即免费体验 Spark TTS

几分钟内使用 Spark TTS 生成您的第一个 AI 语音克隆。体验零样本语音克隆和多语言支持。

使用 Spark TTS 即表示您同意我们的服务条款和隐私政策。

立即免费体验Text to Speech

探索GPT-4o Mini TTS的强大功能，用于生成类似人类的语音。 Also available at Minitts.io.

Input Text *

0/500 characters

Instructions (Optional)

0/1000 characters

Voice

Speed

Format

Spark TTS：高效灵活的文本转语音系统

Spark TTS 是一个由大型语言模型驱动的先进文本转语音系统，支持零样本语音克隆和多语言语音合成。它通过直接从 LLM 预测的代码重建音频，简化了语音合成过程，并提供自然流畅的语音结果。Spark TTS 支持中文和英文，通过调整性别、音高和语速等参数提供可控的语音生成，适用于研究和生产环境。

🚀

Spark TTS 的高效率

Spark TTS 完全基于 Qwen2.5 构建，无需额外的生成模型（如 flow matching）。它直接从 LLM 预测的代码重建音频，简化了流程并提高了效率。

🎵

Spark TTS 中的零样本语音克隆

Spark TTS 支持零样本语音克隆，这意味着即使没有该声音的特定训练数据，它也可以复制说话者的声音。这非常适合跨语言和代码切换场景。

💡

Spark TTS 的双语支持

Spark TTS 支持中文和英文，并能够进行跨语言和代码切换场景的零样本语音克隆，使模型能够以高度自然和准确的方式合成多种语言的语音。

🌐

Spark TTS 的可控语音生成

Spark TTS 支持通过调整性别、音高和语速等参数创建虚拟说话者。

📝

Spark TTS 的高质量语音合成

Spark TTS 能够在低比特率下实现高保真语音重建，提供自然流畅的语音合成结果。

🎶

Spark TTS 的灵活性和易用性

Spark TTS 提供 Web UI 和 CLI 界面，支持多种操作系统，安装和部署简单，易于集成到各种应用场景中。

探索 Spark TTS 资源

探索我们的代码库、模型和文档，开始使用 Spark TTS。

🔗

GitHub

访问我们的源代码，做出贡献，并随时了解最新进展。

🤗

Hugging Face

下载我们的预训练模型，并在 Hugging Face 上直接试用。

📚

文档

通过我们全面的文档了解如何使用 DiffRhythm。

Spark TTS 常见问题 (FAQs)

有其他问题但找不到答案？请发送电子邮件联系我们的支持团队，我们会尽快回复您。

什么是 Spark TTS，它是如何工作的？

Spark TTS 是一个由大型语言模型（LLM）驱动的先进文本转语音系统。它利用 Qwen2.5 模型直接从预测的代码重建音频，无需额外的声学特征生成模型。这种简化的方法提高了效率，并提供了高质量、自然的声音合成。

Spark TTS 的主要特性是什么？

Spark TTS 提供以下几个主要特性：通过直接音频重建实现高效率，无需特定训练数据即可复制声音的零样本语音克隆，中文和英文的双语支持，通过可调参数（性别、音高、语速）实现可控的语音生成，具有自然流畅结果的高质量语音合成，以及 Web UI 和 CLI 界面的灵活性。

如何安装和使用 Spark TTS？

您可以通过从 GitHub 克隆存储库并按照提供的安装指南来安装 Spark TTS。安装完成后，您可以使用命令行或 Web UI 执行语音克隆和语音合成任务。

Spark TTS 是否支持自定义声音？

是的，Spark TTS 允许您通过调整性别、音高和语速等参数来创建自定义声音。这种可控性使得能够为各种应用生成多样化和定制的虚拟说话者。

Spark TTS 的语音合成质量如何？

Spark TTS 即使在低比特率下也能提供高保真语音合成。它产生自然流畅的语音，与人类的语音模式非常相似，适用于需要高质量音频的应用。

Spark TTS 可以处理多种语言吗？

是的，Spark TTS 支持中文和英文。它可以无缝地在语言之间切换并保持自然的语音合成，使其成为多语言应用的通用工具。

Spark TTS 适合商业用途吗？

Spark TTS 被设计为高效、灵活且强大，适用于研究和生产环境。其高质量的语音合成和可控特性使其成为语音助手、内容创作和客户服务解决方案等商业应用的宝贵工具。

运行 Spark TTS 的系统要求是什么？

Spark TTS 可以在安装了 Python 3.8 或更高版本的系统上运行。为了获得更快的推理速度，建议使用支持 CUDA 的 GPU。具体要求可能因特定用例和操作规模而异。

如何优化 Spark TTS 的性能？

要优化 Spark TTS 的性能，请确保您拥有正确的硬件设置，例如兼容的 GPU。此外，请仔细按照安装指南进行操作，并利用提供的配置选项根据您的特定需求定制系统。

在哪里可以找到有关 Spark TTS 的更多信息和资源？

您可以访问官方 Spark TTS 网站 https://sparkaudio.github.io/spark-tts/ 获取详细的文档、演示和资源。GitHub 存储库 https://github.com/SparkAudio/Spark-TTS 也包含源代码和其他信息。