Spark TTS：基於大型語言模型的文本到語音模型

Spark-TTS 是一種先進的文本到語音系統，利用大型語言模型（LLM）的力量，提供高度準確且自然的語音合成。

Inference Overview of Voice Cloning

spark tts infer voice cloning

Inference Overview of Controlled Generation

spark tts infer control

立即體驗 Spark TTS 立即體驗Text to Speech

立即體驗 Spark TTS

使用 Spark TTS 在幾分鐘內生成您的第一個 AI 語音克隆。體驗零樣本語音克隆和多語言支援。

使用 Spark TTS 即表示您同意我們的服務條款和隱私政策。

立即體驗文本到語音

探索 GPT-4o mini TTS 生成類人語音的強大功能。 Also available at Minitts.io.

Input Text *

0/500 characters

Instructions (Optional)

0/1000 characters

Voice

Speed

Format

Spark TTS：高效且靈活的文本到語音系統

Spark TTS 是一種由大型語言模型驅動的先進文本到語音系統，支援零樣本語音克隆和多語言語音合成。它通過直接從大型語言模型預測的代碼重建音頻，簡化了語音合成過程，並提供自然流暢的語音結果。Spark TTS 支援中文和英語，通過可調整的參數（如性別、音高、語速）提供可控的語音生成，適用於研究和生產環境。

🚀

Spark TTS 的高效率

Spark TTS 完全基於 Qwen2.5，消除了對如流匹配等額外生成模型的需求。它直接從大型語言模型預測的代碼重建音頻，簡化了流程並提高了效率。

🎵

Spark TTS 中的零樣本語音克隆

Spark TTS 支援零樣本語音克隆，這意味著即使沒有特定語音的訓練數據，它也能複製說話者的語音。這對於跨語言和碼切換場景非常理想。

💡

Spark TTS 的雙語支援

Spark TTS 支援中文和英語，並能夠在跨語言和碼切換場景中進行零樣本語音克隆，使模型能夠以多種語言合成具有高度自然性和準確性的語音。

🌐

Spark TTS 中的可控語音生成

Spark TTS 支援通過調整性別、音高和語速等參數來創建虛擬說話者。

📝

Spark TTS 的高品質語音合成

Spark TTS 能夠在低比特率下實現高保真語音重建，提供自然流暢的語音合成結果。

🎶

Spark TTS 的靈活性和易用性

Spark TTS 提供了網頁用戶界面和命令行界面，支援多種操作系統，安裝和部署簡單，並可輕鬆集成到各種應用場景中。

探索 Spark TTS 資源

發現我們的代碼庫、模型和文檔，開始使用 Spark TTS。

🔗

GitHub

訪問我們的源代碼，貢獻並跟蹤最新開發進展。

🤗

Hugging Face

下載我們的預訓練模型並直接在 Hugging Face 上試用。

📚

文檔

學習如何使用我們的全面文檔來使用 Spark TTS。

Spark TTS 常見問題（FAQ）

如果您有其他問題且找不到答案，請透過電子郵件與我們的支援團隊聯繫，我們會盡快回覆您。

Spark TTS 是什麼以及它是如何工作的？

Spark TTS 是一種由大型語言模型（LLMs）驅動的先進文本到語音系統。它利用 Qwen2.5 模型直接從預測的代碼重建音頻，消除了對額外聲學特徵生成模型的需求。這種簡化的方法提高了效率，並提供了高品質、自然的語音合成。

Spark TTS 的主要功能有哪些？

Spark TTS 提供了幾個主要功能：通過直接音頻重建提高效率，零樣本語音克隆（無需特定訓練數據即可複製語音），支援中文和英語的雙語，通過可調整參數（性別、音高、語速）實現可控語音生成，提供自然流暢結果的高品質語音合成，以及同時支援網頁用戶界面和命令行界面的靈活性。

如何安裝和使用 Spark TTS？

您可以從 GitHub 克隆倉庫並按照提供的安裝指南來安裝 Spark TTS。安裝完成後，您可以通过命令行或網頁用戶界面來執行語音克隆和語音合成任務。

Spark TTS 支援自定義語音嗎？

是的，Spark TTS 允許您通過調整性別、音高和語速等參數來創建自定義語音。這種可控性使得可以為各種應用生成多樣化和量身定製的虛擬說話者。

Spark TTS 的語音合成品質如何？

即使在低比特率下，Spark TTS 也能提供高保真的語音合成。它產生的語音自然流暢，緊密模仿人類的語音模式，使其適用於需要高品質音頻的應用。

Spark TTS 能夠處理多種語言嗎？

是的，Spark TTS 支援中文和英語。它可以在語言之間無縫切換，並保持自然的語音合成，使其成為多語言應用的多功能工具。

Spark TTS 適合商業使用嗎？

Spark TTS 設計用於研究和生產環境，高效、靈活且功能強大。其高品質的語音合成和可控功能使其成為語音助手、內容創作和客戶服務解決方案等商業應用的寶貴工具。

運行 Spark TTS 的系統要求是什麼？

Spark TTS 可以在裝有 Python 3.8 或更高版本的系統上運行。為了獲得更快的推理速度，建議使用支援 CUDA 的 GPU。具體要求可能根據特定的使用場合和操作規模而有所不同。

如何優化 Spark TTS 的性能？

為了優化 Spark TTS 的性能，請確保您有正確的硬件設置，例如相容的 GPU。此外，請仔細遵循安裝指南，並利用提供的配置選項來根據您的具體需求量身定製系統。

哪裡可以找到更多關於 Spark TTS 的資訊和資源？

您可以訪問 Spark TTS 的官方網站 [https://sparkaudio.github.io/spark-tts/](https://sparkaudio.github.io/spark-tts/) 以獲取詳細的文檔、示例和資源。GitHub 倉庫 [https://github.com/SparkAudio/Spark-TTS](https://github.com/SparkAudio/Spark-TTS) 也包含源代碼和額外的資訊。