开源TTS，零样本克隆声音，还能自主创建声音，只需要6G显存，文末一键包

WP之家 • 2025年3月26日下午2:52 • 教程资讯

概述

Spark-TTS是一种先进的文本对语音系统，它使用大语言模型（LLM）的力量来高度准确且自然的语音综合。它旨在为研究和生产使用而有效，灵活和强大。

关键功能

Spark-TTS完全基于QWEN2.5，完全基于QWEN2.5，消除了对流程匹配等其他生成模型的需求。它没有依靠单独的模型来生成声学特征，而是直接从LLM预测的代码中重建音频。这种方法简化了该过程，提高了效率并降低了复杂性。

高质量的语音克隆：支持零拍的语音克隆，这意味着即使没有该声音的特定训练数据，也可以复制扬声器的声音。这是跨语言和代码转换场景的理想选择，可以在不需要每个语言的语言之间进行无缝过渡，而无需为每个语言进行单独的培训。

双语支持：支持汉语和英语，并且能够以零拍的语音克隆来克隆跨语义和代码转换场景，从而使模型能够以高自然性和准确性的多种语言合成多种语言。

可控的语音生成：通过调整诸如性别，音调和口语率之类的参数来支持创建虚拟扬声器。

安装方式

不想安装的直接使用文本一键包即可

克隆并安装

克隆仓库

git clone https://github.com/SparkAudio/Spark-TTS.gitcd  Spark-TTS

创建conda env：

conda create -n sparktts -y python=3.12 conda activate sparktts pip install -r requirements.txt#If you are in mainland China, you can set the mirror as follows:pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

模型下载

通过Python下载：

from huggingface_hub import snapshot_downloadsnapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

通过git克隆下载：

mkdir -p pretrained_models#Make sure you have git-lfs installed (https://git-lfs.com)git lfs install git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B