概述
Spark-TTS是一种先进的文本对语音系统,它使用大语言模型(LLM)的力量来高度准确且自然的语音综合。它旨在为研究和生产使用而有效,灵活和强大。
关键功能
Spark-TTS完全基于QWEN2.5,完全基于QWEN2.5,消除了对流程匹配等其他生成模型的需求。它没有依靠单独的模型来生成声学特征,而是直接从LLM预测的代码中重建音频。这种方法简化了该过程,提高了效率并降低了复杂性。
高质量的语音克隆:支持零拍的语音克隆,这意味着即使没有该声音的特定训练数据,也可以复制扬声器的声音。这是跨语言和代码转换场景的理想选择,可以在不需要每个语言的语言之间进行无缝过渡,而无需为每个语言进行单独的培训。
双语支持:支持汉语和英语,并且能够以零拍的语音克隆来克隆跨语义和代码转换场景,从而使模型能够以高自然性和准确性的多种语言合成多种语言。
可控的语音生成:通过调整诸如性别,音调和口语率之类的参数来支持创建虚拟扬声器。

克隆并安装
- 克隆仓库
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
- 创建conda env:
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
#If you are in mainland China, you can set the mirror as follows:
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
模型下载
通过Python下载:
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
通过git克隆下载:
mkdir -p pretrained_models
#Make sure you have
git-lfs installed (https://git-lfs.com)
git lfs install git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
Web UI用法



本文内容来源于公开网络,出于传递信息之目的整理发布。原文版权归原作者所有,若涉及侵权请先提供版权后联系我们删除