开源TTS,零样本克隆声音,还能自主创建声音,只需要6G显存,文末一键包

概述

Spark-TTS是一种先进的文本对语音系统,它使用大语言模型(LLM)的力量来高度准确且自然的语音综合。它旨在为研究和生产使用而有效,灵活和强大。

关键功能

Spark-TTS完全基于QWEN2.5,完全基于QWEN2.5,消除了对流程匹配等其他生成模型的需求。它没有依靠单独的模型来生成声学特征,而是直接从LLM预测的代码中重建音频。这种方法简化了该过程,提高了效率并降低了复杂性。

高质量的语音克隆:支持零拍的语音克隆,这意味着即使没有该声音的特定训练数据,也可以复制扬声器的声音。这是跨语言和代码转换场景的理想选择,可以在不需要每个语言的语言之间进行无缝过渡,而无需为每个语言进行单独的培训。

双语支持:支持汉语和英语,并且能够以零拍的语音克隆来克隆跨语义和代码转换场景,从而使模型能够以高自然性和准确性的多种语言合成多种语言。

可控的语音生成:通过调整诸如性别,音调和口语率之类的参数来支持创建虚拟扬声器。

640-12
安装方式
不想安装的直接使用文本一键包即可

克隆并安装

  • 克隆仓库
git clone https://github.com/SparkAudio/Spark-TTS.gitcd  Spark-TTS
  • 创建conda env:
conda create -n sparktts -y python=3.12 conda activate sparktts pip install -r requirements.txt#If you are in mainland China, you can set the mirror as follows:pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
模型下载

通过Python下载:

 

from huggingface_hub import snapshot_downloadsnapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

通过git克隆下载:

mkdir -p pretrained_models#Make sure you have git-lfs installed (https://git-lfs.com)git lfs install git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
Web UI用法
您可以通过运行启动UI接口python webui.py --device 0,这使您可以执行语音克隆和语音创建。语音克隆支持上传参考音频或直接录制音频。
克隆页面
640-13
声音创作
640-15
效果测试
1、步老师的声音
克隆的声音
2、声音创造-模拟男声
最近看到那种奥特曼送小朋友生日快乐的视频,决定搞一个
哈哈,这个声音是我构造的,参数如下
640-14
效果真是不错吧,赶快试试吧

本文内容来源于公开网络,出于传递信息之目的整理发布。原文版权归原作者所有,若涉及侵权请先提供版权后联系我们删除

(0)
WP之家WP之家
上一篇 2025年3月26日 下午2:51
下一篇 2025年3月26日 下午3:23

相关推荐