
VoxCPM:3 秒复刻真人嗓音!开源免费 TTS,再也不用花钱买配音

简介
采用分层语言建模技术,实现免分词的端到端语音合成。通过180万小时双语语料训练,支持上下文感知的语音生成和零样本声音克隆。仅需3-10秒参考音频即可复制说话人音色、口音和情感基调。
核心特性
- 免分词端到端生成:不用文本分词、音素转换预处理,输入文字直接出音频,大幅降低部署难度、减少音质损耗。
- 扩散自回归 + 分层建模:结合局部扩散 Transformer、FSQ 量化,自动拆分文本语义与音色特征,语调跟随文案情绪自然变化。
- 声音克隆:仅需3~10秒真人干声参考音频,就能复刻说话人音色、口音、语气情绪;支持中英双语跨语种克隆(英文音色说中文、中文音色读英文)。
- VoxCPM2 升级功能:可通过文字描述凭空创造全新音色(年龄/性别/情绪自定义,无需参考音频)。
- 智能情感表达:不用手动设置语气,AI自主读懂全文语义,根据文案剧情自动切换语速、停顿、喜怒哀乐,长文本朗读无机械卡顿。
本地部署
环境准备
git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM
pip install -r requirements.txt
模型下载
huggingface-cli download openbmb/VoxCPM --local-dir ./checkpoints/VoxCPM
快速使用
from voxcpm import VoxCPM
# 初始化模型
model = VoxCPM("./checkpoints/VoxCPM")
# 语音合成
audio = model.synthesize(
text="你好,这是VoxCPM的声音合成演示",
reference_audio="path/to/reference.wav"
)