VoxCPM：3 秒复刻真人嗓音！开源免费 TTS，再也不用花钱买配音

file

简介

采用分层语言建模技术，实现免分词的端到端语音合成。通过180万小时双语语料训练，支持上下文感知的语音生成和零样本声音克隆。仅需3-10秒参考音频即可复制说话人音色、口音和情感基调。

核心特性

免分词端到端生成：不用文本分词、音素转换预处理，输入文字直接出音频，大幅降低部署难度、减少音质损耗。
扩散自回归 + 分层建模：结合局部扩散 Transformer、FSQ 量化，自动拆分文本语义与音色特征，语调跟随文案情绪自然变化。
声音克隆：仅需3~10秒真人干声参考音频，就能复刻说话人音色、口音、语气情绪；支持中英双语跨语种克隆（英文音色说中文、中文音色读英文）。
VoxCPM2 升级功能：可通过文字描述凭空创造全新音色（年龄/性别/情绪自定义，无需参考音频）。
智能情感表达：不用手动设置语气，AI自主读懂全文语义，根据文案剧情自动切换语速、停顿、喜怒哀乐，长文本朗读无机械卡顿。

本地部署

环境准备

git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM
pip install -r requirements.txt

模型下载

huggingface-cli download openbmb/VoxCPM --local-dir ./checkpoints/VoxCPM

快速使用

from voxcpm import VoxCPM

# 初始化模型
model = VoxCPM(&quot;./checkpoints/VoxCPM&quot;)

# 语音合成
audio = model.synthesize(
    text=&quot;你好，这是VoxCPM的声音合成演示&quot;,
    reference_audio=&quot;path/to/reference.wav&quot;
)

VoxCPM：3 秒复刻真人嗓音！开源免费 TTS，再也不用花钱买配音

简介

核心特性

本地部署

环境准备

模型下载

快速使用

相关链接

关于升产大队