VoxCPM:3 秒复刻真人嗓音!开源免费 TTS,再也不用花钱买配音

VoxCPM:3 秒复刻真人嗓音!开源免费 TTS,再也不用花钱买配音

file

简介

采用分层语言建模技术,实现免分词的端到端语音合成。通过180万小时双语语料训练,支持上下文感知的语音生成和零样本声音克隆。仅需3-10秒参考音频即可复制说话人音色、口音和情感基调。

核心特性

  • 免分词端到端生成:不用文本分词、音素转换预处理,输入文字直接出音频,大幅降低部署难度、减少音质损耗。
  • 扩散自回归 + 分层建模:结合局部扩散 Transformer、FSQ 量化,自动拆分文本语义与音色特征,语调跟随文案情绪自然变化。
  • 声音克隆:仅需3~10秒真人干声参考音频,就能复刻说话人音色、口音、语气情绪;支持中英双语跨语种克隆(英文音色说中文、中文音色读英文)。
  • VoxCPM2 升级功能:可通过文字描述凭空创造全新音色(年龄/性别/情绪自定义,无需参考音频)。
  • 智能情感表达:不用手动设置语气,AI自主读懂全文语义,根据文案剧情自动切换语速、停顿、喜怒哀乐,长文本朗读无机械卡顿。

本地部署

环境准备

git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM
pip install -r requirements.txt

模型下载

huggingface-cli download openbmb/VoxCPM --local-dir ./checkpoints/VoxCPM

快速使用

from voxcpm import VoxCPM

# 初始化模型
model = VoxCPM("./checkpoints/VoxCPM")

# 语音合成
audio = model.synthesize(
    text="你好,这是VoxCPM的声音合成演示",
    reference_audio="path/to/reference.wav"
)

相关链接