Skip to content

pyVideoTrans视频翻译软件v3.74-0720版起,已集成阿里的Qwen3-TTS语音合成服务!

简单来说,Qwen-TTS是一项先进的语音合成技术,它可以将文字转换成听起来非常真实、自然的人声。它的一大亮点是能够根据文本内容自动调整语音的节奏和情感。

支持2种形式的Qwen3-TTS:

  • 一是阿里百炼的在线API
  • 二是本地部署的Qwen3-TTS。

一:Qwen3-TTS 阿里百炼API (在线版)

qwen3-tts模型支持10种语言和多种中文方言 模型名称 qwen3-tts-flash

点此查看 qwen3-tts 具体音色及支持语言描述

json
{
  "芊悦(Cherry)": "Cherry",
  "苏瑶(Serena)": "Serena",
  "晨煦(Ethan)": "Ethan",
  "千雪(Chelsie)": "Chelsie",
  "茉兔(Momo)": "Momo",
  "十三(Vivian)": "Vivian",
  "月白(Moon)": "Moon",
  "四月(Maia)": "Maia",
  "凯(Kai)": "Kai",
  "不吃鱼(Nofish)": "Nofish",
  "萌宝(Bella)": "Bella",
  "詹妮弗(Jennifer)": "Jennifer",
  "甜茶(Ryan)": "Ryan",
  "卡捷琳娜(Katerina)": "Katerina",
  "艾登(Aiden)": "Aiden",
  "沧明子(Eldric Sage)": "Eldric Sage",
  "乖小妹(Mia)": "Mia",
  "沙小弥(Mochi)": "Mochi",
  "燕铮莺(Bellona)": "Bellona",
  "田叔(Vincent)": "Vincent",
  "萌小姬(Bunny)": "Bunny",
  "阿闻(Neil)": "Neil",
  "墨讲师(Elias)": "Elias",
  "徐大爷(Arthur)": "Arthur",
  "邻家妹妹(Nini)": "Nini",
  "诡婆婆(Ebona)": "Ebona",
  "小婉(Seren)": "Seren",
  "顽屁小孩(Pip)": "Pip",
  "少女阿月(Stella)": "Stella",
  "博德加(Bodega)": "Bodega",
  "索尼莎(Sonrisa)": "Sonrisa",
  "阿列克(Alek)": "Alek",
  "多尔切(Dolce)": "Dolce",
  "素熙(Sohee)": "Sohee",
  "小野杏(Ono Anna)": "Ono Anna",
  "莱恩(Lenn)": "Lenn",
  "埃米尔安(Emilien)": "Emilien",
  "安德雷(Andre)": "Andre",
  "拉迪奥·戈尔(Radio Gol)": "Radio Gol",
  "上海-阿珍(Jada)": "Jada",
  "北京-晓东(Dylan)": "Dylan",
  "南京-老李(Li)": "Li",
  "陕西-秦川(Marcus)": "Marcus",
  "闽南-阿杰(Roy)": "Roy",
  "天津-李彼得(Peter)": "Peter",
  "四川-晴儿(Sunny)": "Sunny",
  "四川-程川(Eric)": "Eric",
  "粤语-阿强(Rocky)": "Rocky",
  "粤语-阿清(Kiki)": "Kiki"
}

第一步:获取并配置您的API KEY

  1. 请点击此链接访问阿里云百炼平台:https://bailian.console.aliyun.com/?tab=model#/api-key

  1. 登录您的阿里云账户(若无账户,按提示注册一个即可)。

  2. 在API-KEY管理页面,点击“创建API-KEY”,系统会自动生成一串以“sk-”开头的字符,这就是您的API KEY。请复制这串字符。

  3. 回到pyVideoTrans软件,在顶部菜单栏找到 TTS设置,点击后在下拉菜单中选择 Qwen TTS

  4. 在弹出的Qwen3 TTS配置窗口中,将您刚刚复制的 API KEY 粘贴到“API KEY”输入框中。您可以点击“测试”按钮,试听一下效果,如果能听到声音,说明配置成功。最后,点击 保存

第二步:在视频翻译中使用Qwen3-TTS

配置完成后,您就可以在处理单个视频时启用Qwen3-TTS了。

  • 在pyVideoTrans的主界面,找到 “配音渠道” 的下拉菜单,点击并选择 “Qwen3 TTS”
  • 在旁边的 “配音角色” 菜单中,您可以选择您喜欢的音色,比如选择“Cherry”体验标准女声,或选择“Sunny”来一段有趣的四川话配音。

第三步:在批量配音和多角色配音中使用

Qwen-TTS的强大功能同样适用于批量处理任务,大大提升您的工作效率。

  • 批量为字幕配音:如果您有多个SRT字幕文件需要配音,可以切换到 “批量为字幕配音” 界面。在下方的“配音渠道”中同样选择 “Qwen TTS” 和您想要的角色即可。
  • 字幕多角色配音:在处理包含多个角色的对话时,此功能同样适用。您可以在“字幕多角色配音”功能区为不同角色分配Qwen-TTS的不同音色。


二:Qwen3-TTS 本地部署 (离线版)

3.95 版本后新增了对本地部署 Qwen3-TTS 的支持。如果你会部署,可自行部署后启动对应模型即可。源码部署参考

为了降低普通用户的部署门槛,制作了 Windows 10/11 专用的一键整合包

无需手动安装 Python

无需配置复杂的环境变量

内置环境管理工具,解压即用

自动下载模型(已配置国内加速)

第一步:下载与解压整合包

  1. 【重要】 请将压缩包解压到一个没有中文、没有空格的路径下(例如 D:\AI\QwenTTS)。
    • ❌ 错误示范:C:\Users\张三\桌面\新建文件夹
    • ✅ 正确示范:D:\Tools\Qwen-TTS
  2. 打开文件夹,您将看到包含5个启动脚本的文件结构:

第二步:启动服务

下载解压后,首先双击 0解压后立即点此安装运行环境.bat 该文件安装配置环境,仅需运行该文件一次

根据您的需求,双击运行对应的 .bat 文件。首次运行会自动下载模型,当出现 * To create a public link, set share=True in launch(). 时即表示启动成功。

请保持黑色命令行窗口开启,不要关闭。

1. 语音克隆模式 (需要参考音频)

适用于基于一段 3-10 秒的参考音频来克隆声音。

  • 🎧 启动语音克隆-0.6B模型.bat:速度快,配置要求低。
  • 🎧 启动语音克隆-1.7B模型.bat:效果更逼真,但速度稍慢。

2. 自定义音色模式 (预设角色)

内置了 Vivian, Uncle_fu, Sohee 等高质量预设音色,不可使用参考音频

  • 👤 启动自定义音色-0.6B模型.bat
  • 👤 启动自定义音色-1.7B模型.bat

3. 声音设计模式 (不支持通过pyVideoTrans调用)

适用于通过文字描述来创造声音。

  • 🎨 启动声音设计.bat:输入 Prompt(提示词,如“一个深沉的中年男性”)来设计音色。

第三步:在 pyVideoTrans 中配置

确保上一步的命令行窗口保持开启状态,然后打开 pyVideoTrans 软件进行连接。

  1. 进入菜单 -> TTS设置 -> Qwen3 TTS(本地)
  2. WebUI URL 一栏填写:http://127.0.0.1:8000
  3. 点击“测试”并保存。

⚠️ 重要提示:

  • 如果您启动的是 “自定义音色” 模型(预设角色),在 pyVideoTrans 的配音设置中,必须清空/删除“参考音频”路径,否则会报错。
  • 如果您启动的是 “语音克隆” 模型,则必须要在 pyVideoTrans 中指定一段参考音频。
  • 不支持声音设计模型

附:开启 GPU 加速 (可选)

默认配置为 CPU 模式以兼容所有电脑。如果您拥有 NVIDIA 显卡并安装了 CUDA,可以通过以下步骤开启加速(推理速度提升约10倍):

  1. 安装cuda版本的torch 在整合包下bat所在文件夹内,地址栏清空,输入 cmd 后回车,接着分别输入运行以下2条命令,等待安装完毕再重新启动

runtime\python -m pip install --force-reinstall torch torchaudio --index-url https://download.pytorch.org/whl/cu128

如果你是CUDA_13.X,可用将上面命令中的cu128改为cu130

runtime\python -m pip install flash-attn --no-build-isolation

  1. 右键点击对应的 .bat 文件,选择“编辑”。
  2. 删除文件末尾的 --no-flash-attn --device cpu --dtype float32 代码。
  3. 保存并重新运行。

常见问题

  1. 问题:报错Cannot find a function with api_name: /run_voice_clone

    解决:出现这个报错,说明你在pyVideoTrans中使用了 clone角色或者使用了参考音频进行配音,这要求你必须启动 qwen-tts 的 语音克隆模型即Qwen3-TTS-12Hz-0.6B-BaseQwen3-TTS-12Hz-1.7B-Base,而你启动了其他模型,例如启动的是自定义音色模型(只可使用内置音色)或声音设计模型(不支持在pyVideoTrans中使用)。 如果你是在菜单--TTS设置--Qwen-tts(本地)界面测试时遇到的这个报错,可尝试删掉参考音频文本框内容后再测试,会使用内置音色Vivian连接自定义音色模型,确保你已启动自定义音色模型。

  2. 问题:报错Cannot find a function with api_name: /run_instruct

    解决:出现这个报错,说明你在使用qwen-tts的自定义模型的内置音色("Vivian","Serena","Uncle_fu","Dylan","Eric","Ryan","Aiden","Ono_anna","Sohee"),但并没有对应启动自定义模型(Qwen3-TTS-12Hz-0.6B-CustomVoice、Qwen3-TTS-12Hz-1.7B-CustomVoice),请去启动

  3. 问题:启动了 VoiceDesign 模型但报错

    解决:pyVideoTrans软件仅支持 qwen-tts 的 语音克隆模型和自定义音色模型,不支持 声音设计模型即VoiceDesign系列模型