Skip to content

开源视频翻译工具pyVideoTrans

一键字幕生成+字幕翻译+创建配音+合成 = 带字幕和配音的新视频

视频翻译工具pyVideoTrans界面


演示(左原片/右翻译)



pyVideoTrans:是一款将视频从一种语言翻译到另一种语言发音和字幕的开源软件。

  • 视频翻译: 它能够识别原视频中的说话声,并自动生成字幕,然后翻译为目标语言字幕,接着为目标语言字幕配音生成音频,再将配音音频、目标语言字幕同原始视频合并,生成新的视频,从而实现视频翻译。
  • 语音识别转录: 支持批量将音频或视频文件转录为SRT字幕
  • SRT字幕翻译: 可将SRT字幕保持原格式和时间戳的前提下翻译为其他语言
  • 为字幕或文字配音: 为SRT字幕或文字生成配音,支持多种配音渠道
    此外还有 音频视频字幕合并、批量视频音频合并、批量视频字幕合并、人声背景音分离等辅助功能.

302AI大模型集市

最新博客文章


  • PyInstaller打包踩坑记-从静默崩溃到柳暗花明

    在软件开发中,将一个能顺畅运行的 Python 项目打包成独立的可执行文件(EXE),是交付给用户的关键一步。PyInstaller 无疑是这个领域的王者。但有时,这位王者也会给我们带来不少麻烦。 我最近就遇到了一个典型的问题。我的项目一直用 PyInstaller 打包得很顺利。直到我升级了 torch2.7 库,打包命令 pyinstaller sp.spec 突然就失效了。它运行片刻,然后悄无声息地退出,没有留...

  • 轻松搞定东方语言(方言和小语种)音视频转写为字幕-Dolphin整合包

    很多语音转文字工具对英语支持很好,但遇到中文方言(粤语、四川话等)、越南语、菲律宾语等东方语言时,效果就差强人意了。 好消息来了! Dataocean AI 团队开发并开源了 Dolphin 项目,这是一个专门为东方语言优化的语音转写模型,能更准确地识别这些语言。 为了让不懂技术的朋友也能轻松使用这个强大的工具,我制作了一个简单易用的操作界面和一键整合包。 --- 下载地址 - • 方式一: 前往百度网盘下载 htt...

  • 安装 Python 包时,我遇到的两个报错和解决方法-No module named docopt,gbk codec can't decode

    最近在配置一个英伟达的开源项目 Parakeet 时,需要安装不少 Python 依赖包。过程不算复杂,但中途遇到了两个有点意思的报错。这些问题本身不难,但如果你是第一次遇到,可能会卡住一阵子。 这里我把解决过程分享出来,希望能帮到有类似困扰的朋友。 第一个问题:ModuleNotFoundError: No module named 'docopt' 当我运行 pip install -r requirements...

  • 下载与使用 parakeet 一键整合包

    > > 整合包下载地址2: 从HuggingFace.co下载 NVIDIA Parakeet 语音转录整合包使用说明 该整合包集成了NVIDIA开源的parakeet-ctc-1.1b(英文)和parakeet-tdtctc-0.6b-ja(日文)两个语音识别模型,用于将音视频文件转录为SRT格式的字幕。 目前,市面上可供选择的、效果较好的开源日语语音识别模型不多,NVIDIA的parakeet-tdtctc-0....

  • 视频配音自动同步(三):把“能跑”变成“好用”

    本系列写到第三篇,算是把 字幕音画同步 一条小路走成了能通车的土路。前两篇里,我们像修理工一样,拿着扳手到处拧螺丝:哪段音画差十几秒,就补哪段;哪段变速后变调刺耳,就换个算法重算。最终,一条 23 分钟的片子从肉眼可见的十几秒漂移,收敛到 200 ms 左右——对工程原型来说,算能交差。 但“能跑”和“好用”之间,还差一次彻底的梳理。这篇不打算再炫技,只想把整套做法摊开来,让你看清: - 我们到底在解决什么问题? -...

  • 视频配音自动同步(二):从“理想模型”到“工程现实”的进化之路

    但是,当我们将这个模型投入到更复杂的实际应用中时,才发现真正的挑战才刚刚开始。现实世界的媒体处理,充满了各种微小的、不可预测的“不确定性”。一个理论上完美的模型,在这些不确定性面前,往往不堪一击。 本文将续写我们的探索之旅,聚焦于如何处理这些“魔鬼细节”,以及我们的自动化方案是如何从一个“理想模型”,一步步进化成一个能够在炮火中稳定前行的“工程现实”。 ffmpeg的毫秒级“谎言” 之前“吸收”微小间隙的策略通过将几...

  • 为 Index-TTS 打造一个开箱即用的 Windows 整合包-从环境隔离到依赖难题的解决思路

    Index-TTS 是一个非常优秀的开源零样本语音合成(TTS)项目,特别是在中文处理方面,能够有效纠正多音字的读音,并且音质和声音相似度都表现优异。 对于希望在自己应用中集成高质量语音能力,或者纯粹想体验前沿AI技术的用户来说,Index-TTS 无疑是一个宝藏。 然而,对于许多不熟悉Python和复杂编译环境的Windows用户来说,想要运行这样一个项目并非易事。从环境配置、安装大量依赖,到处理那些难以在Wind...

  • 下载与使用 index-tts 一键整合包

    > > 整合包下载地址2: 从HuggingFace.co下载 Index-TTS Windows 一键整合包 如果你想体验由B站开源的强大AI语音合成技术 Index-TTS,但又被复杂且总是报错的安装过程所困扰,那么这个一键整合包就是为你量身打造的。 有了它,你可以在 Windows 10 或 Windows 11 系统上轻松运行 Index-TTS,无需关心任何技术细节,尤其是那个在Windows上堪称“劝退神...

  • 当AI配音遇上视频:实现音画同步的自动化工程实践【一】

    将一种语言的视频,配上另一种语言的语音,已经变得越来越普遍。无论是知识分享、影视作品还是产品介绍,好的本地化配音能极大地拉近与观众的距离。但这背后,一个棘手的问题始终存在:如何实现音画同步? 语言的差异是天生的。 一段3秒的中文对话,翻译成英语可能需要4.5秒,换成德语可能需要5秒。即便语言相同,不同的TTS(文本转语音)引擎、不同的发音人,甚至同一个发音人在不同情绪下,生成的语音时长都会有不小的差异。 这种时长的不...

  • Gemini + VAD 混合架构:解决Whisper难以处理的小语种,生成精准SRT字幕

    我们熟知的开源语音识别模型,如Whisper,在处理英语时表现堪称惊艳。但一旦脱离英语的舒适区,其在其他语言上的表现会急剧下降,对于没有海量数据进行专门微调的小语种,转录结果往往差强人意。这使得为泰语、越南语、马来语甚至一些方言制作字幕,变成了一项成本高昂且耗时费力的工作。 这正是Gemini作为游戏规则改变者登场的舞台。 与许多依赖特定语言模型的工具不同,Google Gemini生于一个真正全球化的多模态、多语言...