Whisper-WebUI视频翻译字幕生成一键整合包-逃课猫Deepfacelab|AI智能研究站

Whisper-WebUI 是一款基于 OpenAI Whisper 语音识别模型的开源桌面应用。

它提供了一个图形化用户界面，旨在简化音视频内容的转录流程，能够自动生成带时间戳的字幕文件。该工具支持多种输入源，包括本地音视频文件、YouTube 视频链接以及麦克风实时录音。

此外，它还集成了文本翻译和背景音乐分离等辅助功能，为用户提供了一套完整的音频处理解决方案。

图片[1]-Whisper-WebUI视频翻译字幕生成一键整合包-逃课猫Deepfacelab|AI智能研究站

图片[2]-Whisper-WebUI视频翻译字幕生成一键整合包-逃课猫Deepfacelab|AI智能研究站

应用主界面由五个功能选项卡组成，分别对应不同的任务模块：

文件（File）：处理本地音视频文件。

YouTube：处理 YouTube 视频链接。

麦克风（Mic）：进行实时语音录制与转录。

T2T 翻译（T2T Translation）：翻译字幕文件。

BGM 分离（BGM Separation）：分离音轨中的人声和背景音乐。

本地音视频转录文字（File）

点击上传区域，选择需要处理的音视频文件。

在模型（Model）下拉菜单中选择转录模型（例如，V3 模型在准确性上表现更优）。

在语言（Language）菜单中指定源文件的语言。

选择期望的文件格式（File Format），如 SRT。

点击生成字幕文件（GENERATE SUBTITLE FILE）。

任务完成后，可在左侧预览窗口查看结果，支持将字幕文件保存至本地。

YouTube 视频转录（YouTube）

将目标 YouTube 视频的 URL 粘贴到输入框中。 Whisper-WebUI 将自动识别视频的封面、题目和视频简介。

背景音乐分离（BGM Separation）

上传需要处理的音频文件。
根据硬件情况选择设备（Device），如使用 NVIDIA 显卡可选择 CUDA。
选择分离模型，分段大小默认。
点击分离背景音乐（SEPARATE BACKGROUNS MUSIC）。

处理完成后，可下载分离出的人声和背景音文件。

1、该资源仅供学习和研究传播，大家请在下载后24小时内删除，一切关于该资源商业行为与逃课猫智能研究站（taokemao.cn）无关。
2、请勿将该软件程序进行商业交易、转载、违法运营等行为，该软件只为研究、学习所提供，该软件程序使用后发生的一切问题与本站无关。
3、若本程序源/码侵犯了您的权益，请及时联系我们予以删除！
4、本程序仅供研究学习使用,切勿商用以及违法使用!

5、本站收费内容，只用于维持域名注册、网页空间租用等费用日常开销。

6、本站免费、含会员内容的软件工具，皆不包含人工技术服务教程等服务，大部份已提供视频教程，请自行网上搜索。

THE END