看似雷同,但这两个功能其实是有本质上区别的!
生成有声字幕仔细看,生成有声字幕有一个「播放开始时自动生成」的选项
所以这个功能并不是真正意义上的实时转写,而是你打开某个视频之后,在后台从视频开头进行转写
如果你的每次视频是从头看到尾,那这个功能用起来,也的确和实时生成无异
毕竟合理选择引擎+模型的话,可能 1 个小时的视频,几分钟就能完成语音转字幕
但是如果你想拉动进度条,从中间某个位置开始播放,那就需要等待几分钟转写进度到这里了,才会开始显示字幕,体验就相当差了……
生成有声字幕(实时)而最新版 PotPlayer 的实时字幕生成功能,就没有了上述缺点,你可以随意拖动进度,软件都会从当前播放位置开始进行字幕转写
但目前最大的缺点就是,实时字幕生成功能并不支持 Faster-Whisper-XXL、Whisper-Faster 等「转录速度更快」的引擎
具体为啥不支持,目前未知,可能是这些引擎与实时生成功能冲突或者说官方暂时没完成适配吧……
但实时生成这个功能还属于 Beta 测试版,或许今后官方是能加上支持的,大家可以先期待一下
配置语音识别这里的话,先以实时字幕生成为核心来介绍下新版 PotPlayer
安装好播放器之后,打开任意视频,在播放界面右键 ⇨ 字幕 ⇨ 生成有声字幕(实时) ⇨ 生成有声字幕(实时)
默认是不使用,后续你想用的时候,自行选择「始终使用」或者「如果没有字幕则使用」等等
转换引擎与模型的选择然后这一步我们需要选择转换引擎以及语音识别模型,并进行下载!
转换引擎这里:
模型型号这里:
一共有 6 大类模型尺寸可以选择,其中 4 种有仅支持英语版本(其在仅英语语境下表现更佳,尤其是 tiny.en 和 base.en 模型。对于 small.en 和 medium.en 模型,这种差异不太明显)
下面有一个官方在 A100 显卡测试环境下转录英语语音测得的一个表格数据,仅供参考,实际速度会因为语言、语速和硬件等产生很大差异
| 模型 | 文件大小 | 仅支持英文模型 | 多语言模型 | 所需显存 | 相对 large 识别速度 |
| tiny | 39 M | tiny.en | tiny | 约 1 GB | 约 10 倍 |
| base | 74 M | base.en | base | 约 1 GB | 约 7 倍 |
| small | 244 M | small.en | small | 约 2 GB | 约 4 倍 |
| medium | 769 M | medium.en | medium | 约 5 GB | 约 2 倍 |
| large | 1550 M | 无 | large | 约 10 GB | 1 倍 |
| turbo | 809 M | 无 | turbo | 约 6 GB | 约 8 倍 |
此外,turbo 模型是 large-v3 的优化版本,它能提供更快的转录速度,同时准确性的下降微乎其微。电脑显存足够的话肯定优先考虑这个而不是 medium 模型
因为实时语音转录,必然是存在识别延时的,所以你并不能无脑选择越大的模型
可以看到下图,电脑上如果选择 large-v3 这个「识别效果更好的模型」,识别延时会高达 20~30 秒,对于实时翻译这个场景来说几乎属于不能用的地步
但如果舍弃精准度,把模型改为 small,可以看到识别延时一下就降低到了 2~3秒,这就完全堪用了(换用 base、tiny 还会更快),个人觉得 Small 模型的识别效果就挺哇塞的了
模型下载配置方法说完,紧接着问题就来了……
因为「转换引擎」和「模型文件」都位于国外服务器,不富强上网的话,国内大多数用户都会遇到下载失败
配置字幕翻译
语音识别问题搞定了,但目前识别出来的还是源语言字幕(日文、英文等),所以我们还需要解决翻译问题
还是打开任意视频,在播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置
默认是不使用,后续你想用的时候,自行选择「总是使用」或者「仅用于所选语言」等等
PotPlayer 内置了 Bing、DeepL、Google、Libre、Naver papago 以及 Yandex 翻译
如果你会富强上网,可以直接选择 Google 翻译,这是目前唯一可以免配置直接使用的免费在线翻译服务了
其他的翻译服务「收费不一」且均需要自行去申请 API Key 并通过「账户设置」功能配置后才能使用
不过总体而言,不太推荐去折腾内置的这些翻译服务:
- DeepL、Naver Papago、Yandex 翻译就算申请到了 API,国内依然无法免富强直接使用——但你都能富强上网了,还不如直接用免费的 Google 翻译
- Libre 翻译则是收费贼贵,高达 $29 每月
- 唯一国内还能直连使用的 Bing 翻译,API 需要通过 Microsoft Azure 申请,而普通用户需要绑定国际信用卡才行,有教育邮箱通过 Azure for Students 才能免信用卡及获得 200 万字符每月的免费翻译额度
对于没有富强上网能力的同学,比较推荐的是以下 3 种方案
百度翻译百度如今给个人开发者也提供了每月免费 100 万字符的翻译额度,对于几个视频翻译这种需求还是完全够用的
登录你的百度账号后,选择个人开发者,填入你的姓名、邮箱、手机号
然后会提示你进行实名认证来获取高级版服务,推荐大家进行实名认证的(反正大家基本上在百度的其他产品早进行过实名认证了),填写完实名之后,点击网页顶部的百度翻译LOGO返回之前的界面,
再点击顶部的管理控制台,点击立即开通服务
在新打开的窗口,选择「通用翻译」点击下一步,然后点击「开通高级版」,然后因为前面就认证了,就直接点击下一步
最后申请服务这里只需要填一个「应用名称」,其他都可以不填,点击提交申请就能开通服务了
最后回到翻译开放平台的首页,在开发者信息这一栏就能看到你的 APP ID 和密钥了
有了 API 之后,我们需要去给 PotPlayer 安装百度翻译插件
如果你访问Github困难,请使用Watt Toolkit加速器(目前支持WIN/Mac/Linux/安卓):https://steampp.net/
然后将项目解压出来的 SubtitleTranslate - baidu.as、SubtitleTranslate - baidu.ico 这 2 个文件复制到 PotPlayer 软件安装目录中的Extention\Subtitle\Translate 文件夹里面即可
后续就只需要到 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中百度翻译 ⇨ 点击账户设置 ⇨ 填入 APP ID 和密钥就行了
在线 AI 大模型翻译第二种选择,推荐白嫖此前就介绍过的硅基流动 API 来使用 AI 大模型翻译,比起百度的机器翻译,效果会更好!
注册好之后先暂停,我们先把第三方翻译插件装好,才方便大家看懂后续教程
然后还是一样的,直接安装,按照安装中的要求填写apikey和接口地址和模型名称
OK,现在我们打开硅基流动的「模型广场」,如果你是新注册会有2000万 token 额度,所以我们可以优先选择「可用增费」的模型
就算后期你的额度用完了也没事,我们可以换成免费模型,对于翻译场景来说,小参数的免费模型其实也是完全够用的
硅基流动目前提供,并且插件支持的模型有以下可以选择:Deepseek
- Deepseek
- 通义千问 Qwen
- 硅基流动 Siliconflow
- 百度文心一言 Ernie
- 月之暗面 KIMI
- 零一万物
插件也支持调用国外的 AI 大模型(Chatgpt、Claude等),具体可见插件 Github 官网
这里我们选个百万调用便宜一点的 Deepseek V2.5(注意选择对话模型,但不要选择推理模型)
点击模型之后,在上方点击按钮,复制模型名称
接着打开 PotPlayer 播放界面右键 ⇨ 字幕 ⇨ 实时字幕翻译 ⇨ 实时字幕翻译设置 ⇨ 选中ChatGPT翻译 ⇨ 点击账户设置 ⇨ 先填入刚刚复制模型名称 ⇨ 然后输入一个|