作为国内广受欢迎的视频剪辑软件,剪映的免费字幕识别功能一直是其亮点之一。
然而,从去年五月开始,剪映逐渐减少了用户可享受的免费福利,尤其是字幕识别服务的调整,影响尤为显著。
每月五次免费额度有点不够用
每个月提供五次免费的字幕识别机会,的确不算多。即使你不是专业的视频创作者,偶尔制作几条视频,额度也会迅速用完。
对于那些视频发布频率并不高的用户来说,花钱开通会员又无法从视频中获取收益,显然不太划算。
但随着AI技术的迅速发展,越来越多更高效、方便的字幕识别工具出现,帮助用户大幅提高视频制作的效率。
卡卡字幕助手:AI驱动的字幕识别工具
卡卡字幕助手是一款基于AI大模型开发的字幕识别工具。只要接入对应的大模型接口,或下载本地模型,就可以轻松提取视频或音频中的字幕,并生成srt等格式的字幕文件。
软件的安装过程非常常规,这里不再赘述。
它支持两种方式进行字幕识别:一种是本地模型Whisper,另一种是接入大语言模型(LLM)API。你可以根据自己的需求选择合适的方式。
使用本地模型:Whisper的配置与应用
先来看看如何使用本地的Whisper模型。使用前,首先需要安装适配GPU+CPU使用或仅CPU使用的底层包,然后下载识别模型。
模型体积越大,识别效果越好,但对设备性能的要求也随之增加。
对于核显设备,你可以选择下载CPU版的Faster Whisper模型,并选择Medium模型进行识别。
下载完成后,打开Faster Whisper的设置,选择已下载的模型、设备以及音频的语言,配置完成后就可以开始使用了。
自动处理与手动优化字幕
使用起来非常简单,只需要将需要识别的视频或音频文件拖入软件,点击开始,软件会自动处理。在使用本地模型时,识别速度取决于你的设备性能。
当Faster Whisper模型完成转录后,AI会对识别结果进行优化。检查无误后,只需点击左上角保存按钮,就可以导出srt、ass、vtt等格式的字幕文件。
如果识别过程中出现错别字,还可以手动进行修改。
在线大语言模型识别:云端的强大优势
接下来是使用在线的大语言模型进行字幕识别。你可以填入OPENAI官方API或第三方API,接入各种开放的大语言模型。
填写API Key和Base URL后,点击“检查连接”,如果提示模型获取成功和LLM连接成功,那就代表接入成功了!
使用大语言模型时,需要在首页将转录模型设置为B接口。
接下来的操作与使用本地Whisper模型的步骤完全一致,只需按照相同的流程操作即可。
需要特别注意的是,得益于云端强大的计算能力,通过LLM API进行的字幕识别,速度通常比本地识别要快很多(如果本地GPU性能非常强大,则可以忽略这个差异)。
LLM的优势:轻松翻译外文字幕
借助大模型,字幕翻译变得更加轻松。只需要简单几步,你就能轻松将外文视频转成中文版,对于想要观看外文视频的用户来说,简直是一个福音!
不止于视频创作,更多场景应用
这款软件的字幕识别功能不仅适用于视频创作。如果你是影视爱好者,或者经常观看影视作品,它同样能帮你解决语言障碍的问题。