软件介绍
这是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。
fast-whisper 开源模型有 tiny/base/small/medium/large-v3, 内置 tiny 模型,tiny->large-v3识别效果越来越好,但所需计算机资源也更多,根据需要可自行下载后解压到 models 目录下即可。
软件特点
- 支持离线运行:不联网即可使用
- 支持导出多种格式:支持导出 JSON、SRT 字幕(带时间戳)、TXT 纯文本三种格式。
- 内置开源大模型:置 tiny 模型,同时支持下载 base/small/medium/large-v3 等模型替换,平衡识别精度与硬件性能。
- 支持硬件加速:支持 CPU 运行,若配置 CUDA 环境可修改为 GPU 加速,提升识别速度。
- 操作简单:解压运行即可使用
注意事项
- 如果没有英伟达显卡或未配置好CUDA环境,不要使用 large/large-v3 模型,可能导致内存耗尽死机
- 中文在某些情况下会输出繁体字
- 有时会遇到“cublasxx.dll不存在”的错误,此时需要下载 cuBLAS,然后将dll文件复制到系统目录下,点击下载 cuBLAS,解压后将里面的dll文件复制到 C:/Windows/System32下
- 如果控制台出现”[W:onnxruntime:Default, onnxruntime_pybind_state.cc:1983 onnxruntime::python::CreateInferencePybindStateModule] Init provider bridge failed.”, 可忽略,不影响使用
- 默认使用 cpu 运算,如果确定使用英伟达显卡,并且配置好了cuda环境,请修改 set.ini 中
devtype=cpu为devtype=cuda,并重新启动,可使用cuda加速 - 尚未执行完毕就闪退
如果启用了cuda并且电脑已安装好了cuda环境,但没有手动安装配置过cudnn,那么会出现该问题,去安装和cuda匹配的cudnn。比如你安装了cuda12.3,那么就需要下载cudnn for cuda12.x压缩包,然后解压后里面的3个文件夹复制到cuda安装目录下。具体教程参考 https://juejin.cn/post/7318704408727519270
如果cudnn按照教程安装好了仍闪退,那么极大概率是GPU显存不足,可以改为使用 medium模型,显存不足8G时,尽量避免使用largev-3模型,尤其是视频大于20M时,否则可能显存不足而崩溃
软件使用
- 双击 start.exe ,等待自动打开浏览器窗口即可
- 点击页面中的上传区域,在弹窗中找到想识别的音频或视频文件,或直接拖拽音频视频文件到上传区域,然后选择发生语言、文本输出格式、所用模型,点击“立即开始识别”,稍等片刻,底部文本框中会以所选格式显示识别结果
- 如果机器拥有英伟达GPU,并正确配置了CUDA环境,将自动使用CUDA加速
软件下载
解压码和解压教程看这里点击查看
© 版权声明
THE END











-.png)
暂无评论内容