完全免费的离线运行的本地音视频转字幕工具，支持一键音视频提取文字，可以导出多种格式！-阿幸软件杂货间

信息模块

官方运营商低价大流量卡查看

加入阿幸粉丝群加入

软件介绍

这是一个离线运行的本地语音识别转文字工具，基于 fast-whipser 开源模型，可将视频/音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等，准确率基本等同openai官方api接口。

fast-whisper 开源模型有 tiny/base/small/medium/large-v3, 内置 tiny 模型，tiny->large-v3识别效果越来越好，但所需计算机资源也更多，根据需要可自行下载后解压到 models 目录下即可。

软件特点

支持离线运行：不联网即可使用
支持导出多种格式：支持导出 JSON、SRT 字幕（带时间戳）、TXT 纯文本三种格式。
内置开源大模型：置 tiny 模型，同时支持下载 base/small/medium/large-v3 等模型替换，平衡识别精度与硬件性能。
支持硬件加速：支持 CPU 运行，若配置 CUDA 环境可修改为 GPU 加速，提升识别速度。
操作简单：解压运行即可使用

注意事项

如果没有英伟达显卡或未配置好CUDA环境，不要使用 large/large-v3 模型，可能导致内存耗尽死机
中文在某些情况下会输出繁体字
有时会遇到“cublasxx.dll不存在”的错误，此时需要下载 cuBLAS，然后将dll文件复制到系统目录下，点击下载 cuBLAS，解压后将里面的dll文件复制到 C:/Windows/System32下
如果控制台出现”[W:onnxruntime:Default, onnxruntime_pybind_state.cc:1983 onnxruntime::python::CreateInferencePybindStateModule] Init provider bridge failed.”, 可忽略，不影响使用
默认使用 cpu 运算，如果确定使用英伟达显卡，并且配置好了cuda环境，请修改 set.ini 中 devtype=cpu为 devtype=cuda,并重新启动，可使用cuda加速
尚未执行完毕就闪退

如果启用了cuda并且电脑已安装好了cuda环境，但没有手动安装配置过cudnn，那么会出现该问题，去安装和cuda匹配的cudnn。比如你安装了cuda12.3，那么就需要下载cudnn for cuda12.x压缩包，然后解压后里面的3个文件夹复制到cuda安装目录下。具体教程参考 https://juejin.cn/post/7318704408727519270

如果cudnn按照教程安装好了仍闪退，那么极大概率是GPU显存不足，可以改为使用 medium模型，显存不足8G时，尽量避免使用largev-3模型，尤其是视频大于20M时，否则可能显存不足而崩溃

软件使用

双击 start.exe ，等待自动打开浏览器窗口即可
点击页面中的上传区域，在弹窗中找到想识别的音频或视频文件，或直接拖拽音频视频文件到上传区域，然后选择发生语言、文本输出格式、所用模型，点击“立即开始识别”，稍等片刻，底部文本框中会以所选格式显示识别结果
如果机器拥有英伟达GPU，并正确配置了CUDA环境，将自动使用CUDA加速

软件下载

解压相关

解压码和解压教程看这里点击查看

版权声明 1 公众号【阿幸的学习宝库】、【阿幸同学的百事屋1】、【阿幸软件杂货间】回复：解压码
2 本站永久网址：https://a-xing.top/
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长QQ2155503343进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END