免费离线语音识别神器whisper安装教程框架
创始人
2025-08-26 09:07:45
0

本文框架

语音合成工具(文字转换语音软件) 注册码_语音软件_朗读女语音软件 注册码

一、简介

大家好,最近chatgpt挺火的,我也体验了一下。 文章的标题由它给出。 标题有点意思,意思还不错。

之前发过一篇《Free Offline Speech Recognition Tool耳语安装教程》。 由于 whisper 的安装比较耗时,为了方便起见,本文介绍了其他几个免费的语音转文本工具。

我也测试了这些工具并比较了它们的识别准确率。 文章第五部分会给出识别准确率排名。 根据测试结果选择语音识别工具,文末也给出了几点建议。

2.工具使用

Speech-to-text 可以快速轻松地将会议、讲座和课堂录音整理成文本手稿。

3、工具推荐:第一个:Buzz(windows和macOS都支持)

Buzz 是一款离线工作的语音识别软件。 它有两个功能,一个是录音到文本,另一个是实时语音识别。 它的底层依然使用耳语的语音识别功能。 但它的好处是只需要下载一个安装包,安装后直接运行即可语音软件,不像配置whisper那么麻烦。

如何使用

下面简单介绍一下它的录音转文字功能。 第一次转录时会下载模型,下载后可以离线运行。

语音软件_朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码

单击“文件”,然后单击“importAudioFile...”导出您需要转换为文本的录音文件。

稍后会弹出一个设置框,

语音合成工具(文字转换语音软件) 注册码_朗读女语音软件 注册码_语音软件

如图所示:

左侧框中的选项允许您选择转录的质量。 从上到下,质量逐渐提高,转录的准确率也会增加,相应的花费的时间也会变长。 一侧选择的五个选项对应“小、基、小、中、大”五种耳语模式。

右框中有两种类型的任务,我们通常选择“Transcribe(转录)”模式,“Translate(翻译)”模式是将语音文件翻译成英文文本。 图中“ExportAs(导入为)”是选择导入格式。

第二款:飞书妙记,剪报笔记本版

这两种模式都需要连接到互联网才能使用。 为什么把这两个放在一起呢,因为都是抖音的产品。 右图中,右边是飞书的公司,右边是建英的公司。

朗读女语音软件 注册码_语音软件_语音合成工具(文字转换语音软件) 注册码

虽然都是抖音旗下的,但鉴定结果还是有区别的。 识别的准确率也不同。 文章的第五部分给出了识别准确率的排名。

如何使用:

飞书小贴士:

注册登录后,直接上传文件即可。

朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码_语音软件

飞书妙记可以区分音频中不同的说话人,可以导入txt和srt格式。

裁剪笔记本版:

您需要下载并安装剪报笔记本版本。 此功能是为了方便您剪辑带字幕的视频,在线运行。 目前是免费的。

使用方法:新建工程>导出音频>将音频拉到下轨道>点击“文本”>“智能字幕”,生成后直接点击导入字幕文件。

语音合成工具(文字转换语音软件) 注册码_朗读女语音软件 注册码_语音软件

第三项:网易建外工作台

网易出品,需要联网。 目前每晚有2小时的免费识别名额。

如何使用:

登录网易建外工作台,新建语音转录工程,上传文件。

语音软件_朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码

第四项:Windows系统自带语音识别

win10和win11系统自带语音识别,但是这个不支持语音转文字。 它只支持实时语音识别,需要联网运行。

如何使用:

win10或win11系统下,打开一个txt文件,点击文件空白处使光标处于等待状态,按快捷键win+h调出语音输入工具,此时开始说话,工具将实时识别您所说的内容,手动 txt 文件。

第 5 节:其他

阿里云、腾讯云、百度云、讯飞听力等都提供录音转录服务,不仅讯飞听力还有web端服务(新用户自带15分钟免费时间),而且都需要能够编程和调用套接字,对吗? 会编程的人不友好。 其实,如果你会编程,你可以试试这些公司的服务,不同的公司会给你一定的免费额度。

以录音转录服务为例,每个百度账号赠送10小时,腾讯赠送每个月10小时,阿里信科赠送3个月试用期,讯飞赠送15分钟免费额度。 规则可能随时变更,详情请以相关服务商官网为准。

4. 不同工具识别准确率对比

我用了3个音源,一个是自己录的Excel小方法视频语音软件,30s左右,一个是podcast的聊天音频片段,5分钟左右,一个是董事长2023元旦寄语,13分钟左右。

三段音频使用whisper的tiny,base,small,medium,large-v1,large-v2,large模型,还有飞书妙记,网易简外工作台,win11自带的语音识别工具,简音和笔简是5个免费的语音识别工具来转录,并比较它们之间的准确率。 由于嗡嗡声语音识别的核心是耳语,但是嗡嗡声的语音转录模式只有5个选项,而耳语有7个选项。 推测应该是少了large-v1和large-v2这两个模式,所以用了whisper,没用buzz。

文本相似度比较方法:

利用python中difflib库的SequenceMatcher类,可以实现估计文本相似度的功能。

估计值在0-1之间。 如果待比较的两个文本之间的相似度越高,估计值就越大。

代码:

from difflib import SequenceMatcher
def similarity(a, b):
    return SequenceMatcher(None, a, b).ratio()

以下是 2 个运行示例:

>>> similarity('我是文本A', '我是文本A')
1.0

>>> similarity('我是文本A', '我是文本B')
0.8

文本比较前的相关处理

因为有的工具转换出来的文本标点符号比较丰富,有的空格和回车比较丰富,为了防止英文标点、空格和回车影响文本相似度的比较结果,我用python全部清除。

消除英文标点符号:

from zhon.hanzi import punctuation
import re
striped_txt = re.sub("[{}]+".format(punctuation),"",txt) #txt为待处理文本

消除回车和空格:

dealed_txt = txt.replace(" ","").replace("\n","") #去空格、去回车

因为在识别数字的时候,有的数字会被识别为英文,有的会被识别为阿拉伯数字,并不代表识别错误,所以对于数字较多的文本,语音转写后,我统一改成英文数字。

另外whisper转录的时候可能会有简体英文,所以我用在线工具把它转成繁体。

五、对比结果

语音合成工具(文字转换语音软件) 注册码_朗读女语音软件 注册码_语音软件

语音软件_朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码

语音软件_朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码

补充说明:由于buzz底层是whisper,所以我用whisper来测试,但是我没有用buzz。 Whisper可以实现buzz,所以你没有安装whisper。 我觉得 whisper 表现不错,可以尝试用 buzz 代替。)

六、结果分析

虽然这些声源各有特点。

30s 视频是一个带有少量文本的小型 Excel 教程。 总共只有100多个字。 没有尴尬的话。 结果与原稿相似度可达96%以上。

5 分钟的音源是聊天播客的片段。 内容是一些日常生活用语,有很多语调词,比如“啊啊啊”。 虽然对于飞书妙记,我的比较方法并不公平。 是的,因为它的识别结果不仅包括语调词,而且语调词比正确的手稿少很多,自然相似度比较低。

13分钟的音源是董事长2023年元旦寄语。 里面用了很多谚语,比如“艰难困苦,玉如成”,“不畏风雨,披荆斩棘”,“遇到最难的,才会走得更远”。 》、《路虽长,行必来;事虽难,行必成》,《愚公移山》,《千里之行,积步成》 ”等等。对于那些窃窃私语,疗效不是很好,但其他工具更好。 而且尽管如此,我们也可以看到,whisper识别出的文本与源文本的相似度达到了95%以上,这对于一个开源的离线软件来说已经非常不错了。

观察测试结果,我们发现了。

对于 whisper 来说,并不是绝对的说模型越大,识别的准确率就越高(至少对于英文不是)。 例如,对于5分钟声源的识别,small mode的准确率要高于more middle mode。 耳语中间模式的语音识别准确率在日常语境中(用词和典故较少)可以强于某些在线服务。 剑影和笔剑在三项测试中的识别准确率均排名前三。 谷歌语音识别和耳语分别进入两项测试的前三名,但耳语的两种识别模式不同。 飞书妙记一次进入前三。7。 建议

通过文章第五部分三组声源的数据,可以给出一些建议:

男朋友,我听说了,请给我一个赞鼓励~

相关内容

热门资讯

搬... 搬家是一个复杂而乏味的过程。 对于现在的很多年轻人来说,由于工作变动等原因,搬家已经成为一种常态。 ...
使... 当我们的旧电脑使用了七八年甚至更长时间的时候,就会出现一系列的问题,比如死机、死机、蓝屏、黑屏等,这...
入... 设计领域和设计工具之间越来越融合,设计门类和技术的交叉创造了足够新颖和独特的设计。很多习惯PS、AI...
搬... 面对复杂繁琐的搬家活动,很多搬家新手不知道从哪里开始,搬家时要准备什么。 不知道要带什么? 您可以收...
河... 各省市财政局、人力资源社会保障局,济源示范区财政局、人力资源社会保障局,各省市、济源示范区会计专业技...
流... 作为一款裸眼3D手机,裸眼3D娱乐场景的体验非常重要。 用户最关心的是观看3D电影时是否有震撼的立体...
3... 手机内存空间小现在已经成为困扰网友的首要问题。 照片必须保留,短信不能删除……所以,最聪明的办法就是...
有... 有哪些录屏软件好用? 现在我们经常使用录屏软件。 比如,当我们远程向别人展示一些电脑操作时,或者当我...
2... 文字:查尔斯·霍夫曼就像时尚一样,流行​​音乐的趋势每年都在变化,通过正确的混音技术,任何人都可以在...
畅... 畅游(DM Pro)邮件客户端:原DreamMail“梦想快车”邮件客户端的升级版,集邮件管理、邮件...
怎... 案例分享:“U盘里一个重要的文件夹莫名消失了,里面有几十个工作文档,这些都是我之前保存的,这段时间我...
国... 昨天发布了六款自媒体视频编辑软件。 很多人看完后都表示太酷了。 我一直需要这样的软件。 然后还有人问...
量... 点击蓝字,关注我们在金融市场中,投资者常常面临着如何判断股票或期货价格的拐点问题。传统的技术分析方法...
免... 今天推荐的是 PostgreSQL ACE,墨天轮MVP,PostgreSQL学徒公众号作者熊灿灿老...
微... 在当今信息爆炸的时代,我们每天都需要在互联网上搜索各种内容,从新闻、天气、地图、视频到学习、工作、娱...
1... 随着信息时代的快速发展,视频已成为沟通和传递信息的有力工具。 多种视频编辑软件的出现,让操作变得更加...
视... 当我还在用ChatGPT聊天的时候,AIGC圈子里已经开始冒出新的东西了——AI生成的史蒂夫·乔布斯...
S... 傻牛小贴士阅读本文需要 3 分钟。 安利是一个易于使用的电子邮件客户端!如果您喜欢这篇文章,请分享给...
什... 随着信息技术的发展和进步,在日常办公工作中,除了线下之外,还采用了多种线上方式。不仅提高了办公效率,...
哔... 哔咔APP:为二次元ACG用户提供一站式服务在这个充满创意和想象力的二次元世界里,动漫、游戏、漫画等...