免费口语数字数据集

文件列表(压缩包大小 15.56M)      点击页面右上角“下载”按钮下载

概述

一、总览 一个简单的音频/语音数据集,由wav文件中8kHz的语音数字记录组成。修整录音使其在开始和结束时几乎保持静音。 FSDD是一个开放的数据集,这意味着它将随着时间的推移和数据的添加而增长。为了实现可重现性和准确的引用,使用Zenodo DOI和git标签对数据集进行版本控制。 二、数据采集 贡献自己的自制录音。所有录音均应为单声道8kHz wav文件,并进行修剪以使静音降至最低。不要忘记使用发言人元数据更新meta.py。 添加数据,按照acquire_data / say_numbers_prompt.py中的记录说明进行操作,然后运行split_and_label_numbers.py制作文件。 三、资料格式 文件以以下格式命名:{digitLabel} {speakerName} {index} .wav示例:7_jackson_32.wav 现在它包含3,000录音(每位讲话者每位数字50),来自6个英语发音。 metadata.py包含有关说话者性别和口音的元数据。

理工酷提示:

如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku666,并备注:产品反馈

评论(0)

0/250
免费
赞 4
收藏 1
评论 0
举报

网站声明:本站所有资源均为用户上传,如果侵犯了您的合法权益,请点击上方举报按钮,或添加管理员微信:ligongku666 ,并备注:举报。我们将快速核实并处理。

文件编号:358
上传时间:2021-01-21
文件大小:15.56M

玩手机的豆浆

声望 • 450

分类:
计算机/软件
标签:
asr语音打印识别