免费口语数字数据集 - 资源下载

4 有用

2 下载

免费口语数字数据集

文件列表（压缩包大小 15.56M)

免费

概述

一、总览一个简单的音频/语音数据集，由wav文件中8kHz的语音数字记录组成。修整录音使其在开始和结束时几乎保持静音。 FSDD是一个开放的数据集，这意味着它将随着时间的推移和数据的添加而增长。为了实现可重现性和准确的引用，使用Zenodo DOI和git标签对数据集进行版本控制。二、数据采集贡献自己的自制录音。所有录音均应为单声道8kHz wav文件，并进行修剪以使静音降至最低。不要忘记使用发言人元数据更新meta.py。添加数据，按照acquire_data / say_numbers_prompt.py中的记录说明进行操作，然后运行split_and_label_numbers.py制作文件。三、资料格式文件以以下格式命名：{digitLabel} {speakerName} {index} .wav示例：7_jackson_32.wav 现在它包含3,000录音（每位讲话者每位数字50），来自6个英语发音。 metadata.py包含有关说话者性别和口音的元数据。