CIFAR-10数据集 - 资源下载

0 有用

1 下载

CIFAR-10数据集

文件列表（压缩包大小 499.71M)

免费

概述

CIFAR-10数据集

介绍

CIFAR-10数据集包含10个类别的60000个32x32彩色图像，每个类别6000个图像。有50000张训练图像和10000张测试图像。

数据集分为五个训练批和一个测试批，每个批次具有10000张图像。测试批包含每个类别中1000个随机选择的图像，训练批按随机顺序取其余图像，但是一个训练批中各类图像的数量不一定相等。但总的训练批中，每个类的图像各5000张。

以下是数据集中的10个类，以及每个类中的10张随机图像：

这些类是完全独立的，互相之间没有重叠。

数据集布局

Python / Matlab版本

存档包含文件data_batch_1，data_batch_2，...，data_batch_5和test_batch。每个文件都是由cPickle生成Python的“ pickled”对象。这是一个python2例程，它将打开这样的文件并返回字典：

def unpickle(file):
    import cPickle
    with open(file, 'rb') as fo:
        dict = cPickle.load(fo)
    return dict

和python3版本：

def unpickle(file):
    import pickle
    with open(file, 'rb') as fo:
        dict = pickle.load(fo, encoding='bytes')
    return dict

以这种方式加载的每个批处理文件都包含一个具有以下元素的字典：

Data：uint8s的10000x3072 numpy数组。阵列的每一行都存储一个32x32彩色图像。前1024个条目包含红色通道值，后1024个包含绿色，最后1024个包含蓝色。图像以行优先顺序存储，因此数组的前32个条目是图像第一行的红色通道值。
labels：10000个数字列表，范围为0-9。索引i处的数字表示数组数据中第i个图像的标签。

数据集包含另一个文件batchs.meta。它也包含一个Python字典对象。它具有以下内容：

label_names：由10个元素组成的列表，为上述的labels数组中的数字标签提供有意义的名称。例如，label_names [0] ==“飞机”，label_names [1] ==“汽车”，等等。

二进制版本

二进制版本包含文件data_batch_1.bin，data_batch_2.bin，...，data_batch_5.bin和test_batch.bin。这些文件的每个格式如下：

<1 x label><3072 x pixel>
...
<1 x label><3072 x pixel>

也就是说，第一个字节是第一张图片的标签，它是0-9范围内的数字。接下来的3072个字节是图像的像素值。前1024个字节是红色通道值，中1024个字节是绿色通道值，最后1024个字节是蓝色通道值。这些值以行优先顺序存储，因此前32个字节是图像第一行的红色通道值。

尽管没有任何分隔行，但是每个文件包含10000个像这样的3073字节 "rows"的图像。因此，每个文件的长度应恰好为30730000字节。

还有一个文件，名为batchs.meta.txt。这是一个ASCII文件，它将0-9范围内的数字标签映射到有意义的类名称。它只是10个类名的列表，每行一个。第i行上的类名称对应于数字标签i。

来源 https://www.cs.toronto.edu/~kriz/cifar.html

理工酷提示：

如果遇到文件不能下载或其他产品问题，请添加管理员微信：ligongku001，并备注：产品反馈

0/250

免费登录即可免费下载

·圈子

位酷友已加入

正直的烤面包

积分 • 3992

圈子：计算机

标签：

计算机数据集人工智能

文件编号：737

上传时间：2021-02-05

文件大小：499.71M

加入组织

微信扫码，每周推送最新资料

理工酷

首页

圈子

资源下载

介绍

数据集布局

Python / Matlab版本

二进制版本

推荐资源

推荐问题

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

介绍

数据集布局

Python / Matlab版本

二进制版本

推荐资源

推荐问题

加入组织