什么是SegNet神经网络？它为什么如此重要？ - 问答

SegNet神经网络是由剑桥大学的Alex Kendall，Vijay Badrinarayanan和Roberto Cipolla开发的一种卷积神经网络，用于语义像素标记。这个问题通常称为语义分割。

用于语义分割的网络通常将RGB图像作为输入数据，并具有n个通道图像的标签，其中n是涉及的标签数。每个通道对应一个标签，例如汽车，道路等，某个通道中的每个像素将为1或0，这具体取决于该像素是否属于与该通道相对应的标签。

SegNet由称为编码器和解码器的层组成。每个编码器应用卷积，批量归一化和非线性，然后对结果应用最大池化，同时存储从每个窗口提取的值的索引。

解码器与编码器类似，不同之处在于它们没有非线性，并且使用从编码阶段存储的索引对输入进行升采样。在最终解码器之后，输出被馈送到softmax分类器，后者给出最终预测。预测将是n个通道图像，因此我们必须编写一个单独的函数以将其转换为RGB图像，然后才能定性地查看结果。

通常，编码器是预训练的网络（常见示例是VGG-16或ResNet50），其中完全连接的层已删除，有利于解码器。

与当时最先进的模型相比，SegNet的参数要少得多（因为这些模型依赖于预训练网络的完全连接层），参数从134M增至1470M ，同时在某些基准上提供了更好的结果。

至于为什么SegNet这样重要的问题，整体执行语义分割的神经网络对于自动驾驶汽车很重要，因为如果一个通道可以保持图像中每个像素的深度/距离，我们就可以估算出物体离汽车有多远，汽车与其可以保持安全距离。

如果要说明为什么SegNet本身很重要，答案是它在获得像FCN 这样的大型卷积神经网络的输出之后，就改变了人们对单个解码器的看法。现在的方法可以提供更高的准确性，其中包括空间金字塔池。

2021-01-27 16:12 更新

Lisa • 1796

理工酷