过度拟合在深度学习中意味着什么？ - 问答

讲个故事

Ram是个好男孩。他能掌握所有课程，你永远无法从书中问到他无法回答的问题。

Shyam是街头霸王。他不强记任何东西，但是通过学习概念来记忆自己课程中的模式，从而懒惰地进行管理。

如果你从教学大纲中向他们两个提出一个问题，则Ram可能会提出“完美”的答案，而Shyam将根据他的理解来构造一个答案。

Ram的方法的问题在于，一旦在课程提纲之外向他提出问题，他就会感到挣扎，而Shyam凭借其演绎推理更有可能弄清楚这一点。

过度拟合 过度拟合是机器学习中的一个问题，在该模型中，模型在你拥有的数据上训练得很好，但是在以前从未见过的数据上表现不佳。这不仅是深度学习中的问题，还是整体上的预测分析。

因此，基本上，目标是建立一个学习数据中模式的“ Shyam”模型，而不是精通他已经看到的内容的“ Ram”模型。有一些SQL查询可以执行“ Ram”模型，你不需要为此进行预测建模。

首先，构建预测模型的目的是使你无法预测将来看不见的数据。

克服过度拟合 这里有很多话要说，但让我们简化一下，仅对深度学习加以讨论：

1.Dropout-由Geoffrey Hinton自己发明的，“Dropout”一词是指在深度学习模型中退出单元（隐藏的和可见的），以便它不会对一个神经元产生过多的依赖性来计算输出

2.合并-目标是对输入表示（图像，隐藏层输出矩阵等）进行下采样，以降低其尺寸-示例-在4x4数字矩阵中，一次最多可获取4个数字，将其简化为2x2矩阵。你仍然保留重要信息并减少过度拟合

3.批量归一化-从某种意义上讲类似于辍学，它在训练的每个步骤中将每个隐藏单元乘以一个随机值。在这种情况下，随机值是小批量中所有隐藏单元的标准偏差。

由于在每个步骤中都会随机选择不同的示例以包含在小批量中，因此标准偏差会随机波动。批处理规范还会在每个步骤中从每个隐藏单元中减去一个随机值（最小批处理的平均值）。

这两种噪声源都意味着每一层都必须学会对输入的大量变化保持鲁棒性，就像Dropout一样。

还有许多其他示例，具体取决于网络类型，但这将使你获得更多的入门知识！

2021-01-19 15:58 更新

karry • 4540

理工酷