数据分析中的数据分箱是什么？ - 问答

数据分箱

数据科学和统计中的分箱是一种数据平滑/数据预处理技术，用于通过替换一些通用值来消除数据中的噪声和异常值。它还有助于消除数据集较小子范围内的锯齿形变化，并减少统计研究期间的观察误差。通过最大化描述数据集主要特征的数据点的概率，此过程在数据点的随机选择/采样期间也很有用。

离群值

离群值不过是与数据集中其他数据点的大小相比具有极高或极低值的数据点。例如：让我们考虑以下情况，下表包含了15个属于同一班级的学生的分数。我们可以看到，除2分（学生6和学生13）外，大多数学生得分都在50-70分左右。现在，如果我们对这些数据进行任何统计研究，那么这些异常值的存在可能最终会给出错误的推论。因此，建议在进行任何类型的研究之前先处理这些异常值。只有两种方法可以处理异常值。他们是-

移除异常值
用新值替代

分箱是属于第二种方法，该技术处理异常值并通过平滑整个数据集来减少其影响。分箱有3种主要方法-

按bin均值平滑
按bin中值进行平滑
通过bin边界平滑

让我们看看上述方法的程序

平均/中值平滑

步骤1：对给定的数据集进行排序。步骤2：将范围分为n个间隔，每个间隔包含大约相同数量的数据点。步骤3：在每行中存储均值/中位数。例如，考虑与上述相同的数据： 60、65、66、70、50、20、55、62、67、58、56、58、99、6 9、70 步骤1：对给定的数据集进行排序 20、50、55、56、58、58、60、62、65、66、67、69、70、70、99 步骤2：将范围分为n个间隔，每个间隔包含大约相同数量的数据点。假设n = 3 Bin 1：20、50、55、56、58 Bin 2：58、60、62、65、66 Bin 3：67、69、70、70、99 步骤3：将平均值存储在每一行中。 Bin 1：47.8、47.8、47.8、47.8、47.8 Bin 2：62. 2，62. 2，62. 2，62. 2，62. 2 Bin 3：75、75、75、75、75 现在，数据集已被重新设置为值- 47.8，47.8，47.8，47.8，47.8，62. 2，62. 2，62. 2，62. 2，62. 2，75，75，75,75，75 同样，如果需要，我们也可以用中位数代替。通过bin边界平滑步骤1：对给定的数据集进行排序。步骤2：将范围分为n个间隔，每个间隔包含大约相同数量的数据点。步骤3：每个bin的最小值和最大值称为bin边界。用最接近的边界值替换每个bin值。例如，步骤1：对给定的数据集进行排序 20、50、55、56、58、58、60、62、65、66、67、69、70、70、99 步骤2：将范围分为n个间隔，每个间隔包含大约相同数量的数据点。假设n = 3 Bin 1：20、50、55、56、58 Bin 2：58、60、62、65、66 Bin 3：67、69、70、70、99 步骤3：将每个bin值替换为最接近的边界值。 Bin 1：20、50、55、56、58 20和58是边界值。现在， 50（第二个元素）比20更接近58。因此用58代替50。 20和58是边界值。 55（第三个元素）比20更接近58。因此用58代替55。 56（第三个元素）比20更接近58。因此用58代替56。 Bin 2：58、60、62、65、66 58和66是边界值。现在， 60（第二个元素）比66更接近58。因此用58代替60。 62（第三个元素）与58和66等距。因此，我们可以将其替换为任何边界值。 65（第三个元素）比58更接近66。因此用66代替65 同样，Bin3也可以使用相同的过程进行转换。现在，数据集已被重新设置为值- 20、58、58、58、58、58、58、58、58、66、66、67、67、67、99 值得注意的是，尽管使用边界方法进行平滑处理时，数据集中仍然存在20和99，尽管它们是离群值，但是当使用均值方法进行平滑处理时，那些离群值已被删除。因此，应考虑研究目的谨慎选择分箱技术，因为某些统计研究算法对异常值具有鲁棒性，但它们可能期望数据没有许多之字形偏差。在这种情况下，按边界进行平滑处理将更为有用。