数据集成和数据融合之间有什么区别
0 1319
1
该提问暂无详细描述
收藏
2021-01-29 13:34 更新 空心人 •  2542
共 1 个回答
高赞 时间
0

它们的差异体现在两个方面: 1. 任何数据来源需要经历的变化量和深度,这样混合过程才有可能; 2. 混合必须建立在一定数量的假设基础上

经验法则:在混合之前我们需要改变的数据的数量和深度越少,我们需要做的假设越少,我们就越接近数据转换,反之亦然。

数据集成示例

假设一家公司想要分析其广告效果。该公司需要提供两列数据。每个客户的总销售额,以及每个客户的广告总支出。由于销售部门和市场部门保存和管理各自的数据库,每个部门的任务是创建一个带有相关信息的客户列表。 完成这一步后,需要做的就是连接来自两个源的每个客户的数据。这种连接可以依靠真实客户的存在来实现,因此不需要做任何假设,要连接这些数据,也不需要更改它们。这是一个数据集成的明显例子。 有人可能会说,如果缩小每个部门工作的范围,我们可以把它们看作是“改变”数据,这样部门就可以进入他们的任务列表。确实这是一个有意义的观点,如果公司出现这样的情况,那么确实可以看作是一个任务列表的数据预处理,然后你可以说这个例子是数据集成和数据融合,但是,这样并不是真正成熟的分析。 这两个术语的区别,不仅取决于任务,也取决于特定应用的情况和他们的成熟度。

数据融合示例

想象一个有技术支持的农民想要看到灌溉对其产量的影响。农民不仅拥有自己的水站所分配的水量,而且还拥有农场中每个点的收获量 请看下面的图片,以更好地了解这两种数据源。

资料来源1:灌溉资料

每个水站都有一个传感器,并计算和记录被分配的水量。

资料来源2:产出数据

在刀片的每次移动过程中,通过机器计算收获量和位置的关系。 你可以看到,在这个示例中,数据源之间没有明确的连接。在前面的示例中,除连接是客户。然而,这里并不是,所以我们需要做一些假设并改变数据,这样连接就成为可能。 本例中的情况如下图所示。蓝色的点代表水站,灰色的点代表收获点。 虽然可能会有不同的假设和预处理来组合或融合这些数据源,但其中之一是这样的: 如果我们将数据对象定义为能够获得一些土地的收获呢?换句话说,我们将数据对象定义为收获点。然后,根据水站与每个采集点的接近程度,计算一个代表该点接收到的水量的数值。每个水点都有一定的到达半径。在这个范围内,一个收获点离水点越近,收获点从水站分配的水的数量就越多。 在这个示例中,你可以清楚地看到,我们必须 1)对收集到的数据做出许多假设, 2)显著地更改一个数据源,以便它可以与另一个数据源“融合”。 这就是为什么我们可以自信地说这是数据融合而不是数据集成。

收藏
2021-01-29 13:41 更新 小眼的铁板烧 •  2910