数据集成和数据融合之间有什么区别 - 问答

它们的差异体现在两个方面: 1. 任何数据来源需要经历的变化量和深度，这样混合过程才有可能; 2. 混合必须建立在一定数量的假设基础上

经验法则:在混合之前我们需要改变的数据的数量和深度越少，我们需要做的假设越少，我们就越接近数据转换，反之亦然。

数据集成示例

假设一家公司想要分析其广告效果。该公司需要提供两列数据。每个客户的总销售额，以及每个客户的广告总支出。由于销售部门和市场部门保存和管理各自的数据库，每个部门的任务是创建一个带有相关信息的客户列表。完成这一步后，需要做的就是连接来自两个源的每个客户的数据。这种连接可以依靠真实客户的存在来实现，因此不需要做任何假设，要连接这些数据，也不需要更改它们。这是一个数据集成的明显例子。有人可能会说，如果缩小每个部门工作的范围，我们可以把它们看作是“改变”数据，这样部门就可以进入他们的任务列表。确实这是一个有意义的观点,如果公司出现这样的情况，那么确实可以看作是一个任务列表的数据预处理,然后你可以说这个例子是数据集成和数据融合,但是,这样并不是真正成熟的分析。 这两个术语的区别，不仅取决于任务，也取决于特定应用的情况和他们的成熟度。

数据融合示例

想象一个有技术支持的农民想要看到灌溉对其产量的影响。农民不仅拥有自己的水站所分配的水量，而且还拥有农场中每个点的收获量请看下面的图片，以更好地了解这两种数据源。

资料来源1:灌溉资料

每个水站都有一个传感器，并计算和记录被分配的水量。

资料来源2:产出数据

在刀片的每次移动过程中，通过机器计算收获量和位置的关系。你可以看到，在这个示例中，数据源之间没有明确的连接。在前面的示例中，除连接是客户。然而，这里并不是，所以我们需要做一些假设并改变数据，这样连接就成为可能。本例中的情况如下图所示。蓝色的点代表水站，灰色的点代表收获点。虽然可能会有不同的假设和预处理来组合或融合这些数据源，但其中之一是这样的: 如果我们将数据对象定义为能够获得一些土地的收获呢?换句话说，我们将数据对象定义为收获点。然后，根据水站与每个采集点的接近程度，计算一个代表该点接收到的水量的数值。每个水点都有一定的到达半径。在这个范围内，一个收获点离水点越近，收获点从水站分配的水的数量就越多。在这个示例中，你可以清楚地看到，我们必须 1)对收集到的数据做出许多假设， 2)显著地更改一个数据源，以便它可以与另一个数据源“融合”。 这就是为什么我们可以自信地说这是数据融合而不是数据集成。

2021-01-29 13:41 更新

小眼的铁板烧 • 3522

理工酷

首页

圈子

资源下载

数据集成示例

数据融合示例

资料来源1:灌溉资料

资料来源2:产出数据

邀请回答

推荐问题

推荐资源

加入组织

理工酷

首页

圈子

资源下载

站外资源

问答

网址导航

数据集成示例

数据融合示例

资料来源1:灌溉资料

资料来源2:产出数据

邀请回答 换一组

推荐问题

推荐资源

加入组织

邀请回答