时事通讯




新数据湖屋:一种尺寸并不适合所有人


供应商是相当可预测的生物。任何特定的供应商都将告诉您,他们的新工具将解决几乎所有的问题;只要继续向供应商的代表解释您的问题,直到他们可以框架框架来说服您。此外,他们的新工具可能会支持您尚未理解的全新框架,因为它仍在开发 - 但新工具将在那里。登上或留下来。案例在点:Data Lakehouse框架有任意数量的供应商提供了组织必须正确地进行数据湖泊的工具。

一个新的框架

Data LakeHouse是本组织的数据湖泊和数据仓库的合并到一个平台中,消除了数据冗余和从一个地方移动数据的数据丢失。

这个最新的数据救世主真的比过去所有的数据救世主更好吗?批评者认为,一个有大数据流入的数据湖——虽然它是一个有价值的工具——实际上用处有限。这种限制是由于最重要的事务数据仍然是在高度结构化(通常是关系)的数据源中创建和管理的。虽然这些交易对组织来说是很大的数量,但总的数量可能是相当有限的。

从这些“非结构化数据操作来源成JSON或别的东西,这样用户可以运行他们的结构化查询和结构化报告潜在的可以被认为是一个不存在的问题的解决方案(除非,当然,湖大数据/数据供应商的“问题”如何扩大其客户基础和使用)。

不同的需求

在数据湖中拥有所有数据的困难,尚未拥有此数据的多个副本,最终涉及用户。今天,不同的用户以不同的方式涉及数据。非数据科学家仍然具有简单的需求和观点。简单的数据结构,如星形模式,可与这类用户易于相关。视图或其等同物可以提供对这些用户显示数据的翻译,但此类视图可能或可能无法提供合理的性能。此外,基础结构可能不支持正确的必要历史变化活动。

可能需要重复数据以解决演示和更改活动。如果重复,则数据虚拟化工具可以帮助使数据的物理存在成为实际点。它是数据湖还是关系数据仓库?谁需要关心?如果我们假设有一天的技术进步允许无限的性能,可能一天会在运营数据甚至不需要从其原始操作来源移动时,并且可以在适当的情况下执行操作和分析查询。

组织分析的需求

我们可能需要等待一段时间,直到数据湖屋能够顺利地满足我们的组织分析需求。也许,到那时,会有另一个框架被期望。解决方案仍然需要发展到数据结构实际上毫无意义的地步,但这一天终将到来。

我们的存储和处理能力可能会提高到几乎无限的程度,所有需要做的就是在某种类型的元数据存储库中逻辑地将这些碎片拼接在一起——所有数据用户将能够快速正确地查询并获得他们的答案。然而,通往这样一个未来的道路充满了对我们的数据更好、更深入的理解,以及在实施方面的一致性,这是我们作为一个社会以前从未鼓励过的。为了更大的利益,在我们的数据解决方案中实现的聪明的变通方法和捷径将需要消失。认为任何新的工具或框架都可以简单地避开这种更深层次的理解的想法充其量是短视的。