时事通讯




Dremio重振数据湖


称为您将在线的分析处理(OLAP)数据库,企业数据仓库(EDWS),大规模并行处理(MPP)数据库,而是为分析工作负载而不是交易目的而设计的数据库代表了过度数据库市场的庞大部分。

最初,OLAP工作负载在与OLTP工作负载相同的平台上运行 - 您可能会看到一个Oracle RDBMS执行OLTP,而另一个执行OLAP。但是,随着卷的增加,专门为OLAP工作负载设计的数据库。企业数据仓库成为越来越强大的商业智能市场的关键。

十多年前,Hadoop扰乱了电子数据仓库市场。Hadoop能够查询以原始格式存储的数据,通过部署大量的商用服务器集群,能够对任务应用前所未有的并行性。Hadoop提供了一个SQL查询功能(Apache Hive),可以与现有的BI系统集成。

最重要的是,当ETL工作流需要将数据从源系统移动到EDW时,在Hadoop中,数据可以保留为本机格式,减少了将数据从本机格式转换到EDW模式所涉及的延迟。

在Hadoop时代,鼓励企业放弃EDW,支持“数据湖”。数据湖是结构化和非结构化数据的巨大存储库,可以使用Hadoop利用竞争优势来利用。

然而,当公司将他们的资产迁移到云上时,他们通常会找到Hadoop存储层(HDFS)和Hadoop处理引擎的替代品。此外,许多数据湖变成了“数据沼泽”,充满了定义不明确、不一致的数据集,没有明确的导航手段。

但数据湖的概念仍有生命力,德雷米奥(Dremio)不断取得的成功就是证明。Dremio将自己描述为“云数据湖”平台。它提供了一个基于云的引擎,在云对象存储(如Amazon S3、Azure的数据湖存储,甚至是遗留的Hadoop系统)之上进行分层。

为什么在Hadoop最终失败的地方,Dremio会成功?首先,Dremio是云原生的。当企业将资产从本地转移到云计算时,Hadoop未能提供令人信服的产品。Dremio完全针对云用例进行了优化。

其次,虽然Hadoop是可扩展的,但实时BI太慢了。Hadoop SQL引擎比EDW替代品慢的数量级。相比之下,DREMIO提供了柱状内存高速缓存,反射(类似于物化视图)和复杂的并行查询优化,这允许实时执行查询。

第三,由于元数据管理不善,数据湖变成了数据沼泽。伟德买球合法吗要确定Hadoop数据湖中数据的定义和含义并不总是可能的。为了减轻这一问题,Dremio支持语义层,为湖中的数据添加业务含义。

DREMIO成功地产生了一些严肃的采用,最近完成了1.35亿美元的D Rifiend,展示了投资者对愿景的信念。

DREMIO将其数据湖模型视为最终提出单片数据仓库。虽然这种修辞让人让人想起了Hadoop时代的高度,但肯定会增加经济激励措施,以分析存储在廉价云存储器上的质量数据,而不是将其迁移到相对昂贵的数据库存储。

然而,现在再断言死亡无疑还为时过早!-数据仓库。关于数据湖的经济观点没有考虑到BI处理所涉及的所有成本。静态数据存储的成本只是一个考虑因素。当必须实时聚合大量数据时,如果数据存储在“廉价”且未优化的云存储上,成本可能会更高。将数据转换为优化的EDW模式可能会带来更快的实时查询,因此(就CPU而言)更便宜。在这个转变过程中,数据也被调和和清理——导致了组织渴望的“单一的真理观”。

数据湖泊和数据仓库模型似乎是可行性和充满活力的段。Dremio看起来很好地利用前者,而数据仓储等雪花等替代品在后期开采。