时事通讯




新数据(几乎)总是响两次


任何值得做的东西,都是值得一次又一次的。正确的?在为一个人的数据仓库,集线器或其他分析区域构建和标准化新的主题领域或新来源时一开始经常忽略的任务是引入数据的逻辑。显然,每个人都知道新数据必须经过处理。许多人忽略了这样一个想法,即建立引入数据的过程通常必须进行两次或更多。

当前导致额外工作负载的问题是历史。基本处理被定义为摄取当前从源输入的数据。因此,这种处理对于当前和以后的运行都是有用的。如果有这样一种情况,即从今天开始只有数据是必需的,那么数据历史问题就不需要考虑了,这样就完成了。另一方面,如果企业一开始就需要可用的历史数据然后一个是不是完成,需要使用更多细节。

在考虑新来源的历史数据时,要回答的第一个问题是,“是否有所需的历史数据?”有时,这个问题的答案是“不”,尽管这个答案可能令人不快,但缺乏可用的历史是一种必须管理向前的期望。当历史可用时,如何获得历史数据可能以不同的方式。

在理想情况下,引入历史可能很简单,只需接收源的完整副本而不是日常事务的数据存储。理想情况下,它的格式是相同的,为日常事务定义的逻辑可能对完整的副本工作良好。不太理想的是,格式可能不同,或者完整副本的上下文需要逻辑上的更改。因此,建立处理逻辑的二级版本来处理完整副本。另一种情况是,历史记录的唯一或最佳来源是一组返回到所需时间点的日常事务。逻辑可能需要稍作修改,以允许将“current datetime”作为输入参数。

主要的挑战将是协调和逐个循环地运行每个数据集,从最古老的到最新的。有时,提供每日文件的供应商不能或不愿提供任何历史记录。缺乏援助本身并不意味着没有历史。历史记录可以在以前的或备用数据集线器或其他结构中使用。显然,在这种不同的情况下几乎保证处理历史数据的逻辑将是完全新的。

有时,人们可能是幸运的,只有只需编写一次逻辑。但通常足够的新来源摄取处理必须至少两次写入:一项用于拉动当前数据和数据前进的数据,第二次引入必须从一开始就可获得的指定历史记录。

可能当前和未来的数据来自“合法”源,但是历史数据来自使用不同格式构建的解决方案的较老版本,或者较老的合法源在不同的时间点有多种格式。无论采用哪种方式,都必须创建新的代码来导入相同的历史数据。

这是因为这些动态,即ETL,ELT或ORE的动态,它是不止一次地创建其处理的。作为一个朋克乐队一次评论,“数量是质量”。因此,人们越多的事情就越好。额外的工作是帮助我们更好地教会如何完成它。