新闻稿




清洁脏数据


数据的最终目的是驱动决策。但数据并不像我们想要相信的那样可靠或准确。这将导致一个最不受欢迎的结果:糟糕的数据意味着糟糕的决策。作为一名数据专业人员,我们的任务之一就是让数据“足够好”,供他人使用。我们花时间清理数据,让其他团队可以使用这些数据。这可能看起来是一个永无止境的任务,因为它确实是。

脏数据的起源

肮脏数据的根本原因很简单:人为干预。如果不是人类,数据将是干净的,完美和清晰的。我们更改标准和业务需求,并忘记为什么我们首先收集一些指标。我们写的一些代码将在某些时候失败,我们不时致脂肪的数据进入。

因此,我们最终会遇到以下情况:记录并两次输入到数据集中的单个事件导致的重复数据,由于应该包含值但没有包含值的字段导致的丢失数据,以及由于没有正确输入或没有维护信息而导致的无效数据。其他情况包括由于输入错误、换位、拼写或格式变化(Unicode!)而导致的错误数据,以及由于输入错误字段而导致的不适当数据。

数据清洁技术

请记住,所有数据都是脏的 - 你将无法让所有的完美。您的重点应该是让它足以通过它来传递到下一个人。第一步是检查数据并问自己,“这个数据是否有意义?”数据应该讲述故事或回答一个问题。确保您的数据也是如此。然后,在您做任何其他内容之前,在做出最小的变化之前,请制作数据的复制或备份。我不能压力。

根据您的数据和数据集中的特定问题,下面是一些您可能会使用的数据清理技术。

识别和删除重复数据:Microsoft Excel和Microsoft Power BI等工具使其变得简单。当然,您需要知道数据是否复制或两个独立的观察。对于关系数据库,我们经常使用主键来强制执行记录的唯一性。但是这种约束不适用于每个系统日志记录数据。

删除不合适的数据:如果数据没有帮助您回答您要问的问题,请将其删除。例如,如果您正在分析商店销售,您可能希望专注于特定项目或项目类别的销售情况。

用拼写等识别和解决问题。有许多方法可以操作字符串,以帮助您的数据格式化和美观。例如,您可以使用TRIM函数从列的文本中删除空格,然后对数据进行排序,并查找诸如大小写和拼写等细节。记住地域术语的使用,比如将含糖饮料称为“pop”,而不是正确的术语“soda”。

标准化数据:为数据设置标准。如果数据是数字,请确保它是一个数字,而不是文本。如果它是“分类”,请确保该类别申请该类别。拼写,大写等是设置标准并将数据标准化为某种程度的方式。

删除异常值:但只有这样做才是有意义的!如果异常值是由于收藏不佳,可以安全地删除。哈蒙德的法律国家“九十百分之九十的时间,下一个测量将落在90%的置信区间之外。”注意到异常值和数据库异常是无辜的,直到被证实有罪 - 如果你删除了异常值,请注意,一些统计数据是抵抗的,其他人则不是。

修复失踪你有两个选择。您可以删除记录,也可以更新缺失的值。是的,这就是我们得到虚假零值的方式。您将需要做出一些艰难的选择,所以要确保您的文档中有您正在做的事情。一个很好的方法就是使用jupiter笔记本。对于分类数据,您可能决定使用“missing”这样的词。对于数值数据,您可能希望使用0或平均值,或者生成数据的随机分布。同样,跟踪你做的每一个改变。我避免对任何数据使用伪空,除非有必要注意收集的信息的缺失。

一个永无止境的过程

我们都陷入了同样的陷阱:我们没有时间首先做到这一点,但不知何故会有时间稍后修复它。谈到数据时,它是一种策划,消耗和清洁的永无止境的过程。无论你擦洗多少数据,它都不会干净,但它可能已经足够好了。也许我们没有去学校成为一个数据看门人,但在这里我们是。我们明白,虽然所有数据都脏,但数据仍然有用。它只需要良好的清洁。