新闻稿




清洁脏数据


数据的最终目的是推动决策。但数据并不像我们想要相信的那样可靠或准确。这导致最不受欢迎的结果:坏数据意味着不良决策。作为数据专业人士,我们的一部分使命是使数据“足够好”以供其他人使用。我们花费时间擦洗和清洁数据,使其由其他团队消耗。它看起来可能是一个永无止境的任务,这是因为它是。

脏数据的起源

肮脏数据的根本原因很简单:人为干预。如果不是人类,数据将是干净的,完美和清晰的。我们更改标准和业务需求,并忘记为什么我们首先收集一些指标。我们写的一些代码将在某些时候失败,我们不时致脂肪的数据进入。

As a result, we end up with the following situations: Duplicate data caused by a single event recorded and entered twice into a dataset, missing data due to fields that should contain values but don’t, and invalid data due to information that isn’t entered correctly or isn’t maintained. Other situations include bad data due to typos, transpositions, and variations in spelling or formatting (say hello to Unicode!), and inappropriate data due to data entered in the wrong field.

数据清洁技术

请记住,所有数据都是脏的 - 你将无法让所有的完美。您的重点应该是让它足以通过它来传递到下一个人。第一步是检查数据并问自己,“这个数据是否有意义?”数据应该讲述故事或回答一个问题。确保您的数据也是如此。然后,在您做任何其他内容之前,在做出最小的变化之前,请制作数据的复制或备份。我不能压力。

根据您的数据和数据集中的特定问题,以下是您可能使用的一些数据清洁技术。

识别和删除重复数据:Microsoft Excel和Microsoft Power BI等工具使其变得简单。当然,您需要知道数据是否复制或两个独立的观察。对于关系数据库,我们经常使用主键来强制执行记录的唯一性。但是这种约束不适用于每个系统日志记录数据。

删除不适合的数据:如果数据没有帮助您回答您要问的问题,请将其删除。例如,如果您正在分析商店销售,您可能希望专注于特定项目或项目类别的销售情况。

用拼写等识别和解决问题。:有很多方法可以操纵字符串来帮助您的数据格式化并看起来很漂亮。例如,您可以使用Trim函数从列中的文本中删除空格,然后对数据进行排序并查找大写和拼写等详细信息。尽管如此,请记住区域性术语,例如呼叫含糖饮料“流行”与正确的术语“苏打水”。

标准化数据:为数据设置标准。如果数据是数字,请确保它是一个数字,而不是文本。如果它是“分类”,请确保该类别申请该类别。拼写,大写等是设置标准并将数据标准化为某种程度的方式。

删除异常值:但只有这样做才是有意义的!如果异常值是由于收藏不佳,可以安全地删除。哈蒙德的法律国家“九十百分之九十的时间,下一个测量将落在90%的置信区间之外。”注意到异常值和数据库异常是无辜的,直到被证实有罪 - 如果你删除了异常值,请注意,一些统计数据是抵抗的,其他人则不是。

修复失踪:你这里有两个选择。您可以删除记录或更新缺失值。是的,这就是我们如何获得人造空值。你需要做出一些艰难的选择,所以让你的文件确信你在做什么。这是一个很好的方法是使用jupyter笔记本电脑。对于分类数据,您可能决定使用诸如“缺少”的单词。对于数值数据,您可能希望使用0或平均值,或者可能会生成数据的随机分发。再次,跟踪您所做的每一个变化。我避免使用FAUX NULL的任何数据,除非有意义地注意没有收集信息。

永无止境的过程

我们都陷入了同样的陷阱:我们没有时间首先做到这一点,但不知何故会有时间稍后修复它。谈到数据时,它是一种策划,消耗和清洁的永无止境的过程。无论你擦洗多少数据,它都不会干净,但它可能已经足够好了。也许我们没有去学校成为一个数据看门人,但在这里我们是。我们明白,虽然所有数据都脏,但数据仍然有用。它只需要良好的清洁。