什么是数据清理?(data cleansing?)

数据清理,也称为数据清理,是确保一组数据正确和准确的过程。在此过程中,检查记录的准确性和一致性,必要时予以更正或删除。这可能发生在一组记录内,也可能发生在需要合并或将一起工作的多组数据之间。...

数据清理,也称为数据清理,是确保一组数据正确和准确的过程。在此过程中,检查记录的准确性和一致性,必要时予以更正或删除。这可能发生在一组记录内,也可能发生在需要合并或将一起工作的多组数据之间。

A program could be set to delete all records that have not been updated within the previous five years.

简单过程

最简单的形式是,数据清理涉及一个人或多个人阅读一组记录并验证其准确性。纠正打字错误和拼写错误,正确标记和归档错误标记的数据,完成不完整或缺失的条目。这些操作通常会清除过期或不可恢复的记录,以便它们不会占用空间并导致低效的操作。

复杂过程

在更复杂的操作中,数据清理可以由计算机程序执行。这些程序可以根据用户决定的各种规则和程序检查数据。一个程序可以被设置为删除所有在过去五年内未更新的记录,更正任何拼写错误的单词,并删除任何重复的副本。一个更复杂的程序可能能够根据正确的邮政编码填写缺失的城市,或者将数据库中所有项目的价格更改为另一种货币。

利益

数据清理对于任何依赖数据的业务的效率都非常重要。例如,如果数据库中的某些客户没有准确的电话号码,员工就无法轻松与他们联系。例如,如果客户的电子邮件地址格式不正确,自动电子邮件系统将无法发送最新的优惠券和特价。数据清理的工作是确保系统中的数据是正确的,以便系统能够使用这些数据。不准确或不完整的记录对任何人都没有多大用处。

每当两个数据系统需要协同工作时,数据清理就更为重要。如果一家公司有两个分支机构与许多相同的客户合作,那么每个分支机构中的数据不仅需要完整和准确,而且两个分支机构还需要有匹配的数据。当客户使用一家分行更新其电话号码时,需要使用相同的信息更新另一家分行的数据,以确保最高的效率。数据清理工作不仅要确保数据准确,而且要确保不同记录之间的数据一致。

每当存储大量数据时,错误必然会潜入系统。数据清理的目标是尽量减少这些错误,使数据尽可能有用和有意义。如果不定期执行此过程,错误和错误可能会累积起来,从而导致工作效率低下和更加复杂。

  • 发表于 2021-12-13 12:42
  • 阅读 ( 119 )
  • 分类:互联网

你可能感兴趣的文章

信任网数据泄露:意外还是抢钱?

... 值得一看信任网隐私政策,看看他们对你的数据收集有什么看法。 ...

  • 发布于 2021-03-16 21:42
  • 阅读 ( 201 )

如何在chrome for ios中清除浏览历史记录

...分中的“隐私”。 在“隐私”屏幕上,轻触“清除浏览数据” 在“清除浏览数据”屏幕上,可以指定要清除的数据类型。默认情况下,保存的密码和自动填充数据不会被清除,但您可以根据需要选择这些部分或删除其他部分...

  • 发布于 2021-04-09 12:27
  • 阅读 ( 122 )

大数据(big data)和数据分析(data analytics)的区别

...简而言之,数据分析应用于大数据。 覆盖的关键领域 1.什么是大数据-定义,用法2.什么是数据分析-定义,用法3.大数据和数据分析的区别-关键区别比较 关键术语 大数据、数据分析 什么是大数据(big data)? 数据对每个组织都很...

  • 发布于 2021-07-01 00:22
  • 阅读 ( 1010 )

etl公司(etl)和数据仓库(data warehouse)的区别

...据仓库的区别就源于这个基本概念。 覆盖的关键领域 1.什么是ETL–定义,功能2.什么是数据仓库–定义,功能3.ETL和数据仓库的区别是什么–关键区别的比较 关键术语 数据仓库 什么是etl公司(etl)? ETL代表提取、转换和加载。在...

  • 发布于 2021-07-01 03:18
  • 阅读 ( 469 )

依赖的(dependent)和独立数据集市(independent data marts)的区别

...据集市作为依赖和独立的数据集市。 覆盖的关键领域 1.什么是从属数据集市-定义,功能2.什么是独立数据集市-定义,功能3.从属数据集市和独立数据集市之间的区别是什么-关键区别的比较 关键术语 数据集市、数据仓库、相关...

  • 发布于 2021-07-01 03:47
  • 阅读 ( 517 )

数据集成(data integration)和etl公司(etl)的区别

...程。它涉及提取、转换和加载数据。 覆盖的关键领域 1.什么是数据集成-定义,功能2.什么是ETL-定义,功能3.数据集成和ETL之间的区别是什么-关键区别的比较 关键术语 大数据、数据集成、数据仓库、ETL 什么是数据集成(data integr...

  • 发布于 2021-07-01 03:55
  • 阅读 ( 611 )

数据集成(data integration)和数据迁移(data migration)的区别

...和数据迁移是两个涉及数据的过程。 覆盖的关键领域 1.什么是数据集成-定义,功能2.什么是数据迁移-定义,功能3.数据集成和数据迁移的区别-主要区别比较 关键术语 大数据、数据库、数据集成、数据迁移 什么是数据集成(data ...

  • 发布于 2021-07-01 22:11
  • 阅读 ( 452 )

数据争用(data wrangling)和数据清理(data cleaning)的区别

...据清理是生成有用数据的两种方法。 覆盖的关键领域 1.什么是数据争用-定义,功能2.什么是数据清理-定义,功能3.数据争用和数据清理的区别-主要区别比较 关键术语 数据清理、数据挖掘、数据争用、数据争用器 什么是数据争...

  • 发布于 2021-07-02 00:30
  • 阅读 ( 2106 )

构建自己的剪贴板清理器应用程序

...代码如下:IDataObject data=Clipboard.GetDataObject();如果(数据!=空&空&data.GetDataPresent(DataFormats.Text)){String clipboardText=data.GetData(DataFormats.Text).ToString();剪贴板.SetText(剪贴板文本);}点击链接查看更大分辨率...

  • 发布于 2021-07-31 22:56
  • 阅读 ( 105 )

如何我选择最好的开源数据恢复工具?(i choose the best open source data recovery tools?)

...具。这样,如果将存储介质用作存档源,则无论介质发生什么情况,都可以恢复数据。 ...

  • 发布于 2021-12-06 17:39
  • 阅读 ( 150 )
xtzbhzp
xtzbhzp

0 篇文章