由于现实世界数据的多源性。异质性以及采集数据时的一些人工错误,导致网络数据是含有噪音、冗余和缺失的。如何有效地衡量数据的质量是一个重要的研究方向。衡量数据质量的4个指标:一致性、正确性,完整性和最小性。数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量衡量指标,用户应根据应用的需求选择其中一部分。
数据的清洗建立在数据质量标准之上,为了得到高质量的数据,清洗与提炼过程必须满足几个条件:检测并除去数据中所有明显的错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其它数据源﹔应该和数据转化相结合﹔要有相应的插述语言来指定数据转化和数据清洗操作,所有这些操作应该在一个统一的框架下完成。对于数据清洗﹐工业界已经开发了很多数据抽取﹑转化和装载工具(ETL tool)。一些研究人员研究相似重复记录的识别和剔除,还有一些研究包括数据的变换和集成。
QQ客服
扫描二维码添加QQ
微信客服
扫描二维码添加微信
公司电话
17316289114