数据清洗技术最新动态
1.基于实时历史数据库的数据清洗方法
一项名为“一种基于实时历史数据库的数据清洗方法”的专利技术,涉及一种数据清洗方法,可以直接应用于采用实时历史数据库存储数据的行业,如电力、石油化工、冶金等领域。这种方法首先对过程控制设备的各个器件,在实时历史数据库中,建立与各个器件对应的测点,并通过配置测点的属性建立起测点和各个器件的对应关系。然后,对过程控制设备的数据进行采集,采集到的数据被送到实时历史数据库中。接下来,通过现有的实时历史数据库接口程序,采集实时历史数据库中测点数据的原始数据信息,查看各测点数据的时间戳信息。通过各测点数据的时间戳信息获得测点数据之间的采样时间间隔,针对不同的测点设置各测点相应的时间阈值Vi和清洗倍率Ni,如果某测点相邻数据的采集时间间隔大于该测点相对应的时间阈值Vi和清洗倍率Ni的乘积,则判断该时间间隔为坏间隔记录,将该测点在清洗时间范围内的所有坏间隔记作坏时间段***Mi,得到所有测点各自的坏时间段***后,对所有测点的坏时间段***取并集,得到***A将所述***A内采集的测点数据清洗。最后,采用***原理,对所述***A进行补集操作,得到优良时间段***B。
2.数据清洗技术在文本挖掘中的应用
数据清洗技术在文本挖掘中的应用也越来越广泛。数据清洗能提高数据的质量,通过数据的清洗,能使信息检索者利用数据仓库的目的得以实现准确、安全、可靠地从海量的文献信息数据库中取出密切相关数据经过加工转换成有规律的信息然后再提供给信息检索者。这样就能为信息检索者提供直观有序的信息缩短信息检索者获取信息的时间。在集成数据源时可能存在着有的数据源中含有“脏”数据有些数据源的表示存在不同、重叠或者冲突等问题。这样我们可以把数据质量问题分成两类其中一类是与数据模式有关另一类则是和实例即数据有关。通过以上分析,把数据清洗引入文本挖掘中急需解决如下问题数据不完整、数据不正确或数据不一致的问题。集成多个数据源时数据清洗的主要问题是确定重叠的数据。通常信息只含有部分冗余各个数据源可以通过提供关于实体额外的信息来相互补充。
若要获得和现实世界中的实例一致的视图则就需要清除重复的信息、合并补充的信息。解决这些问题的过程也就是数据清洗的过程数据清洗的目的是检测数据中存在的错误和不一致。检测和消除相似、重复记录的问题。所谓相似重复记录是指客观上表示现实世界中同一实体。
但由于表述方式不同或拼写问题而使不能识别其为重复的记录。例如由于输入错误和表达方式的不同同一著者的同一篇文献由于收录数据的检索系统的不同当进行数据挖掘时就可能表现为两条不同的记录而实际上这两条记录表示的是同一立错误的数据挖掘模型。导致信息检索者检索的结果会大大的增加。
3.数据清洗技术的发展趋势
随着大数据时代的来临,数据的类型多样化,数据的数量增多,这给数据清洗带来一定的问题,如何科学有效的对数据清洗,满足现代企业发展需要。传统的数据清洗方法已经不适合现代社会发展需要,尤其大数据时代数据的多元化,必须更新现在数据清洗技术,提高数据清洗的能力,满足大数据时代数据清洗的需要。大数据环境下,数据清洗技术已经被广泛应用于大健康、银行、移动通信、交通等领域,在一定程度上保证了数据质量,为大数据决策提供了可靠依据。数据清洗应用的范围广,有数据的地方,基本都需要数据清洗,在互联网+时代,数据采集的多元化,这是增加数据错误的概率,进行数据清洗是非常必要的,也是非常重要的,是保障数据分析正确性起到决定性作用。
综上所述,最新的数据清洗技术发展趋势包括但不限于基于实时历史数据库的数据清洗方法以及在文本挖掘中的应用。同时,随着大数据时代的到来,数据清洗技术也在不断发展和创新,以适应不断增长的数据需求和挑战。