缺失数据的添补与异常点数据的清除咋处理呀
对于工厂里的控制数据常常出现数据丢失或是异常数据如下为一个设备的用电量:
日期 电表读数
2009- 1-1 112
2009 -1-2 122
2009-1-3 133
2009-1-4 143
2009-1-6 165
2009-1-7 176
2009-1-8 112345
2009-1-9 1953455
2009-1-10 205
2009-1-11 216
对于如上的数据显然 2009-1-5 的数据丢失了要填补,而2009-1-8的数据是异常点必须清除,我查了一下相关
资料:
众数归因法、回归归因法、多重归因法等可以对连续性变量用样本进行填补,异常点检测的统计量有库克距离统计量(cookd)、删除学生化残差SRE(i)等。一般来说, 当cookd>50%或|SRE(i)|〉3则可以认为第i个观测值为异常点
可是在SQLSERVER 2005 中又如何处理呢,ETL可以处理吗,数据挖掘中是否有这些功能,又如何实现这种数据清洗呢?
望赐教,不胜感激!