国外服装设计网站/百度客服怎么转人工
阿宏-数据清洗考虑的几个方面
1、预处理
在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):
1.数据缺失 (Incomplete) 是属性值为空的情况。如 Occupancy = “ ”
2. 数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”
3.数据不一致 (Inconsistent)是数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985”
4.数据冗余 (Redundant)是数据量或者属性数目超出数据分析需要的情况。
5.数据集不均衡 (Imbalance)是各个类别的数据量相差悬殊的情况。
6.离群点/异常值 (Outliers)是远离数据集中其余部分的数据。
7.数据重复(Duplicate)是在数据集中出现多次的数据。
2、标准化处理
如:id对应不上
淘宝个人信息表
1 阿宏 xxxx
支付宝个人信息表
2 阿宏 xxxx
天猫个人信息表
3 阿宏 xxxx
标准化后对照表
id name tbid zfbid tmId
0001 阿宏 1 2 3
淘宝个人信息表 (+Standardid)
1 阿宏 xxxx 001
支付宝个人信息表
2 阿宏 xxxx 001
天猫个人信息表
3 阿宏 xxxx 001
3、去重处理
分2种类型
– 全部字段:distinct group by、 row_number
– 核心字段:row_number
处理结果需要保留哪条数据要看具体情况
4、错误值处理:逻辑错误、主外键不一致、全角半角、数据移位
5、缺失值处理
重新收集
分数据的重要程度
平均法、中位数
取行业标准
取最常用的值
空值替换
6、格式内容的处理
时间、日期、数值、全半角格式不一致
内容中不应该存在的内容
内容与改字段应有的内容不一致
7、逻辑错误处理
年龄超过200、月份13月日期2月30,按照缺失值处理
8、修正矛盾数据
确定那个字段是正确的