数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等,下面使用 pandas 解决这些最常见的预处理任务。
找出异常值常用两种方法:
标准差法:异常值平均值上下1.96个标准差区间以外的值 分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值
技能1 :标准差法
技能2:分位数法
技能3:处理空值
技能4:充填空值
技能5:修复不合适值
技能6:过滤重复值
技能7:apply 元素级:去掉特殊字符
技能8:cut 数据分箱
技能9:Rank 排名
技能10:category列转数值
以上结合数据预处理的十个小任务,分别找到对应pandas中的实现。