互联网技术 / 互联网资讯 · 2023年11月14日 0

数据预处理的10个小技巧,使用Pandas实现

数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等,下面使用 pandas 解决这些最常见的预处理任务。

找出异常值常用两种方法:

标准差法:异常值平均值上下1.96个标准差区间以外的值 分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值

技能1 :标准差法

技能2:分位数法

技能3:处理空值

技能4:充填空值

技能5:修复不合适值

技能6:过滤重复值

技能7:apply 元素级:去掉特殊字符

技能8:cut 数据分箱

技能9:Rank 排名

技能10:category列转数值

以上结合数据预处理的十个小任务,分别找到对应pandas中的实现。