数据预处理的10个小技巧,附Pandas实现
发布时间:2021-05-13 21:46:12 所属栏目:大数据 来源:互联网
导读:找出异常值常用两种方法: 标准差法:异常值平均值上下1.96个标准差区间以外的值 分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值 技能1 :标准差法 importpandasaspd df = pd .DataFrame({a:[1,3,
找出异常值常用两种方法:
技能1 :标准差法
技能2:分位数法
技能3:处理空值 np.nan 是 pandas 中常见空值,使用 dropna 过滤空值,axis 0 表示按照行,1 表示按列,how 默认为 any ,意思是只要有一个 nan 就过滤某行或某列,all 所有都为 nan
技能4:充填空值 空值一般使用某个统计值填充,如平均数、众数、中位数等,使用函数 fillna:
技能5:修复不合适值 假如某门课最高分100,如果出现 -2, 120 这样的值,显然不合理,使用布尔类型的Series对象修改数值:
技能6:过滤重复值
过滤某列重复值,使用 drop_duplicated 方法,第一个参数为列名,keep关键字等于last:最后一次出现此值行: (编辑:桂林站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐