加入收藏 | 设为首页 | 会员中心 | 我要投稿 桂林站长网 (https://www.0773zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据预处理的10个小技巧,附Pandas实现

发布时间:2021-05-13 21:46:12 所属栏目:大数据 来源:互联网
导读:找出异常值常用两种方法: 标准差法:异常值平均值上下1.96个标准差区间以外的值 分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值 技能1 :标准差法 importpandasaspd df = pd .DataFrame({a:[1,3,

找出异常值常用两种方法:

  • 标准差法:异常值平均值上下1.96个标准差区间以外的值
  • 分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值

技能1 :标准差法


  1. import pandas as pd 
  2.  
  3. df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]}) 
  4.  
  5. # 异常值平均值上下1.96个标准差区间以外的值 
  6. meangrade = df['a'].mean() 
  7. stdgrade = df['a'].std() 
  8. toprange = meangrade + stdgrade * 1.96 
  9. botrange = meangrade - stdgrade * 1.96 
  10.  
  11. # 过滤区间外的值 
  12. copydf = df 
  13. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  14.         > toprange].index) 
  15. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  16.         < botrange].index) 
  17. copydf 

技能2:分位数法


  1. q1 = df['a'].quantile(.25) 
  2. q3 = df['a'].quantile(.75) 
  3. iqr = q3-q1 
  4. toprange = q3 + iqr * 1.5 
  5. botrange = q1 - iqr * 1.5 
  6.  
  7. copydf = df 
  8. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  9.         > toprange].index) 
  10. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  11.         < botrange].index) 
  12. copydf 

技能3:处理空值

np.nan 是 pandas 中常见空值,使用 dropna 过滤空值,axis 0 表示按照行,1 表示按列,how 默认为 any ,意思是只要有一个 nan 就过滤某行或某列,all 所有都为 nan


  1. # axis 0 表示按照行,all 此行所有值都为 nan 
  2. df.dropna(axis=0how='all'

技能4:充填空值

空值一般使用某个统计值填充,如平均数、众数、中位数等,使用函数 fillna:


  1. # 使用a列平均数填充列的空值,inplace true表示就地填充 
  2. df["a"].fillna(df["a"].mean(), inplace=True

技能5:修复不合适值

假如某门课最高分100,如果出现 -2, 120 这样的值,显然不合理,使用布尔类型的Series对象修改数值:


  1. df.loc[(df['a'] < -2,'a')] = 0 
  2. df.loc[(df['a'] >= 100,'a')] = 100 

技能6:过滤重复值

过滤某列重复值,使用 drop_duplicated 方法,第一个参数为列名,keep关键字等于last:最后一次出现此值行:

(编辑:桂林站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!