Datawhale之动手学数据分析第二章(一)

1.数据清洗简述

1.1缺失值观察

  • 方法一
  • df.info()
  • 方法二 
  • df.isnull().sum()

1.2缺失值处理

  • 方法一:删除

Datawhale之动手学数据分析第二章(一)_第1张图片

  • 方法二:保留

Datawhale之动手学数据分析第二章(一)_第2张图片

 

  • df['name'].fillna(0)
  • #不用函数的保留方法 对缺失值进行0填充
    df[df['Age']==None] = 0
    df[df['Age'].isnull()] = 0
    df[df['Age'] == np.nan] = 0

 1.3重复值观察

df[df.duplicates()]

1.4重复值处理

df.drop_duplicates()

1.5保存清洗数据

df.to_csv('test_clear.csv')

2.特征观察与处理

2.1分箱操作

  • 将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示
  • df['AgeBand']=pd.cut(df['Age'], 5, labels=[1, 2, 3, 4, 5])
    
  • 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示
  • df['AgeBand']=pd.cut(df['Age'], [0, 5, 15, 30, 50, 80], right=False, labels=[1, 2, 3, 4, 5])
    
  • 将连续变量Age按10% 30% 50 70% 90%五个年龄段,并用分类变量12345表示
  • df['AgeBand']=pd.qcut(df['Age'], [0.1, 0.3, 0.5, 0.7, 0.9, 1.], labels=[1, 2, 3, 4, 5])
    

2.2对文本变量进行转换

2.2.1查看类别文本变量名及种类

  • 方法一:value_counts
  • df['Sex'].value_counts()
  • 方法二:unique
  • df['Sex'].unique()
  • df['Sex'].nunique()

         unique():以数组形式(numpy.ndarray)返回列的所有唯一值(特征的所有唯一值)

         nunique(): Return number of unique elements in the object.即返回的是唯一值的个数

2.2.2将文本变量Sex, Cabin ,Embarked用数值变量12345表示

  • 方法一:replace
  • df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2])
    # 适用于种类较少的
    
  • 方法二:map
  • df['Sex_num'] = df['Sex'].map({'male':1, 'female':2})
    #跟方法1一样,适用于种类较少的。
    
  • 方法三:使用sklearn.preprocessing的LabelEncoder
  • from sklearn.preprocessing import LabelEncoder
    for feat in ['Cabin', 'Ticket']:
        lbl = LabelEncoder()  
        label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
        df[feat + "_labelEncode"] = df[feat].map(label_dict)
        df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))
    #这种就无所谓种类的的多少了,均适用
    

2.2.3将文本变量Sex, Cabin, Embarked用one-hot编码表示

for feat in ["Age", "Embarked"]:
#x = pd.get_dummies(df["Age"] // 6)
# x = pd.get_dummies(pd.cut(df['Age'],5))
x = pd.get_dummies(df[feat], prefix=feat)
df = pd.concat([df, x], axis=1)
#df[feat] = pd.get_dummies(df[feat], prefix=feat)

2.3从纯文本Name特征里提取出Titles的特征

df['Title'] = df.Name.str.extract('([A-Za-z]+)\.', expand=False)

 

你可能感兴趣的:(Datawhale之动手学数据分析第二章(一))