数据分析之数据处理(1)

引言:本文讲解数据合并、删除、替换、去重,给空值数据赋值

1、导包、导入数据

#coding=utf-8

import numpy as np
import pandas as pd
from pandas import DataFrame
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

abb=pd.read_csv("./state-abbrevs.csv")
area=pd.read_csv("./state-areas.csv")
pop=pd.read_csv("./state-population.csv")

2、数据合并:合并人口和各州简称

abb_pop=pd.merge(abb,pop,left_on="abbreviation",right_on="state/region",how="outer")

pd.merge的详细用法

3、删除数据

abb_pop.drop(labels="abbreviation",axis=1,inplace=True) #原始数据中操作

4、数据去重

#找到有哪些state/region使得state的值为NaN (state 中的空值对应的简称找到,并对简称进行去重)
abb_pop.head()
#思路,先找到空数据 再取简称
#1 将state中的空值定位到
abb_pop['state'].isnull()
#2 将上述布尔值作为源数据的行索引
abb_pop.loc[abb_pop['state'].isnull()] #将state中对应的行数据取出
#3 将简称取出
abb_pop.loc[abb_pop['state'].isnull()]['state/region']
#4 对简称去重
abb_pop.loc[abb_pop['state'].isnull()]['state/region'].unique()

结果展示:
数据分析之数据处理(1)_第1张图片
数据分析之数据处理(1)_第2张图片

5、给空值数据赋值

# 将USA全称赋值
#为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN
#填充 fillna?   此处不可以,fillna可以使用空的近邻值做填充。fillna(value="xxx")使用指定的值进行填充
#使用给元素赋值的方式进行填充
#1 先给USA的对应空值进行批量赋值
#1.1 先找到USA对应的行数据找出来(行数据中就存在state的空值)
abb_pop['state/region']=='USA' #一旦出现布尔值就转换成原数据的行索引
abb_pop.loc[abb_pop['state/region']=='USA']
#1.2 获取USA对应的全称空  对应的行索引取出
indexs=abb_pop.loc[abb_pop['state/region']=='USA'].index
abb_pop.iloc[indexs]
abb_pop.loc[indexs,'state']="United States"
abb_pop

结果展示:

数据分析之数据处理(1)_第3张图片
数据分析之数据处理(1)_第4张图片
数据分析之数据处理(1)_第5张图片
数据分析之数据处理(1)_第6张图片

你可能感兴趣的:(数据分析,数据挖掘)