美国各州人口数据分析

1.导入模块

import numpy as np
import pandas as pd
from pandas import Series,DataFrame

2.读取数据

#本地数据
abb = pd.read_csv('./data/state-abbrevs.csv')
areas = pd.read_csv('./data/state-areas.csv')
pop = pd.read_csv('./data/state-population.csv')

3.合并人口数据表(pop)和地区简写表(abb)

# 合并方式how:inner、outer、left、right
# left_on、right_on:左右分别以某一列合并(没有相同的列标签,但是内容是一样的)
# on:以某一列合并(有相同的列标签)
# left_index、right_index:使用索引参与合并
pop_abb = pd.merge(pop,abb,
                   left_on='state/region',
                   right_on='abbreviation',
                   how='outer')

4.删除多余的列‘abbreviation’

axis=1 or axis=’columns’ 删除列
axis=0 or axis=’index’ 删除行

pop_abb = pop_abb.drop('abbreviation',axis=1)

5.查看缺失数据

isnull()、notnull()
any()、all() 存在、全部

#找出存在数据缺失的列
pop_abb.isnull().any()

#在存在数据缺失的列area(sq.mi)中,找出是空值的行
area_list = pop_abb_area['area (sq. mi)'].isnull()

6.删除存在空值的行

#找出表中area(sq.mi)列是空值的行的行索引
drop_index = pop_abb_area[area_list].index
# drop函数中的inplace参数 
#True:修改被操作数据的结构  
#Fase:默认值,不修改原始数据,生成新数据
pop_abb_area_1 = pop_abb_area.drop(labels=drop_index,axis=0)

你可能感兴趣的:(数据分析)