import pandas as pd
import numpy as np
file=open('D:/北京地区信息.csv')
file_data=pd.read_csv(file) #读取文件信息
file_data
file1=open('D:/天津地区信息.csv')
file1_data=pd.read_csv(file1)
file1_data
重复值的检查和处理
#重复值的检查和处理
#北京
file_data.duplicated()
#重复值的检查和处理
#天津
file1_data.duplicated()
删除重复数据
#删除重复数据
file_data=file_data.drop_duplicates()
file_data
缺失值检查和处理
#缺失值检查和处理
file_data.isnull()
#使用平均值进行填充
population = float("{:.2f}".format(file1_dat['常住人口(万人)'].mean()))
values = {'常住人口(万人)':population}
file1_data= file1_data.fillna(value=values)
file1_data
#异常值的检查和处理
#对北京地区信息进行异常值检测
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
file_data_bjinfo.boxplot(column=['行政面积(K㎡)','户籍人口(万人)',
'男性','女性','GDP(亿元)','常住人口(万人)'])
# 对天津地区信息进行异常值检测
file_data_tjinfo.boxplot(column=['行政面积(K㎡)','户籍人口(万人)',
'男性','女性','GDP(亿元)','常住人口(万人)'])
# 对两地信息数据进行合并
pd.concat([file_data_bjinfo,file_data_tjinfo],ignore_index=True)