Python之pandas(二)

Python之pandas(二)

文章目录

    • Python之pandas(二)
      • 环境:jupyter Notebook(Anaconda)
        • 1.引入pandas库和numpy库
        • 2. 读取文件信息
        • 3. duplicated函数
        • 4. duplicates函数
        • 5. isnull函数
        • 6. 平均值
        • 7. 异常值
        • 8.合并

环境:jupyter Notebook(Anaconda)

1.引入pandas库和numpy库

import pandas as pd  
import numpy as np

2. 读取文件信息

file=open('D:/北京地区信息.csv')
file_data=pd.read_csv(file)      #读取文件信息
file_data

Python之pandas(二)_第1张图片

file1=open('D:/天津地区信息.csv')
file1_data=pd.read_csv(file1)
file1_data

Python之pandas(二)_第2张图片

3. duplicated函数

重复值的检查和处理

#重复值的检查和处理
#北京
file_data.duplicated()

Python之pandas(二)_第3张图片

#重复值的检查和处理
#天津
file1_data.duplicated()

Python之pandas(二)_第4张图片

4. duplicates函数

删除重复数据

#删除重复数据
file_data=file_data.drop_duplicates()
file_data

Python之pandas(二)_第5张图片

5. isnull函数

缺失值检查和处理

#缺失值检查和处理
file_data.isnull()

Python之pandas(二)_第6张图片

6. 平均值

#使用平均值进行填充
population = float("{:.2f}".format(file1_dat['常住人口(万人)'].mean()))
values = {'常住人口(万人)':population}
file1_data= file1_data.fillna(value=values)
file1_data

Python之pandas(二)_第7张图片

7. 异常值

#异常值的检查和处理
#对北京地区信息进行异常值检测
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
file_data_bjinfo.boxplot(column=['行政面积(K㎡)','户籍人口(万人)',
'男性','女性','GDP(亿元)','常住人口(万人)'])

Python之pandas(二)_第8张图片

# 对天津地区信息进行异常值检测
file_data_tjinfo.boxplot(column=['行政面积(K㎡)','户籍人口(万人)',
'男性','女性','GDP(亿元)','常住人口(万人)'])

Python之pandas(二)_第9张图片

8.合并

# 对两地信息数据进行合并
pd.concat([file_data_bjinfo,file_data_tjinfo],ignore_index=True)

Python之pandas(二)_第10张图片

你可能感兴趣的:(数据分析学习,python,数据分析,jupyter)