Pandas模块,我觉得掌握这些就够用了!

点击“简说Python”,选择“星标公众号”

福利干货,第一时间送达!

本文授权转载自数据分析1480,禁二次转载

阅读文本大概需要 7 分钟。

      背景介绍        

经常会有一些朋友问我类似的问题,“哎呀,这个数据该怎么处理啊,我希望结果是这样的,麻烦刘老师帮我看看。”、“刘老师,怎么把一列数据拆分出来,并取出最后一个拆分结果呀?”、“刘老师,怎么将Json数据读入到Python中呢?”。在我看来,这些问题都可以借助于Pandas模块完成,因为Pandas属于专门做数据预处理的数据科学包。下面来介绍一下我认为Pandas模块中需要掌握的功能和函数。

        数据读写        


Pandas模块,我觉得掌握这些就够用了!_第1张图片

          案例演示          


# 读入MySQL数据库数据
# 导入第三方模块
import pymysql

# 连接MySQL数据库
conn = pymysql.connect(host='localhost', user='root', password='test', 
                       database='test', port=3306, charset='utf8')
# 读取数据
user = pd.read_sql('select * from topy', conn)
# 关闭连接
conn.close()
# 数据输出
User

        数据初印象        


Pandas模块,我觉得掌握这些就够用了!_第2张图片

          案例演示          


# 数据读取
sec_cars = pd.read_table(r'C:\Users\Administrator\Desktop\sec_cars.csv', sep = ',')
# 预览数据的前五行
sec_cars.head()

# 查看数据的行列数
print('数据集的行列数:\n',sec_cars.shape)

# 查看数据集每个变量的数据类型
print('各变量的数据类型:\n',sec_cars.dtypes)

# 数据的描述性统计
sec_cars.describe()

        数据清洗        


Pandas模块,我觉得掌握这些就够用了!_第3张图片

          案例演示          


# 数据读入
df = pd.read_excel(r'C:\Users\Administrator\Desktop\data_test05.xlsx')
# 缺失观测的检测
print('数据集中是否存在缺失值:\n',any(df.isnull()))

# 删除法之记录删除
df.dropna()
# 删除法之变量删除
df.drop('age', axis = 1)

# 替换法之前向替换
df.fillna(method = 'ffill')
# 替换法之后向替换
df.fillna(method = 'bfill')

# 替换法之常数替换
df.fillna(value = 0)
# 替换法之统计值替换
df.fillna(value = {'gender':df.gender.mode()[0], 'age':df.age.mean(),     
                   'income':df.income.median()})

    类型转换与元素及运算    


Pandas模块,我觉得掌握这些就够用了!_第4张图片

          案例演示          


# 数据读入
df = pd.read_excel(r'C:\Users\Administrator\Desktop\data_test03.xlsx')

# 将birthday变量转换为日期型
df.birthday = pd.to_datetime(df.birthday, format = '%Y/%m/%d')

# 将手机号转换为字符串
df.tel = df.tel.astype('str')

# 新增年龄和工龄两列
df['age'] = pd.datetime.today().year - df.birthday.dt.year
df['workage'] = pd.datetime.today().year - df.start_work.dt.year

# 将手机号中间四位隐藏起来
df.tel = df.tel.apply(func = lambda x : x.replace(x[3:7], '****'))
# 取出邮箱的域名
df['email_domain'] = df.email.apply(func = lambda x : x.split('@')[1])

# 取出人员的专业信息
df['profession'] = df.other.str.findall('专业:(.*?),')
# 去除birthday、start_work和other变量
df.drop(['birthday','start_work','other'], axis = 1, inplace = True)

数据合并、连接与汇总

Pandas模块,我觉得掌握这些就够用了!_第5张图片

          案例演示          


 
   

今日留言主题

说说你看了本文后的感触?

或者一句激励自己的话?

(字数不少于15字)

中秋期间,出版社整理新书

每日留言赠书活动从

中秋之后再开始

留言打卡,满30天

进老表学习福利群


2小时快速掌握Python基础知识要点

完整Python基础知识要点

640?wx_fmt=jpeg
学Python | 聊赚钱

你可能感兴趣的:(Pandas模块,我觉得掌握这些就够用了!)