【长期更新】咨询分析中的n个真实数据处理场景

在咨询分析中,数据分析是重要的工具。

但咨询中数据分析的特点是数据获取较为复杂,反而,数据处理较为简单和机械。

人们有时会倾向于在excel里完成任务,但是这可能会导致效率低下;反之,过分信赖python也并非是效率利器,因为有些基础的分析完全可以在excel中完成并保存。

本文是对打工中基础数据处理和分析的记录和总结,不涉及爬虫、机器学习等内容。

场景1:分组完成流程性计算(根据末尾字符分类+遍历筛选+汇总)

场景描述:需要对河南省2000-2019年县、县级市和市辖区的人均GDP做统计和比较。

【长期更新】咨询分析中的n个真实数据处理场景_第1张图片

 如果用excel处理,则需要分类分年份筛选(共需要筛选3*19)次,分别用subtotal函数求出平均值,然后绘图。整个处理过程过于繁琐,所以用python来批量实现筛选和统计功能,然后在excel中保存和绘图。

根据末尾字符分类使用的是首尾字符匹配方法,格式为str.endswith()

import pandas as pd

df = pd.read_excel('H:/学位论文相关/数据/县域经济数据-国泰安/各县域地区生产总值及指数102304656/CNT_RegGDPIdx.xlsx', sheet_name = 'Sheet2')
df = df.dropna(how='all')  # 删除空行

# 筛选出县、县级市、市辖区
xian = df[df['县域名称'].str.endswith('县')]
shi = df[df['县域名称'].str.endswith('市')]
qu = df[df['县域名称'].str.endswith('区')]

实现遍历筛选则需要使用分组(group)方法,用法如下:

grouped = xian.groupby('统计年度')
for year, group in grouped:
    print(year,":", group['人均生产总值'].mean())

将打印出的结果复制到excel,绘图即可

场景2:批量读取文件夹内的文件

有时候需要对一个文件夹内的文件做同样的操作,比如打开所有需要合并的excel表格,或者对下图中的图片提取绿视率:

 用os就可以实现提取每个文件的路径并遍历啦

#读取该路径文件内全部文件名称
path = '/content/drive/MyDrive/images'
files = os.listdir(path)
for info in files:
  position = os.path.join(path,info)
  img = image.imread(position)

场景3:统计各个值出现的次数

例:统计河南省不同人口增长类型的县的个数

场景4:绘制表示分布的箱型图

例:各省县城的常住人口分布

你可能感兴趣的:(原创教程,业务总结,数据分析,数据挖掘)