利用pandas分析时序数据+可视化

需求场景

现有一批数据库后台记录的算法检测数据,需要查验一些问题,因此对导出的csv数据进行离线分析。需求如下:

  • 按天绘制异常数据占比
  • 按天绘制人工复判数据占比
  • 按天绘制各个机台的异常数据占比
  • 按天绘制各个机台的人工复判数据占比
    上述计算需求是一类问题,比较有代表性,解决方法适用于相似场景,记录下。涉及到对某列数据的时间格式标准化、时间维按月或天或小时进行数据分组,非时间维按设备号或班次等对数据分组,以及分组数据内进行再分组。对已分组数据进行统一口径的计算取值。
    数据如下(已经将时间列设置为索引):


    待处理数据

    全部列为:


    列名

处理过程

  • 导入必要的py包
import pandas as pd
import datetime
#import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.ticker import MultipleLocator

import matplotlib.pyplot as plt  
import matplotlib as mpl
from locale import *
setlocale(LC_NUMERIC, 'English_US')
mpl.rcParams['axes.unicode_minus'] = False 
from pylab import *
mpl.rcParams['font.sans-serif'] = ['SimHei']  #作图显示中文
  • 时间列标准化
data = pd.read_csv('module_flaw.csv')
data.loc[:,'gmt_create'] = [datetime.datetime.strptime(item, '%d/%m/%Y %H:%M:%S') for item in data.loc[:,'gmt_create']]
  • 数据分组
dfd = data
dfd.gmt_create = pd.to_datetime(dfd.gmt_create)
dfd.index = dfd.gmt_create#设置索引
dfd = dfd.sort_index()#索引排序

day_index = dfd.to_period('D')#按天聚合(可以按月、小时等M,H)
day_comp = day_index.groupby('computer_id')#按设备ID分组
day_group = day_index.groupby(day_index.index)#按天将数据分组,每组数据可用apply函数进行进一步处理
按天聚合后的数据

对聚合后的数据进行分组会得到一个对象,可以通过迭代的方式进行处理,最方便的是用apply函数。


分组后取出的是元组,分别是分组类别和相应数据
  • 定义分组数据的计算逻辑:
    这里就可以根据自己的需求实现各种计算了,处理单元就是一个dataframe,支持对一个df进行处理的全部姿势,可以尽情发挥。下面是我实现的两个需求:
def unusall(g_df):#计算异常数据,即check_result列空值的占比,这一列是算法判定的结果
    all_num = len(g_df)
    #print(all_num)
    non_num = g_df['check_result'].isnull().sum()
    return (non_num/max(1,all_num))*100

def guopan_rate(g_df):#总数中去除软件异常的数,实际上还应减去算法NG人工也NG的数目
    check_result_ng = g_df.query("check_result == 'NG'")#筛选check_result为NG的行
    artificial_result_ok = check_result_ng.query("artificial_result == 'OK'")#筛选check_result为NG的行中artificial_result为OK的行
    ng_ok = len(artificial_result_ok)
    return (ng_ok/max(1,len(g_df)-g_df['check_result'].isnull().sum()))*100
  • 准备最终可视化的数据
    首先需要处理按时间分组后按设备ID聚合的数据(其实也可以用双索引),最终是希望绘制每个设备每天的波动情况,因此定义一个字典存储计算结果:
comp_daygroup = {}
for item in day_comp:
    c_d_temp = item[1].groupby(item[1].index)
    day_unu = c_d_temp.apply(unusall).to_frame(name='unusall')
    day_guopan = c_d_temp.apply(guopan_rate).to_frame(name='guopan_rate')
    temp_data = pd.concat([day_unu,day_guopan],axis=1)
#    temp_data['comp'] = item[0]
    comp_daygroup[item[0]] = temp_data

'''
dict_keys(['MH01_TSQTSOLERING1001', 'MH01_TSQTSOLERING1002', 
'MH01_TSQTSOLERING1003', 'MH01_TSQTSOLERING1005',
'MH01_TSQTSOLERING1006', 'MH01_TSQTSOLERING1007'])
'''

按时间分组的数据就比较好处理了,相当于是各个设备混合在一起的。

unusall = day_group.apply(unusall).to_frame(name='unusall')
guopan_rate = day_group.apply(guopan_rate).to_frame(name='guopan_rate')
last_data = pd.concat([unusall,guopan_rate],axis=1)

结果可视化

这里是想把多条曲线绘制在一张坐标系内,方便比较,方法如下:

plt.figure(figsize=(20,9))#定义图纸大小
plt.title('异常及人工参与度变化趋势')#命名
plt.xlabel('天')#X轴坐标名
plt.ylabel('百分比')#Y轴坐标名
plt.ylim(0,20)#限制Y轴坐标范围,因为有些超级异常值太大导致,大部分折线挤在一起,因此限定下,不限定的话去掉这句即可
ax=plt.gca()
#ax.yaxis.set_major_locator(MultipleLocator(0.5))#可以设置Y轴的坐标刻度粒度
#x1 = list() y1,
last_data.loc[:,'unusall'].plot(subplots=2,use_index =1,label='异常数据占比',color='g')#绘制第一条
last_data.loc[:,'guopan_rate'].plot(subplots=2,use_index =1,label='人工判NG数据占比',color='y')#绘制第二条
#for x,y in zip(last_data.index,last_data.loc[:,'unusall']):
#    plt.text(x,y,y, ha='center', va='bottom', fontsize=5)
plt.grid()#axis="y"
plt.legend()
plt.savefig('异常及人工参与度波动3',dpi=900)#保存绘图结果


plt.figure(figsize=(25, 10))
plt.title('各机台异常变化趋势')
plt.xlabel('天')
plt.ylabel('百分比(平均3-4k条数据)')
plt.ylim(0,10)
ax=plt.gca()
#ax.yaxis.set_major_locator(MultipleLocator(1))


comp_daygroup['MH01_TSQTSOLERING1001'].loc[:,'unusall'].plot(subplots=2,use_index =1,label='1号机-异常占比',color='red')
comp_daygroup['MH01_TSQTSOLERING1002'].loc[:,'unusall'].plot(subplots=2,use_index =1,label='2号机-异常占比',color='yellow')
comp_daygroup['MH01_TSQTSOLERING1003'].loc[:,'unusall'].plot(subplots=2,use_index =1,label='3号机-异常占比',color='seagreen')
comp_daygroup['MH01_TSQTSOLERING1005'].loc[:,'unusall'].plot(subplots=2,use_index =1,label='5号机-异常占比',color='gold')
comp_daygroup['MH01_TSQTSOLERING1006'].loc[:,'unusall'].plot(subplots=2,use_index =1,label='6号机-异常占比',color='mediumpurple')
comp_daygroup['MH01_TSQTSOLERING1007'].loc[:,'unusall'].plot(subplots=2,use_index =1,label='7号机-异常占比',color='peru')
plt.grid()#axis="y"
plt.legend()
plt.savefig('各机台异常率2', dpi=900)




plt.figure(figsize=(20, 9))
plt.title('各机台人工参与度变化趋势')
plt.xlabel('天')
plt.ylabel('百分比(平均3-4k条数据)')
plt.ylim(0,40)
ax=plt.gca()
#ax.yaxis.set_major_locator(MultipleLocator(1))
comp_daygroup['MH01_TSQTSOLERING1001'].loc[:,'guopan_rate'].plot(subplots=2,use_index =1,label='1号机-人工NG占比',color='aqua')
comp_daygroup['MH01_TSQTSOLERING1002'].loc[:,'guopan_rate'].plot(subplots=2,use_index =1,label='2号机-人工NG占比',color='blue')
comp_daygroup['MH01_TSQTSOLERING1003'].loc[:,'guopan_rate'].plot(subplots=2,use_index =1,label='3号机-人工NG占比',color='brown')
comp_daygroup['MH01_TSQTSOLERING1005'].loc[:,'guopan_rate'].plot(subplots=2,use_index =1,label='5号机-人工NG占比',color='goldenrod')
comp_daygroup['MH01_TSQTSOLERING1006'].loc[:,'guopan_rate'].plot(subplots=2,use_index =1,label='6号机-人工NG占比',color='orangered')
comp_daygroup['MH01_TSQTSOLERING1007'].loc[:,'guopan_rate'].plot(subplots=2,use_index =1,label='7号机-人工NG占比',color='pink')
plt.grid()#axis="y"
plt.legend()
plt.savefig('各机台人工参与度2', dpi=900)

异常及人工参与度波动3

各机台异常率2

各机台人工参与度2

附:matplotlib颜色设置对应表:

cnames = {
'aliceblue': '#F0F8FF',
'antiquewhite': '#FAEBD7',
'aqua': '#00FFFF',
'aquamarine': '#7FFFD4',
'azure': '#F0FFFF',
'beige': '#F5F5DC',
'bisque': '#FFE4C4',
'black': '#000000',
'blanchedalmond': '#FFEBCD',
'blue': '#0000FF',
'blueviolet': '#8A2BE2',
'brown': '#A52A2A',
'burlywood': '#DEB887',
'cadetblue': '#5F9EA0',
'chartreuse': '#7FFF00',
'chocolate': '#D2691E',
'coral': '#FF7F50',
'cornflowerblue': '#6495ED',
'cornsilk': '#FFF8DC',
'crimson': '#DC143C',
'cyan': '#00FFFF',
'darkblue': '#00008B',
'darkcyan': '#008B8B',
'darkgoldenrod': '#B8860B',
'darkgray': '#A9A9A9',
'darkgreen': '#006400',
'darkkhaki': '#BDB76B',
'darkmagenta': '#8B008B',
'darkolivegreen': '#556B2F',
'darkorange': '#FF8C00',
'darkorchid': '#9932CC',
'darkred': '#8B0000',
'darksalmon': '#E9967A',
'darkseagreen': '#8FBC8F',
'darkslateblue': '#483D8B',
'darkslategray': '#2F4F4F',
'darkturquoise': '#00CED1',
'darkviolet': '#9400D3',
'deeppink': '#FF1493',
'deepskyblue': '#00BFFF',
'dimgray': '#696969',
'dodgerblue': '#1E90FF',
'firebrick': '#B22222',
'floralwhite': '#FFFAF0',
'forestgreen': '#228B22',
'fuchsia': '#FF00FF',
'gainsboro': '#DCDCDC',
'ghostwhite': '#F8F8FF',
'gold': '#FFD700',
'goldenrod': '#DAA520',
'gray': '#808080',
'green': '#008000',
'greenyellow': '#ADFF2F',
'honeydew': '#F0FFF0',
'hotpink': '#FF69B4',
'indianred': '#CD5C5C',
'indigo': '#4B0082',
'ivory': '#FFFFF0',
'khaki': '#F0E68C',
'lavender': '#E6E6FA',
'lavenderblush': '#FFF0F5',
'lawngreen': '#7CFC00',
'lemonchiffon': '#FFFACD',
'lightblue': '#ADD8E6',
'lightcoral': '#F08080',
'lightcyan': '#E0FFFF',
'lightgoldenrodyellow': '#FAFAD2',
'lightgreen': '#90EE90',
'lightgray': '#D3D3D3',
'lightpink': '#FFB6C1',
'lightsalmon': '#FFA07A',
'lightseagreen': '#20B2AA',
'lightskyblue': '#87CEFA',
'lightslategray': '#778899',
'lightsteelblue': '#B0C4DE',
'lightyellow': '#FFFFE0',
'lime': '#00FF00',
'limegreen': '#32CD32',
'linen': '#FAF0E6',
'magenta': '#FF00FF',
'maroon': '#800000',
'mediumaquamarine': '#66CDAA',
'mediumblue': '#0000CD',
'mediumorchid': '#BA55D3',
'mediumpurple': '#9370DB',
'mediumseagreen': '#3CB371',
'mediumslateblue': '#7B68EE',
'mediumspringgreen': '#00FA9A',
'mediumturquoise': '#48D1CC',
'mediumvioletred': '#C71585',
'midnightblue': '#191970',
'mintcream': '#F5FFFA',
'mistyrose': '#FFE4E1',
'moccasin': '#FFE4B5',
'navajowhite': '#FFDEAD',
'navy': '#000080',
'oldlace': '#FDF5E6',
'olive': '#808000',
'olivedrab': '#6B8E23',
'orange': '#FFA500',
'orangered': '#FF4500',
'orchid': '#DA70D6',
'palegoldenrod': '#EEE8AA',
'palegreen': '#98FB98',
'paleturquoise': '#AFEEEE',
'palevioletred': '#DB7093',
'papayawhip': '#FFEFD5',
'peachpuff': '#FFDAB9',
'peru': '#CD853F',
'pink': '#FFC0CB',
'plum': '#DDA0DD',
'powderblue': '#B0E0E6',
'purple': '#800080',
'red': '#FF0000',
'rosybrown': '#BC8F8F',
'royalblue': '#4169E1',
'saddlebrown': '#8B4513',
'salmon': '#FA8072',
'sandybrown': '#FAA460',
'seagreen': '#2E8B57',
'seashell': '#FFF5EE',
'sienna': '#A0522D',
'silver': '#C0C0C0',
'skyblue': '#87CEEB',
'slateblue': '#6A5ACD',
'slategray': '#708090',
'snow': '#FFFAFA',
'springgreen': '#00FF7F',
'steelblue': '#4682B4',
'tan': '#D2B48C',
'teal': '#008080',
'thistle': '#D8BFD8',
'tomato': '#FF6347',
'turquoise': '#40E0D0',
'violet': '#EE82EE',
'wheat': '#F5DEB3',
'white': '#FFFFFF',
'whitesmoke': '#F5F5F5',
'yellow': '#FFFF00',
'yellowgreen': '#9ACD32'}


颜色对应图

你可能感兴趣的:(利用pandas分析时序数据+可视化)