分析Excel里的数据

背景：

有一个类似这样的Excel文件(文件内容随便写的)

分为三个运营商---电信、联通、移动
每个运营商有四个参数首包、尾包、成功率、慢速比
我需要统计某个运营商下阿里云流量更优的所有省份，或者自建机房流量更优的所有省份，比如一个省份的某个运营商的四个参数中阿里云更优的个数>自建机房更优的个数，则输出该省份。

方法一：

将excel数据导入到数据库里，通过数据库的sql语句进行查询

将excel文件转存为制表符分割的文本(.txt)

image.png
数据库操作
新建表zl （注意CHARSET为utf8 否则会出现中文乱码）

CREATE DATABASE zhao;
USE zhao;
CREATE TABLE `zl` (
  `province` char(20) NOT NULL,
  `dxsb` char(20) DEFAULT NULL,
  `dxwb` char(20) DEFAULT NULL,
  `dxcgl` char(20) DEFAULT NULL,
  `dxmsb` char(20) DEFAULT NULL,
  `ltsb` char(20) DEFAULT NULL,
  `ltwb` char(20) DEFAULT NULL,
  `ltcgl` char(20) DEFAULT NULL,
  `ltmsb` char(20) DEFAULT NULL,
  `ydsb` char(20) DEFAULT NULL,
  `ydwb` char(20) DEFAULT NULL,
  `ydcgl` char(20) DEFAULT NULL,
  `ydmsb` char(20) DEFAULT NULL,
  PRIMARY KEY (`province`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

查看我们刚保存的txt文件
把头部的信息删掉

image.png
导入txt文件到mysql
此步在mysql命令行操作(USE zhao; 这句话之后就可以)
确保sla.txt是跟mysql在一个服务器上

load data local infile "/sla.txt" into table male fields terminated by "\t" lines terminated by "\r\n";

通过sql语句进行分析

我们现在从数据库查看就出现txt文本里的内容了

image.png

我们的查询逻辑开始已经讲过了，下面直接贴sql语句
栗子：
电信运营商阿里云更优的省份

select * from (select province, if(dxsb = '阿里云更优', '1', '0') + if(dxwb = '阿里云更优', '1', '0') + if(dxcgl = '阿里云更优', '1', '0') + if(dxmsb = '阿里云更优', '1', '0') as aliyu, if (dxsb = '自建机房更优', '1', '0') + if(dxwb = '自建机房更优', '1', '0') + if(dxcgl = '自建机房更优', '1', '0') + if(dxmsb = '自建机房更优', '1', 0) as zijian from zl) as zl_inner where aliyu > zijian;

移动运营商自建更优的省份

select * from (select province, if(ydsb = '阿里云更优', '1', '0') + if(ydwb = '阿里云更优', '1', '0') + if(ydcgl = '阿里云更优', '1', '0') + if(ydmsb = '阿里云更优', '1', '0') as aliyu, if (ydsb = '自建机房更优', '1', '0') + if(ydwb = '自建机房更优', '1', '0') + if(ydcgl = '自建机房更优', '1', '0') + if(ydmsb = '自建机房更优', '1', 0) as zijian from zl) as zl_inner where zijian > aliyu;

方法二：

通过python分析

python代码：

#!/usr/bin/env python
# -*-coding:utf-8-*-
import xlrd
from collections import Counter, defaultdict

#打开文件
data = xlrd.open_workbook("sla.xlsx")
data_list = data.sheet_names()
# output 工作表名称
print "表名称：",data_list
print "#" * 50

def read_xlsx(datax):
    table = data.sheet_by_name(datax)
    # 分行
    nrows = table.nrows
    nrowsx = table.nrows
    l_list = []
    for i in range(nrowsx):
        if i:
            l_list.append(table.row_values(i))

    l = u"阿里云更优"
    ll = u"自建机房更优"
    for lis in l_list:
        #print lis
        #all_list = [lis[0],lis[1:5],lis[5:9],lis[9:13]]
        # city ; start: end: 4
        all_list = [lis[0],lis[1:13:4]]

        for ii in all_list[1:]:
            c_num = Counter(ii)
            if l in c_num or ll in c_num:
                # cmp num
                if c_num.get(l) > c_num.get(ll):
                    print all_list[0],c_num,"||","name:",l,"num:",c_num.get(l)
                else:
                    pass
    return "ok"

if __name__ == '__main__':

    # 情况是  输入三张工作表
    print read_xlsx(u'\u5de5\u4f5c\u88681')

表名称datax指的是excel里工作表sheet的名字。

分析Excel里的数据

背景：

方法一：

方法二：

你可能感兴趣的:(分析Excel里的数据)