先列举几个案例:
(1)请估计一下2020年八月份在北京卖出有多少双鞋子?
显然,这是一个很开放的问题,并不像在学校里的题目都有标准答案,是需要经过自己的思考、定义和分析的。
(2)Corley主营在网上卖手机壳,根据销售数据,发现8月份比7月份购买手机壳的顾客数量下降了10%,怎么回事?
这也是一个开放的问题,可以从内部和外部两方面来思考问题:
重点需要分析背后的原因,因此需要分析问题的能力。
很多时候我们觉得学校学到的东西都没用,那只是因为我们没有将学校的知识与实际应用结合起来。
商业数据分析从业要求:
举一个例子,拿学武功来说,武功秘籍就是基础知识,宝剑就是工具,在实际练武过程中就得到了面对不同武功和不同对手所需要的方法和技巧,慢慢培养出了业务能力,出神入化之后形成了自己的软技能。
基于数据通过分析手段挖掘出商业价值,解决商业问题,并通过分析商业问题建立相应的分析模型。
上面的几个案例都可以通过数据分析的手段得出结论。
数据分析大致分为5个阶段:数据获取、数据处理、数据分析与建模、数据解释与呈现、验证及优化。
这五个阶段在上述的基础知识、工具和业务能力方面又有不同的要求,具体如下:
再举一个案例:
(3)Corley卖鞋,2020年9月前10天就完成了本月计划的80%,业绩是好还是不好?
可能有人会觉得好,毕竟三分之一的时间就卖出了大部分,但是实际上并不一定好:
要看整个月的销售情况,如果前10天销量处于上升趋势,剩下的时间处于快速下降并保持很低的水平,有可能是完成不了计划的;
还好看以前的销售情况,比如说同比销售额,是不是可能比现在还好;
和其他竞争对手相比,是否比他们好。
销量好或者不好需要从多个维度进行衡量,而不是单纯地给出一个答案;
每个行业不同,相应的分析方法和思路也千差万别。
一个基本的分析流程如下:
供应链的各个环节如下:
分析时,不仅要从销售价格来分析,也要从源头即成本进行分析,处于供应链的哪个位置;
找整个商业供应链出现问题的主要环节,找出问题。
对于一个事件,会有很多因素,可能都会影响到结果。
在商业数据分析中,需要进行多维度思考,包括产品、位置、时间等角度,比如零售业中有人、货、场的概念,如下:
从点、线、面的角度评价销售业绩:
分析自己9月份业绩即为点;
分析与去年同期相比即为线;
与其他人相比即为面。
从原始数据中提取出信息,并通过总结得到知识,逐渐积累成为智慧。
(1)Excel是最普及的数据处理和分析工具,作为Office三件套之一,受到各行业广泛的使用,也很容易上手。
(2)思维导图工具,如XMind、Mind Master等,可以整理知识体系、梳理思维。
(3)专业的Python数据分析工具Anaconda,可以进行Python基础编程、数据分析、建模计算等,自带了很多包,可以直接点击加QQ群 963624318 在群文件夹Python相关安装包中下载即可。
(4)关系型数据库软件MySQL,是最常见的的数据库之一,个人一般直接使用社区版即可,可以到MySQL官网https://dev.mysql.com/downloads/mysql/中下载,由于官网下载较慢也点击加QQ群 963624318 在群文件夹数据库软件中下载,然后解压并执行安装配置即可,具体可参考https://www.cnblogs.com/zhangkanghui/p/9613844.html。
除此之外,还可以充分利用Github开源平台https://github.com/,可以查询一些开源项目、查看源码,是一个学习的平台。
数据存在特定的特点,其中之一为粒度。
较标准的定义为:
数据粒度是指数据仓库中数据的细化和综合程度。
根据数据粒度细化标准:细化程度越高,粒度越小;细化程度越低,粒度越大。
很多时候得到的数据为汇总的数据,比如对于电商来说,得到了每个月的销售情况,要预测每天的销售情况是不现实的;
汇总数据可以获取整体趋势。
而对于原始数据,可以为每一种商业模式确定相应的指标KPI,比如电商行业的常见指标如下:
并且可以使用杜邦分析法评价指标组合进而确定经营业绩,示意如下:
对于Leader来说,很重要的一个要求是用户体验好,好的用户体验好主要包括以下方面:
分析流程可以进一步细分如下:
假如有一个JSON格式的电影评分数据如下:
每个人的评分都以坐标的形式体现出来,可以通过两者之间的距离计算出来,距离越近则相似度越高,最简单的方式是通过勾股定理计算;
有多部电影则计算多维距离。
数据有一个很重要的特性是数据质量。
根据定义,数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
比如说,调查问卷因为设计不好而导致收集到的结果有失客观性,这就是数据质量有问题。
衡量数据质量有一定的衡量指标:
数据还有一个特性是数据形式,主要包括:
不同格式的数据也有不同的来源。
可以从数据中挖掘出信息和价值。
再举一个案例:
(4)对于电商行业,怎么分析客户的男女比例:
假如有一个客户叫孙悦,昵称是小悦悦,最近老是频繁登录我们的APP,并且总是浏览美妆产品,而且最近三个月购买了大量女鞋和美妆。
那么孙悦是男还是女呢?
最简单的方法:
男性概率=姓名倒数第一个字男性概率×权重1+姓名倒数第二个男性概率×权重2
女性=1–男性概率
这个模型只是依据姓名来判断的,较为单一。
更进一步的分析:
在姓名判断性别概率的基础上,再依据消费行为(如购买剃须刀)的特征判断性别概率,并确定权重计算加权概率。
这是一个分类问题。
进行数据分析的好处:
其中,描述性分析用于描述当前情况,比如分布、曲线等;
诊断分析主要分析问题原因,可能需要进行可视化;
预测分析主要预测未知,包括自动化推荐系统、销量预测;
指导分析用于指导行动。
随着难度的加大,所需要的数据也越来越多、工具越来越复杂。
具体包括SVM、决策树、逻辑回归、神经网络、线性回归、K-means、分层聚类等理论模型。
有了分析的结果,需要进行报告,其中可视化不可缺少,需要将结果呈现出来。
同时在数据探索时,数据可视化可以让我们更加直观地了解数据所呈现出的特点。
显然,左右两部分都是有问题的:
标题不规范;
刻度不一致,不协调;
坐标轴起点;
两个表的差距感觉不同,但实际上差别是一样的。