3数据分析常识
在前面几章里讲了很多关于数据分析市场和数据分析师的职业生涯发展,下面的几篇会重点介绍数据分析的理论知识、数据分析的方法论、数据分析的分析流程、数据分析报告如何撰写、电商中的数据分析应用等具体的应用案例。经常也会被问到作为一个不是统计学背景的学生,能否入行数据分析的问题。还有包括像平时的具体数据分析工作都有哪些?作为数据分析入门菜鸟怎么才能打好数据分析方面的基础,需要看哪些方面的书等等。其实这些问题对于一个刚毕业的或者没有太多数据行业经验的人来说,是很正常的一个情况。包括自己在内,如果要重新跨行去进入一个新领域也会遇到这些问题。首先咨询相关行业的内部师兄师姐,看看相应的介绍和材料,如果能够有比较系统的书籍介绍那是最好不过的了。当然自己也需要花时间去归纳和总结,再结合大量的实践案例长期以往基本上会对这块新领域能够了然于胸了。
让我在此我向大家推荐一个交流学习群:722680258里面会分享一些资深大数据工程师架构师录制的视频录像:有Linux、Hadoop核集群搭建、HDFS、Mapreduce、YARN、离线计算Flume 、Hive、实时计算、大数据ETL、大数据应用与数据挖掘的原理这些成为大 数据开发师必备的知识体系。还能领取免费的学习资源,受益良多。
前段时间和做大数据培训的创始人聊到,我问他原来是做什么的,诧异的是他原来是做用户体验(User Experience Design,UED)出身的。对我来说,第一反应认为产品提需求,UED根据PD的相应需求文档构思设计相应的产品,而对于数据分析以及业务运营,这的确就是很多UED所欠缺的核心,而脱离实际业务的UED并不是真正的UED,没有结合产品和用户需求本身来设计,很多也只是空中楼阁。我和那位创始人聊了很久,特别是他在过去的一些经历和感受,同时他也是阿里巴巴曾经做过UED的同事,我想这个经验分享在互联网公司还是比较有代表性的。
说到用户体验,很多人会感觉这是一个很虚的概念,是一种纯主观的在用户使用一个产品(服务)的过程中建立起来的心理感受。因为它是纯主观的,就带有一定的不确定因素。我接着问道,那平时调查用户体验时你们会关注数据吗?令我欣慰的是,那位创始人说平时太需要数据的支持了。包括之前设计的功能布局、页面结构、按钮的颜色、整体的风格都需要通过大量的AB 测试来验证用户的体验是否符合预期。这在互联网公司尤为典型,像现在上线的产品和功能很多都是拍脑袋决定或者固有的思维模式认为就应该这样,而实际情况没并就一定是用户希望看到的。特别是典型的Facebook从早期的一个简单的社交产品到现在日活跃用户十亿,一个很小的改变就可能会引来用户的强烈感觉。在这些多年里,Facebook尝试了各种方案,像newspaper、clipboard等样式,虽然这些都实现了,但是都因为数据的原因没有上线。
我那位大数据培训的朋友也分享了一下他们亲身经历的故事,是关于当时做超市购物车的案例。购物车是每个网上超市都有的,可以让用户挑选商品,快速结账,所以功能上一点都不能少,而且文案要给用户都能看明白。而在具体设计到购物车的布局时产生了分歧:一种是希望以纵向列表的方式展示,另一种是以大图的方式。但是大家都没有尝试过这种大图的模式,而纵向列表的方式是用户使用最方便的,比较一目了然。另外,对于购物车的单位设计也存在一些争议,很多电商网站都是用“件”来表示一个商品,比如同一件商品买了两个到底是算一件还是两件,大家对此一直争论不休。通过那几年的UED工作,他对UED有了更深的理解,虽然对于UED有很多想法,但是由于各种原因,比如上线时间老板说了算,还有很多想法受限技术的原因很难实现,特别是在实现方案上没有用户研究的数据支撑很难判断而导致最终都没有实现。我听了他的诉苦也是感触很深,跨部门之间的沟通的确需要很大的成本,特别是没有站在对方的利益场上就更难合作。所以如果大家都能有一种共同的价值观和意向,在沟通协调上能够达到事半功倍的效果。
3.1 常见的数据分析问题
如果你希望从事这个数据分析行业的,亦或是对数据分析感兴趣的,那就需要把数据分析常见的一些问题弄明白,避免被别人忽悠到不知东南西北。即使作为在数据分析行业从事了几年的职场老鸟来说,再次回顾常见的数据分析问题也会有不一样的思考和感受。
在我们接触到数据分析这个领域的时候,不同的对象、不同的时期会遇到不同的问题。对于刚入行的同学来说可能需要知道数据分析的基本概念,数据分析都有哪些,包括数据分析和统计分析、数据挖掘的区别和联系是什么,在数据分析上常见的工具都有哪些,还需要了解如何增加自己在数据分析这块的经验和技术,在面试的过程中如何给自己加分等。对于入行1、2年的数据新人来说,需要在有一些基本的数据处理和分析能力基础上思考如何自我成长,在现有的环境下突破瓶颈。对于工作了很长时间的资深数据分析人员来说,则需要考虑如何能够在技能上和个人发展上再次升华。这些都是在数据分析生涯中会遇到的问题。而本小节会重点介绍我们作为入门的数据分析新人遇到的一些常识问题,这些都是我们在数据分析讨论、论坛以及在面试环节可能会聊到的话题。
1. 数据分析是什么?数据分析包含哪些?
数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。
而数据分析包括的内容从需求识别、获取数据、整理数据、观察数据到分析数据、数据展现的各个环节。
第一步就是要准确识别需求,定位到问题的核心所在和需要哪些数据来支撑你的观点,这样为收集数据、分析数据提供清楚的目标。区分一个高级数据分析师和一般数据分析师,能够第一眼就识别问题的所在,掌握数据库的熟练程度,第一时间通过数据的校验验证自己的观点。
第二步获取数据,将需求转变成具体的数据要求,明确哪些数据是需要的,他们在什么地方,可以通过谁来获取。
第三步就是观察数据,通过加工、整理分析成有用的信息,通常结合时间序列、对比、趋势等。
第四步分析数据,结合现有的业务和数据发现的问题,提出建议和意见。
最后往往还要再回过头看看数据分析方法是否正确、是否数据质量上还有什么问题、收集到的数据是否真实等。
2. 数据分析与数据挖掘的区别?
在接触数据分析和数据挖掘的时候,也会遇到数据分析和数据挖掘是什么,之间区别有哪些。从实际工作中来看数据分析和数据挖掘也是两件不同的事情,但是两者有很强的相关联性。
从概念上讲,数据分析是在统计数据的基础上通过结合分析方法论得出一定的结论,而数据挖掘更多是对历史数据进行未知结果的探索。像我们最常见的“啤酒与尿布”的故事,我们结合数据只能分析出啤酒和尿布的销量都很高,但是这其中为什么啤酒和尿布是有相关联的,那就需要通过数据挖掘的方法来挖掘,从中发现去买尿布的男士都会顺便去买啤酒。再比如我们通过数据分析发现电商购物的人群70%都是女性,所以结论就是女性更喜欢购物,而通过数据挖掘我们发现由于女性天生喜欢逛街购物、大部分时间会去关注比较漂亮的商品、没有太多目的性,导致女性在电商中的购物比例很高。
在工作内容上,数据分析的工作偏重对业务层面的理解,能够结合具体的业务和已有的数据,给出自己有力的观点,给到业务决策的支持。数据挖掘的工作偏重系统工程,通过历史数据样本召回、数据特征工程和模型算法,对未来结果预测。所以在工作内容上两者的差别也是比较巨大,但又有联系。举个例子,在公司做数据分析师的阶段,日常的工作是整理网站流量趋势变化的报表,如果流量上涨或者下跌要能够分析这其中的原因是什么,可能是业务方有营销活动的动作,也有可能是系统层面的数据问题。而在公司做数据挖掘的平时工作就在某一个小点上,如果利用数据挖掘来预测明天可能有哪些用户会来登陆。涉及登陆频次、用户的个人属性情况、用户使用网站的周期、网站的活动因素等各方面的数据特征。利用模型去训练和预测明天登陆用户的概念。最后在实际的业务场景中去应用。
因而不难发现,数据分析更多是对已有数据进行观察分析,数据挖掘更多是对知识的规律探索总结。在方法论上数据分析更多凭借人结合数据经验,数据挖掘会结合算法模型分析。
3. 数据分析和做报表的区别?
过去BI一直被人认为就是做报表的,所以不管是业务部门还是技术部门一有报表需求就会去找BI部门。而BI部门也不想把自己定位成做报表的部门,所以一直在接这方面的需求没有太多积极性。
咨询行业内有一个经典的故事:
一个农民赶着羊群在草原上走,迎面碰到一个人对他说:“我可以告诉你,你的羊群有几只羊。”随即,他用卫星定位技术和网络技术将信息发到总部的数据库……片刻后,他告诉农民羊群共有1460只羊,并且要求农民给他一只羊作为报酬,农民答应了。随后,农民对他讲:“如果我能说出你是干嘛的,你能否把羊还给我?”那人说,“行”。农民说:“你是一个咨询顾问。”那人很惊讶,问农民是怎么知道的。农民说:“有三个理由足以让我知道:1.我没有请你,你自己就找上门来;2.你告诉了我一个早已知道的东西,还要向我收费;3.一看就知道你不懂我们这一行,你抱的根本不是羊,而是一只牧羊犬。”
这个笑话在咨询界广为流传,并有不同的公司版本,和前段时间“友谊的小船说翻就翻”一样在微博和朋友圈被人转发。而有意思的是,许多资深咨询顾问看到这个笑话并不感到恼怒,而是会心地一笑。公开场合下,他们一定会非常自信地说,咨询非常深刻地影响企业的战略,因此具有非常重要的价值。不过私底下,他们对于是否真的“能改变世界”这一点并不够自信。作为定位于公司辅助决策的数据分析部门而言,BI也在接受这样的调整。名称叫商业智能,指导公司的高层,而在具体的实际行动中,因为高层不懂数据或者数据部门不理解业务,再或者没有足够的数据能够支撑你去做很多的分析,导致最终的很多公司数据部门变成了一个“做报表”的部门。而报表作为管理层经常需要看的媒介,又不可或缺。值得高兴的是,现在有很多可视化的数据工具来帮助传统企业在做报表的过程中提高效率和优化美观,与过去需要数据分析师专门每天去重复拉取excel报表来说明显进步很多。但对于一些更加深入的分析还是需要资深的数据分析师来结合业务单独分析,并非是简单的报表的能够解决的情况。所以资深的数据分析师还是一种是众多公司争抢的资源。
如今在市场方面,数据分析、数据仓库、数据挖掘、大数据等概念热得发烫,数据分析师被认为是万众仰慕的职场新宠,关于数据分析师技能、职责、职业素质、发展前景等的讨论不绝于耳。就像“姚黑”一样,数据分析的质疑声也不断传出和放大,数据分析、挖掘到底能否产生价值,多大价值?
数据分析员、数据分析师不应当只会“数羊”!不应当只是发现本应该发现的“经验”!而应当掌握数据探索,发现潜在的价值,预见可能将发生的某种“坏的未来”!
4. 数据分析难不难学?特别是背景非理工科的。
只要有恒心就会学会,而且这个目前也是一个热门,因为现在数据量越来越大了,所以对这方面的需求也越来越多。学习数据分析,先要打好理论基础,《概率论与数理统计》、《统计学》、《深入浅出数据分析》等。然后就是主流的数据分析软件,关于数据分析主流软件有(从上手度从易到难):Excel,SPSS,Stata,R,Python,SAS等。
如果是理工科背景的,了解数据分析并掌握相对来说比较好上手。重点是对统计学知识的熟练掌握,另外就是在编程方面能够有一定的基础,在处理数据和查询数据、分析上面能够自己操作,特别推荐像R、python这样比较好上手的语言,基本能够解决目前80%的数据分析需求。
如果是非理工科的,那可能还是需要在高等数据、微积分这些上面先花段时间学习一下,了解数学方面的基本方法论。学习常用的数据分析方法论都有哪些,比如趋势分析、对比分析、关联分析、预测分析等。常用的市场分析方法论,如SWOT、PEST、4P、波士顿矩阵、5W2H等。
最后还是需要大量的项目和工作案例来锻炼,学会怎样操作那些数据分析软件,学习从哪些角度去思考分析常见的指标问题。然后是利用软件从数据的清洗开始一步步进行处理,分析,最后输出结果,检验及解读数据。
5. 数据分析可以有哪些应用?
随着互联网、电信、金融等行业的数据爆发式的增长,对海量数据的分析和处理的需求也非常多,重点集中在电商领域的人群偏好和客户画像、社交领域的关系模型分析、内容搜索排序、金融的反作弊反欺诈、保险定价分析、用户账户安全登录、个人征信数据分析等都是很典型的应用案例。
在电商领域像最早接触的网站分析,其中包括流量分析,每天的流量的PV/UV的监控,用户路径流量的入口出口,用户特征分布情况,交易数据的记录详情,会员交叉销售和推荐等。后面就陆续开始做用户的画像研究,包括用户的基本属性、购买能力、行为特征、社交网络、心理特征、兴趣爱好,像有些比如有没有生孩子、有没有结婚、具体职业都需要做模型分析预测。再后来就是接入具体商品库和营销平台,尝试做各种各样的个性化营销和商品推荐。
在社交领域结合好友之间的个人属性相似度、互动程度、内容排序做用户间的社交平台,社交网络中充斥着用户的潜在需求、热点资讯信息、用户关系,这里面大量的信息对于企业来说具有巨大的价值,如果掌握了这些数据之后加上分析,无论对于现有产品的改进还是对未来产品的走势都有十分帮助,像我们在实际模型中应用到的社区圈子的识别、人物影响力的计算、社交网络上的信息传播、僵尸账号和垃圾信息的识别、基于社交对热点内容的舆情监控分析等。
在金融反作弊领域同样数据分析扮演着重要的作用,识别账号的交易是否符合正常的范围,有没有存在虚假交易、刷单等行为。
保险定价中像车险,可以根据车主平时的行车路线、里程、行车习惯、出险记录、职业、年龄、性别等给出不同的定价,比如你开一个紧凑型车的两个人,在平时的驾驶习惯上一个比较急躁,那这个人出险的概率就是另一个人的几倍,那么如果两个人的车险定价是一样的很明显不合理,对于前者来说对保险的损失更大,而后者是相对来说比较优质的客户。
6. 厉害的数据分析都是什么样?
就像刚刚介绍到的数羊的故事,如果年轻人走入羊群进行考察,并用各种统计方法和不同工具进行了全面的判断,然后,他告诉农民羊群共有1460只羊,仅有10只公羊、其余为母羊,可以繁殖的母羊有1000只,其余为羊仔,根据一些特征,羊群可以分为“肯吃型”、“疯跑型”、“活蹦乱跳小仔型”三类。农民听后既惊讶又失望,惊讶的是一个没放过羊的人和他一样了解羊群,失望的是他所听到的都是他早已知道的。
而如果回答是“羊群共有1460只羊,仅有10只公羊、其余为母羊,可以繁殖的母羊有1000只,其余为羊仔。因此,当务之急是卖掉长肥的小羊,马上引进更多的种公羊,以解决当前种羊和母羊比例严重失调的问题;根据对市场的预估,5月份每卖掉一只小羊将比4月份多赚150元,因此,我们必须把握先机,4月前育肥,5月清栏;对于“疯跑型”羊,有必要采取两条腿绑绳的方法限制其大范围跑动,对于“活蹦乱跳小羊”应采取与成年羊隔离的放养的方式。”
厉害的数据分析师就是在大量数据集中发现有用关系的系统性的方法,在开始之前,你不必知道寻找的是什么,你可以通过拟合不同模型和研究不同关系来探索数据,直到你发现有用的信息为止。通过数据分析的方式来帮助业务快速的成长。
能力:一定要懂点战略、才能结合商业;一定要漂亮的presentation、才能buying;一定要有global view、才能打单;一定要懂业务、才能结合市场;一定要专几种工具、才能干活;一定要学好、才能有效率;一定要有强悍理论基础、才能入门;一定要努力、才能赚钱;最重要的:一定要务实、才有reputation;不懂的话以后慢慢就明白了。
目标:1-做过多少个项目?2-业务背景有哪些,是否跨行业?3-做过多少种类型的模型?做了多少个模型?4-基于模型做过多少次完整的marketing闭环?
7. 数据分析方面有哪些好书值得推荐的?
这个我在知乎上也发表过,像《深入浅出数据分析》、《R语言实战》、《数据之美》、《数据之魅》、《大数据时代》、《集体智慧编程》、《从0到1》、《失控》等都是比较热门且实用的。
具体的书单可以参考:
——小白篇——
1.大数据时代
2.浪潮之巅
3.互联网创业密码
4.从0到1
5.决战大数据
6.块数据
7.大数据预测:告诉你谁会点击、购买、死去或撒谎
8.信号和噪声
9.数据之巅
10.跨界:开启互联网与传统行业融合新趋势
11.删除:大数据取舍之道
12.互联网思维:工作、生活、商业的大革新
——入门篇——
1.数据化管理:洞悉零售及电子商务运营
2.转化:提升网站流量和转化率的技巧
3.社交网站的数据挖掘与分析
4.数据分析 :企业的贤内助
5.淘宝大数据
6.网站数据分析:数据驱动的网站管理.优化和运营
7.人人都是网站分析师:从分析师的视角理解网站和解读数据
8.大数据营销:定位客户
9.数据挖掘与数据化运营实战 :思路.方法.技巧与应用
10.大数据分析:决胜互联网金融时代
11.分析的力量
12.网站数据挖掘与分析:系统方法与商业实践
——菜鸟篇——
1.谁说菜鸟不会数据分析(工具篇+入门篇)
2.EXCEL图表之道/如何制作专业有效的商务图表
3.决策分析:以Excel为分析工具
4.Word/Excel/PPT
2013商务办公从新手到高手
5.实用数据分析
6.深入浅出数据分析
7.构建高效数据分析模板:职场必学的Excel函数与动态图表高级
8.SAS统计分析与应用从入门到精通(第2版)
9.IBM
SPSS数据分析与挖掘实战案例精粹
10.从零进阶!数据分析的统计基础
11.Excel
2010函数与公式
12.Excel高效办公.数据处理与分析
——高手篇——
1.集体智慧编程
2.利用Python进行数据分析
3.数据挖掘与R语言
4.R语言与数据挖掘最佳实践和经典案例
5.R的极客理想工具篇
6.数据挖掘 :实用案例分析
7.R与Hadoop大数据分析实战
8.深入理解大数据:大数据处理与编程实践
9.数据挖掘:实用机器学习工具与技术
10.R语言与网站分析
11.Mahout算法解析与案例实战
12.算法心得:高效算法的奥秘
——大神篇——
1.大数据管理:数据集成的技术、方法与最佳实践
2.HADOOP技术内幕系列
3.MYSQL技术内幕
4.Storm
实时数据处理
5.Spark快速数据处理
6.Oracle数据库性能优化的艺术
7.Oracle达人修炼秘籍:Oracle 11g数据库管理与开发指南
8.Hadoop应用开发技术详解
8. 数据科学家具备哪些特质?
如果从广义的角度讲,从事数据处理、加工、分析等工作的数据科学家、数据架构师和数据工程师都可以笼统地称为数据科学家;而从狭义的角度讲,那些具有数据分析能力,精通各类算法,直接处理数据的人员才可以称为数据科学家。
最后引用 Thomas
H. Davenport(埃森哲战略变革研究院主任) 和 D.J. Patil(美国科学促进会科学与技术政策研究员,为美国国防部服务)的话来总结数据科学家需要具备的能力:
数据科学家倾向于用探索数据的方式来看待周围的世界。(好奇心)
把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。(问题分体整理能力)
新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析。(快速学习能力)
数据科学家会遇到技术瓶颈,但他们能够找到新颖的解决方案。(问题转化能力)
当他们有所发现,便交流他们的发现,建议新的业务方向。(业务精通)
他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。(表现沟通能力)
他们会把蕴含在数据中的规律建议给 Boss,从而影响产品,流程和决策。(决策力)
9. 作为创业公司怎么去做数据分析?
对于创业公司来说也想利用数据来解决实际中的业务问题,可是又没有像BAT那样的成熟技术,怎么才能做好数据分析的工作呢?
首先就是要解决数据源的问题,一方面自己要积累用户的信息,另一方面像app或者网站的log日志都需要有人清洗沉淀。同时也可以借助第三方数据平台,积攒数据的同时学习别人的经验,根据自己的需求为用户和产品贴标签。
没有强大的数据库可以租用服务器,建立自己对应的数据分析框架。例如日报表月报表这些都OUT了,应该明确适合公司的格式,如果需要这些定制需求的报表,目前流行的大数据的解决方案大部分都是以Hadoop为基础架构。什么是Hadoop?简单来说Hadoop是一个分布式计算的解决方案,分布式通俗来说就是把一件事分布到几台计算机上运行。由多台计算机同时运行和存储数据,比一台计算机运行速度快,而且如果数据量大了,或者报表复杂导致运算速度慢,只要再加计算机就解决了。
当每台计算机运算完毕后,会把中间结果集中到一台计算机上,再把这些中间结果汇总起来得出最终结果。把手头的数据进行预处理,包括将不同数据库的数据导入到一个数据库中,数据的粗选,分析,分类,会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。先别头大,如果你不是淘宝京东这样的巨头没有那么大数据量可以不这么麻烦,剔除那些和其他数据差别很大的就行。
最后就是搭建自己的一套数据运营管理体系,从管理层到业务层都需要关注的数据指标、统一口径、数据分析报表、数据结合应用等。
10. 数据分析师怎么去培养商业感觉?
商业无外乎两点,一是业务模式,二是用户。对于业务模式来说,你需要明白其中的整个流程,包括盈利模式是什么,运营手段有哪些,有什么风险和防范点。特别是像我们当时做电子商务,从线下到线上的运作流程是什么样子,都需要哪些部门的协调合作,中间可能会发生什么问题,平时的广告投放都是哪些渠道,搜索引擎关键词的效果和硬广的投放效果哪个好,运营活动哪些是做的好、以及为什么做的好的原因是什么。
第二点就是去理解用户,懂人性。像百度现在做的捆绑营销被很多人吐槽,而微信的清爽界面很受大家的点赞,伴随着这样的用户体验导致微信的日活可以做到5亿多。你要明白用户关注的是什么,他们需要的是什么,而不是给用户一堆东西让他自己去做选择。不尊重用户的后果就是用户也离你而去。还有就是像9158、YY视频这些女主播,做的模式也非常好,就是抓住了屌丝的心理。
常见的数据分析问题明白之后,会有效地指导你在后续的数据分析入门。