数据是什么?
数据是指科学实验或统计计算等方式所获得的和用于科学研究、技术设计、查证、决策等的数值。而对于互联网行业来说,数据大多数情况下是指在网络信息传输过程中能被识别和处理的物理符号、信息情报、业务属性,一般来说内容形式包含数值型数据如整数、实数、小数,以及非数值型数据如图形、图像、声音、符号等。同时数据作为信息的表现形式,也承载着描述各类业务属性的数据职责,数据分析师、BI、数据工程师等经过一系列信息处理之后产出满足业务需要的信息情报,而这些信息情报能直接的被应用或经过二次简单处理后作用于日常业务环节。
数据有着多种特点,但最为突出的是数据的变异性和数据的规律性。数据的变异性存在着两种含义,首先来说一组数据的多数取值是不尽相同的,因为数据作为用来描述事物量化特征的基础,其本身的描述性会因为业务的不同特征、不同形态、不同范围等造成数据的表现不同,我们就没办法单纯的依赖一维数据去描述我们所需要分析的业务对象。另一方面由于在不同的时间节点、不同的分析群体、不同的应用平台,同一业务形态的数量特征也可能会得出不同的统计结果,特别是在于对数据口径上的不一致会造成数据测量的巨大差异性。除了变异性之外,数据还有一个非常重要的特点,而因为这个特点的存在,使得数据有着无法估量的价值,许许多多的政府、公司以及个人通过这一特点去获取自己的既得利益。数据存在着无法轻易描述的规律性,虽然前段内容提到数据具有显著的变异性,同时初看起来大量数据的存储往往是杂论无章的,但是经过数据处理、统计分析甚至机器学习等方式对数据进行加工后,大样本的数据是存在其潜藏规律的。而数据分析的研究目的之一就是寻找这种规律,同时因为数据的变异性存在,对于数据分析研究才有其必然存在的必要,如果获取到的数据都是相似或者一维的简单数据,那么也就没有数据分析以及业务研究的必要了,也正是因为这些数据的规律性才让数据分析创造出价值。
随着近几年技术的不断发展,互联网行业的蓬勃壮大,使得数据这一名词深入人心,同时来自各种来源的大量非结构化或结构化数据不停的通过存储的方式沉淀下来。自从互联网行业有了淘宝、微信、百度、抖音等数不清的产品之后,你有没有想过每分钟实际生成了多少数据?为了得到这个答案,美国云计算管理平台提供商Domo公司分析了过去一年的数据使用情况,并在其第六次 Data Never Sleeps 报告中分享了结果。它深入研究在线消费者行为,检查流行应用和平台(包括谷歌,Instagram,亚马逊,Netflix,Spotify等)每分钟生成的数据量。基于研究结果来看,数据的体量超乎你的想象,2012年大约有22亿活跃的互联网用户,2017年活跃的互联网用户则达到38亿人,这相当于全球人口的48%。而当我们谈到社交、媒体、消费领域时,你会发现各类公司、企业对于数据的使用率高的惊人。
自2017年以来,Snapchat每分钟共享的图像数量增加了294%,每60秒就会有近210万个快照被分享,而Twitter用户平均每分钟发布473400条推文,每分钟有49380张Instagrams照片被上传,Tumblr每分钟发帖79740条。对于中国来说也是一样的情况,截至2018年6月我国网民规模达8.02亿,互联网普及率为57.7%;2018年上半年新增网民2968万人,较2017年末增长3.8%;手机网民规模达7.88亿,网民通过手机接入互联网的比例高达98.3%。随着互联网使用率的稳步提升,互联网理财、电子商务、社交应用、短视频娱乐、人工智能、物联网IoT等行业也是一样充满着机遇,我并不认可互联网寒冬这一说法,只是说互联网行业变得更加理性和规范了,同时数据作为互联网行业的基础财富,如何去使用这些数据成了从业者所必须去思考的事,而数据分析无疑是对于数据的最直接应用了。
数据分析该如何去做?
数据分析是什么?说的专业点是指通过建立审计分析模型对数据进行核对、检查、复算、判断等操作,将被审计单位数据的现实状态与理想状态进行比较,从而发现审计线索,搜集审计证据的过程。说的简单点就是根据已有的数据集,通过整理、加工和分析等方式从一大批看来杂乱无章的数据中获取商业信息和研究对象的行为规律。在实际的商业经营过程中,数据分析可以通过分析数据来帮助决策经营者做出判断,并根据分析结果来采取相应的经营活动,以获取经营过程中的盈利。
1、识别数据分析需求
在数据分析的过程中,首先我们需要有目的性的分析我们的目标,然后获取相应的基础数据,在此过程中我们所需要的数据集可能是多维度的也有可能是单纬度的,这取决于第一步的目标分析。识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。
2、基础数据的获取
在明确数据分析需求之后,我们需要做的是获取大量分析过程中需要使用到的基础数据,有目的的收集数据是确保数据分析过程有效的基础。在我们获取数据的过程中,需要考虑获取的数据内容、获取数据的渠道、获取数据的方式等,这些都取决于我们制定的数据获取的策略逻辑。将识别到的数据分析需求转化成具体的数据需求,如评判电商经营的好坏时,需要基本的成交、利润、毛利率等基础数据,当评判某类商品的优劣时可能就需要而额外的评价、销量、成本、转化率等多维数据,根据分析需求的不同获取的数据纬度也有所不同。在确定数据的内容纬度,明确数据的获取渠道和获取方式之后,我们需要对这些数据进行有效的存储,使其成为结构化的应用数据,并且我们还需要采取有效的数据安全和数据保护措施,防止数据的丢失和虚假数据对于系统分析的干扰。
3、数据的分析处理
在我们完成数据的获取和存储之后,紧接着要做的是对于数据的批量化处理,使其成为可被分析使用的业务数据,我们将收集的数据通过加工、整理和分析的方式使其转化为信息。针对这些业务数据采用不同的分析方法去获取我们需要得出的分析结果,日常通用的数据分析包括简单的数学运算和概括性的数理统计,复杂的数据分析可能会涉及快速傅立叶变换,数据的基线和峰值分析以及平滑处理和数据滤波等。同时在数据分析过程中,我们也会采用已有的分析工具和分析方式去流程化我们的分析逻辑,如分析师经常使用的关联图法、系统图法、矩阵图法、KJ法(亲和图法)、计划评审技术(PERT网络分析法)、PDPC法(过程决策程序图法)、矩阵数据图等,具体的数据处理方式和数据分析方法需要根据分析师和分析需求去具体决定。
4、数据可视化
对于数据分析而言在得到分析结果之后往往是工作的开始,因为数据结果在很多情况下只是用于描述客观事物的量化特征,偏向于中立性的数据呈现,缺少可视化的数据展示以及重点内容的突出展示,此时我们需要对数据结果进行二次加工来实现数据的可阅读性和数据内容的结构可视化。数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。通常情况下,分析师会借助于图形化的手段,清晰有效地传达与沟通信息,并直观地传达关键表达信息特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。但是在分析师的工作中,可视化的设计过程往往不能很好的把握呈现和表达之间的平衡,从而创造出华而不实的数据可视化形式,无法突出关键信息,分析师需要牢记视觉设计并不是数据可视化的目的,而关键信息的呈现和信息特征的沟通表达才是真正需要关注的。
5、结论性的分析报告
在完成这前面所有的分析过程之后我们还有着至关重要的一步需要去完成,虽然我们可以通过阅读可视化的数据,让我们能在脑海中的得出我们需要的数据支持,但是文字性的结论性概括和数据解读仍旧是必不可少的,一份完整的数据分析除了需要对数据进行剖析和呈现之外还需要对经营决策有着指导意义,而完整的分析报告和结果解读是数据分析的核心意义。
数据分析的职业成长路径
数据分析对于很多人来说都不会很陌生,可以说任何一个可以进行理性思考的人都可以被称为数据分析师,因为每个人在日常过程中的每项决定其实就是无形中做着数据分析的工作,比如你的出行路线取决于你的目的地,出行时间、道路交通状况、车辆状况、是否乘坐公共交通等等,当你在做出路线选择时你其实就是在通过已知的数据,并通过数据分析的方式得出对你而言的最优路线。每一个具有独立思考的行为人都可以说是潜在的数据分析师,这也就造成了数据分析的低门槛和显著的职场天花板。从我目前的工作经历来看,入门的数据分析师需要具备的基础能力就是数据提取能力,业务部门提出什么样的数据需求就能提供什么样的基础数据,基础的技能要求仅仅是SQL和Excel。慢慢的随着数据分析师对于公司业务流程的熟悉和取数逻辑的熟练,可能在日常工作中你的主要工作内容就会变成为业务部门提供可视化的数据看板和数据报告了,你需要稍微动点脑子的可能就是如何去准备数据报表、搭建数据看板了,这个过程不涉及具体的编程、不需要高深的统计学知识、更不会设计复杂的算法分析,任何一个熟练工都能掌握。
一般来说在数据分析领域,单纯的数据分析很难走向更高的岗位,因为数据分析的准入门槛较低造成了该岗位的基础薪资较低(相比于技术和开发岗位SDE来说),同时因为没有成熟有效的职业成长路径造成了每年薪资的增长缓慢,即使分析师有着5-10年的经验也很难凭借单纯的分析能力让自己更上一层楼,所以大多数数据分析师可能都在有一定的工作经验后转成管理或其他岗位。目前来看作为一项门槛不高的职业选择,建议选择这项职业的同学去深入的思考自己的职业方向,明确后面的职业规划,可选择的职业路径一般为以下几种:
1、选择数据分析的应用场景,成为业务分析师
对于数据分析师来说,选择一个大的平台和互联网企业是很重要的,因为这些平台和公司对于数据有着足够的重视,同时他们也有着庞大的数据没有被有效的分析和使用着,所以这些企业内部都会存在着足够庞大的数据建设、数据存储、数据分析团队供你去学习和发展,同时你也能在这些互联网公司中拿到和开发岗位、产品经理相当或者稍低的薪资。在熟悉了工作环境和工作内容之后,你也可以根据公司的业务场景和业务内容去选择贴近业务的分析方向,有非常多的职位名称并不是数据分析,但工作的本质内容就是数据分析的工作,最普遍的就是业务分析、产品分析、财务分析,当你对于运营、风控或者产品有着很深的理解后也可以转去运营管理、风控管理或者产品经理的岗位。
举例来说:如果有着经济学、会计或者财务的背景可以朝着财务分析、财务总监这条路径去走,对于一个企业来说财务往往关系着公司的日常经营和管理,可能公司没有单独的数据分析团队但是对于财务一定会有着单独的部门,并且作为分析角色对于公司的一定有着无法缺失的价值;如果你对于流程管理、风险防控有着很深的理解也可以朝着风险分析、风控管理的方向去发展,尤其是近几年互联网金融的不断壮大,不小互联网公司的数据分析师转行业去了互金领域去做风险防控,风控职业对于银行、金融投资、信用卡中心、P2P公司来说都是不可或缺的,同时风控在互联网金融行业也是属于核心岗位;如果你没有财务、风控的专业背景或者你对于这些领域不感兴趣,也可以在大型的互联网企业中寻找数据分析可以落地的业务场景,比如互联网企业的日常运营分析,分析广告文案的点击和转化率、电商平台的渠道和流量转化、用户的行为轨迹和兴趣偏好、游戏公司的账号风险管理和刷单数据分析等。这些职业路径都是需要数据分析师能够紧贴业务才能把数据分析的价值落到实处,并且能具现化数据分析师的日常工作,使得公司管理和运营过程中能体现自身的业务价值,也避免在公司经营不善时成为被淘汰的一员。
2、走算法路线,成为数据科学家和研究员
对于那些计算机、应用数学、统计背景的数据分析师来说,如果对于算法研究、统计分析、Machine Learning有着浓厚兴趣的话,走数据科学家、算法专家、或者研究院的职业路径也不失为一项很好的选择。数据分析最好、最广泛的应用场景目前来说属于个性化的推荐系统,对于大多数互联网公司来说他们的直接用户群体应当属于形态各异的互联网用户了,从最新的《中国互联网络发展状况统计报告》中了解到2018年6月我国网民规模达8.02亿,而这些互联网用户不是通过简单的用户画像、用户分层就能够有效识别出来的。
所以对于几乎所有的互联网公司来说依赖于庞大数据量的个性化推荐是每个公司业务发展的核心内容之一,而今日头条、网易云音乐这些公司都以精准的个性化推荐而著称,个性化推荐是它们赖以生存的业务场景,而能够做到精准的个性化推荐不光需要全面且庞大的数据量还需要高效精准的算法、分析逻辑去有效的识别和使用这些数据。同样的,因为算法的准入门槛较高也会使得你的工作内容和价值有着强大的竞争力,当你成功依托这个职业路径从事推荐系统相关的数据工作时往往能获得很高的薪资,同时也不会存在着轻易被淘汰的尴尬境地。
3、走技术路线,数据挖掘工程师和数据研发工程师
如果你本身有着计算机、软件开发背景,并且也倾向于未来选择程序员或者开发工程师作为自己的职业倾向,那么数据挖掘工程师和数据研发工程师无疑是一个很好的选择了,既能够以较低的准入门槛进入业务部门去了解和分析数据应用,也可以在后期利用自己的程序开发能力走上数据挖掘或数据研发的道路。对于处在大型互联网公司的企业环境内,紧接着可以一直走技术线直到走上架构师的岗位,不需要做管理也能够有着很高的薪资,同时由于技术的不可替代性,也不会轻易的被行业发展所淘汰。
4、数据业务为核心的公司,从分析师变为管理者
对于很多公司来说,企业所处的行业往往会决定其员工组成,以及员工的未来成长路径。对于服饰和快消行业来说,公司的管理层大多数是从销售、市场、品牌管理成长起来的,因为这些职位的工作内容能够直接的拉动公司的业务发展;对于一些会计事务所来说,审计未来的职业终点往往不会是财务总监,或者是审计部门的一把手,最终能够走向终点的可能是会计事务所的CEO等。所以对于数据分析师来说,需要寻找公司的核心业务本身就是数据的公司,如果公司从事的业务内容就是提供数据支持或者数据分析,那么你作为数据分析的一员很容易就能够打破自身的职业天花板。而随着互联网的不断发展以及数据量持续增长,市场上已经开始大量涌现这类以数据为核心业务的公司了,比如做数据咨询业务的公司艾瑞咨询集团、易观国际、尼尔森、华通明略、埃森哲等,在这些公司内从事数据分析工作往往能有效的提高你的职业上限;又或者说是加入Tableau、Domo、GrowingIO、神策数据、海致等这样的数据平台公司,去这样的公司本身就会拓宽你的职业跑道,让你的职业路径有着更多的选择。
结论上来说,数据分析存在于每个人的日常,只是会以不同的形式去表现而已,同时因为其准入门槛较低的原因,适用于大多数又想要从事数据行业却没有什么技术背景的人。但同样的缺点也很明显,因为其准入门槛低的原因,作为一名优秀的数据分析师需要花费很大的精力去确定自己的职业路径,以及提高自己的职业素养和职业技能,以达到脱引而出的目的。
微信公众号:数据城堡(Data_Castle),带你领略数据的魅力!