数据分析概述学习记录

一、什么是数据分析(Data Analysis)
  数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
     在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;
1、描述性数据分析(Descriptive Statistics)
  描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
         ①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。
         ②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
         ③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
        ④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
       ⑤绘制统计图。用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易地绘制各个变量的统计图形,包括条形图、饼图和折线图等。
2、探索性数据分析(Explorratory Data Analysis)
  探索性数据分析是指为了形成值得假设的检验而对数据进行分析的一种方法,当数据分析者不清楚数据中包含的什么模型或者隐含的什么关系时,尝试各种方法来探索发现数据中可能存在的关系。这是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。探索性数据分析侧重于在数据之中发现新的特征,发现数据的性质特征,为后面的分析提供研究价值。当数据分析人员拿到初步的数据时,可通过探索性的数据分析,解决一些问题,如:
         a.发现错误和丢失的数据;
         b.绘制数据的底层结构;
         c.确定最重要的变量;
         d.列出异常和异常值;
         e.测试与具体模型相关的假设/检查假设;
         f.建立一个简约的模型(可用于用最小预测变量来解释数据的模型);
         g.估计参数并计算相关的置信区间或误差范围。
3、验证性数据分析(Confirmatory Data Analysis)
  验证性数据分析侧重于已有假设的证实或证伪。即数据分析者已经有事先假设的关系模型,要通过数据分析来对其假设模型进行验证。
二、数据分析行业发展
     如今人们的生产生活中出现海量数据,如何最大程度上地利用数据价值,如何发挥数据对于产业发展、人民生活的重要参考作用的问题越来越吸引着人们的注意。我国国务院于2015年印发《促进大数据发展行动纲要》系统部署大数据发展工作。同时工信部也制定了《大数据产业“十三五”发展规划》以促进国内数据行业的发展。工信部已经指导全国信息技术标准化委员会组建由130余家单位构成的大据标准工作组,组织起草了《大数据标准化白皮书》,制定大数据标准体系,已经开展数据质置、数据安全、数据开放共享和交易等方面的多项国家标准的立项和研制工作。在这样的政治环境下,数据行业的发展得到了保证。
不管是国内还是国外,大数据相关的人才都是供不应求的局面。根据麦肯锡报告,仅仅在美国市场,2018年大数据人才和高级分析专家的人才缺口将高达19万。此外美国企业还需要150万位能够提出正确问题、运用大数据分析结果的大数据相关管理人才。
(一)数据分析行业面临的机遇
    1、数据分析行业是一个跨学科的边缘科学行业。它以量化指标为利器,以数据为产品表现形式。现在社会中介行业进入崭新的洗牌阶段,数据分析行业优势得以凸显:从横向看,只要有需求和满足需求的服务能力,数据分析行业的业务就可以涉足各行各业,不再受行政框框的约束;从纵向看,只要有需求和满足需求的服务能力,它的业务可以深入行业内部,上可以运营大数据,下也可以驾驭微管理,不再受资质等级的限制。
  2、数据分析行业是一个理念先进,提前进入新形势的行业。政府有个很明确的观点:企业的市场行为应该让市场去鉴定和评价。所以,对于有着明确的全市场特征的数据分析业而言,这种特殊的垄断是不可能形成的。有数据的、有能力的公司都可以进军这一行业。
    3、大数据时代的到来,不仅为数据分析行业提供了大家均已经耳闻目睹的名义上的数据分析概念,也为数据分析行业提供了大家都能够身心体会的实质上的数据分析效益。数据分析行业占得时代先机,前途无量。
 (二)数据分析行业面临的挑战
    1、在传统的中介市场下,其他行业各自占据行政支持领域,某些观念已经深入人心,数据分析行业在传统观念的壁垒中夹缝求生存。在新形势重新洗牌的时候,被切割的行政影响力的惯性作用的依旧存在,数据分析行业在传统观念充斥的领域有被视为异类和泊来物加以排斥的危险。
    2、数据分析行业是一个跨学科的边缘科学行业,很多方法和模型的使用要借鉴其他行业学科的理论体系,发达国家在数据分析领域已经有了很多成熟、成功的研究方法及案例并可以加以推广,但在我国还处于探索阶段。
  3、数据分析师的水平良莠不齐,数据分析师事务所的发展参差不齐。部分分析师们不结合事务所的实际,或是不深化分析水平、一味追求“短平快”的投资分析或投资评估业务,失去真正的研究能力;或是被“高大上”“神圣的”大数据分析业务的光环所惑,与其临渊羡鱼,不如退而结网,从适合初创阶段自身特点的基础数据分析业务入手,反而能步步为营,避免出现步履维艰的局面。
  4、数据分析师的培育机制有待完善,首先表现在网点分布不普及,部分省区还没有建立授权培训点,客观上影响了分析师团队的组成和成长;其次表现在培训内容理论性过强,实战性较弱,考过后的数据分析师存在将理论与实践合理转换的难题。
  材料来源:http://www.chinacpda.org/fazhan
三、数据分析师(Data Analyst)
  互联网本身具有数字化和互动性的特征,这种属性特征给数据搜集、整理、研究带来了革命性的突破。以往“原子世界”中数据分析师要花较高的成本(资金、资源和时间)获取支撑研究、分析的数据,数据的丰富性、全面性、连续性和及时性都比互联网时代差很多。
与传统的数据分析师相比,互联网时代的数据分析师面临的不是数据匮乏,而是数据过剩。因此,互联网时代的数据分析师必须学会借助技术手段进行高效的数据处理。更为重要的是,互联网时代的数据分析师要不断在数据研究的方法论方面进行创新和突破。
   就行业而言,数据分析师的价值与此类似。就新闻出版行业而言,无论在任何时代,媒体运营者能否准确、详细和及时地了解受众状况和变化趋势,都是媒体成败的关键。
此外,对于新闻出版等内容产业来说,数据分析师可以发挥内容消费者数据分析的职能,这是支撑新闻出版机构改善客户服务的关键职能。
  (一)技能要求
      1、懂业务。从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值。
      2、懂管理。一方面是搭建数据分析框架的要求,比如确定分析思路就需要用到营销、管理等理论知识来指导,如果不熟悉管理理论,就很难搭建数据分析的框架,后续的数据分析也很难进行。另一方面的作用是针对数据分析结论提出有指导意义的分析建议。
      3、懂分析。指掌握数据分析基本原理与一些有效的数据分析方法,并能灵活运用到实践工作中,以便有效的开展数据分析。基本的分析方法有:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗图分析法、综合评价分析法、因素分析法、矩阵关联分析法等。高级的分析方法有:相关分析法、回归分析法、聚类分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列等。
      4、懂工具。指掌握数据分析相关的常用工具。数据分析方法是理论,而数据分析工具就是实现数据分析方法理论的工具,面对越来越庞大的数据,我们不能依靠计算器进行分析,必须依靠强大的数据分析工具帮我们完成数据分析工作。
      5、懂设计。懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。图表的设计是门大学问,如图形的选择、版式的设计、颜色的搭配等等,都需要掌握一定的设计原则。
 四、数据分析流程
    (一) 数据采集
      了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则导致的数据问题;同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。在数据采集阶段,数据分析师需要更多的了解数据生产和采集过程中的异常情况,如此才能更好的追本溯源。另外,这也能很大程度上避免“垃圾数据进导致垃圾数据出”的问题。
    (二)数据存储
      无论数据存储于云端还是本地,数据的存储不只是我们看到的数据库那么简单。在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候由于软硬件、内外部环境问题无法保证,这些都会导致后期数据应用问题。
    (三)数据提取
       数据提取是将数据取出的过程,数据提取的核心环节是从哪取、何时取、如何取。
         从哪取,数据来源——不同的数据源得到的数据结果未必一致。
         何时取,提取时间——不同时间取出来的数据结果未必一致。
         如何取,提取规则——不同提取规则下的数据结果很难一致。
       在数据提取阶段,数据分析师首先需要具备数据提取能力。常用的Select From语句是SQL查询和提取的必备技能,但即使是简单的取数工作也有不同层次。
         第一层是从单张数据库中按条件提取数据的能力,where是基本的条件语句;
         第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;
         第三层是优化SQL语句,通过优化嵌套、筛选的逻辑层次和遍历次数等,减少个人时间浪费和系统资源消耗。
       其次是理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。包含该因素即是订单金额,否则就是产品单价×数量的产品销售额。
   (四)数据挖掘
         数据挖掘是面对海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:
         算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。
       在数据挖掘阶段,数据分析师要掌握数据挖掘相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序出身也可以选择编程实现;三是需要了解常用的数据挖掘算法以及每种算法的应用场景和优劣差异点。
   (五)数据分析
       数据分析相对于数据挖掘更多的是偏向业务应用和解读,当数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义,如何将挖掘结果反馈到业务操作过程中便于业务理解和实施是关键。
   (六)数据展现
         数据展现即数据可视化的部分,数据分析师如何把数据观点展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定。
     基本素质要求:
        1、工具:PPT、Excel、Word甚至邮件都是不错的展现工具,任意一个工具用好都很强大。
        2、形式:图文并茂的基本原则更易于理解,生动、有趣、互动、讲故事都是加分项。
        3、原则:领导层喜欢读图、看趋势、要结论,执行层欢看数、读文字、看过程。
        4、场景:大型会议PPT最合适,汇报说明Word最实用,数据较多时Excel更方便。
      最重要一点,数据展现永远辅助于数据内容,有价值的数据报告才是关键。
   (七)数据应用
        数据应用是数据具有落地价值的直接体现,这个过程需要数据分析师具备数据沟通能力、业务推动能力和项目工作能力。 深入浅出的数据报告、言简意赅的数据结论更利于业务理解和接受,打比方、举例子都是非常实用的技巧。在业务理解数据的基础上,推动业务落地实现数据建议。从业务最重要、最紧急、最能产生效果的环节开始是个好方法,同时要考虑到业务落地的客观环境,即好的数据结论需要具备客观落地条件。数据项目工作是循序渐进的过程,无论是一个数据分析项目还是数据产品项目,都需要数据分析师具备计划、领导、组织、控制的项目工作能力。
      注:大部分内容来自百度、CSDN、知乎等平台,本文章做个人学习记录使用,侵删。

你可能感兴趣的:(Study,Record)