【读书笔记】-003-《人人都会数据分析》-第1章生活在数据时代

第1章生活在数据时代

数据分析无处不在

  • 常用的国家统计指标

    • 1.国内生产总值

      • 国内生产总值(Gross Domestic Product)的简称是我们熟悉的GDP。
      • 国内生产总值是指在一定时期内,一个国家或地区的经济中所生产出来的全部最终产品和劳务的价值,它是衡量国家经济状况最常用的指标之一。
      • 国内生产总值有三种表现形态:价值价值形态、收入形态和产品形态。
      • 从价值形态看,它是所有常住单位的价值增加值之和;从收入形态看,它是所有常住单位在一定时期内创造并分配给常住单位和非常住单位的初次分配收入之和;
      • 从产品形态看,它是所有常住单位在一定时期内最终使用的产品价值与净出口的产品价值的总和。
    • 2.国民总收入

      • 国民总收入(Gross National Income,简称为GNI)。
      • 国民总收入是指一个国家或地区的国民在一定时期内,在国内和国外所生产的最终产品及劳务价值的总和。
    • 3.居民消费价格指数

      • 居民消费价格指数(Consumer Price Index)就是这几年经常提及的CPI,它是反映市场物价变化情况的基本术语。
      • 术语。每个国家统计CPI的方法都略有区别,我国的CPI指数是按食品、烟酒及日用品、服装、家庭设备用品及服务、医疗保健及个人用品、交通和通信、娱乐教育文化用品及服务和居住这八大类来计算的。
      • CPI是反映城乡居民消费水平和消费品价格变动情况的重要指标,也是观察通货膨胀水平的重要指标。
      • CPI涨幅过大表明货币贬值幅度过大,是通货膨胀的表现,而通货膨胀可能成为经济不稳定的因素。
    • 4.基尼系数

      • 基尼系数的经济含义:在全部国民收入中,用于进行不平均分配的那部分收入占全部国民收入的百分比,基尼系数的最大值为1,最小值为0。
    • 5.恩格尔系数

      • 即食品支出总额占总收入总收入的比重。
      • 恩格尔定律主要表述的是食品支出占总收入的比例随收入变化而变化的趋势,揭示了居民家庭收入和食品支出之间的关系。
    • 6.股票价格指数

      • 股票是股份公司发行给股东的,证明持股人对公司部分资产拥有所有权的证券。
    • 7.人口自然增长率

      • 人口自然增长率是指一定时期内人口的自然增长数(出生人数减去死亡人数)与该时期内平均人口数的比值,通常以年为时间单位进行计算,用千分比来表示。
      • 表示。人口自然增长率是反映人口增长速度以及国家制定人口计划的重要指标,表明了国家人口的自然增长速度和趋势。
      • 谢运恩;李安富.人人都会数据分析——从生活实例学统计(Kindle位置263-264).电子工业出版社.Kindle版本.
    • 8.人口老化

      • 人口老化是指一个国家或地区在一个时期内老龄人口比重不断上升的现象。人口老化的直接原因是人口自然增长率和人口死亡率的降低。
    • 9.负担系数

      • 量化。负担系数也称为抚养系数、抚养比,是指人口总体中非劳动年龄人口数与劳动年龄人口数的比值,
      • 公式:负担系数=(小于14岁人口数+65岁以上人口数)/(15岁至65岁人口数)*100%
      • 负担系数还可以细分为总负担系数、儿童负担系数和老人负担系数。总负担系数为儿童负担系数与老人负担系数的总和。
    • 10.国家失业率

      • 国家失业率的计算公式如下:
        国家失业率=(城镇失业人员)/(城镇就业人员+城镇失业人员)*100%
  • 制造业的数据分析应用

    • 1.我国制造业面临的问题

      • 首要原因是劳动力供给出现不足,人口红利逐渐消失。
      • 第二个关键原因是制造业水平整体偏低。
    • 2.6σ质量管理科学对制造业发展的影响

      • 6σ质量管理科学(也称六西格玛质量管理科学)。
      • 6σ质量管理只是使用了数据统计分析的一个重要知识点,也就是正态分布数据的六西格玛理论,
    • 3.数据分析助力制造业转型升级

      • (1)产品故障诊断与预测
      • (2)智能生产线的实现
      • (3)生产计划优化
      • (4)产品质量管理与分析
      • (5)工业4.0的实现
  • 营销领域的数据分析应用

    • 面对时代的发展和人们生活习惯的改变,基于互联网用户数据分析的精准营销方式开始发挥作用,并取得令推播式营销方法望尘莫及的效果。

    • 首先要做的是冷启动。

    • 今日头条会根据初始的兴趣模型从三个维度呈现内容:

      • 第一个是“推荐”,即从资源库中抓取资源信息,从中提取几十个到几百个高维特征,并进行降维、相似计算、聚类、分类等处理,然后根据用户的兴趣模型来推荐这些资源,今日头条每天会抓取并处理超过100万个网页,以保证内容来源足够充足准确;
      • 第二个是“热门”,也就是互联网和社交网站上出现最多的内容;
      • 第三个是好友动态数据。当然,用户也可以根据自己的喜好对文章进行顶、踩、转发和收藏等操作,这些用户行为数据会被实时地传送到后台,在用户每次操作后的30秒内,系统就会对用户模型进行更新。
  • 医疗行业的数据分析应用

    • 智慧医疗是基于数据技术和智能数据分析技术形成的综合性智能辅助医疗系统,当医生在系统中输入患者的个人病情信息之后,系统可以在毫秒间为医生推荐相应的有针对性的治疗方案。
    • 数据分析系统之所以能在瞬间给出最佳的诊疗方案,得益于系统背后庞大的病例数据库和不断完善的数据分析模型,该数据库存储的信息一般包括病案、教科书、文献、专家会诊结果等六大数据模块、知识与经验来源。
    • 从统计学上看,即使是经验丰富的医生也会出现判断或诊疗失误,这是无法克服和避免的,然而通过智慧医疗系统,能够充分分析和利用过去的海量医疗数据信息,从而快速将过去的相关医疗信息呈现在医生的面前,提高医生的诊断正确率。

人人都能成为数据分析师

  • 数据分析过程

    • 数据分析过程一般包括六个步骤:确定目标数据、目标数据采集、数据清洗、数据存储、数据分析、结果可视化及结果支持的决策等步骤。

    • 1.确定目标数据

      • 在获取数据之前,首先需要根据数据分析的目的筛选出需要采集的目标数据,这是确保整个数据分析过程合理有效的首要条件,因为只有对目标数据进行分析才有可能得到对分析者有用的分析结果。
      • 确定需要采集的目标数据种类时,不仅要全面筛选出重要数据的种类,而且要避免筛选出具有重复功能的数据种类。
    • 2.目标数据采集

      • 确定好目标数据以后,第二步就是依据确定的目标数据列表对目标数据进行有效采集。根据数据采集的难易程度,数据采集可以分为数据实时采集和数据抽样采集两种形式。

      • (1)常用的非概率抽样方式

        • ·方便抽样:抽样时,以方便为原则。
        • ·主观抽样:以采样者的主观经验选择总体中具有代表性的样本。
        • ·配额抽样:将总体按照某些因素进行分类或分层,然后在各层或各类中进行主观抽样。配额抽样使样本在结构上与总体相似。
        • ·滚动抽样:根据上一个样本的信息来确定下一个样本。
      • (2)常用的概率抽样形式

        • ·简单随机抽样:从总体中随机抽取个案作为样本,每一个个案被抽中的概率都是相等的。
        • ·等距抽样:将总体中的所有个案按某个条件进行排序,然后随机确定开始位置,再按照事先确定的相等距离抽取下一个个案。
        • ·分层抽样:将总体按照某些条件进行分层或分类,然后从每层或每类中随机抽取个案组成样本。配额抽样是分层抽样的一种特殊形式,只不过分层抽样没有要求从每个层或类抽取的个案数量。
        • ·整群抽样:将总体按照某些条件划分成不同的群体,然后随机抽取一个或几个群,并对抽取的群中个案进行数据采集。
    • 3.数据清洗

      • 数据采集回来以后,需要对采集回来的数据进行清洗,提高数据质量。
      • 纠正拼写错误、处理缺失数据以及清除无意义的数据是数据清洗中非常关键的步骤。因为垃圾数据即使应用最合适的数据分析方法,最终也将产生错误的分析结果,从而误导业务本身。
    • 4.数据存储

      • 数据库

        • 目前市场上有许多数据库产品,如Oracle、Microsoft SQL Server、Microsoft Access、Visual Fox Pro等,
      • 数据仓库

    • 5.数据分析

      • 在经过了以上数据处理步骤以后,就需要采用不同的数据分析方法对数据进行分析,得到所需的数据分析结果。
      • 结果。数据分析方法的理论基础是统计学。统计学是一门古老的学科,随着时代的发展,它所囊括的内容也越来越丰富,甚至发展出应用于各种领域的分支学科。统计学是数学的一个重要组成部分,以数理统计学为基础,对收集到的数据进行描述,然后通过推断与预测,为最终的决策提供数据参考。
    • 6.结果的可视化

      • 用两种方式进行陈述:

        • 一种是数值加文字说明的方式;
        • 另一种是可视化图表的形式。后者因为具有直观形象、易于理解的特点,逐渐成为结果展示不可缺少的方式。
      • 统计图是可视化图表中非常重要的组成部分,包括直方图、箱图、散点图和柏拉图(Paretochart)等。

  • 数据分析工具

    • 1.各类传感器

      • 数据可以通过很多方式进行采集。
    • 2.各种数据分析软件

      • 数据分析过程的所有步骤中,只有数据采集的步骤需要特殊的硬件采集或通过人工采集,当数据被采集并被录入到计算机以后,其他的数据分析步骤都可以在数据分析软件中完成。
      • (1)Excel办公软件
      • (2)SPSS数据统计分析软件
      • (3)SAS数据分析软件
      • (4)R统计分析软件
      • (5)Minitab质量管理软件
  • 数据分析师的成长之路

    • 1.数据分析师的基本技能

      • (1)熟悉数据分析背景

        • 第一,清楚地知道需要分析什么数据?
        • 第二,想要得到什么数据分析结果?
      • (2)掌握数据采集工具

      • (3)统计分析理论基础

      • (4)数据分析软件

    • 2.统计理论基础

XMind: ZEN - Trial Version

你可能感兴趣的:(【读书笔记】-003-《人人都会数据分析》-第1章生活在数据时代)