谁说菜鸟不会数据分析(1)

一. 常用指标和术语

  1. 平均数:将总体内各单位的数量差异抽象化,代表总体的一般水平,掩盖了总体各单位的差异。
  2. 绝对数与相对数:从业务角度看,绝对数就是数量,相对数就是质量。绝对数反应客观现象总体在一定时间、地点条件下的总规模、总水平;相对数是指由两个有联系的指标对比计算而得到的数值。
  3. 百分比与百分点:百分比表示一个数是另一个数的百分之几;百分点表示不同时期以百分数的形式表示的相对指标的变动幅度
  4. 频率与频数:频数是指个别数据重复的个数,频率是指每组类别次数与总次数的比值。
  5. 比例与比率:比例是指总体中各部分的数值占全部数值的比值;比率是指不同类别数值之间的对比。
  6. 倍数与番数:倍数是指一个数除以另一个数所得的商;番数表示原来数量的2的N次方倍(翻了一番就是2倍的意思)
  7. 同比与环比:同比是指与历史同期进行比较得到的数值,反应事物发展的相对情况;环比是指与前一个统计期进行比较得到的数值,主要反应事物逐期发展的情况。

二. 处理重复数据

方法一:函数法

COUNTIF函数:

  1. =COUNTIF(range, criteria) #范围,计算条件
  2. =COUNTIF(A:A, A2) # 查找出A2条件重复的次数
  3. =COUNTIF(A$2:A9, A9) #查找A9之前重复了几次,把所有为1的记录条提取就是非重复项

删除重复数据:
在3号步骤之后,点击排序或者通过自定义筛选,取出值为1的记录。

方法二:高级筛选法

数据->排序和筛选->高级->选择筛选区域以及复制到的区域->勾选选择不重复的记录

方法三:条件格式法

选中区域->开始->条件格式->突出显示单元格规则->重复值

方法四:数据透视表法

插入->数据透视表->选择范围以及透视表摆放的位置->拖拽筛选字段到行标签->拖拽筛选字段到值

方法五:删除重复数据

数据->数据工具->删除重复数据

三. 处理数据缺失

  1. 查找空值位置:

    方法一:定位输入

    Ctrl+G or 开始->编辑->查找和选择->定位条件->勾选空值

    方法二:以错误标识符出现的缺失值-查找替换

    Ctrl+F 查找 “#DIV/0!”
    Ctrl+H 替换 “0”

  2. 处理缺失值:
    (1). 样本平均值
    (2). 统计模型计算出来的值
    (3). 删除记录
    (4). 在分析中看情况删除

四. 检查数据逻辑错误

  1. 利用IF函数
    IF(logical_test, value_if_true, value_if_false) # if条件判断,为真应该返回值,为假应该返回值
  2. 利用条件格式
    选中区域->开始->条件格式->突出显示单元格规则->其他规则->使用公式确定要设置格式的单元格。
    OR(logical1, [ logical2 ], … )[ =FALSE ] #logical1, logical2满足1个结果就为false
    AND(logical1, [ logical2 ], … )

五. 数据加工

  1. 字段分列
    (1). 数据->数据工具->分列
    (2). LEFT(text, [num_chars]) #得到字符串左边指定个数的字符
    (3). RIGHT(text, [num_chars]) #得到字符串右边指定个数的字符
  2. 字段合并
    (1). CONCATENATE(text1, text2, …) #将文本连接
    (2). & #将文本与数字连接需要把数字嵌套在TEXT()
  3. 字段匹配
    VLOOKUP(lookup_value, table_array, col_index_num, range_lookup)

你可能感兴趣的:(数据分析)