数据分析入门 | 探索性数据「上」

「写在前面」


        大家好,这里是卢敬宜和林高兴的学习园地,接下来会在这里更新卢敬宜的数据分析学习笔记和林高兴营销方向秋招的面经(或许也会有一些营销方向的心得体会),一方面是作为学习成果的记录,另一方面也是希望让自己收获的知识发挥一点光和热。更新周期不定,但会努力⛽️

「正文」


        数据分析的第一步,也是数据科学项目的第一步:探索数据。

        ※那我们这里产生疑问:

        为什么要探索数据,直接进行数据分析可以吗?

        当然可以,前提是你的数据都已「结构化」。事实上,我们面对的很多数据,例如文本单词的处理、用户点击与阅读的信息流 ,这些原始性的数据都不具备可操作性(即机器无法理解)。我们需要将原始数据转化为可操作性的信息,这才是我们面临的主要挑战:「将非结构化的原始数据结构化」。

        一、我们的目标 “结构化数据”是什么

        结构化数据主要包含两种基本类型:“数值型数据” 与 “分类数据”。

        (一)数值型数据

        1.连续型数据。数据可在一个区间内取任何值,例如风速、持续时间等。

        2.离散型数据。数据只能取整数,例如计数,如年龄、大小、发生次数等。

        (二)分类数据

        数据只能从特定集合中取值,来表示可能的分类。

        例如,我们拨打固定电话前,如果是跨省电话往往需要加上区号,北京是010,上海是021,用分类数值对应特定的地区。

        除了数值型和分类两种基本类型数据,还包括“二元数据”与“有序数据”

         (三)二元数据

        “二元数据”是一种重要且特殊的分类数据,该类数据的取值只择其一。

        (四)有序数据

        “有序数据”是另一种分类数据,该数据是按照分类排序,例如学生的学号、医院排队的号码。

        自我理解,二元数据和有序数据都可以理解为特殊点的分类数据。

        二、矩形数据

        在得到结构化数据后,我们需要有一个更好的框架去“整体”、“系统”地去了解和阅读数据,因此我们需要借助「矩形数据」。

        *矩形数据的本质是一个二维矩阵;

        *行表示记录事例(就是我们所说的一个数据),列表示特征(即我们所说的维度、特征或变量);

        *数据刚开始一般都是矩阵式的,需要经过处理。

        其中最著名的矩形数据就是Python里的熊猫包(Pandas)里的DataFrame对象。

        通过pd.DataFrame方法可以将非结构化数据变成矩形结构数据,并自动建立一个整数索引。

        当然,有的数据并不隶属于矩形数据。

        例如时序数据、空间数据、网络数据,都有其特定的结构。空间数据结构常用地图进行定位和分析,网络数据通常用点连接图,这些数据类型有其独特的方法论。

        三、在对数据结构化之后,我们需要对数据特征进行总结

        数据特征两大维度分别是 “位置” 与 “变异性”

        (一)位置

        我们先来理解"位置"(或成集中趋势)。探索数据的一个基本步骤,就是获得每个特征的“典型值”,典型值是对数据最常出现的位置的估计,即数据的集中趋势。

        1.均值

        均值:所有数据之和除以数值的个数

        乍一看,总结数据很似乎很简单,对数据取均值即可。但均值很多时候“并非”那么好的度量值,因此在统计学上提出一些估计量来替代均值。

        我们在均值的基础上引申出两个均值的变种:

        (1)切尾均值

        很好理解,在有数据集上,去头去尾(头和尾去的数值相同),对剩余数值取均值。

        应用场景:除非数据集比较小,否则我们将数据集开头和结尾各舍弃10%以免受离群值影响。

        例如,跳水比赛一般有8个评委,为了排除国籍之间的偏好与厌恶,去掉最高分与最低分,最剩下6个的平均分。

        (2)加权均值

        计算加权均值时,将每个值Xi乘以其对应的权重Wi,将加权的的值综合除以权重的总和。

        例如,大学计算学分时候,如果你的微积分成绩是90(学分是4分),大学英语成绩是80(学分是2分),则加权平均分=(90*4+80*2)/6= 86

        2.中位数和稳健估计量

        (1)中位数

        相信大家对中位数计算很熟悉,是位于有序数据集中间位置处的数据。

        在不少实际应用中,中位数是比均值更好的位置度量(因为其对于离群值不那么在乎)。

        有时候,我们还需要加权中位数(这个可能稍微陌生)。加权中位数是使有序数据集上下两部分的权重综合相同的值。

        (2)离群值

        我们称中位数为一种对位置的“稳健”的估计量,因为其不会受离群值(极端值)的影响,因为离群值会使得结果产生偏差。

        (3)稳健的估计量

         「稳健」就是对极值不敏感。对于极端值不敏感的估计量都是稳健的估计量,包括中位数、切位均值

    (二)变异性

        位置是总结特性的一种维度,另一个维度则是“变异性”,衡量的是数据值是“紧密的”还是“分离的”。

        在统计学中,变异性是一个核心概念。进行统计的时候,我们关注这几个问题:如何测量变异性?如何降低变异性?如何在有变异性情况下做出决策?

        衡量变异性的有以下几个特征:

        1.残差 (观测值与实际值直接的差异)

        但残差本身效果是很差的,因为负的偏差值会抵消正的偏差值,因此我们提出改进的计算方法↓

        2. 平均绝对偏差

        对均值的偏差取绝对值,并且除以n,这就是平均绝对偏差。比起残差具有更好的衡量变异性效果。

        3. 但,为什么统计学更多用方差与标准差,而不用平均绝对偏差?

        统计学中更常用的两个指标“方差”与“标准差”。

        这里我的理解是:从计算角度而言,使用平方值的计算要比使用绝对值更加方便,尤其对于统计模型。

        4. 极差

        基于有序数据的统计量,数据的最大值与最小值之间的差值(但极差对离群值非常敏感,对于测量数据的离差并非十分有用)。

        5. 百分位数

        同极差一样,百分位数也是基于有序数据的统计量,基于百分位数间的差异。在一个数据集中,第p百分位数表明,至少有P%的值小于或等于该值,而(100-p)%的值大于或等于该值。


作者:卢敬宜

你可能感兴趣的:(数据分析入门 | 探索性数据「上」)