数据与抽样分布究竟在讲什么?一文为你详解「上」

        在本篇章「上」中主要会讲解数据的抽样方法,「下」将会详解数据的抽样分布。


        对于学习数据分析的我们,在大规模、全样本的数据基础下,已经可以涵盖所有维度的全数据,究竟有没有必要学习和了解抽样?

        答:非常有必要。我们以为大数据意味着抽样的终结,其实不然。事实上,抽样能帮助我们有效地操作一组数据,并且最小化偏差。在大数据项目中,也经常会使用抽样生成并导出预测模型(用小规模样本测试模型,达到预期后再尝试用大规模全量样本去完整输出,不然要耗费太多时间)。实际上,抽样对于大数据分析有以下几个帮助与好处:

        1.操作方便,节约时间(小数据,好操作)

        2.用于检验(广泛用于定价、web处理等检验)

一、随机抽样和样本偏差

        随机抽样不难理解,就是以均等机会从总体的所有可用成员中抽取,得到一个样本。随机抽样包含抽样的方法、放回的方式,即分层和简单随机抽样,放回包括有放回的抽样与不放回的抽样。

        抽样不难,用python sample的方法即可抽取样本。但是这里产生一个最大的问题:抽样的样本究竟有没有「代表性」?

        一般情况下,我们在做估计或是根据样本拟合模型时,「数据质量」的影响要大于「数据规模」的影响。在数据科学中,数据质量涉及数据的完整性、格式的一致性、整洁性以及单个数据点的准确性。在统计学中,数据质量还涉及抽样的「代表性」这一概念。

        一个很经典的例子是1936年美国《文学文摘》杂志发起的一次民意调查,当时《文学文摘》预测艾尔弗 •兰登将在美国总统选举中战胜富兰克林 • 罗斯福。但事实如何,我们应该都相当清楚。

        《文学文摘》预测错误地原因主要是因为其忽视了选择方法,调查对象选取了阶层高的人群(该杂志的订阅者且有电话),调查对象的选取上存在偏差,这导致了调查结果中存在样本偏差,即样本以某种有意义的非随机方式,不同于其想要代表的大规模总体。一旦差异具有意义,就会发生样本偏差。如果其他样本也使用了同样的抽取方式,那么也会存在样本偏差。

        以史为鉴,可以明得失。有了《文学文摘》的前车之鉴,我们不禁思考:如何让样本具有代表性?如何避免抽样偏差?

        目前,实现代表性和避免偏差的核心在于「随机抽样」。随机抽样虽然有随机二字,但实现起来并不容易。这里有两个关键的步骤:

        (一)正确地定义可访问的总体

        假设我们想要生成客户的一个代表性形象,并且需要执行一次试点客户调查。调查要具有代表性,但是所需的工作强度极大。首先,我们需要定义客户是谁。我们可以选择购买金额大于零的所有客户记录。那么是否要考虑过去所有的客户?是否要考虑退款情况?是否要考虑内部测试购买情况?是否需要考虑经销商、结算代理人和客户?

        (二)指定抽样过程

        抽样可以是“随机选取 100 名客户”。当涉及对某个数据流的抽样时,如实时客户交易、Web 访问者等,时间上的考虑很重要,例如工作日上午十点的 Web 访问者可能不同于周末晚上十点的 Web 访问者。

        另外,如果采用分层抽样的方式,同样有两个核心考虑的关键点:

        1、我们需要将总体分成多个层,并在每一层中做随机抽样。

        2、对不同的层赋予不同的权重,以生成对等的抽样规模。

        总结:

        1、大数据时代,随机抽样依然重要。

        2、样本不具备代表性时,就会产生样本偏差。

        3、数据质量比数量更重要,随机抽样可以降低偏差,提高质量。

二、选择偏差

        尤吉 • 贝拉(Yogi Berra)有一句名言:“如果你不知道自己在寻找什么,那么努力去寻找吧,终会发现它。”

        选择偏差是指以“一种可导致误导性或短暂性结论的方式,有选择性地选取数据的操作”。

        *选择偏差可能是有意而为之,也可能是无意识的。

        有意而为之的选择偏差,通常指的是数据窥探,即我们通常所说的,从众多数据维度、模型里,找一个符合我们“设想”和“要求”的。如果我们制定一个假设,并设计实验去验证该假设,就能得到具有高置信度的结论。但实际情况往往并非如此。我们通常只会找到那些符合我们预期的,并有意地选择一些对我们有用的数据(即广泛地探查数据,直至发现我们感兴趣的现象)。

        在统计学家中存在着一个说法:“如果我们拷问数据的时间足够长,那么它迟早会招供。”其实这也是质性研究的老师经常会质疑量化研究的一个点,“你把那么多数据维度、模型进行反复测试,总有几个有意思的现象,那怎么证明这些相关是有实际意义的呢?”

        OK,如果你看了这篇文章,下次你就可以这样回复老师。“老师你好,是这样的,我为了避免这个问题,使用了‘目标混洗’的方法,用验证集去验证结果的性能,实际上是一个置换检验,验证由数据挖掘模型所预测的关联关系的合法性。”

        在统计学中,除了大规模搜索效应之外,选择偏差的典型形式还包括非随机抽样(参见抽样偏差)、主观随机挑选(cherry-picking)数据、选取突出特定统计效应的时间间隔,以及在结果看上去“具有意义”时停止实验。

        (一)趋均值偏差

        选择偏差还有一个特别的现象,就是趋均值回归。趋均值回归指对同一变量做连续测量时出现的一种现象,即在极端观测值后,会出现更趋向于中心的观测值。对极值给予特殊的关注和意义,会导致某种形式的选择偏差。

        关注nba或篮球论坛的可能经常会遇到这样一个帖子,问:“恩比德(新秀年)去年打得风生水起,怎么今年下滑这么严重?”这是我们经常会遇到的一种情况,其实这种也是一种选择性偏差导致的:他们只关注那些打得好的,而那些打得不好的新秀,甚至没人愿意去关注他们。这里其实就是对极端值(打得最好的新秀 )的一种特别关注

三、统计量的抽样分布

        设想一种情况,我们要从大规模数据中进行抽样,究竟是为了什么?不外乎这么几点,测量某个样本的统计量,或者是需要数据进行建模与分析。但是,我们每次抽取样本的时候,样本与样本之间是存在不同与差异的,即我们所说的「变异性」。我们如何保证这次抽取的数据,在这次统计量中与下一次抽取样本的统计量中,不至于差别特别多;或是机器学习建模时,样本之间的误差不那么大。因此你我们需要关注的就是样本的变异性。一般情况下,如果数据是比较好获得的,我们要求是,“尽可能多的数据,去建模(如果机器能够承受);如果不行的话,就抽取更多额样本,来观察样本统计量的分布”。

        一般来说,如果一个数据不是正态分布或者分布地“很不规律”,从这个数据中抽取多次样本,查看样本统计量分布的话,样本统计量的分布要比总体数据分布更加“正态”,而且如果样本规模越大,就越“正态”————这就是我们所说的中心极限定理。

        中心极限定理:该定理指出,即便原始总体不符合正态分布,但是只要样本的规模足够大,并且数据并非在很大程度上偏离正常值,那么从多个样本得到的均值将会呈现出我们所熟知的钟形正态曲线。

        从这里看上去,中心极限定理很强大,能够把不符合正态分布的数据拉回成正态分布,似乎是数据分析的中心与核心定理。但其实不然,因为很多情况下,我们不需要使用假设检验和置信区间,并且具有“自助法”这种更加简明方便的工具。

        要估计统计量或模型参数的抽样分布,一个简单而有效的方法是,从样本本身中有放回地抽取更多的样本,并对每次重抽样重新计算统计量或模型。这一过程被称为自助法。自助法无须假设数据或抽样统计量符合正态分布。

        使用自助法对规模为 n 的样本做均值重抽样的算法实现如下。

        (1) 抽取一个样本值,记录后放回总体。

        (2) 重复 n 次。

        (3) 记录 n 个重抽样的均值。

        (4) 重复步骤 1 ~ 3 多次,例如 r 次。

        (5) 使用 r 个结果:

        a. 计算它们的标准偏差(估计抽样均值的标准误差);

        b. 生成直方图或箱线图;

        c. 找出置信区间。

        中心极限定理和自助法最大的差异在于,中心极限定理需要我们假设数据或抽样符合正态分布,而自助法不需要,只需要每次“有放回”地抽取更多的样本,就可以满足我们需要的抽样数据符合正态分布这种规律。


作者:卢敬宜

你可能感兴趣的:(数据与抽样分布究竟在讲什么?一文为你详解「上」)