没有用于数据探索的快捷方式。如果你处于一种心态,机器学习可以让你远离每一次数据风暴,相信我,它不会。经过一段时间后,您会发现自己正在努力提高模型的准确性。在这种情况下,数据探索技术将为您解救。
我可以自信地说出这一点,因为我经历过很多这样的情况。
我已经成为一名业务分析专业人员已有近三年时间了。在我最初的日子里,我的一位导师建议我花大量时间进行探索和分析数据。遵循他的建议对我很有帮助。
我创建了本教程,以帮助您了解数据探索的基础技术。一如既往,我尽力以最简单的方式解释这些概念。为了更好地理解,我采用了一些例子来演示复杂的概念。
请记住,输入的质量决定了输出的质量。所以,一旦你准备好你的业务假设,在这里花费大量的时间和精力是有意义的。根据我的个人估计,数据探索,清理和准备可能占您项目总时间的70%。
以下是了解,清理和准备数据以构建预测模型所涉及的步骤:
最后,在我们提出精炼模型之前,我们需要多次迭代步骤4 - 7。
现在让我们详细研究每个阶段: -
首先,识别预测变量(输入)和目标(输出)变量。接下来,确定变量的数据类型和类别。
通过举个例子让我们更清楚地理解这一步骤。
示例: - 假设,我们想要预测学生是否会参加板球比赛(参见下面的数据集)。在这里,您需要识别预测变量,目标变量,变量的数据类型和变量类别。
下面,变量已在不同的类别中定义:
在这个阶段,我们逐个探索变量。执行单变量分析的方法将取决于变量类型是分类还是连续。让我们分别看一下分类和连续变量的这些方法和统计量度:
连续变量: - 在连续变量的情况下,我们需要了解变量的集中趋势和扩散。这些是使用各种统计指标可视化方法测量的,如下所示:
注意: 单变量分析还用于突出显示缺失值和异常值。在本系列的下一部分中,我们将介绍处理缺失值和异常值的方法。要了解有关这些方法的更多信息,您可以从Udacity中引用课程 描述性统计信息。
分类变量: -对于分类变量,我们将使用频率表来了解每个类别的分布。我们还可以读作每个类别下的值的百分比。可以使用两个指标(每个类别的计数和计数%)来衡量它。条形图可用作可视化。
双变量分析找出两个变量之间的关系。在这里,我们在预定义的显着性水平上寻找变量之间的关联和解除关联。我们可以对分类和连续变量的任何组合进行双变量分析。组合可以是:分类和分类,分类和连续以及连续和连续。在分析过程中使用不同的方法来处理这些组合。
让我们详细了解可能的组合:
连续和连续:在两个连续变量之间进行双变量分析时,我们应该看散点图。找出两个变量之间的关系是一种很好的方法。散点图的模式表明变量之间的关系。关系可以是线性的或非线性的。
散点图显示两个变量之间的关系,但不表示它们之间的关系强度。为了找到关系的强度,我们使用Correlation。相关性在-1和+1之间变化。
可以使用以下公式导出相关性:
相关=协方差(X,Y)/ SQRT(Var(X)* Var(Y))
各种工具具有识别变量之间的相关性的功能或功能。在Excel中,函数CORREL()用于返回两个变量之间的相关性,SAS使用过程PROC CORR来识别相关性。这些函数返回Pearson Correlation值以标识两个变量之间的关系:
在上面的例子中,我们在两个变量X和Y之间有很好的正相关关系(0.65)。
分类和分类: 要查找两个分类变量之间的关系,我们可以使用以下方法:
概率为0:表示两个分类变量都是相关的
概率为1:它表明两个变量都是独立的。
概率小于0.05:表明变量之间的关系在95%置信度下是显着的。通过以下方法找到两个分类变量独立性检验的卡方检验统计量:
其中O代表观察到的频率。E是零假设下的预期频率,并通过以下公式计算: 从前面的双向表中,产品类别1的小尺寸的预期计数是0.22。它是通过将产品类别(2)的列总数的大小(9)乘以行的总和,然后除以样本大小(81)得出的。这是针对每个细胞进行的程序。用于分析关系力量的统计指标是:
不同的数据科学语言和工具具有执行卡方检验的特定方法。在SAS中,我们可以使用Chisq 作为Proc freq的选项来执行此测试。
分类和连续:在探索分类变量和连续变量之间的关系时,我们可以绘制每个分类变量级别的箱形图。如果级别数量很少,则不会显示统计显着性。为了查看统计学意义,我们可以进行Z检验,T检验或ANOVA。
如果Z的概率很小,则两个平均值的差异更显着。T检验与Z检验非常相似,但是当两个类别的观察次数小于30时使用。
示例:假设,我们要测试五种不同练习的效果。为此,我们招募了20名男性,并为4名男性(5组)分配了一种类型的运动。几周后记录它们的重量。我们需要弄清楚这些练习对它们的影响是否显着不同。这可以通过比较每组4个男性的5组的重量来完成。
到这里,我们已经理解了数据探索,变量识别,单变量和双变量分析的前三个阶段。我们还研究了各种统计和可视方法,以确定变量之间的关系。
现在,我们将看看缺失值处理的方法。更重要的是,我们还将研究为什么在数据中出现缺失值以及为什么必须对其进行处理。
训练数据集中缺少数据会降低模型的功效/拟合,或者可能导致偏差模型,因为我们没有正确分析行为和与其他变量的关系。它可能导致错误的预测或分类。
请注意上面显示的图像中缺少的值:在左侧方案中,我们没有处理缺失值。该数据集的推论是,男性打板球的几率高于女性。另一方面,如果你看第二张表,它显示了缺失值处理后的数据(基于性别),我们可以看到女性与男性相比,打板球的几率更高。
我们研究了数据集中缺失值处理的重要性。现在,让我们确定出现这些缺失值的原因。它们可能分两个阶段发生:
处理缺失值后,下一个任务是处理异常值。通常,我们倾向于在构建模型时忽略异常值。这是令人沮丧的做法。异常值往往会使数据偏斜并降低准确性。让我们了解更多关于异常值处理的信息。
异常值是分析师和数据科学家常用的术语,因为它需要密切关注,否则会导致错误的估计。简单地说,异常值是一种远离一个样本的整体模式的观察结果。
让我们举个例子,我们进行客户分析,发现客户的平均年收入是80万美元。但是,有两个客户的年收入为4美元和420万美元。这两位客户的年收入远远高于其他人口。这两个观察将被视为异常值。
异常值可以有两种类型: 单变量和 多变量。上面,我们讨论了单变量异常值的例子。当我们查看单个变量的分布时,可以找到这些异常值。多变量异常值是n维空间中的异常值。为了找到它们,您必须查看多维分布。
让我们用一个例子来理解这一点。让我们说我们正在理解身高和体重之间的关系。下面,我们有高度,重量的单变量和双变量分布。看看盒子图。我们没有任何异常值(1.5 * IQR以上和以下,最常见的方法)。现在看看散点图。在这里,我们在一个特定的重量和高度段中有两个值,一个高于平均值。
每当我们遇到异常值时,解决它们的理想方法就是找出出现这些异常值的原因。处理它们的方法将取决于它们发生的原因。异常值的原因可分为两大类:
让我们更详细地了解各种类型的异常值:
异常值可以极大地改变数据分析和统计建模的结果。数据集中的异常值有许多不利影响:
为了深入理解影响,我们举一个例子来检查数据集中有和没有异常值的数据集会发生什么。
例:
如您所见,具有异常值的数据集具有显着不同的均值和标准差。在第一种情况下,我们会说平均值是5.45。但随着异常值的增加,平均值飙升至30.这将完全改变估计值。
最常用的检测异常值的方法是可视化。我们使用各种可视化方法,如Box-plot,Histogram,Scatter Plot(上图,我们使用了箱形图和散点图进行可视化)。一些分析师还使用各种拇指规则来检测异常值。他们之中有一些是:
处理异常值的大多数方法类似于缺失值的方法,例如删除观察,转换它们,将它们分类,将它们视为一个单独的组,输入值和其他统计方法。在这里,我们将讨论用于处理异常值的常用技术:
删除观察: 如果由于数据输入错误,数据处理错误或异常值观察数量非常少,我们删除异常值。我们还可以在两端使用修剪来移除异常值。
转换和分级值: 转换变量也可以消除异常值。值的自然对数减少了由极值引起的变化。Binning也是变量转换的一种形式。决策树算法允许由于变量的分箱而很好地处理异常值。我们还可以使用为不同观察指定权重的过程。
影响: 像缺失值的估算一样 ,我们也可以归咎于异常值。我们可以使用均值,中位数,模式插补方法。在计算值之前,我们应该分析它是自然的异常还是人为的。如果它是人为的,我们可以使用输入值。我们还可以使用统计模型来预测异常值观察的值,之后我们可以用预测值来估算它。
单独处理: 如果存在大量异常值,我们应该在统计模型中单独处理它们。其中一种方法是将两个组视为两个不同的组,并为两个组构建单独的模型,然后组合输出。
到此为止,我们已经了解了数据探索,缺失值处理以及异常检测和处理技术的步骤。这3个阶段将使您的原始数据在信息可用性和准确性方面更好。现在让我们进入数据探索的最后阶段。这是特色工程。
特征工程是从现有数据中提取更多信息的科学(和艺术)。您没有在此处添加任何新数据,但实际上您正在使您已经拥有的数据更有用。
例如,假设您试图根据日期预测购物中心的脚下跌。如果您尝试直接使用日期,则可能无法从数据中提取有意义的见解。这是因为脚下跌对月份的影响要小于一周中的哪一天。现在,有关星期几的信息隐含在您的数据中。你需要把它拿出来让你的模型更好。
这样可以从称为特征工程的数据中提取信息。
完成数据探索的前5个步骤后,您可以执行特征工程 - 变量识别,单变量,双变量分析, 缺失值插补 和 异常值处理。特征工程本身可分为两个步骤:
这两种技术在数据探索中至关重要,对预测能力有显着影响。让我们更详细地了解这一步。
在数据建模中,转换是指通过函数替换变量。例如,用方形/立方根或对数x替换变量x是一种变换。换句话说,转换是一个改变变量与其他变量的分布或关系的过程。
让我们看一下变量转换有用的情况。
以下是变量转换的必要条件:
有各种方法用于转换变量。如上所述,其中一些包括平方根,立方根,对数,分组,倒数和许多其他。让我们通过强调这些转换方法的优缺点来详细研究这些方法。
特征/变量创建是基于现有变量生成新变量/特征的过程。例如,我们将日期(dd-mm-yy)作为数据集中的输入变量。我们可以生成新的变量,如日,月,年,星期,工作日,可能与目标变量有更好的关系。此步骤用于突出显示变量中的隐藏关系:
有各种技术来创建新功能。我们来看看一些常用的方法:
如需进一步阅读,以下是可应用于您的数据的转换/创建想法列表。
如开头所述,投入数据探索的质量和努力将良好的模型与糟糕的模型区分开来。
这结束了我们的数据探索和准备指南。在本综合指南中,我们详细介绍了数据探索的七个步骤。本系列的目的是为数据科学中一个极其重要的过程提供深入和一步一步的指导。
就个人而言,我很喜欢撰写本指南,并希望从您的反馈中学习。您觉得本指南有用吗?非常感谢您的建议/反馈。请随时通过以下评论提出您的问题。
作者:SUNIL RAY
原文:https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/