常见数据处理方法

有时候更多数据处理从语言角度,调用不同api处理数据。但是从业务的角度想就很少了,最近从业务的角度了解了下常见数据处理的方法,总结如下:


标准化:标准化是数据预处理的一种,目的的去除量纲或方差对分析结果的影响。作用:1、消除样本量纲的影响;2、消除样本方差的影响。主要用于数据预处理

 

归一化:将每个独立样本做尺度变换从而使该样本具有单位LP范数。

 

主成分分析:主成分分析是将原来指标重新组合成一组新的互相无关的几个综合指标,从而达到降维的目的。

 

奇异值分解:特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。主要运用于降维类似PIC、压缩图像、潜在语义索引、去除噪音、将一个矩阵分解为3个矩阵、实现原始矩阵的维度下降。

 

分箱:分箱是根据一个或多个现有连续字段的值自动创建新字段的算子。即将数字输入转换为分类输入。

 

转置:将数据由行转换为为列。

 

重构:字段重排:该节点用于下游字段显示的自然顺序。此顺序将影响字段在多个位置的显示方式,如表格、列表和等。分为自定义排序和自动排序。

字段重命名:该节点用户可以根据自己对数据的理解对一个或多个字段的名称重命名。用户可过滤哪些字段在下一个节点不出现。在设为标志节点中不能对设为标志的字段进行重命名。

 

排序:排序节点可以根据一个或多个字段的值,按照升序或者降序对记录进行排序。排序时在表中选择作排序关键的字段。如果关键字段为数字字段,则适用于排序。

 

样本:可以选择记录的子集进行分析,或指定要丢弃的记录的比例。

可以选择记录的子集进行分析,或指定要丢弃的记录的比例。样本类型包括了如下几个

1)    分层样本。首先对样本分层,在分层的子集中独立选择(单个或多个)样本。

2)    系统化或n中取1抽样。如果随机选择难以实现,则可以系统(以固定间隔)或顺序方式抽取单元。将总体排序,每隔n个样本取一个。

 

选择:选择可以基于特定条件从数据流中选择或者丢弃记录子集。通过对输入数据的任意数据字段设置过滤条件,实现对数据集记录的过滤筛选。

 

区分:可以使用区分节点来查找或删除数据集中的重复记录。可以将第一个可区分记录传递到数据流,以删除重复的记录。或者丢弃第一个记录,将任何重复记录传递到数据流,以查找重复的记录。另外,可以在每个区分关键字值中为返回结果定义一种排序顺序。如果需要为每个区分关键字返回特定行,则必须在区分节点中对记录排序,而不能使用上游排序节点。

 

平衡:可以使用平衡节点修正数据集中的不平衡,以便它们符合指定的检验标准。例如,假设某个数据集只有两个值(low 或 high),并且 90% 的观测值为 low,而只有 10% 的观测值为 high。很多建模技术处理此类偏倚数据都有困难,因为它们倾向于只学习这些 low 的结果,而忽略 high 的结果(因为这些结果少的可怜)。如果数据平衡很好,low 和 high 结果具有大致相同的数量,那么模型将更有可能找出分辨这两个组的模式。这种情况下,平衡节点对于创建平衡指令,从而减少带有 low 结果的观测值数量非常有用。

平衡节点用于修正数据集中的不平衡,以便它们符合指定的检验标准。平衡是通过复制记录,然后根据指定的条件丢弃记录完成执行的。不符合任何条件的记录总是会被传递。因为此过程的工作模式为复制和/或丢弃记录,所以在下游操作中将丢失数据的原始顺序。在向数据流使用平衡功能之前,需要确保派生任何与序列相关的值。

 

汇总:汇总是一个经常用于减小数据集大小的任务。汇总是一个经常用于减小数据集大小的任务。执行汇总之前,应该花一些时间来清理数据,尤其要关注缺失值。在汇总节点上,可以指定以下内容。

1)    一个或多个关键字段

2)    一个或多个汇总字段

3)    一种或多种汇总模式(汇总类型)以用于每个汇总字段的输出

4)    指定默认汇总模式

 

追加:追加节点将结构类似的表,选取一个主表,将另外的表追加在主表后面(相当于增加行记录)。注意:要追加文件,字段测量级别必须相似。例如,名义字段无法附加测量级别为连续的字段,即字段类型的相同。

 

合并:输入多个记录字段,创建一个包含全部或部分输入字段的输出记录。

 

追加:追加节点将结构类似的表,选取一个主表,将另外的表追加在主表后面(相当于增加行记录)。当主表的字段比另一输入表中的字段多时,对于不完整的值使用Null值字符串($null$)。

 

过滤:可以重命名或排除字段。

 

导出:用户可以修改数据值并从现有数据中派生出新字段。可以根据一个或多个现有字段按6种方式创建出一个或者多个相同的新字段:

1)    公式。表达式。

2)    标志。代表指定条件的标志。

3)    名义。名义的,表示其成员是一组指定值。

4)    状态。两种状态之一。通过指定条件触发这两种状态之间的切换。

5)    计数。新字段以某个条件为真的次数为基准。

6)    条件。新字段根据某个条件值,从两个表达式中择选其一用作字段值。

 

填充:填充节点用于替换字段值。填充节点通常与类型节点结合使用,用于替换缺失值。

 

分区:分区节点用于生成分区字段,将数据分割为单独的子集或样本,以供模型构建的训练、测试和验证阶段使用。通过用某个样本生成模型并用另一个样本对模型进行测试,可以预判此模型对类似于当前数据的大型数据集的拟合优劣。

 

分箱:使用“分箱”节点,可以根据一个或多个现有连续(数值范围)字段的值自动创建新的名义字段。分箱的实用性源于以下几个原因:

1)    算法要求。某些特定算法(如NaiveBayes、Logistic回归)要求分类输入。

2)    性能。如果减少输入字段的不同值数量,算法(如多项Logistic)的性能可能会提高。

3)    数据隐私。敏感类个人信息(如工资)可采用范围的报告形式,而不使用实际工资数字,以保护个人隐私。

 

转置:默认情况下,列为字段,而行为记录或观测值。可使用转置节点交换行和列中的数据,使字段变为记录、记录变为字段。

 

类型:类型指定数据的属性和用途。字段属性可在源节点中指定也可在单独的类型节点中指定。两种节点的功能相似。

1)    字段。描述某个属性(类似表头名)。

2)    测量。用于描述某个给定字段中数据的特征。注意:字段的测量级别与字段的存储类型不同,后者表明数据是以字符串、整数、实数、日期、时间还是时间戳存储。

3)    值。指定从数据集读取数据值的选项,还可以选择传递字段,而不读取它们的值。

4)    角色。用于告知建模节点字段将成为用于某个机器学习过程的输入(预测变量字段)还是目标(预测字段),两者,无。

 

设为标志:设为标志节点用于根据为一个或多个名义字段定义的分类值,派生出标志字段。例如,数据集包含名义字段BP(血压),其值为High,Normal和Low。可以创建一个代表高血压的标志字段BP_HIGH,用于指示患者是否患有高血压。默认情况下,是用真T标识,否用假F标识。

 

时间区间:使用时间区间节点,可以为时间序列数据指定间隔并生成标签,以便于估计或预测。此外,还可以指定要用于估计的记录的范围。可以选择是否要排除序列中最早的记录。

 

历史:历史节点最常用于顺序数据,如时间序列数据。这种节点用于创建包含先前字段数据的新字段。使用历史节点时,可能需要使用按特定字段预先排序好了的数据。

你可能感兴趣的:(大数据综合,算法综合,大数据,数据分析)