【数据倾斜笔记】

数据倾斜是指在数据集中某个特定的特征值出现的频率远高于其他特征值的情况。这种情况在数据分析和机器学习中经常出现,可能会影响模型的性能和准确性。

数据倾斜可能出现在分类问题中的目标变量,也可能出现在特征变量中。在目标变量中,数据倾斜表示某个类别的样本数量远大于其他类别的样本数量,这可能导致模型对少数类别的预测效果不佳。在特征变量中,数据倾斜表示某个特征值出现的频率远高于其他特征值,这可能导致模型对该特征的重要性判断不准确。

数据开发和数据分析中数据倾斜概念的异同

数据开发中的数据倾斜和数据分析中的数据倾斜在一定程度上有一些相同点,也有一些不同点。

相同点:

  1. 定义:数据倾斜指的是数据集中的某一部分数据占比过大或者过小,导致对数据的处理或者分析结果产生偏差。
  2. 影响结果:数据倾斜会导致特定数据的处理或者分析结果不准确或者不可靠。
  3. 处理方式:对于数据倾斜,都需要进行相应的处理措施,以保证结果的准确性和可靠性。

不同点:

  1. 领域差异:数据开发主要关注数据的ETL过程,即抽取、转换和加载数据,目的是将原始数据整理成符合需求的格式,而数据分析则是对已经整理好的数据进行探索和分析。
  2. 目标不同:数据开发中的数据倾斜主要考虑数据的平衡性,以保证数据处理的效率和质量;而在数据分析中,数据倾斜主要会影响对数据的分析结果,需要针对具体的分析需求进行相应的处理。
  3. 处理方式不同:对于数据开发中的数据倾斜,可以采取一些数据切分或者重分布的策略,以平衡数据的处理负载;而在数据分析中的数据倾斜,可以通过调整算法参数、降低数据倾斜的影响等来解决。

数据分析层面

数据倾斜常见情况

数据倾斜指的是在数据集中某些特征或类别的数据分布不均衡,常见的情况有:

  1. 类别不平衡: 在分类问题中,某些类别的样本数量远远少于其他类别。例如,在二分类问题中,正类别的样本数量较少,而负类别的样本数量较多。

  2. 数值偏斜: 在回归问题中,目标变量的取值偏向于某个特定的数值,导致数据分布不均衡。例如,商品价格数据中,大部分商品的价格都集中在某个范围内,而极端高或低的价格较少。

  3. 区域偏斜: 在地理数据分析中,某些地区的数据样本数量远远多于其他地区。例如,在城市人口统计数据中,大城市地区的数据样本数量通常远远多于小城市或农村地区。

  4. 时期偏斜: 在时间序列数据中,某个特定时间段内的数据样本数量远远多于其他时间段。例如,在销售数据中,某个特定月份或季度的销售数量较多,而其他时间段的销售数量较少。

  5. 特征偏斜: 在特征数据中,某些特征的取值范围或分布偏向于某个特定区域。例如,在人口统计数据中,年龄分布可能呈现出峰值或左右倾斜。

这些情况都会导致数据集的不平衡,给机器学习和数据分析带来一定的挑战。为了解决数据倾斜问题,可以采取一些平衡数据集的方法,如过采样、欠采样、生成合成样本等。

原因

数据倾斜是指在数据分布上存在明显的不均衡现象,即某些数据的数量远远多于其他数据。导致数据倾斜的原因有以下几点:

  1. 自然分布的不均衡:在某些数据集中,由于自然分布的特点,某些类别的数据数量可能本身就很少或很多,从而导致数据倾斜。

  2. 数据收集方式的不平衡:在采集数据时,可能因为各种原因导致某些类别的数据数量远远多于其他类别。例如,在收集用户评价数据时,积极评价的人可能比消极评价的人更愿意留下评论,导致积极评价的数据数量更多。

  3. 数据处理方式的不平衡:在数据预处理和数据清洗过程中,可能由于算法或方法的不适用性,导致某些类别的数据被丢弃或过滤掉,从而导致数据倾斜。

  4. 样本选择的偏差:在样本选择时,可能由于人为因素或其他偏见,偏向于选择某些类别的样本,从而导致数据倾斜。

  5. 无效样本的影响:在某些情况下,某些类别的数据可能包含大量无效或重复的样本,导致该类别的数据数量远远多于其他类别。

  6. 数据采样方式的不均衡:在进行数据采样时,可能由于采样算法或方法的不合理性,导致某些类别的数据被过度采样或欠采样,进而导致数据倾斜。

以上是常见的导致数据倾斜的原因,需要根据具体情况分析并采取相应的数据处理方法来解决数据倾斜问题。

解决方案

遇到数据倾斜的情况,可以考虑以下解决方案:

  1. 重新采样数据:对数据进行重采样,改变样本的比例,使得样本分布更加均衡。可以通过欠采样(随机删除多数类样本)或者过采样(增加少数类样本)来实现。

  2. 使用正则化方法:对于分类问题,可以使用正则化方法(如L1正则化、L2正则化)来抑制多数类样本的影响,增加少数类样本的权重。正则化方法可以通过改变损失函数或者调整优化算法的参数来实现。

  3. 数据增强:对少数类样本进行数据增强,生成更多的样本。可以通过旋转、平移、缩放、加噪声等方式来扩充数据集,使得样本数量更加均衡。

  4. 生成合成样本:对于少数类样本,可以使用生成模型(如GAN、SMOTE)生成合成样本,从而增加样本数量和多样性。

  5. 使用集成方法:通过集成多个模型的预测结果,可以减少数据倾斜的影响。常用的集成方法包括Bagging、Boosting等。

  6. 特征选择:对于数据倾斜的特征,可以进行特征选择,选择具有区分度的特征,减少冗余特征对模型的影响。

  7. 调整阈值:对于分类问题,可以调整分类阈值,使得预测结果更加平衡。可以通过ROC曲线、Precision-Recall曲线等评估指标来选择合适的阈值。

  8. 采用其他算法:对于某些算法来说,数据倾斜可能会导致模型性能下降。可以尝试使用其他算法,比如SVM、决策树等,来处理数据倾斜问题。

总之,在解决数据倾斜问题时,需要根据具体情况选择合适的方法和技术,综合考虑数据的分布、样本数量、特征相关性等因素。

数据开发层面

数据倾斜的影响

数据倾斜是指在数据开发过程中,某些关键数据的分布不均匀,导致一部分数据集中在少数的分区或者节点上,而其他分区或节点上的数据相对较少。

数据倾斜的影响包括:

  1. 导致计算过程中某些节点或分区的负载过高,而其他节点或分区的负载较低,从而导致计算性能下降。
  2. 引发数据倾斜后的节点或分区资源不足导致任务失败。
  3. 导致数据处理效率低下,延长任务处理时间。
原因和解决方案

通过脚本调优和数据表优化时有以下几种情况和解决方法:

1.大表(2.8G)与小表(580k)关联:

原因:遍历整个过程数据总量=大表数据数*小表数据数。这样会导致严重的数据倾斜。

具体表现:后台数据写入一直处于某种处理状态。磁盘容量被大量占用,严重会导致集群崩溃。

解决方法:左右表关联查询将小表置于左侧。这样其数据先读入磁盘中(原理仅用map在磁盘中处理),减少线上(reduce)数据处理的压力。

2.大表(2.8G)与大表(3.0G)关联:

原因:由于两张表中scenicid字段中分别存在大量的重复数据。二者对该字段关联查询时导致数据倾斜。上述两种情况详解可见hive数据倾斜博文。

3.空值数据倾斜

解决方法1:user_id为空的不参与关联

解决方法2:赋予空值新的key值

4.不同数据类型关联产生数据倾斜

解决方法:转字符类型。例如把数据类型转成字符串类型。

5.Join的数据倾斜

MapReduce编程模型下的开发代码需要考虑数据偏斜的问题,Hive代码也一样。数据偏斜的情况主要包括以下两点:

  • Map输出key数量极少,导致reduce端退化为单机作业。这种情况下,考虑先对join中的一个表去重,以此结果过滤无用信息。这样一般会将其中一个大表转化为小表,在使用MapJoin。
  • Map输出key分布不均,少量key对应大量value,导致reduce端单机瓶颈。这种情况下,考虑切分join中的一个表为多片,以便将切片全部载入内存,然后采用多次MapJoin得到结果。

总之,数据倾斜问题在数据开发中是常见的,需要根据具体情况采取相应的处理方法来解决。

大数据开发中,结合脚本优化和架构优化可以通过以下几种方法来解决:

  1. 数据预处理:在数据倾斜之前进行数据预处理,如数据采样、数据均衡化等,以减少数据倾斜的可能性。使用聚合函数时,选择适当的聚合字段,避免数据倾斜。

  2. 数据分桶:将倾斜的数据进行分桶操作,将倾斜的数据分散到多个桶中。这样可以提高并行度,减少倾斜的影响。

  3. 采用合适的分区键:选择合适的分区键,可以将数据分散到不同的分区中,避免倾斜。

  4. 增加Reduce阶段的并行度:可以通过增加Reduce阶段的并行度来减少数据倾斜的问题。可以调整Reducer的数量或者使用自定义的分区函数进行优化。

  5. 使用Combiner函数:Combiner函数可以在Map端对输出进行预聚合,减少数据传输量和IO操作,从而减轻数据倾斜的影响。

  6. 增加缓存:可以对倾斜的数据进行缓存操作,将其保存在内存中,提高数据访问的速度。

  7. 使用分布式计算框架的优化功能:如Hive、Spark等大数据处理框架都提供了一些优化功能,如自动优化器、数据倾斜处理等,可以使用这些功能来解决数据倾斜的问题。

以上是一些常见的方法,根据实际情况可以选择合适的方法或组合多种方法来解决数据倾斜问题。

你可能感兴趣的:(机器学习,人工智能)