数据预处理 定义内涵

数据预处理

定义内涵

用户从多种渠道收集的数据可能包含噪音,或是存在不一致、不完整等问题,无法直接
进行训练。为了提高数据的质量,在将数据交给模型训练之前,需要对数据预处理。数据预
处理是指在数据分析
之前,对数据进行的清洗、筛选、转换、特征选择和提取等一系列必要处理操作的过程。

技术背景

数据预处理的常见方法有数据清洗、数据转换、特征选择、数据降噪和数据增强。
数据清洗通常是指对收集得到的数据集通过丢弃重复数据、补全缺失数据、异常值处理
SecXOps 安全智能分析技术白皮书
022
等方式,清洗掉数据集里的脏数据,完成清洗过程。数据清洗旨在提高数据质量,数据清洗
的效果会直接影响到后续数据分析、模型预测的效率和准确率。
数据转换是将数据从一种形式转变为另一种形式的数据预处理方法。由于数据源的多样
性、数据的异构性、数据分析的要求等各种原因,在进行数据集成和管理之前,需要对数据
进行转换。数据转换根据需求对数据进行类型转换、语义转换、粒度转换、离散化、数据压
缩等操作,转换方式有平滑处理、泛化处理、合计处理、规格化处理等。
特征选择旨在筛选出给定数据集中与当前机器学习任务有关的特征。复杂数据中存在大
量特征,并非所有特征对模型任务都是有用的,去除不相关的特征能节省计算和存储开销,
降低过拟合风险,提高模型性能。常见的特征选择算法分为过滤法、包裹法和嵌入法,不同
的算法根据不同的观察变量和特征评分规则对特征进行筛选。
数据降噪对数据集中的噪声进行移除。噪声在实际数据中无法避免,噪声的存在会对模
型产生误导。常使用的数据降噪方法有聚类、降维、回归等。
数据增强旨在扩充有限的数据,增加训练样本的数量和多样性,进而提高模型的泛化能力。
根据在机器学习流程中适用的阶段,数据增强分为离线增强和在线增强,其中离线增强直接
对数据集采取增强操作,在线增强在获得批量数据后,对批量数据进行增强。常见的数据增
强方案有 AugMix[8],CutOut[9],MoEx[10],MaxUp[11],Mixup[12],CutMix[13] 等

参考资料

绿盟SecXOps安全智能分析技术白皮书

友情链接

教育部关于加强新时代教育管理信息化工作的通知 2021

你可能感兴趣的:(人工智能,算法)