AI实战:推荐系统之影视领域用户画像——标签数据清洗

前言


用户画像就是根据用户特征、业务场景和用户行为等信息,构建一个标签化的用户模型。


先回顾下构建用户画像三部曲:

一、数据收集

二、搭建用户画像标签体系

三、构建用户画像

上一篇文章 AI实战:推荐系统之影视领域用户画像——数据采集内容 中介绍了影视领域用户画像数据采集内容,本文简要介绍搭建用户画像标签体系中的数据清洗。



数据清洗

  • 回顾数据采集内容:
    AI实战:推荐系统之影视领域用户画像——标签数据清洗_第1张图片

标签清洗


一、数据清洗常用方法

  • 缺失值处理

    • 删除缺失值

      数据采集不易,一般不轻易删除数据。

    • 插补缺失值

      常见方法:均值插补、中位数插补、众数插补、最大值插补、最小值插补、固定值插补、最近邻插补、热卡填补法(类似的方法还有最近距离决定填补法、回归填补法、多重填补方法、K-最近邻法、有序最近邻法、基于贝叶斯的方法等)、通过拟合函数来插补(拉格朗日插值法、牛顿插值法、Hermite插值法、分段插值法和样条插值法)

    • 不处理缺失值

  • 重复值处理

    删除重复值

  • 异常值处理

    • 查找异常值,根据规则来处理

      常见方法:

      1、统计分析

      对数据进行统计分析,如最大最小值可以用来判断这个变量的取值是否超过了合理的范围,如年龄为-10岁或300岁,显然是不合常理的,视为异常值。

      2、3σ准则

      如果数据服从正态分布,在3σ原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。

      3、箱型图分析

      箱型图

      4、基于模型检测

      首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象

      5、基于距离

      通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象

      6、基于密度

      当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。

      7、基于聚类:

      基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类(这个不能保证产生最优结果)。

    • 删除异常值

    • 视为缺失值后进行插补

      发现异常值后在按照“插补缺失值”来处理。



二、清洗标签数据


例子说明:


  • 1、清洗年龄

    • 缺失值处理

      将缺失值替换为年龄的众数

    • 将年龄异常值替换为

      使用统计分析方法,检测出年龄的异常值,再将异常值替换为年龄的众数

    • 将年龄分段化

      按照儿童、少年、青年、中年、老年5个阶段,将年龄映射到其中。

      将儿童、少年、青年、中年、老年分别表示为1 、2 、3、4、5。

    最终年龄清洗为枚举特征


  • 2、购买VIP

    二值特征主要是0/1特征,购买VIP只有购买了或者没有购买两种,故符合二值特征。

    • 缺失值处理

      缺失值替换为0,即默认未购买VIP。

    最终 ‘购买VIP’ 清洗为二值特征

  • 3、观看时长

    该标签为整形,在特征中属于 ’连续特征‘ 。

    这里采用0-1 标准化来处理:

      x(标准化)=(x-最小值)/(最大值-最小值)
    
    • 缺失值处理

      缺失值替换为0,即观看时长为0。

    最终 ‘观看时长’ 清洗为连续特征

  • 4、爱追剧

    该标签无法直接从数据库中获取,需要对 “观看内容” 进行统计分析才能得到。

    • 缺失值处理

      缺失值替换为0,即爱追剧为0表示不爱追剧。

    最终 ‘爱追剧’ 清洗为二值特征

其他标签都可以归为上面4种处理方法,就不再一一举例说明了。

你可能感兴趣的:(人工智能,自然语言处理,机器学习,特征工程)