2021年全国大学生数据统计与分析竞赛赛题B—基于机器学习的用户消费行为预测(上)

2021年全国大学生数据统计与分析竞赛赛题B—基于机器学习的用户消费行为预测(上)

  • 一、赛题B:用户消费行为价值分析
  • 二、基于机器学习的用户消费行为预测
    • 1、数据简介及清洗
      • (一)数据简介
      • (二)数据清洗
    • 2、数据的可视化分析
      • (一)用户城市分布情况
      • (二)用户登录情况

一、赛题B:用户消费行为价值分析

  在互联网不断发展的今天,各领域公司都在拓展互联网获客渠道,为公司产品引入新鲜活跃的用户,提高用户购买产品的欲望,提升公司的品牌影响力。但如何判别高质量的用户和渠道,优化营销成本一直都是各公司的痛点;这需要对用户的行为数据进行分析,判别用户的价值,进而对用户制定专门的营销策略,实现小成本促销,达到提高用户转化率的目标。
  现有用户信息表(user_info.csv),用户登录情况表(login_day.csv),用户访问统计表(visit_info.csv),用户下单表(result.csv),利用数据对用户行为进行数据统计与分析,并判断用户是否会下单购买。
  任务1:获取数据并进行预处理,提高数据质量;
  任务2:对用户的各城市分布情况、登录情况进行分析,并分别将结果进行多种形式的可视化展现;
  任务3:构建模型判断用户最终是否会下单购买或下单购买的概率,并将模型结果输出为csv 文件(参照结果输出样例sample_output.csv)。要求模型的效果达到85%以上;
  任务4:通过用户消费行为价值分析,给企业提出合理的建议。

  竞赛网址:https://www.saikr.com/dsa/2021

二、基于机器学习的用户消费行为预测

1、数据简介及清洗

(一)数据简介

数据 字段 字段数 样本数
用户信息(user_info) ID、age、city 等 8 135968
用户登录情况(login_day) ID、登录天数、领券数量等 16 135617
用户访问统计(visit_info) ID、首页访问数、是否领券访问数等 26 135617
用户下单表(result) ID、是否购买 2 4639

(二)数据清洗

  由于原始数据中存在大量缺失、异常以及重复等情况,为了对用户的消费行为进行可视化和预测分析,所以本文需要对初始数据进行清洗,进一步提高数据集的质量。
  首先,对缺失值进行删除。缺失数据是指数据集中存在空白或未知数据的情况。针对用户信息表中“城市”字段存在缺失(共计28209 条)问题,进行删除处理。
  其次,对异常值进行清除。异常值是指在数据记录中存在不符合实际情况的数据,比如在用户登录情况表和用户访问统计表中,用户没有领券访问次数的记录却存在已经领券的情况、平台开课数为0 但用户学习课节数和完成课节数不为0 的情况、用户登录时长为0 但用户的登录天数和最后登录距期末天数的值却不为0 等多种不切实际的情况,约占整体数据的18.66%。将这些异常值进行删除,剩余有效数据共计110306 条。
  再次,对重复值进行处理。重复数据是指同一数据多次出现的情况,比如在用户下单表中,用户ID 为“2000002390697240”、“2000002516432100” 和“2000002480841520”等均重复出现多次,在用户信息表中用户ID 为“2000002352923140”、“200000235 2922980”的用户均重复出现多次。因此,本文对用户信息表中的9979 条重复值、用户登录情况表与用户访问统计表中的4 条重复值、用户下单表中的13 条重复值进行删除。
  由于在当时竞赛时间关系,对上述数据问题只能使用删除法进行清洗。通过上述步骤对4 个部分的数据进行清洗处理后,以用户ID 进行匹配合并,经处理后得到新的样本数据共计86776 条。

2、数据的可视化分析

  为找出其中的行为规律以及挖掘数据中潜在更为丰富的价值,本文根据数据清洗得到的用户消费行为数据进行可视化分析。这里主要对数据集中的用户城市分布情况、用户登录情况(包括登录天数、登录间隔、最后登录距期末天数和登录时长)两个方面进行可视化分析。

(一)用户城市分布情况

  对数据中城市字段(city_num),首先按照各城市所属的省(市、自治区)进行统计划分,然后统计各省市中总用户数量和购买用户数量,最后借助ArcGIS 软件,利用自然间断法将用户数量分成5 个等级,可视化结果如图1 所示。左图为总用户数量地区分布情况,右图为下单购买的用户数量地区分布情况。由于不同地区的用户数量不同,在图中呈现出的颜色存在较大差异,颜色越深表示该省市用户数量越大,反之用户数量越小。从图中可以看出,用户数量和购买用户数量在空间分布上不均匀,呈现“东高西低、南高北低”的空间分布格局,其中购买用户数量在空间分布上的这种格局表现尤为显著。用户数量较高的地区主要集中在重庆、广东、四川、山西、山东,对应的下单购买用户数量较高,主要集中在东部沿海地区和经济发达地区。而青海、西藏等省市由于经济发展落后,人口基数小,互联网普及率相对较低,用户数量也因此较少。
2021年全国大学生数据统计与分析竞赛赛题B—基于机器学习的用户消费行为预测(上)_第1张图片

(二)用户登录情况

  从登录天数(login_time)、登录间隔(login_diff_time)、最后登录距期末天数(distance_day)和登录时长(login_time)四个方面对用户的登录情况进行分析,
(1)用户登录天数情况
2021年全国大学生数据统计与分析竞赛赛题B—基于机器学习的用户消费行为预测(上)_第2张图片
  由上图可知,横轴表示用户登录的天数,纵轴表示用户数量和购买用户数量,随着用户登录天数的增加,总用户数量和购买用户数量走向基本相同,都呈现出先上升后下降的趋势,但是购买用户数量的下降趋势与上升趋势相比较为平缓,总用户数量的上升趋势与下降趋势相比较为平缓。当登录天数为5时,总用户数量和购买用户数量同时达到峰值,此时总用户数量为13307,约占总体的15.33%,其中购买用户数量为268。
(2)用户登录间隔情况
2021年全国大学生数据统计与分析竞赛赛题B—基于机器学习的用户消费行为预测(上)_第3张图片
  由上图可知,横轴表示用户登录间隔,纵轴表示用户数量和购买用户数量,无论是购买用户还是未购买用户,其登录时间间隔都较为集中,主要分布在(0.5-1)和(1-1.5)两个时间间隔内,在该间隔内的购买用户总数达946人,占总体比例的73.9%;总用户达63608人,占总用户数量的73.3%,说明选择购买的用户,一般登录的时间间隔都比较短,会及时地进行登录产生消费行为。时间间隔为(0.5-1)的总用户数量少于时间间隔为(1-1.5)的用户数量,但是时间间隔为(0.5-1)的购买用户数量却多于时间间隔为(1-1.5)的购买用户。同时,当登录间隔超过1.5时,随着登录间隔的增加,总用户数量和购买用户数量逐渐趋近于0。
(3)用户最后登录距期末天数情况
2021年全国大学生数据统计与分析竞赛赛题B—基于机器学习的用户消费行为预测(上)_第4张图片
  由上图可知,横轴表示用户最后登录距期末的天数,纵轴表示总用户数量和购买用户数量,总用户数量和购买用户数量都随着最后登录距期末天数的增加,呈现先增加后减小的走势,但是在最后登录距期末天数为(360-380)范围内的总用户数量和下单购买的用户数量陡然上升,且总用户数量达到最高,说明存在大量的用户在近一年的时间内都未曾消费该企业的产品,其中包含104个下单购买过的用户,说明该企业存在用户大量流失的情况。其次,购买过的用户和总用户一般最后登录距期末天数集中于(0-60)这个范围内,其中处于(20-40)范围内的人数最多,购买用户占购买总体的31.33%,总用户占总体的16.15%,说明一般用户的登录周期可能在(20-40)之间。

2021年全国大学生数据统计与分析竞赛赛题B—基于机器学习的用户消费行为预测(上)_第5张图片
  由上图可知,横轴表示用户登录时长,纵轴表示用户数量和购买用户数量,随着登录时间越长,总用户数量和购买用户数量越来越少,并逐渐趋近于0。在登录时长为(0-10)的范围内,登录的总用户数量最多,此时购买的用户也高达302人,占总购买用户的23.57%,说明用户在登录前已经具有明确的消费目标。随着登录时长的增加,购买的人数逐渐减少,原因是用户不存在明确的消费目标,只是随机浏览并进行一些非理性的消费。

转载请注明原文链接:https://blog.csdn.net/qq_41390184/article/details/123298343

你可能感兴趣的:(可视化,数据挖掘,数据分析)