泰迪杯特等奖思路(教育平台线上课程用户行为分析(含数据可视化处理))-思路篇

项目背景

  • 此数据集与题目来自于2020年泰迪杯个人技能赛,为某线上平台真实数据。该作品已获得同年最好成绩,为特等奖并获泰迪杯,现在目前的基础之上对其进行进一步的复盘与优化,如果大家有更好的想法或者思路也可以给我评论,大家一起交流进步呀!

任务要求

  • 任务 1 数据预处理
    • 任务 1.1 对照附录 1,理解各字段的含义,进行缺失值、重复值等方面的必12要处理,将处理结果保存为“task1_1_X.csv”(如果包含多张数据表,X 可从 1 开始往后编号),并在报告中描述处理过程。
    • 任务 1.2 对用户信息表中 recently_logged 字段的“--”值进行必要的处理,将处理结果保存为“task1_2.csv”,并在报告中描述处理过程。
  • 任务 2 平台用户活跃度分析
    • 任务 2.1 分别绘制各省份与各城市平台登录次数热力地图,并分析用户分布情况。
    • 任务 2.2 分别绘制工作日与非工作日各时段的用户登录次数柱状图,并分析用户活跃的主要时间段。
    • 任务 2.3 记为数据观察窗口截止时间(如:赛题数据的采集截止时间为2020 年 6 月 18 日),为用户 i 的最近访问时间, = − ,若 > 90天,则称用户 i 为流失用户。根据该定义计算平台用户的流失率。
    • 任务 2.4 根据任务 2.1 至任务 2.3,分析平台用户的活跃度,为该教育平台的线上管理决策提供建议。
  • 任务 3 线上课程推荐
    • 任务 3.1 根据用户参与学习的记录,统计每门课程的参与人数,计算每门课程的受欢迎程度,列出最受欢迎的前 10 门课程,并绘制相应的柱状图。受欢迎程度定义如下: = − minmax− min。其中,为第 i 门课程的受欢迎程度,为参与第 i 门课程学习的人数,max和min分别为所有课程中参与人数最多和最少的课程所对应的人数。
    • 任务 3.2 根据用户选择课程情况,构建用户和课程的关系表(二元矩阵),使用基于物品的协同过滤算法计算课程之间的相似度,并结合用户已选课程的记录,为总学习进度最高的 5 名用户推荐 3 门课程。
    • 任务 3.3 在任务 3.1 和任务 3.2 的基础上,结合用户学习进度数据,分析付费课程和免费课程的差异,给出线上课程的综合推荐策略。

研究思路及分析过程

  • 任务一:数据预处理
    • 缺失情况分析
      • 数值为0/空值的情况需要分开讨论,且关注缺失数据是否为真实缺失
    • 异常情况分析
      • 对出现“--”的情况进行分析,且关注该符号的实际意义以及占比情况
    • 重复情况分析
      • 对于重复数据进行删除
  • 任务二:用户整体情况分析
    • 用户分布分析
      • 根据海内外、省份分析、乡镇分析入手,找到核心差异点所在
    • 用户活跃度分析
      • 细分整体情况与工作日差异
    • 用户流失情况分析
      • 细分整体情况与用户流失风险
    • 线上管理决策建议
      • 宣传、活跃度、流失为切口进行分析
  • 任务三:用户课程选择分析
    • 用户参与课程情况
      • 现有课程选择分析与受欢迎度计算
    • 用户课程推荐——基于协同过滤算法
      • 基于协同过滤算法进行重点课程推荐
    • 收费课程与用户学习进度相关分析
    • 线上课程综合推荐策略制定

项目复盘与优化

  • 省份人口占比细分
  • 流失率细分与人群细分
  • 协同过滤算法实现(这个部分当时是我的小伙伴实现,我现在自己去实现一遍,严格算不上优化-会单独重新算一遍放上来)

你可能感兴趣的:(python,机器学习,数据挖掘,可视化)