泰迪杯特等奖思路(教育平台线上课程用户行为分析(含数据可视化处理))-思路篇
项目背景
- 此数据集与题目来自于2020年泰迪杯个人技能赛,为某线上平台真实数据。该作品已获得同年最好成绩,为特等奖并获泰迪杯,现在目前的基础之上对其进行进一步的复盘与优化,如果大家有更好的想法或者思路也可以给我评论,大家一起交流进步呀!
任务要求
- 任务 1 数据预处理
- 任务 1.1 对照附录 1,理解各字段的含义,进行缺失值、重复值等方面的必12要处理,将处理结果保存为“task1_1_X.csv”(如果包含多张数据表,X 可从 1 开始往后编号),并在报告中描述处理过程。
- 任务 1.2 对用户信息表中 recently_logged 字段的“--”值进行必要的处理,将处理结果保存为“task1_2.csv”,并在报告中描述处理过程。
- 任务 2 平台用户活跃度分析
- 任务 2.1 分别绘制各省份与各城市平台登录次数热力地图,并分析用户分布情况。
- 任务 2.2 分别绘制工作日与非工作日各时段的用户登录次数柱状图,并分析用户活跃的主要时间段。
- 任务 2.3 记为数据观察窗口截止时间(如:赛题数据的采集截止时间为2020 年 6 月 18 日),为用户 i 的最近访问时间, = − ,若 > 90天,则称用户 i 为流失用户。根据该定义计算平台用户的流失率。
- 任务 2.4 根据任务 2.1 至任务 2.3,分析平台用户的活跃度,为该教育平台的线上管理决策提供建议。
- 任务 3 线上课程推荐
- 任务 3.1 根据用户参与学习的记录,统计每门课程的参与人数,计算每门课程的受欢迎程度,列出最受欢迎的前 10 门课程,并绘制相应的柱状图。受欢迎程度定义如下: = − minmax− min。其中,为第 i 门课程的受欢迎程度,为参与第 i 门课程学习的人数,max和min分别为所有课程中参与人数最多和最少的课程所对应的人数。
- 任务 3.2 根据用户选择课程情况,构建用户和课程的关系表(二元矩阵),使用基于物品的协同过滤算法计算课程之间的相似度,并结合用户已选课程的记录,为总学习进度最高的 5 名用户推荐 3 门课程。
- 任务 3.3 在任务 3.1 和任务 3.2 的基础上,结合用户学习进度数据,分析付费课程和免费课程的差异,给出线上课程的综合推荐策略。
研究思路及分析过程
- 任务一:数据预处理
- 缺失情况分析
- 数值为0/空值的情况需要分开讨论,且关注缺失数据是否为真实缺失
- 异常情况分析
- 对出现“--”的情况进行分析,且关注该符号的实际意义以及占比情况
- 重复情况分析
- 任务二:用户整体情况分析
- 用户分布分析
- 根据海内外、省份分析、乡镇分析入手,找到核心差异点所在
- 用户活跃度分析
- 用户流失情况分析
- 线上管理决策建议
- 任务三:用户课程选择分析
- 用户参与课程情况
- 用户课程推荐——基于协同过滤算法
- 收费课程与用户学习进度相关分析
- 线上课程综合推荐策略制定
项目复盘与优化
- 省份人口占比细分
- 流失率细分与人群细分
- 协同过滤算法实现(这个部分当时是我的小伙伴实现,我现在自己去实现一遍,严格算不上优化-会单独重新算一遍放上来)