【打卡】零基础入门推荐系统 - 新闻推荐

目录

赛题背景

Task1:比赛报名

Task2:比赛数据分析

1. 用户属性分析


赛题背景

赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。

Task1:比赛报名

1. 比赛报名

【打卡】零基础入门推荐系统 - 新闻推荐_第1张图片

 2. 下载数据

【打卡】零基础入门推荐系统 - 新闻推荐_第2张图片

3. 读取数据

(1)读取articles.csv

显然,该数据包括文章id、该文章对应的文章类型id、文章创建时间、文章字数四列数据,共364047行,记录了364047篇文章的分类、创建时间和文章字数。

【打卡】零基础入门推荐系统 - 新闻推荐_第3张图片

 (2)读取articles_emd.csv

该数据为364047行,251列,我将其理解为通过某种手段将每篇文章原文表示成1行250列的嵌入式向量,简单看作每篇文章的特征。

【打卡】零基础入门推荐系统 - 新闻推荐_第4张图片

 (3)testA_click_log.csv

该数据共518010行,9列,第一列是用户id,第二列是该用户点击的文章id,第三列是阅读该文章的时间,第四列是点击该文章的环境(不懂环境表示什么),第五列是点击设备组(不懂设备组表示什么,是手机还是电脑还是平板吗?)第六列是点击操作系统(感觉是是windows还是ios还是linux还是android这些),第7列是点击国家,第8列是点击地区,第9列是点击来源类型(感觉类似于从网页点击还是聊天窗口点击还是朋友圈点击这种),是记录了不知道5万用户(赛题说明中有说总共包括30万用户,近300万次点击,从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B)在哪个国家哪个地区通过XX渠道,在XX环境,XX设备组上,用XX操作系统,阅读了哪篇文章。

【打卡】零基础入门推荐系统 - 新闻推荐_第5张图片

 (4)train_click_log.csv

点击日志的训练集,和测试集A一样,只不过有1112623行,比测试集多1倍左右。

【打卡】零基础入门推荐系统 - 新闻推荐_第6张图片

(5)提交数据

其中user_id为用户idarticle_1,article_2,article_3,article_4,article_5为预测用户点击新闻文章Top5的article_id依概率从高到低排序.

【打卡】零基础入门推荐系统 - 新闻推荐_第7张图片

(6)简单思考

本赛题的目的是预测用户未来将点击的1篇新闻文章(可以根据概率预测5篇),有一个问题就是,已经阅读过的文章是否默认不会再阅读了?——或许能简单提高一下正确率。

这36万篇文章有字数、类型、创建时间和嵌入式向量4个特征,用户阅读文章肯定大部分都是同类的,和类型有关,也有可能和字数有关,嵌入式向量个人感觉其实和类型差不多,但是其表示的信息比文章类型丰富的多,因此若能利用上肯定能大幅度提高正确率。至于创建时间的话,用于阅读某篇文章肯定是在这个文章发布后,因此如何在模型中利用文章创建时间和用户阅读时间是需要考虑的。文章一经发布,被阅读的人越多,则更有可能被更多的人阅读是显然的。

Task2:比赛数据分析

1. 用户属性分析

(1)训练集与测试集中分别有多少用户

【打卡】零基础入门推荐系统 - 新闻推荐_第8张图片

可以看到,训练集共有ID为0~199999的用户共20w人;测试集共有ID为200000~249999的用户共5w人。 

(2)训练集和测试集用户城市分布

训练集和测试集用户分布的城市范围都是一样的,都是1~11这11个城市。绘制出训练集20w用户的城市分布,由于点数太多,很难看出什么,大概能看出大多数人都在1、10、11城市点击过。

随机抽取1000个用户,绘制散点图, 发现分布在其他城市的用户很少。

因此查看分布在各个城市的用户数目, 城市1~11的用户分别为192713, 348, 277, 203, 227, 412, 232, 509, 470, 3493, 1906,显然,用户主要分布在城市1,且远大于其他城市,单一用户可能存在多个城市浏览的情况。

【打卡】零基础入门推荐系统 - 新闻推荐_第9张图片

【打卡】零基础入门推荐系统 - 新闻推荐_第10张图片

【打卡】零基础入门推荐系统 - 新闻推荐_第11张图片

【打卡】零基础入门推荐系统 - 新闻推荐_第12张图片

【打卡】零基础入门推荐系统 - 新闻推荐_第13张图片

(3)平均每个用户会点击多少个文章

你可能感兴趣的:(深度学习,大数据)