AI比赛-推荐系统(一)-新闻推荐04:特征工程【制作训练集、验证集、测试集用于排序层模型】【制作特征和标签, 转成监督学习问题】
我们先捋一下基于原始的给定数据,有哪些特征可以直接利用:文章的自身特征,category_id表示这文章的类型,created_at_ts表示文章建立的时间,这个关系着文章的时效性,words_count是文章的字数,一般字数太长我们不太喜欢点击,也不排除有人就喜欢读长文。文章的内容embedding特征,这个召回的时候用过,这里可以选择使用,也可以选择不用,也可以尝试其他类型的embedding