【推荐系统】Criteo数据集介绍

最近在学习一个ctr预估的开源项目,大部分都使用的是Criteo数据集,是非常经典的点击率预估比赛。

数据下载地址:Display Advertising Challenge | Kaggle

或者Criteo_dataset | Kaggle

进行个简单的背景介绍,方便自己之后回顾。

英文原版,哈哈哈哈

File descriptions

  • train.csv - The training set consists of a portion of Criteo's traffic over a period of 7 days. Each row corresponds to a display ad served by Criteo. Positive (clicked) and negatives (non-clicked) examples have both been subsampled at different rates in order to reduce the dataset size. The examples are chronologically ordered.(训练集包含 Criteo 7 天内的一部分流量。 每行对应一个由 Criteo 提供的展示广告。 正(点击)和负(未点击)示例都以不同的比率进行了子采样,以减少数据集大小。 这些示例按时间顺序排列。)
  • test.csv - The test set is computed in the same way as the training set but for events on the day following the training period.(测试集的计算方式与训练集相同,针对的是训练集后一天的事件。)
  • random_submission.csv - A sample submission file in the correct format.(格式正确的样本提交文件。)

Data fields

  • Label - Target variable that indicates if an ad was clicked (1) or not (0).(待预测广告,被点击是1,没有被点击是0。)
  • I1-I13 - A total of 13 columns of integer features (mostly count features).(总共 13 列数值型特征(主要是计数特征)。)
  • C1-C26 - A total of 26 columns of categorical features. The values of these features have been hashed onto 32 bits for anonymization purposes. (共有 26 列类别型特征。 出于匿名目的,这些功能的值已散列到 32 位。)

The semantic of the features is undisclosed.(功能的语义未公开。)

When a value is missing, the field is empty.(当缺少值时,该字段为空。)

  • 4千万训练样本,特征连续型的有13个,类别型的26个,没有提供特征名称,样本按时间排序。
  • 6百万测试样本。

下载

你可能感兴趣的:(推荐系统,机器学习,python,深度学习)