Ad Display/Click分析

数据源:天池-Ad Display/Click Data on Taobao.com

————以下是中文描述—————

Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集。

数据集名称 说明 key 属性
raw_sample 样本骨架 用户ID&
广告ID&
时间戳
在某个 时间段 发布在 广告位 后 被/未被 点击
ad_feature 广告的信息 广告ID 在某个 广告计划 中,某 品牌广告主 将其某 价格 的某 类目 的商品
user_profile 用户的信息 用户ID 某个 微群group 内的,多少岁男生/女生,其在某 城市,是/不是 大学生消费层次 较强/差,购物深度 较强/差
raw_behavior_log 用户的行为 用户ID&
时间戳
在某 时间点,曾经把某 品牌词 的某 类目 的商品,浏览 / 喜欢 / 加入购物车 / 购买

A. raw_sample 原始样本骨架

淘宝网站中随机抽样了114万用户8天内的广告展示/点击日志(2600万条记录),构成原始的样本骨架。
字段说明如下:

字段 说明
user_id 脱敏过的用户ID
adgroup_id 脱敏过的广告单元ID
time_stamp 时间戳
pid 资源位
noclk 为1代表没有点击;为0代表点击
clk 为0代表没有点击;为1代表点击

可用前面7天的做训练样本(20170506-20170512),用第8天的做测试样本(20170513)。

B. ad_feature 广告基本信息表

字段 说明
adgroup_id 脱敏过的广告ID
cate_id 脱敏过的商品类目ID
campaign_id 脱敏过的广告计划ID
customer_id 脱敏过的广告主ID
brand 脱敏过的品牌ID
price 宝贝的价格

其中一个广告ID对应一个商品(宝贝),一个宝贝属于一个类目,一个宝贝属于一个品牌。

C. user_profile 用户基本信息表

字段 说明
userid 脱敏过的用户ID
cms_segid 微群ID
cms_group_id cms_group_id
final_gender_code 性别 1:男,2:女
age_level 年龄层次
pvalue_level 消费档次,1:低档,2:中档,3:高档
shopping_level 购物深度,1:浅层用户,2:中度用户,3:深度用户
occupation 是否大学生,1:是,0:否
new_user_class_level 城市层级

D. behavior_log 用户的行为日志

raw_sample中全部用户,22天内的购物行为(共七亿条记录)。

字段 说明
user 脱敏过的用户ID
time_stamp 时间戳
btag 行为类型, 包括以下四种:
- ipv:浏览
- cart:加入购物车
- fav:喜欢
- buy:购买
cate 脱敏过的商品类目
brand 脱敏过的品牌词

分析思路

用到的工具和方法

  • 数据清理
  • 描述统计
  • 假设检验、F值、P值
  • 预测
  • Tableau仪表板

示例:典型科研场景

根据用户历史购物行为预测用户在接受某个广告的曝光时的点击概率。

你可能感兴趣的:(Ad Display/Click分析)