基于storm和hadoop的广告系统研究【5】

数值逻辑化处理

许多维度上的数据并不是数值的,如一个用户访问的网页地址,搜索的关键词等等

直接对这样的维度进行处理并不合适,需要进行数字化处理,一般就是用id替代

然后,大多数情况下通过id只存在时序上的相关并不存在逻辑上的相关。

比如id相邻的两个关键词,一个是“金融”,一个是“考古”,但是在某些算法分析中,有可能把二者作为一个类别给处理了。

所以就需要在进行数字化处理的同时还要进行逻辑化处理,让数据的值域有着逻辑上的关联。

逻辑化处理并不会影响算法效果,而且还能给使用了数值距离分析的算法提供一定的便利。

广告点击预测

进行广告点击预测则需要一个广告点击记录表和广告展示记录表

广告点击记录表

序号 字段名 类型 注释
1 id int 主键id
2 urlid int 广告宿主页面地址id
3 cookieid string 用户客户端的cookieid
4 ip string 用户访问ip
5 advid int 广告id
6 clicktime datetime 点击时间

广告展示记录表

序号 字段名 类型 注释
1 id int 主键id
2 urlid int 广告宿主页面地址id
3 cookieid string 用户客户端的cookieid
4 ip string 用户访问ip
5 advid int 广告id
6 showtime datetime 展示时间

你可能感兴趣的:(基于storm和hadoop的广告系统研究【5】)