二、基于用户分析的计算广告
基于用户分析的计算广告是直接寻找广告与用户的一致性,当前用户分析主要从IP、注册资料、服务器日志、Cookie、历史数据、浏览器行为等方面切入,其代表性的广告形式为电子商务个性化推荐广告。而基于用户分析的根本目的是确定用户的兴趣以及购买行为的特点。而进行这样的分析需要一些基础性的数据,如用户兴趣分类库、购买行为模型。需要先从理论上明确用户的大致轮廓,进行数据范围的界定,否则分析的标准无从谈起了。
1.数据属性的特性和用户特征
(1)IP数据主要用于界定用户所处的地域,不同的地域经济条件有差异,商品在不同的地域销售也存在广泛的差异。可以依据用户所在地域针对性的选择地域广告商增加广告的成功率。然而由于IP目前大部分为动态的,所以根据IP分析用户的地域具有一定的时效性。IP虽然也可以依据地域性的特征来选定用户的不变性,然而由于内网可能存在,以IP作为用户识别的直接特征错误率会比较高。
(2)注册资料可以更详细展现用户的具体信息,如性别、年龄、姓名、联系方式、住址等等,然而这些信息也有更大的概率是虚假信息,如一个男性注册为女,虽然偶尔去浏览女性的香水更有可能是想了解而不是有购买的意愿。这些信息可以作为广告过滤的辅助条件,但是直接效果就不如IP数据那么有效了。当然可以采用大数据挖掘的方式来核对信息,形成一个用户的有效信息,不过这需要积累一定的用户访问记录数据后才可能进行的-------而且还要有正确性比较高的行为模型库。
(3)cookie追踪是一种有效的跟踪用户行为的手段,在一个时间段内的依据cookie的标识Id积累用户的访问记录。这里存在的一个问题就是访问记录数据的获取,作为综合型合作站点众多的广告服务商,所获得的数据对于用户的模型的建立相对更全面和合理。然而作为类型化广告服务商来讲,获得的数据大多来自与同领域的网站,这个时候则要建立关联性的模型,如果仍然以全面型作为模型的目标,则可能存在严重的偏差在类型领域以外的地方。
然而,更具体来讲,通过访问记录追踪可以获得如下的分析结果:
a、用户网络信息关注区域----------这个数据分析需要首先建立一个信息区域划分库(存储关键词的拓朴结构)
b、用户上网的时间段--------不同时间投放的广告点击率有所差异
2.实现方案分析
(1)建立用户兴趣分类库。系统建立初期由于没有数据,用户兴趣分类库需要人工挑选高特征关联词建立,随着系统的使用,访问记录增多,通过对访问记录的主题关键词的拓扑关系进行统计分析,建立起基于数据分析的库。具有用户购买行为的数据能够很好的提高用户兴趣分类库的准确性,但是最为广告服务提供商很少能够获取到此类数据,除非购买,更多的只能依据用户兴趣分类库进行兴趣关联分析。
兴趣分类库需要包括关键词关联表和兴趣关键词表,前者存储词与词之间的拓扑关系,后者存储关键词。以hbase数据库作为存储。
兴趣关键词表,结构如下
序号 | 字段名 | 类型 | 注释 |
1 | id | int | 关键词id |
2 | keyword | string | 关键词 |
3 | height | int | 词频,关键词出现的频率 |
4 | addtime | datetime | 关键词添加日期 |
关键词关联表结构如下
序号 | 字段名 | 类型 | 注释 |
1 | id | int | 关系主键 |
2 | primarywordkeyid | int | 主关键词id |
3 | subwordkeyid | int | 副关键词id |
4 | height | int | 词关系权重,数值越大关联越高 |
5 | addtime | datetime | 关系添加日期 |
(2)建立访问记录库,依然在hbase中存储。scanhistory表结构如下
序号 | 字段名 | 类型 | 注释 |
1 | id | int | 访问记录主键 |
2 | url | string | 访问页面网址 |
3 | ip | string | 用户的ip |
4 | cookieid | string | 用户客户端的cookieid |
5 | addtime | datetime | 访问记录添加日期 |
序号 | 字段名 | 类型 | 注释 |
1 | id | int | 关系主键 |
2 | urlid | int | url的id |
3 | keywordid | int | 关键词id |