用户画像与推荐系统的关系

用户画像是将用户的特征进行标签化,有简单的标签,也有复杂的标签,复杂的标签来自原始的标签,这其中有复杂的规则逻辑,用sql或这sparkCore来执行产生,也有利用算法模型来产生的,利用SVM,LR,RF等等分类聚类算法。可以看到其实用户画像也离不开算法

当满足一定目标的用户画像产生之后,就要利用这部分标签数据,进行推荐,进行关联分析或协同过滤分析,自然会有算法,就是推荐涉及的算法。

两大系统:用户画像系统 和  推荐系统  

也就是说我们 需要建立两套相对独立的系统  各自支持自己的业务

当前我们的用户画像系统是利用hive通过规则,利用python通过算法产生标签,标签系统有不同的层级,基础数据层,中间数据层,应用数据层

生成的应用数据一开始是放入hive中,一方面加载入impala用于交互式查询,一方面会通过程序灌入hbase中,对方提供查询接口,用于实时调用


推荐系统当然是在用户画像标签产生的基础上来做,推荐系统有两个层要考虑,一个是数据的分类,找到相似的几个部分,一个是利用ALS或SVD等跟推荐算法密切相关的算法,另外有个重要的考虑点在于用户的反馈数据,用户的反馈数据并不是实时的,会有延迟,并且反馈的数据会进入到用户画像系统的中间数据层,而正常的做法是反馈数据应该进入到推荐系统的数据分类层和推荐算法层,用于推荐的迭代优化。



你可能感兴趣的:(推荐系统)