推荐系统(RS)切入点------微博精准推荐项目(2)

在上述4种定向中,主要分析基于用户行为的定向和相似用户的定向。

基于用户行为的挖掘: (1)基于互动内容的兴趣挖掘:指利用机器学习或文本处理方法提取用户互动微博的文本中的核心词,一般提取核心词的步骤:a. 对文本进行分词: 分词工具有paoding(一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件)、FudanNLP(一个全新的自然语言处理工具FastNLP ,主要是为中文自然语言处理而开发的工具包 ,网址为:https://github.com/FudanNLP/fnlp)、CRF++(提供c++调用接口,使用方法参照网址:https://zhuanlan.zhihu.com/p/39695509),jieba (结巴中文分词做最好的Python分词组件 https://github.com/LiveMirror/jieba)

b. 去掉停用词(在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或,这些字或即被称为Stop Words(停用词)。 这些停用词都是人工输入、非自动化生成的)计算剩余词的TF-IDF值(tf-idf是一種統計方法,用以評估一字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。)取TF-IDF值较高的词作为核心词,以这些词作为用户的标签,并将这些数据信息保存到对应的数据库中。

基于与博主互动兴趣挖掘: 主要任务是对历史的转发、评论、点赞、收藏等数据进行处理,从中提取博主与用户之间的关系,并将对应的关系存入到数据库中。

 

基于相似用户的挖掘:1. 基于@人相似用户挖掘:一个人和粉丝之间的关系有社会关系(如亲戚、朋友、同学等)和兴趣关系(都爱好弹琴等),@在一定程度上说明了用户与被@用户之间的关系,在基于@人相似用户数据挖掘中,对于包含@信息的微博,通过对@用户的提取,查找到该用户的粉丝,进行投放微博,需要查找的库为用户的粉丝库

2.基于社区相似用户挖掘:通过Label Propagation 算法将不同结构的社交网络划分为不同的社区,社区划分算法通过某种方式将用户划分到不同的社区中,社区内部连接较为强烈,社区与社区间有明显的界限。通过对不同方向的图分配不同的权重来利用LP算法进行社区划分。计算划分的社区的信息熵,将其中较小的信息熵的社区过滤掉。

你可能感兴趣的:(推荐系统(RS)切入点------微博精准推荐项目(2))