基于Apache Gremlin的协同推荐

目的

利用协同过滤推荐算法以及使用Apache Gremlin对Apache Gremlin电影推荐图数据文中存储的电影评级图数据进行遍历,从而给电影观众推荐合适的电影。

Apache Gremlin推荐《玩具总动员》

协同过滤算法

简单的来说,协同过滤算法就是A观众和B用户都喜欢《玩具总动员》这部影片,那么A观众和B观众就用相同的喜好交集,就可以利用这个将B用户喜欢的其它影片直接推荐给A用户。

Apache Gremlin遍历

利用Gremlin Console查询《玩具总动员》影片的具体信息如下:

gremlin> v = g.idx(T.v)[[title:'Toy Story (1995)']] >> 1                                            
==>v[1]
gremlin> v.map()                                        
==>movieId=1
==>title=Toy Story (1995)
==>type=Movie

利用Gremlin Console查询出对《玩具总动员》影片评分超过3星的观众(仅返回5个结果),代码如下:

gremlin> v.inE('rated').filter{it.getProperty('stars') > 3}.outV.userId[0..4] 
==>v[3902]
==>v[3912]
==>v[3916]
==>v[3918]
==>v[3920]

下图可以更好的帮助我们理解上面的两个遍历语言的逻辑:

Gremlin遍历结果图

利用Gremlin Console找出给《玩具总动员》评分超过3星的用户,并且找出这些用户给其它哪些电影的评级超过3星,代码如下:

gremlin> v.inE('rated').filter{it.getProperty('stars') > 3}.outV.outE('rated').filter{it.getProperty('stars') > 3}.inV.title[0..4]
==>One Flew Over the Cuckoo's Nest (1975)
==>Erin Brockovich (2000)
==>Bug's Life, A (1998)
==>Ben-Hur (1959)
==>Christmas Story, A (1983)

Gremlin Console也为用户提供了用户自定义的遍历步骤,如下:

gremlin> Gremlin.defineStep('corated',[Vertex,Pipe], { def stars ->
  _().inE('rated').filter{it.getProperty('stars') > stars}.outV.outE('rated').filter{it.getProperty('stars') > stars}.inV})
==>null

用户通过自定义了corated这个遍历步骤将之前的复杂的Gremlin遍历语言进行简化,简化后如下:

gremlin> v.corated(3).title[0..4]
==>One Flew Over the Cuckoo's Nest (1975)
==>Erin Brockovich (2000)
==>Bug's Life, A (1998)
==>Ben-Hur (1959)
==>Christmas Story, A (1983)

让我们统计一下对《玩具总动员》评级超过3星的用户对其它评星也超过3星的影片的数量,如下:

gremlin> v.corated(3).count()      
==>268493

当然268493里面有很多的重复数据,这是因为这些用户出了《玩具总队员》外对其它的影片爱好也有重复的,我们可以通过下面的遍历语言来进行去重统计,如下:

gremlin> v.corated(3).uniqueObject.count()
==>3353

找出与《玩具总动员》有共同评级的前10部电影(这些电影就是要推荐的电影),代码如下:

gremlin> m = [:]                                                                                                  
gremlin> v.corated(3).filter{it != v}.title.groupCount(m) >> -1
==>null
gremlin> m.sort{a,b -> b.value <=> a.value}[0..9] 
==>Star Wars: Episode V - The Empire Strikes Back (1980)=1000
==>Star Wars: Episode IV - A New Hope (1977)=998
==>American Beauty (1999)=949
==>Matrix, The (1999)=925
==>Raiders of the Lost Ark (1981)=922
==>Silence of the Lambs, The (1991)=887
==>Saving Private Ryan (1998)=878
==>Back to the Future (1985)=876
==>Shawshank Redemption, The (1994)=875
==>Toy Story 2 (1999)=871

想了解更多图计算的知识,请点击娃娃学软件

你可能感兴趣的:(基于Apache Gremlin的协同推荐)