Waitfou

《推荐系统实战》阅读笔记第二章利用用户行为数据

第二章利用用户行为数据

基于用户行为分析的推荐算法是个性化推荐系统的重要算法，学术界一般将这种类型的算法称为协同过滤算法。

2.1 用户行为数据简介

用户行为数据在网站上最简单的存在形式就是日志。网站在运行过程中都产生大量原始日志（raw log），并将其存储在文件系统中。

会话日志：其中每个会话表示一次用户行为和对应的服务。

点击日志：其中记录了查询和返回结果。

会话日志通常存储在分布式数据仓库中，如支持离线分析的 Hadoop Hive和支持在线分析的Google Dremel。这些日志记录了用户的各种行为，如在电子商务网站中这些行为主要包括网页浏览、购买、点击、评分和评论等。

用户行为可以分为显性反馈行为和隐性反馈行为：

显性反馈行为：包括用户明确表示对物品喜好的行为。

隐性反馈行为：指的是那些不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为。

下表为一些例子：

下表为用户行为的同意表示：

2.2 用户行为分析

2.2.1 用户活跃度和物品流行度的分布

互联网上的很多数据分布都满足一种称为Power Law的分布，这个分布在互联网领域也称长尾分布。
$=\alpha{x^k}$
这个现象表明，在英文中大部分词的词频其实很低，只有很少的词被经常使用。

2.2.2 用户活跃度和物品流行度的关系

一般认为，新用户倾向于浏览热门的物品，因为他们对网站还不熟悉，只能点击首页的热门物品，而老用户会逐渐开始浏览冷门的物品。仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法。

学术界对协同过滤算法进行了深入研究，提出了很多方法：

比如基于邻域的方法（neighborhood-based）、隐语义模型（latent factor model）、基于图的随机游走算法（random walk on graph）等。在这些方法中，最著名的、在业界得到最广泛应用的算法是基于邻域的方法，而基于邻域的方法主要包含下面两种算法:

基于用户的协同过滤算法 这种算法给用户推荐和他兴趣相似的其他用户喜欢的物品。

基于物品的协同过滤算法 这种算法给用户推荐和他之前喜欢的物品相似的物品。

2.3 实验设计和算法评测

评测推荐系统有3种方法——离线实验、用户调查和在线实验。

协同过滤算法的离线实验一般如下设计：

将用户行为数据集按照均匀分布随机分成M份（本章取M=8），挑选一份作为测试集，将剩下的M-1份作为训练集。

然后在训练集上建立用户兴趣模型。并且在测试集上对用户行为预测。

2.3.3 评测指标

召回率：

准确率：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AuBdX6oy-1635841478583)(C:\Users\14145\AppData\Roaming\Typora\typora-user-images\image-20211020111200297.png)]$

**覆盖率：**覆盖率反应了推荐算法发掘长尾的能力，覆盖率越高，说明推荐算法越能够将长尾中的物品推荐给用户。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2e7ctrQW-1635841478584)(C:\Users\14145\AppData\Roaming\Typora\typora-user-images\image-20211020111649866.png)]$

$其中|I|表示所有物品信息的总数。而分子是所有用户被推荐的物品的并集。也就是如果所有的物品\\都被推荐给至少一个用户，那么覆盖率就是100\%。$
新颖度：

这里可以用推荐列表中物品的平均流行度度量推荐结果的新颖度。如果推荐出的物品都很热门，说明推荐的新颖度较低，否则说明推荐结果比较新颖。【注意：新颖度就是那些冷门的不容易被关注到的物品推荐给用户会让用户觉得新颖的物品】

在计算平均流行度的时候，对每个物品的流行度取对数，这是因为物品的流行度分布满足长尾分布，在取对数之后，流行度的平均值更加稳定。

2.4 基于领域的算法

2.4.1 基于用户的协同过滤算法

基于用户的协同过滤算法主要包括两个步骤。
(1) 找到和目标用户兴趣相似的用户集合。
(2) 找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户。

步骤一主要是计算两个用户之间的兴趣相似度。协同过滤主要利用行为的相似度计算兴趣的相似度。

$其中N(u)表示用户u曾经有过的正反馈物品列表，N(v)表示用户v曾经有过的峥反馈物品列表。\\w_{uv}表示兴趣相似度。$
也可以用余弦相似度：

一个例子：

其中的图表示A用户对a,b,d物品产生过行为，etc.
$其中\{a,b,d\}∩\{a,c\}=1\ \ 很好理解$

$而\{a,b,d\}||\{a,c\} 是表示将\{a,b,d\}中的元素与\{a,c\}进行配对，共有6种配对情况。$

这种方法的时间复杂度是O(|U|*|U|)，这在用户数很大时非常耗时。事实上，很多用户相互之间并没有对同样的物品产生过行为，即很多时候
$|N(u)∩N(v)|=0\\也就是很多情况下不同的用户产生过行为的商品之间没有交集$
优化后的结构：

物品-用户倒排表

$其中，左上角的图表示每个用户访问过的商品，右上角的图表示每个商品被哪些用户访问过。下面的\\图表示这个用户之间有多少个都访问过的物品，这一定是个是对成矩阵。$

得到用户的兴趣相似度表之后，UserCF**（基于用户的协同过滤）**就会给用户推荐和它他兴趣相似的K个用户喜欢的物品。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o0wH9gly-1635841478589)(C:\Users\14145\AppData\Roaming\Typora\typora-user-images\image-20211020204439034.png)]$

$用此公式衡量用户u对物品i的感兴趣程度。其中，S(u, K)包含和用户u兴趣最接近的K个用户，\\N(i)是对物品i有过行为的用户集合，w_{uv}是用户u和用户v的兴趣相似度，r_{vi}代表用户v对\\物品i的兴趣，因为使用的是单一行为的隐反馈数据，所以所有的r_{vi}=1。$

def Recommend(user, train, W):
    rank = dict()
    interacted_items = train[user]
    for v, wuv in sorted(W[u].items, key=itemgetter(1), \
        reverse=True)[0:K]:
        for i, rvi in train[v].items:
        	if i in interacted_items:
        	#we should filter items user interacted before
        	continue
        rank[i] += wuv * rvi
    return rank

UserCF只有一个重要的参数K，即为每个用户选出K个和他兴趣最相似的用户，然后推荐那K个用户感兴趣的物品。

为了作对比，将两种极端情况下的推荐效果列举出来：

**分别是：**Random算法每次都随机挑选10个用户没有产生过行为的物品推荐给当前用户，也就是为当前用户推荐和他相似的用户从来没接触过的商品。MostPopular算法则按照物品的流行度给用户推荐他没有产生过行为的物品中最热门的10个物品，也就是完全按照流行度推荐。很显然第一种情形的准确率和召回率都很低，而第二种情况的覆盖率特别低，仅仅覆盖了热门前10的物品，虽然用户还是有一定概率感兴趣。

还可以发现参数K是UserCF算法的一个重要的参数，它的调整对推荐算法的各种指标都会产生一定的影响。

用户相似度计算的改进：

对于《新华词典》这样热门的商品，购买并不能说明用户对他感兴趣。而对于冷门书籍，同时购买的用户便能够说明用户对其感兴趣。于是便有了下面的公式：

$其中\frac{1}{log1+|N(i)|}惩罚了用户u与用户v中共同兴趣列表中热门物品对他们\\相似度的影响。N(i)是对物品i有过行为的用户集合，此值越大，那么此公式的结果就会越小。$
本书将此UserCF算法称呼为User-IIF算法。

def UserSimilarity(train):
    # build inverse table for item_users
    item_users = dict()
    for u, items in train.items():
    	for i in items.keys():
    		if i not in item_users:
    			item_users[i] = set()
    		item_users[i].add(u)
    #calculate co-rated items between users
    C = dict()
    N = dict()
    for i, users in item_users.items():
    	for u in users:
    		N[u] += 1
    		for v in users:
    			if u == v:
    				continue
    			C[u][v] += 1 / math.log(1 + len(users))
    #calculate finial similarity matrix W
    W = dict()
    for u, related_users in C.items():
    	for v, cuv in related_users.items():
    		W[u][v] = cuv / math.sqrt(N[u] * N[v])
    return W

2.4.2 基于物品的协同过滤算法

此算法为业界应用的最多的算法。简称ItemCF算法，也就是给用户推荐那些和他们之前喜欢的物品相似的物品。不过，ItemCF算法并不利用物品的内容属性计算物品之间的相似度，它主要通过分析用户的行为记录计算物品之间的相似度。

基础算法

基于物品的协同过滤算法主要分为两步：

(1) 计算物品之间的相似度。
(2) 根据物品的相似度和用户的历史行为给用户生成推荐列表。

$其中N(i)表示喜欢物品i的用户数。N(i)∩N(j)表示同时喜欢物品i和物品j的用户数。\\那么此公式就表示喜欢物品i的用户中有多少用户喜欢物品j。$

其中红色面积越大，便说明物品i和物品j的相似度越大。

但是也存在问题：比如热门商品，很多用户都喜欢。这对于致力于挖掘长尾信息的推荐系统来说显然不是一个好的特性。

可以通过上面的公式对热门商品进行惩罚。减轻了热门商品和很多物品的相似的可能性。
$其中 N (i) ∣ ∣ N (j) 的含义如下图所示，结果为 n u m b e r (N (i)) * N (j)$

和UserCF一样，Item算法也首先建立用户-物品倒排表（即对每个用户建立一个包含他喜欢的物品的列表）

此图中左边的图是输出的用户行为记录，每一行代表一个用户感兴趣的物品集合。然后对于每个物品集合，两两配对，并且将配对结果所对应的在中间的图中的相应的位置加1。于是得到中间的矩阵，然后将所有的矩阵相加便得到了上图最右边的矩阵，该矩阵中对应的C[i] [j]值表示同时喜欢物品i和物品j的用户数，此矩阵称为共现矩阵。最后，将C矩阵归一化可以得到物品之间的余弦相似度矩阵W。

代码如下：

def ItemSimilarity(train):
    #calculate co-rated users between items
    C = dict()
    N = dict()
        for u, items in train.items():
        	for i in users:
        		N[i] += 1
        		for j in users:
        			if i == j:
        				continue
        			C[i][j] += 1
    #calculate finial similarity matrix W
    W = dict()
    for i,related_items in C.items():
    	for j, cij in related_items.items():
    		W[u][v] = cij / math.sqrt(N[i] * N[j])
    return W

在得到物品的相似度之后，ItemCF通过如下公式计算用户u对于物品j的兴趣：

$其中N(u)表示用户感兴趣的物品集合，S(j,K)表示和物品j最相似的K个物品集合。所以\\ i∈N(u)∩S(j,K)的整体意思就是用户感兴趣中的商品中在和商品j最相似的K个商品\\中占据了几个。w_{ji}是物品j和i的相似度，r_{ui}表示用户u对物品i的兴趣度。（物品i是我们已经\\知道的商品，知道用户对其的兴趣度，以及和物品j的相似度）$
也就可以理解为系统愿意给用户推荐和用户历史上感兴趣的物品相似的物品。

def Recommendation(train, user_id, W, K):
    rank = dict()
    ru = train[user_id]
    for i,pi in ru.items():
        for j, wj in sorted(W[i].items(), key=itemgetter(1), reverse=True)[0:K]:
        	if j in ru:
        		continue
        	rank[j] += pi * wj
    return rank

one example

ItemCF优势：可以提供推荐解释。利用用户历史上喜欢的物品为现在的推荐结果进行解释

代码如下：

def Recommendation(train, user_id, W, K):
    rank = dict()
    ru = train[user_id]
    for i,pi in ru.items():
    	for j, wj in sorted(W[i].items(), key=itemgetter(1), reverse=True)[0:K]:
    		if j in ru:
    			continue
    		rank[j].weight += pi * wj
    		rank[j].reason[i] = pi * wj
    return rank

用户活跃度对物品相似度的影响

活跃用户对物品相似度的贡献应该小于不活跃的用户，John S. Breese在论文①中提出了一个称为IUF（Inverse User Frequence）。**可以理解为不活跃的用户一旦来买书那么就是针对其兴趣有目的地买书的。**而一次性买几十万本书这种（进货商）完全没有参考性。

①Empirical Analysis of Predictive Algorithms for CollaborativeFiltering”（Morgan Kaufmann Publishers ，1998）。

于是提出了修正的物品相似度的计算公式：

也就是对活跃用户进行惩罚，比如：一次性买了当当网80%书的人（过于活跃度人）。很显然，不应当将其纳入相似度计算贡献的人员中。

上面的公式怎么理解呢？
$一旦太活跃，那么此用户购买过的N(u)就会非常大，那么进而\frac{1}{log1+|N(u)|}就会非常小，\\因此w_{ij}就会非常小，近似于0。$
代码如下：

def ItemSimilarity(train):
    #calculate co-rated users between items
    C = dict()
    N = dict()
    for u, items in train.items():
    	for i in users:
    		N[i] += 1
    		for j in users:
    			if i == j:
    				continue
    			C[i][j] += 1 / math.log(1 + len(items) * 1.0)
    #calculate finial similarity matrix W
    W = dict()
    for i,related_items in C.items():
    	for j, cij in related_items.items():
    		W[u][v] = cij / math.sqrt(N[i] * N[j])
    return W

此更正后的算法记作：ItemCF-IUF

物品相似度的归一化。

为啥归一化？

因为Karypis发现可以提高推荐的准确率。

在物品相似度矩阵w上执行归一化。卡哇伊用下面的方式归一化得到新的相似度矩阵。

归一化的好处不仅仅在于增加推荐的准确度，它还可以提高推荐的覆盖率和多样性。

一个例子：

如果A类物品的相似度为0.5，B类物品的相似度为0.6。A类和B类的物品之间的相似度为0.2，如果一个用户喜欢了5个A类物品和5个B类物品，用ItemCF给他进行推荐，那么推荐系统就更会推荐B类物品。但是归一化之后，A, B类物品的相似度均为1，最后推荐的物品数A，B更倾向于各占据一半。相似度的归一化可以提高推荐的多样性。

归一化后和归一化之前的对比：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9GFrLTbW-1635841478596)(C:\Users\14145\AppData\Roaming\Typora\typora-user-images\image-20211021164556029.png)]$

2.4.3 UserCF和ItemCF的综合比较

UserCF的推荐结果着重于反映和用户兴趣相似的小群体的热点，而ItemCF的推荐结果着重于维系用户的历史兴趣。换句话说，UserCF的推荐更社会化，反映了用户所在的小型兴趣群体中物品的热门程度，而ItemCF的推荐更加个性化，反映了用户自己的兴趣传承。

哈利波特问题

研究发现，《哈利波特》太热门了，似乎购买任何书的人都会购买《哈利波特》。

首先看看计算物品相似度的经典公式：

很显然，如果j非常的热门，那么他将会覆盖几乎所有的用户，那么分子的结果就会接近|N(i)|。尽管分母已经从N(i)变成了N(i)∩N(j)，在一定程序上减轻了流行度的影响。但是实际应用中，热门的j仍然会获得比较大的相似度。

那么怎么解决这个问题呢？

第一种方法：

加大对热门商品的惩罚。

$其中\alpha∈[0.5, 1]，通过提高\alpha，就可以惩罚热门的j$
两个不同领域的最热门物品之间往往具有比较高的相似度，这个时候，仅仅靠用户行为数据是不能够解决问题的。这时候就要引入物品的内容数据解决这个问题了。比如对不同领域的数据降低权重等，这就不是协同过滤了。

2.5 隐语义模型（latent factor model)

本节主要讨论隐语义模型在Top-N中的应用。并用实际的数据进行评测。

2.5.1 基础算法

核心思想是通过隐含特征(latent factor)联系用户兴趣和物品。

基于兴趣分类的方法需要解决的3个问题：

① 如何对物品进行分类

② 如何确定用户对哪类物品感兴趣，以及感兴趣的程度？

③ 确定好类别之后，在此类中选取哪些物品推荐给用户，以及如何确定这些物品在一个类中的权重。

隐含语义分析技术因为采取基于用户行为统计的自动聚类，较好地解决了下面提出的5个问题。

① 物品属于哪一类？不同角度分类不同

② 物品属于哪一类？划分细致程度分类不同，如：计算机技术范围>>机器学习范畴

③ 属于一类？？多类？？

④ 为什么这个读者选择这本书？因为作者？研究领域？还是出版社？

⑤ 一个物品给予他多大的权重合适？

隐语义模型(LFM)主要通过如下的公式计算用户u对物品i的兴趣：

$这个公式中p_{u,k}和 q_{i,k} 是模型的参数，其中p_{u,k}度量了用户u的兴趣和第k个隐类的关系，\\而 q_{i,k}度量了第k个隐类和物品i之间的关系。那么，下面的问题就是如何计算这两个参数。$
推荐系统的用户行为分为显性反馈和隐性反馈。

显性反馈：评分数据

这里主要讨论隐性数据集，这种数据集的特点就是只有正样本。

那么在隐性反馈数据集上应用LFM解决TopN的第一个关键问题题就是如何给每个用户生成负样本。

① 将用户没有过行为的物品视作负样本

② 从没有过行为的样本中均匀采样一些物品作为负样本

③ 在②的基础上，保证每个用户的正负样本数相当

④ 在没有过行为的物品上采样一些物品作为负样本，但是采样的时候偏重采样不热门的物品。

下面的代码是进行负样本采样

def RandomSelectNegativeSample(self, items): # items是一个dict，维护了用户有过行为的物品的集合
    ret = dict() # 创建一个字典
    for i in items.keys(): # 如果用户对一个物品有过行为，那么就把此物品对应的ret值置为1
    	ret[i] = 1
    n = 0
    for i in range(0, len(items) * 3):
    	item = items_pool[random.randint(0, len(items_pool) - 1)] # items_pool是一个候选物品集的列表，在这个列表中物品出现的次数和物品i的流行度成正比，这句代码的目的是随机中此候选物品集中挑选出一个物品，那么挑选的过程中，由于热门商品出现次数多，因此热门商品挑选上的几率就大。
    	if item in ret: # 如果此物品，用户有过行为，那么就跳出此轮循环
    		continue
    	ret[item] = 0 # 否则就将此没有过行为的物品对应的ret值置为0
    	n + = 1 # 用户没有产生过行为的物品数+1
    	if n > len(items): # 表示最多统计len(items)个没有过行为的物品
    		break
    return ret # 最后返回一个ret，ret中值为1的就是用户有过行为的正样本，ret值为0的就是哪些虽然热门，但是用户没有过行为的负样本。

现在正负样本都有了，就要来求我们提及的 $q_{i,k}$ 以及 $p_{u,k}$ 。

通过优化如下损失函数来求：

其中 $\lambda||p_{u}||^2+\lambda||q_{i}||^2$ 是防止过拟合的正则化项。可以采用随机梯度下降算法求参数的偏安倒数找到最快下降方向，然后通过迭代法不断优化参数。

其中 $r_{ui}$ 是真实值， $\sum_{k=1}^{K}p_{u,k}q_{i,k}$ 是预测值。

求导结果为：

然后采用递推公式更新参数：

其中 $\alpha$ 为学习率。

对应代码如下：

def LatentFactorModel(user_items, F, N, alpha, lambda): # 隐语义模型
    [P, Q] = InitModel(user_items, F) # 初始化模型
    for step in range(0,N):
    	for user, items in user_items.items():
    		samples = RandSelectNegativeSamples(items) # 用前面写好的代码随机选择负样本
    		for item, rui in samples.items():
    			eui = rui - Predict(user, item) # 用负样本真实的rui 减去预测的值
    			for f in range(0, F):
    				P[user][f] += alpha * (eui * Q[item][f] - lambda * P[user][f]) # 用梯度计算puk
    				Q[item][f] += alpha * (eui * P[user][f] - lambda * Q[item][f]) # 用梯度计算quk
		alpha *= 0.9

def Recommend(user, P, Q): # 生成推荐结果排序
    rank = dict()
    for f, puf in P[user].items():
    	for i, qfi in Q[f].items():
    		if i not in rank:
    			rank[i] += puf * qfi
    return rank

LFM在TopN推荐中的性能，有4个重要的参数：

 隐特征的个数F；
 学习速率alpha；
 正则化参数lambda；
 负样本/正样本比例 ratio。通过实验发现，此参数的影响最大

可以看到随着ratio的增加，推荐结果的流行度不断增加，ratio参数控制了推荐算法发掘长尾的能力。和之前的ItemCF和UserCF对比，可以发现LFM在所有指标上都优于UserCF和ItemCF。但是当数据集非常稀疏时，LFM的性能会明显下降。

2.5.2 基于LFM的实际系统的例子

下面讨论雅虎利用LFM进行个性化设计的方案：

优化目标：CTR（点击率）

利用LFM来预测用户是否会单击一个链接。

**训练集：**用户历史上对首页上链接的行为记录。

**正样本：**用户u单击过链接，即 $r_{ui}$ 。

**负样本：**链接i展示给用户u，用户u从来没有单击过链接。即 $r_{ui}=-1$ 。

利用前面提及的LFM预测用户是否单击链接：
$\hat r_{ui}=p_{u}^{T}\dot\ q_{i}$
将其与前面定义的用户u对一个物品i的偏好度（兴趣度）计算公式：

这个公式中 $p_{u,k}$ 和 $q_{i,k} $是模型的参数，其中$ p_{u,k}$度量了用户u的兴趣和第k个隐类的关系，而
$q_{i,k}$ 度量了第k个隐类和物品i之间的关系。那么，下面的问题就是如何计算这两个参数。

**缺点：**难以实现实时的推荐。训练耗时（因为要遍历用户的所有行为记录）

经典LFM模型每次训练需要扫描所有用户行为记录。这样才能计算出用户隐类向量 $p_{u}$ ，以及物品隐类向量 $q_{i}$ 。注：用户隐类向量可以理解为用户之间的隐藏关系，物品隐类向量可以理解为物品之间的隐藏关系。

实时性在雅虎的首页个性化推荐系统中非常重要。为了解决传统LFM不能实时化，而产品需要实时性的矛盾，雅虎的研究人员提出了一个解决方案。

他们会利用如下的公式预测用户u是否会单击链接：
$r_{ui}=x_{u}^T·y_{i}+p_{u}^T·q_{i}$

$y_{i}$	根据物品的内容属性直接生成
$x_{uk}$	是用户u对于内容特征k的兴趣程度
$p_{u},q_{i}$	根据实时拿到的用户最近几小时的行为训练LFM得到的

对于新加入的物品，可以通过 $x_{u}^T·y_{i}$ 估计用户u对物品 $i$ 的兴趣。经过几小时之后，就可以通过 $p_{u}^T·q_{i}$ 得到更加准确的预测值了。

2.5.3 LFM和基于领域的方法比较

离线计算的空间复杂度

基于领域的方法，需要维护一张离弦的相关表，如果用户/物品数很多，将会占据很大的内存。

假设有M个用户，和N个物品。那么假设使用户相关表，则需要O(M $*$ M)的空间，而对于物品相关表，则需要O(N $*$ N)的空间。而LFM在建模过程中，如果是F个隐类，那么它需要的存储空间是O(F(M+N))*。这在M和N很大时可以很好地节省离线计算的内存。

O(F(M+N))表示M个用户和N个商品均会建立一个隐向量。*

离线计算的时间复杂度

在一般情况下，LFM的时间复杂度要稍微高于UserCF和ItemCF，这主要是因为该算法需要多次迭代。但总体上，这两种算法在时间复杂度上没有质的差别。

在线实时推荐

UserCF和ItemCF需要将相关表缓存在内存中，一旦用户喜欢了新的物品，就可以通过查询内存中的相关表将和该物品相似的其他物品推荐给用户。

而LFM的预测公式可以看到。LFM在给用户生成推荐列表时。需要计算用户对所有物品的兴趣权重，然后排名，返回权重最大的N个物品。当物品数量很多的时候，这个时间复杂度就会非常高，可达 $O (M * N * F)$ 。因此LFM不太适合用于物品数非常庞大的系统，如
果要用，我们也需要一个比较快的算法给用户先计算一个比较小的候选列表，然后再用
LFM重新排名。同时LFM在生成用户推荐列表时速度太慢，因此不能在线实时计算。需要通过离线将所有用户的推荐结果事先计算存储在数据库中。也就是说，当用户有了新的行为后，他的推荐列表并不会立刻发生变化。

推荐解释

ItemCF算法支持很好的推荐解释。可以利用用户的历史行为解释推荐结果。但是LFM无法提供这样的解释。虽然其计算出来的隐类在语义上代表了一类兴趣和物品，但是很难用自然语言描述并且给用户展示。

2.6 基于图的模型

本节将重点讲解如何将用户行为用图表示，并且利用好图的算法给用户进行个性化推荐。

2.6.1 用户行为数据的二分图表示

本章讨论的用户行为数据是由一系列二元组组成的，其中每个二元组(u, i)表示用户u对物品i产生过行为。这种数据集很容易用一个二分图表示。

在图中，圆形节点代表用户，方形节点代表物品。圆形节点和方形节点之间的边代表用户对物品的行为。比如图中用户节点A和物品节点a、b、d相连，说明用户A对物品a、b、d产生过行为。

2.6.2 基于图的推荐算法

那么如何将个性化推荐算法放到二分图模型上。那么给用户u推荐物品的任务就可以转换为度量用户顶点 $v_{u}$ 和与 $v_{u}$ 没有边直接相连的物品节点在图中的相关性。相关性越高，在推荐结果中的权重越大。

可以用两个顶点之间的路径数，路径长度，路径上经过的顶点来衡量相关度。

相关性高一般有这几个特点：两点间有很多路径相连，顶点之间路径短，连接的两个顶点之间不会经过出度比较大的顶点。

针对上图这个例子，用户A和物品c有两条长度为3的路径相连，分别是：(A,a,B,c)以及(A,d,D,c) 。用户A和物品e之间也有两条长度为3的路径相连。但是顶点A与e之间的相关度要高于顶点A与c之间。

因为顶点A与e之间有两条路径——（A, b, C, e）和（A, d, D, e）。其中，（A, b, C, e）路径经过的顶点的出度为（3, 2, 2,2），而（A, d, D, e）路径经过的顶点的出度为（3, 2, 3, 2）。因此，（A, d, D, e）经过了一个出度比较大的顶点D，所以（A, d, D, e）对顶点A与e之间相关性的贡献要小于（A, b, C, e）。（前面说了相关性比较高的其中一个特点就是：两个顶点之间不会经过出度比较大的顶点）

那么如何计算图中顶点之间的相关度呢？？

首先介绍基于随机游走的PersonalRank算法

要对用户u进行个性化推荐，可以从用户u对应的节点 $v_{u}$ 开始在用户物品二分图上进行随机游走。当游走到任何一个节点时，首先按照概率 $\alpha$ 决定继续往前走，还是停止此次游走回到 $v_{u}$ 重新游走。如果继续游走，就从相连节点中按照均匀分布随机选择一个节点作为下次游走的节点。最终经过很多次之后，每个物品节点被访问的概率会收敛到一个数，最终推荐列表中物品的权重就是物品节点的访问概率。

为什么上面的这种思想可行呢？

回想一下我们之间定义的评价用户和物品之间的相关性的强弱的标准：

其中，不经过出度较大的视为相关性强。既然不经历出度大节点，那么每个节点可走的路较少，每一条路被走到的概率就大了，因此定义的相关度就大了。

最后每个物品被访问到的概率是：分支1被选择的概率 $*$ 分支2被选择到的概率 $*$ …

度小，分支就少，分支被选择到的概率就越大。

那么上面的思想的公式描述如下：

表示顶点为 $v_{u}$ 时就以 $\alpha$ 的概率选择下一个顶点。 $P R (v)$ 表示访问v节点的概率。 $out(v^{'})$ 表示 $v^{'}$ 点指向的顶点的结合。

代码如下：

# 代码还要细读
def PersonalRank(G, alpha, root): # G表示图，alpha是参数随机游走的概率，root表示游走的初始节点。
    rank = dict()
    rank = {x:0 for x in G.keys()}
    rank[root] = 1
    for k in range(20):
    	tmp = {x:0 for x in G.keys()}
    	for i, ri in G.items():
    		for j, wij in ri.items():
    			if j not in tmp:
    				tmp[j] = 0
    			tmp[j] += 0.6 * rank[i] / (1.0 * len(ri))
    			if j == root:
    				tmp[j] += 1 - alpha
    	rank = tmp
    return rank

网上相关的代码：来自博客：https://blog.csdn.net/gamer_gyt/article/details/51694250/

#-*-coding:utf-8-*-
'''
Created on 2016年6月16日
@author: Gamer Think
'''

'''
G：二分图   alpha:随机游走的概率   root：游走的初始节点     max_step；最大走动步数
'''
def PersonalRank(G, alpha, root, max_step):
    rank = dict()  
    rank = {x:0 for x in G.keys()}
    rank[root] = 1  
    #开始迭代  
    for k in range(max_step):  
        tmp = {x:0 for x in G.keys()}  
        #取节点i和它的出边尾节点集合ri  
        for i, ri in G.items():  #i是顶点。ri是与其相连的顶点极其边的权重
            #取节点i的出边的尾节点j以及边E(i,j)的权重wij, 边的权重都为1，在这不起实际作用  
            for j, wij in ri.items():   #j是i的连接顶点，wij是权重
                #i是j的其中一条入边的首节点，因此需要遍历图找到j的入边的首节点，  
                #这个遍历过程就是此处的2层for循环，一次遍历就是一次游走  
                tmp[j] += alpha * rank[i] / (1.0 * len(ri))  
        #我们每次游走都是从root节点出发，因此root节点的权重需要加上(1 - alpha)  
        #在《推荐系统实践》上，作者把这一句放在for j, wij in ri.items()这个循环下，我认为是有问题。  
        tmp[root] += (1 - alpha)  
        rank = tmp  
  
        #输出每次迭代后各个节点的权重  
        print 'iter:  ' + str(k) + "\t",  
        for key, value in rank.items():  
            print "%s:%.3f, \t"%(key, value),  
        print  
  
    return rank  
  
 
'''
主函数，G表示二分图，‘A’表示节点，后边对应的字典的key是连接的顶点，value表示边的权重
'''
if __name__ == '__main__':
    G = {'A' : {'a' : 1, 'c' : 1},  
         'B' : {'a' : 1, 'b' : 1, 'c':1, 'd':1},  
         'C' : {'c' : 1, 'd' : 1},  
         'a' : {'A' : 1, 'B' : 1},  
         'b' : {'B' : 1},  
         'c' : {'A' : 1, 'B' : 1, 'C':1},  
         'd' : {'B' : 1, 'C' : 1}}  
  
    PersonalRank(G, 0.85, 'A', 100)

虽然随机游走用理论比较好解释，但是该算法在时间复杂度上有明显的缺点。因为对于每个用户进行推荐时，都需要在整个用户物品二分图上进行迭代。直到图中每个顶点的PR值收敛。这些过程时间复杂度高，不仅无法在线提供实时推荐，甚至离线推荐也很耗时。

**关于基于图的模型的博客：**https://blog.csdn.net/gamer_gyt/article/details/51694250/

书上还有进一步的改善见书P76-P77

你可能感兴趣的:(《推荐系统实战》阅读笔记专栏,推荐系统)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
【ARM Cortex-M 系列 2.3 -- Cortex-M7 Debug event 详细介绍】主公讲 ARM #ARM 系列 arm开发 debug event
请阅读【嵌入式开发学习必备专栏】文章目录Cortex-M7DebugeventDebugeventsCortex-M7Debugevent在ARMCortex-M7架构中，调试事件（DebugEvent）是由于调试原因而触发的事件。一个调试事件会导致以下几种情况之一发生：进入调试状态：如果启用了停滞调试（HaltingDebug），一个调试事件会使处理器在调试状态下停滞。通过将DHCSR.C_DE
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
阅读笔记：阅读方法中的逻辑和转念施吉涛
聊聊一些阅读的方法论吧，别人家的读书方法刚开始想写，然后就不知道写什么了，因为作者写的非常的“精致”我有一种乡巴佬进城的感觉，看到精美的摆盘，精致的食材不知道该如何下口也就是《阅读的方法》，我们姑且来试一下强劲的大脑篇，第一节：逻辑通俗的来讲，也就是表达的排列和顺序，再进一步就是因果关系和关联实际上书已经看了大概一遍，但直到打算写一下笔记的时候，才发现作者讲的推理更多的是阅读的对象中呈现出的逻辑也
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
Dockerfile命令详解之 FROM 清风怎不知意容器化 java 前端 javascript
许多同学不知道Dockerfile应该如何写，不清楚Dockerfile中的指令分别有什么意义，能达到什么样的目的，接下来我将在容器化专栏中详细的为大家解释每一个指令的含义以及用法。专栏订阅传送门https://blog.csdn.net/qq_38220908/category_11989778.html指令不区分大小写。但是，按照惯例，它们应该是大写的，以便更容易地将它们与参数区分开来。(引用
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
阿里巴巴商品搜索API返回值实战解析 weixin_43841111 api java 前端 javascript
在解析阿里巴巴中国站商品搜索API返回值并进行实战时，可以从以下几个方面入手：一、了解API返回值的结构基本信息返回值通常包含商品的标题、价格、库存、图片链接等基本信息。这些信息对于了解商品的概况非常重要。例如，商品标题可以让你快速了解商品的名称和特点，价格信息可以帮助你进行价格比较和成本核算。详细描述可能包括商品的详细描述、规格参数、使用方法等。这些信息对于深入了解商品的特性和功能非常有帮助。比
李笑来 6 你到底有没有资本+7什么是落后盛大米
6你到底有没有资本摘要不能够心平气和地被判上无期徒刑的资本，就别假装资本混迹江湖了。投资知识，经验，智慧，几乎只能从实战中获得————书上写的，牛人讲的，都跟你没关系，因为只有那些东西在你骨子里生根之后再发芽且不夭折而后还要等上很久才会茁壮甚至茂盛。。。。直接将年收入的10%-20%判死刑是最简单，最直接，最粗暴最有效的操作方式。投资，尤其是“好的投资”，一定是“舍我其谁”的活动。关于资本的思考，
【Python基础】Python迭代器与生成器（两种强大工具）姑苏老陈 Python编程入门 python 开发语言 python迭代器与生成器
本文收录于《Python编程入门》专栏，从零基础开始，分享一些Python编程基础知识，欢迎关注，谢谢！文章目录一、前言二、迭代器2.1创建迭代器2.2自定义迭代器2.3处理大型文件三、生成器四、生成器表达式五、实际应用案例5.1数据库查询5.2网络数据流处理六、总结一、前言在Python中，迭代器与生成器是两种非常强大的工具，它们可以帮助我们有效地处理大量数据，特别是在需要逐个访问元素的情况下。
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
20220226号今日份（6）张雅苑Momo
考虑以下必备行程安排：1作息规律2三餐规律3早茶下午茶4晨练运动5阅读笔记6挚爱亲朋联络20220226号今日份快乐是有哪一些呢？1：视频号直播的持续今天已经是第221/190天啦今天主讲人在分享事上练的能力，事上见2：持续吉他练习今天已经第25天啦3：今天持续带动某人整理屋子，要加油哦，要持续哦今天的过程持续比较轻松愉快4：今天老佛爷入院的第四天，上阵父子兵，期待他们仨早起凯旋归来如何成为自己喜
【K8s】专题十一：Kubernetes 集群证书过期处理方法行者Sun1989 Kubernetes kubernetes 云原生容器
本文内容均来自个人笔记并重新梳理，如有错误欢迎指正！如果对您有帮助，烦请点赞、关注、转发、订阅专栏！专栏订阅入口Linux专栏|Docker专栏|Kubernetes专栏往期精彩文章【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法（续）【Docker】MySQL源码构建Docker镜
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

《推荐系统实战》阅读笔记 第二章 利用用户行为数据

第二章 利用用户行为数据

2.1 用户行为数据简介

2.2 用户行为分析

2.2.1 用户活跃度和物品流行度的分布

2.2.2 用户活跃度和物品流行度的关系

2.3 实验设计和算法评测

2.4 基于领域的算法

2.4.1 基于用户的协同过滤算法

2.4.2 基于物品的协同过滤算法

2.5 隐语义模型（latent factor model)

2.5.1 基础算法

2.5.2 基于LFM的实际系统的例子

2.5.3 LFM和基于领域的方法比较

2.6 基于图的模型

2.6.1 用户行为数据的二分图表示

2.6.2 基于图的推荐算法

你可能感兴趣的:(《推荐系统实战》阅读笔记专栏,推荐系统)

《推荐系统实战》阅读笔记第二章利用用户行为数据

第二章利用用户行为数据