推荐引擎算法学习导论：协同过滤、聚类、分类

作者：July。出处：结构之法算法之道。原文链接：http://blog.csdn.net/v_july_v/article/details/7184318

引言

昨日看到几个关键词：语义分析，协同过滤，智能推荐，想着想着便兴奋了。于是昨天下午开始到今天凌晨3点，便研究了一下推荐引擎，做了初步了解。日后，自会慢慢深入仔细研究（日后的工作亦与此相关）。当然，此文也会慢慢补充完善。

本文作为对推荐引擎的初步介绍的一篇导论性的文章，将略去大部分的具体细节，侧重用最简单的语言简要介绍推荐引擎的工作原理以及其相关算法思想，且为了着重浅显易懂有些援引自本人1月7日在微博上发表的文字（特地整理下，方便日后随时翻阅），尽量保证本文的短小。不过，事与愿违的是，文章后续补充完善，越写越长了。

同时，本文所有相关的算法都会在日后的文章一一陆续具体阐述。本文但求微言导论，日后但求具体而论。若有任何问题，欢迎随时不吝赐教或批评指正。谢谢。

1、推荐引擎原理

推荐引擎尽最大努力的收集尽可能多的用户信息及行为，所谓广撒网，勤捕鱼，然后“特别的爱给特别的你”，最后基于相似性的基础之上持续“给力”，原理如下图所示（图引自本文的参考资料之一：探索推荐引擎内部的秘密）：

2、推荐引擎的分类

推荐引擎根据不同依据如下分类：

根据其是不是为不同的用户推荐不同的数据，分为基于大众行为（网站管理员自行推荐，或者基于系统所有用户的反馈统计计算出的当下比较流行的物品）、及个性化推荐引擎（帮你找志同道合，趣味相投的朋友，然后在此基础上实行推荐）；
根据其数据源，分为基于人口统计学的（用户年龄或性别相同判定为相似用户）、基于内容的（物品具有相同关键词和Tag，没有考虑人为因素），以及基于协同过滤的推荐（发现物品，内容或用户的相关性推荐，分为三个子类，下文阐述）；
根据其建立方式，分为基于物品和用户本身的（用户-物品二维矩阵描述用户喜好，聚类算法）、基于关联规则的（The Apriori algorithm算法是一种最有影响的挖掘布尔关联规则频繁项集的算法）、以及基于模型的推荐（机器学习，所谓机器学习，即让计算机像人脑一样持续学习，是人工智能领域内的一个子领域）。

关于上述第二个分类(2、根据其数据源)中的基于协同过滤的推荐：随着 Web2.0 的发展，Web 站点更加提倡用户参与和用户贡献，因此基于协同过滤的推荐机制因运而生。它的原理很简单，就是根据用户对物品或者信息的偏好，发现物品或者内容本身的相关性，或者是发现用户的相关性，然后再基于这些关联性进行推荐。

而基于协同过滤的推荐，又分三个子类：

基于用户的推荐(通过共同口味与偏好找相似邻居用户，K-邻居算法，你朋友喜欢，你也可能喜欢)，
基于项目的推荐(发现物品之间的相似度，推荐类似的物品，你喜欢物品A，C与A相似，可能也喜欢C)，
基于模型的推荐(基于样本的用户喜好信息构造一个推荐模型，然后根据实时的用户喜好信息预测推荐)。

我们看到，此协同过滤算法最大限度的利用用户之间，或物品之间的相似相关性，而后基于这些信息的基础上实行推荐。下文还会具体介绍此协同过滤。

不过一般实践中，我们通常还是把推荐引擎分两类：

第一类称为协同过滤，即基于相似用户的协同过滤推荐（用户与系统或互联网交互留下的一切信息、蛛丝马迹，或用户与用户之间千丝万缕的联系），以及基于相似项目的协同过滤推荐（尽最大可能发现物品间的相似度）；
第二类便是基于内容分析的推荐（调查问卷，电子邮件，或者推荐引擎对本blog内容的分析）。

3、新浪微博推荐机制

在新浪微博推荐好友的机制中：1、我与A非好友，但我的好友中有不少人与A是好友，即我和A有不少共同的好友，那么系统便会把A也推荐给我（新浪称之为共同好友）；2、我关注的人中有不少人关注了B，那么系统推测我也可能会喜欢B，从而亦会把B也推荐给我（新浪称之为间接关注人）。

但新浪实际操作起来，这两种方式会搅在一起，如我关注的人中，有不少人关注了B，但事实上这关注B的不少人中有些也是我的好友。以上推荐方式，统称为基于相似用户的协同过滤推荐（无非就是找到：用户与用户之间千丝万缕的联系，或是从你的好友入手，或是从你关注的人入手）。

当然，还有一类比如人气用户推荐，便是上文所述的基于大众行为的推荐，即人云亦云、跟风。系统推测大家都喜欢的，可能你也会喜欢。如大家都知道姚晨新浪微博粉丝数量排第一，则争相关注，最终粉丝量越推越高。两种推荐方式如下图所示：

不过，上述不论是基于用户的推荐方式，还是基于大众行为的推荐都并没有真正寻找到用户与用户之间共同的兴趣，偏好和口味，因为很多的时候，朋友的朋友不一定能成为你自己的朋友，且有的人清高于世，你们都追求的，我偏不屑。所以，从分析用户发表的微博的内容相关入手，找到各自共同的关注点、兴趣点才是王道。当然新浪微博最近让用户选择给自己发表的微博内容打上标签，以利于日后寻找微博内容中相关用户共同的标签tag，关键词，此种推荐方式正是基于微博内容分析的推荐。如下图：

只是问题是，谁会不遗余力发完微博后，还去给它添加什么标签呢？所以，新浪微博还得努力，寻找另一种更好地分析微博内容的方式。不然系统全盘扫描海里用户的海里微博内容，则恐怕吃不消也负担不起。

然个人觉得倒是可以从微博关键词（标签tag云）和每个用户为自己打的标签（打着越多的共同标签可定义为相似用户）入手，如下图左右部分所示：

也就是说，通过共同的好友和通过间接关注的人来定义相似用户是不靠谱的，只有通过基于微博内容的分析寻找相似用户才是可行之道，同时，更进一步，通过微博内容分析得到标签tag云后，再从中找到相同或相近的标签tag云寻找相似的用户无疑比已有推荐好友方式（通过共同的好友和通过间接关注的人来定义相似用户）更靠谱。

3.1、多种推荐方式结合

在现行的 Web 站点上的推荐往往都不是单纯只采用了某一种推荐的机制和策略，他们往往是将多个方法混合在一起，从而达到更好的推荐效果。

举个例子如Amazon中除此基于用户的推荐之外，还会用到基于内容的推荐(物品具有相同关键词和Tag)：如新产品的推荐；基于项目的协同过滤推荐(喜欢A，C与A类似，可能也喜欢C)：如捆绑销售and别人购买/浏览的商品。

总之，多种推荐方式结合，加权（用线性公式（linear formula）将几种不同的推荐按照一定权重组合起来，具体权重的值需要在测试数据集上反复实验，从而达到最好的推荐效果。）、切换、分区、分层等混合。但不论是哪种推荐方式，一般也就涵盖在上文所述的推荐方式中。

4、协同过滤推荐

协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友或者称之为广义上的邻居(neighborhood)，看看最近有什么好看的电影推荐，而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。如下图，你能从图中看到多少信息？

4.1、协同过滤推荐步骤

做协同过滤推荐，一般要做好以下几个步骤：

1）若要做协同过滤，那么收集用户偏好则成了关键。可以通过用户的行为诸如评分（如不同的用户对不同的作品有不同的评分，而评分接近则意味着喜好口味相近，便可判定为相似用户），投票，转发，保存，书签，标记，评论，点击流，页面停留时间，是否购买等获得。如下面第2点所述：所有这些信息都可以数字化，如一个二维矩阵表示出来。

2）收集了用户行为数据之后，我们接下来便要对数据进行减噪与归一化操作(得到一个用户偏好的二维矩阵，一维是用户列表，另一维是物品列表，值是用户对物品的偏好，一般是 [0,1] 或者 [-1, 1] 的浮点数值)。下面再简单介绍下减噪和归一化操作：

所谓减噪：用户行为数据是用户在使用应用过程中产生的，它可能存在大量的噪音和用户的误操作，我们可以通过经典的数据挖掘算法过滤掉行为数据中的噪音，这样可以是我们的分析更加精确（类似于网页的去噪处理）。
所谓归一化：将各个行为的数据统一在一个相同的取值范围中，从而使得加权求和得到的总体喜好更加精确。最简单的归一化处理，便是将各类数据除以此类中的最大值，以保证归一化后的数据取值在 [0,1] 范围中。至于所谓的加权，很好理解，因为每个人占的权值不同，类似于一场唱歌比赛中对某几个选手进行投票决定其是否晋级，观众的投票抵1分，专家评委的投票抵5分，最后得分最多的选手直接晋级。

3）找到相似的用户和物品，通过什么途径找到呢？便是计算相似用户或相似物品的相似度。

4）相似度的计算有多种方法，不过都是基于向量Vector的，其实也就是计算两个向量的距离，距离越近相似度越大。在推荐中，用户-物品偏好的二维矩阵下，我们将某个或某几个用户对莫两个物品的偏好作为一个向量来计算两个物品之间的相似度，或者将两个用户对某个或某几个物品的偏好作为一个向量来计算两个用户之间的相似度。

相似度计算算法可以用于计算用户或者项目相似度。以项目相似度计算（Item Similarity Computation）为列，通性在于都是从评分矩阵中，为两个项目i，j挑选出共同的评分用户，然对这个共同用户的评分向量，进行计算相似度s_i,j，如下图所示，行代表用户，列代表项目(注意到是从i，j向量中抽出共有的评论，组成的一对向量，进行相似度计算)：

所以说，很简单，找物品间的相似度，用户不变，找多个用户对物品的评分；找用户间的相似度，物品不变，找用户对某些个物品的评分。

5）而计算出来的这两个相似度则将作为基于用户、项目的两项协同过滤的推荐。常见的计算相似度的方法有：欧几里德距离，皮尔逊相关系数（如两个用户对多个电影的评分，采取皮尔逊相关系数等相关计算方法，可以抉择出他们的口味和偏好是否一致），Cosine相似度，Tanimoto系数。下面，简单介绍其中的欧几里得距离与皮尔逊相关系数：

欧几里德距离（Euclidean Distance）是最初用于计算欧几里德空间中两个点的距离，假设 x，y 是 n 维空间的两个点，它们之间的欧几里德距离是：

可以看出，当 n=2 时，欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度，一般采用以下公式进行转换：距离越小，相似度越大（同时，避免除数为0）：

余弦相似度 Cosine-based Similarity 两个项目 i ，j 视作为两个m维用户空间向量，相似度计算通过计算两个向量的余弦夹角，那么，对于m*n的评分矩阵，i ，j 的相似度 sim ( i , j ) 计算公式：

（其中 " · "记做两个向量的内积）
皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度，为了使计算结果精确，需要找出共同评分的用户。记用户集U为既评论了 i 又评论了 j 的用户集，那么对应的皮尔森相关系数计算公式为：

其中R_u,i 为用户u 对项目 i 的评分，对应带横杠的为这个用户集U对项目i的评分评分。

6）相似邻居计算。邻居分为两类：1、固定数量的邻居K-neighborhoods （或Fix-size neighborhoods），不论邻居的“远近”，只取最近的 K 个，作为其邻居，如下图A部分所示；2、基于相似度门槛的邻居，落在以当前点为中心，距离为 K 的区域中的所有点都作为当前点的邻居，如下图B部分所示。

再介绍一下K最近邻(k-Nearest Neighbor，KNN)分类算法：这是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

7）经过4)计算出来的基于用户的CF(基于用户推荐之用：通过共同口味与偏好找相似邻居用户，K-邻居算法，你朋友喜欢，你也可能喜欢)，基于物品的CF(基于项目推荐之用：发现物品之间的相似度，推荐类似的物品，你喜欢物品A，C与A相似，那么你可能也喜欢C)。

一般来说，社交网站内如facebook宜用User CF(用户多嘛)，而购书网站内如Amazon宜用Item CF(你此前看过与此类似的书比某某也看过此书更令你信服，因为你识书不识人)。

话虽如上所说，user多一般是社交性网站如Facebook故倾向于user-based（用户多，用户与用户之间因联系产生的数据也多），item多一般是购买性网站如Amazon故倾向于Item-based（物品多，用户少，故用户与用户之间鲜有联系，无用户数据，何来user-based?只好基于相似物品作文章即item-based，但实践中仍需具体情况具体分析。

如@wuzh670所说：当item数目不多+不显著增长时，item之间的关系在一段时间内相对稳定(对比user之间关系)，对于实时更新item-similarity需求就降低很多,推荐系统效率提高很多，故弃用user-based会明智些。

4.2、基于项目相似度与基于用户相似度的差异

上述3.1节中三个相似度公式是基于项目相似度场景下的，而实际上，基于用户相似度与基于项目相似度计算的一个基本的区别是，基于用户相似度是基于评分矩阵中的行向量相似度求解，基于项目相似度计算式基于评分矩阵中列向量相似度求解，然后三个公式分别都可以适用，如下图：

（其中，为0的表示未评分）

基于项目相似度计算式计算如Item3，Item4两列向量相似度；
基于用户相似度计算式计算如User3，User4量行向量相似度。

5、聚类算法

聚类聚类，通俗的讲，即所谓“物以类聚，人以群分”。聚类 (Clustering) 是一个数据挖掘的经典问题，它的目的是将数据分为多个簇 (Cluster)，在同一个簇中的对象之间有较高的相似度，而不同簇的对象差别较大。

5.1、K 均值聚类算法

K-均值（K-Means）聚类算法与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。此算法假设对象属性来自于空间向量，目标是使各个群组内部的均方误差总和最小。

K均值聚类算法首先会随机确定K个中心位置（位于空间中代表聚类中心的点），然后将各个数据项分配给最临近的中心点。待分配完成之后，聚类中心就会移到分配给该聚类的所有节点的平均位置处，然后整个分配过程重新开始。这一过程会一直重复下去，直到分配过程不再产生变化为止。下图是包含两个聚类的K-均值聚类过程：

以下代码所示即是此K-均值聚类算法的python实现：

[python] view plain copy print ?

//K-均值聚类算法
import random
def kcluster(rows,distance=pearson,k=4):
# 确定每个点的最小值和最大值
ranges=[(min([row[i] for row in rows]),max([row[i] for row in rows]))
for i in range(len(rows[0]))]
# 随机创建k个中心点
clusters=[[random.random()*(ranges[i][1]-ranges[i][0])+ranges[i][0]
for i in range(len(rows[0]))] for j in range(k)]
lastmatches=None
for t in range(100):
print'Iteration %d' % t
bestmatches=[[] for i in range(k)]
# 在每一行中寻找距离最近的中心点
for j in range(len(rows)):
row=rows[j]
bestmatch=0
for i in range(k):
d=distance(clusters[i],row)
if d<distance(clusters[bestmatch],row): bestmatch=i
bestmatches[bestmatch].append(j)
# 如果结果与上一次相同，则整个过程结束
if bestmatches==lastmatches: break
lastmatches=bestmatches
# 把中心点移到其所有成员的平均位置
for i in range(k):
avgs=[0.0]*len(rows[0])
if len(bestmatches[i])>0:
for rowid in bestmatches[i]:
for m in range(len(rows[rowid])):
avgs[m]+=rows[rowid][m]
for j in range(len(avgs)):
avgs[j]/=len(bestmatches[i])
clusters[i]=avgs
# 返回k组序列，其中每个序列代表一个聚类
return bestmatches

//K-均值聚类算法  
import random  
  
def kcluster(rows,distance=pearson,k=4):  
  # 确定每个点的最小值和最大值  
  ranges=[(min([row[i] for row in rows]),max([row[i] for row in rows]))   
  for i in range(len(rows[0]))]  
  
  # 随机创建k个中心点  
  clusters=[[random.random()*(ranges[i][1]-ranges[i][0])+ranges[i][0]   
  for i in range(len(rows[0]))] for j in range(k)]  
    
  lastmatches=None  
  for t in range(100):  
    print 'Iteration %d' % t  
    bestmatches=[[] for i in range(k)]  
      
    # 在每一行中寻找距离最近的中心点  
    for j in range(len(rows)):  
      row=rows[j]  
      bestmatch=0  
      for i in range(k):  
        d=distance(clusters[i],row)  
        if d<distance(clusters[bestmatch],row): bestmatch=i  
      bestmatches[bestmatch].append(j)  
  
    # 如果结果与上一次相同，则整个过程结束  
    if bestmatches==lastmatches: break  
    lastmatches=bestmatches  
      
    # 把中心点移到其所有成员的平均位置  
    for i in range(k):  
      avgs=[0.0]*len(rows[0])  
      if len(bestmatches[i])>0:  
        for rowid in bestmatches[i]:  
          for m in range(len(rows[rowid])):  
            avgs[m]+=rows[rowid][m]  
        for j in range(len(avgs)):  
          avgs[j]/=len(bestmatches[i])  
        clusters[i]=avgs  
    
  # 返回k组序列，其中每个序列代表一个聚类      
  return bestmatches

k-Means是一种机器学习领域中的一种非监督学习。下面，简要介绍下监督学习与无监督学习：

监管学习的任务是学习带标签的训练数据的功能，以便预测任何有效输入的值。监管学习的常见例子包括将电子邮件消息分类为垃圾邮件，根据类别标记网页，以及识别手写输入。创建监管学习程序需要使用许多算法，最常见的包括神经网络、Support Vector Machines (SVMs) 和 Naive Bayes 分类程序。
无监管学习的任务是发挥数据的意义，而不管数据的正确与否。它最常应用于将类似的输入集成到逻辑分组中。它还可以用于减少数据集中的维度数据，以便只专注于最有用的属性，或者用于探明趋势。无监管学习的常见方法包括K-Means，分层集群和自组织地图。

5.2、Canopy 聚类算法

Canopy 聚类算法的基本原则是：首先应用成本低的近似的距离计算方法高效的将数据分为多个组，这里称为一个 Canopy，我们姑且将它翻译为“华盖”，Canopy 之间可以有重叠的部分；然后采用严格的距离计算方式准确的计算在同一 Canopy 中的点，将他们分配与最合适的簇中。Canopy 聚类算法经常用于 K 均值聚类算法的预处理，用来找合适的 k 值和簇中心。

5.3、模糊 K 均值聚类算法

模糊 K 均值聚类算法是 K 均值聚类的扩展，它的基本原理和 K 均值一样，只是它的聚类结果允许存在对象属于多个簇，也就是说：它属于我们前面介绍过的可重叠聚类算法。为了深入理解模糊 K 均值和 K 均值的区别，这里我们得花些时间了解一个概念：模糊参数（Fuzziness Factor）。

与 K 均值聚类原理类似，模糊 K 均值也是在待聚类对象向量集合上循环，但是它并不是将向量分配给距离最近的簇，而是计算向量与各个簇的相关性（Association）。假设有一个向量 v，有 k 个簇，v 到 k 个簇中心的距离分别是 d1，d2⋯ dk，那么 V 到第一个簇的相关性 u1可以通过下面的算式计算：

计算 v 到其他簇的相关性只需将 d1替换为对应的距离。从上面的算式，我们看出，当 m 近似 2 时，相关性近似 1；当 m 近似 1 时，相关性近似于到该簇的距离，所以 m 的取值在（1，2）区间内，当 m 越大，模糊程度越大，m 就是我们刚刚提到的模糊参数。

其余聚类算法本文不再介绍。关于冷启动、数据稀疏、可扩展性、可移植性、可解释性、多样性、推荐信息的价值等问题则待后续阐述。

6、分类算法

接下来，分类算法有很多，本文介绍决策树学习，与贝叶斯定理。

6.1、决策树学习

咱们直接切入正题。所谓决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。

机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。

来理论的太过抽象，下面举两个浅显易懂的例子：

第一个例子：通俗来说，决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友，于是有了下面的对话：

女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等情况。女儿：是公务员不？母亲：是，在税务局上班呢。女儿：那好，我去见见。

这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别：见和不见。假设这个女孩对男人的要求是：30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员，那么这个可以用下图表示女孩的决策逻辑：

也就是说，决策树的简单策略就是，好比公司招聘面试过程中筛选一个人的简历，如果你的条件相当好比如说清华博士毕业，那么二话不说，直接叫过来面试，如果非重点大学毕业，但实际项目经验丰富，那么也要考虑叫过来面试一下，即所谓具体情况具体分析、决策。

第二个例子来自Tom M.Mitchell著的机器学习一书：

小王的目的是通过下周天气预报寻找什么时候人们会打高尔夫，他了解人们决定是否打球的原因最主要取决于天气情况。而天气状况有晴，云和雨；气温用华氏温度表示；相对湿度用百分比；还有有无风。如此，我们便可以构造一棵决策树，如下（根据天气这个分类决策这天是否合适打网球）：

上述决策树对应于以下表达式：（Outlook=Sunny ^Humidity<=70）V （Outlook = Overcast）V （Outlook=Rain ^ Wind=Weak）。得到的最佳分类属性如下图所示：

在上图中，计算了两个不同属性：湿度(humidity)和风力(wind)的信息增益，最终humidity这种分类的信息增益0.151>wind增益的0.048。说白了，就是在星期六上午是否适合打网球的问题诀策中，采取humidity较wind作为分类属性更佳，决策树由此而来。

ID3算法决策树的形成

OK，下图为ID3算法第一步后形成的部分决策树。这样综合起来看，就容易理解多了。1、overcast样例必为正，所以为叶子结点，总为yes；2、ID3无回溯，局部最优，而非全局最优，还有另一种树后修剪决策树。下图是ID3算法第一步后形成的部分决策树：

6.2、贝叶斯分类的基础：贝叶斯定理

贝叶斯定理：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：

表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：。

下面不加证明地直接给出贝叶斯定理（公式被网友指出有问题，待后续验证改正）：

7、推荐实例扩展

7.1、阅读推荐

先来看一段文字（摘自36kr）：

”北京十分科技也非常看好阅读推荐类的应用，他们花了非常大的精力（一年60人团队），才在今天推出了iPhone 版“酷云阅读”。

为什么要投入这么多人去做这个阅读应用？CEO 李鹏告诉我，这个团队超过一半的人都在做后台相关的东西，包括语义分析、机器学习等算法。他们的目的是将互联网“语义化”以后，把人的兴趣明确，最后把每个人感兴趣的内容推荐给相关的人。在iPhone 上，酷云的大致做法和Zite iPad 版类似，用户的行为也是有“喜欢”、“不喜欢”，以及点击相应的媒体来源或者相关的标签来告诉酷云你希望以后看到更多这些内容。

这个目的是大部分阅读推荐应用都有的，但是酷云的做法似乎更加变态。他们除了每天要抓取来自互联网的超过10万篇文章之外，还对全国200个的电视台播出的视频内容进行了索引，以便用户也可以通过文字搜索出视频、以及对视频内容进行一样的推荐。大致做法是先把这些节目都录制下来，然后把声音转文字，最后建立摘要和索引。“

一般的推荐系统应用的算法是有上文所述的什么协同过滤那般复杂呢？以下是援引自本人1月21日所发在微博上的文字：

1、大多数推荐阅读应用一般会给文章根据内容打上标签：算法，iphone(点击相当于为此标签加分加权重)，并邀请对文章作出评价：喜欢，或不喜欢。每一次点击都被推荐系统记录了下来，最终渐渐形成用户的标签tag云（与此同时，还可基于相同或相似的标签tag寻找相似用户，从而基于用户推荐），而后系统每检索一篇新的文章，提取出文章的关键字，匹配用户的标签取向，进行推送。

2、目前手机上的新闻阅读做到了分类，如科技，教育，但一般不会采取如网页那般评分表态，所以也就无法记录用户的行为特征，也就不会有新的文章出来后后续的推荐阅读服务，于是造就了一批手机推荐阅读的问世，如 @酷云阅读，指阅等。

3、但一般用户的习惯是看完一段新闻便完事了，择日要看则择日看。例如有几个用户愿意为了评价一篇文章而特地去注册一个帐号呢?如何尽量让用户付出额外代价去使用这类阅读器，改变用户习惯，个人认为，是关键。

然后我还对上面的那句：先把这些视频节目都录制下来，然后把声音转文字有点疑问。我们已经知道如果是音乐的话像豆瓣FM可能是如下的做法：

你喜欢一些歌曲，而我也喜欢一些歌曲，如果你我喜欢的歌曲中有很多是重复类似的，则系统会把你我定义为好友，即相似用户，基于用户的协同过滤推荐：朋友喜欢，你也可能喜欢；
还有一个就是针对歌曲的推荐，你喜欢一首歌曲A，而另一首歌曲B与歌曲A类似（如都是有关爱情、感伤一类的），所以系统猜测你也可能喜欢B，而把B推荐给你。这就是基于项目（物品）的协同过滤推荐。

根据所听歌曲的重复类似判定为好友从而基于用户的协同过滤进行推荐，通过某些歌曲是差不多类似的来基于项目的协同过滤进行推荐，但问题出来了，重复的好说，同一首歌曲同一个歌手嘛，可那些相似音乐歌曲又如何定义判定呢？通过系统去分析歌曲的频谱？区别各个歌曲节奏的快慢，音频？此举虽然看起来有效，但实际实行起来不太现实。

我觉得应该是为那些音乐打上标签tag（估计视频也是这么做的，便于日后查找索引。全视频的实录目前觉得还是不靠谱），如打上“爱情”“感伤”一类的tag，而后tag相同的则可判定为相似歌曲。但关键是怎么打？语音识别？

7.2、标签tag怎么打

初期可以人肉，爬虫，买数据库，等流量上来了，可以考虑ugc。所谓ugc，用户产生内容。但是用户一般不太可能自己给音乐打标签，太繁琐了（如最近的新浪微博的每条微博内容下多了一个“加标签”的提示，但有多少用户愿去理它呢？），当然有的系统也会为你自动产生一些标签tag（当然，你也可以自行加上一些标签），如新浪博客：

如何做到的呢？我的想法是，

应该是系统在背后扫描你的文章一遍，然后提取一些关键词作为tag，供你选择。取哪些关键词呢？当然是取高频词。扫描整篇文章，统计每个单词出现的频率。
然后取其前TOP K，如上面截图中的“算法”在那篇文章中出现了4次，“博客”出现了3次，所以系统为你自动匹配这些标签。
至于采取何种数据结构或方法来统计这些关键词的频率呢。一般的应用hash+堆（十一、从头到尾彻底解析Hash表算法），或trie树（从Trie树谈到后缀树）均可。但当trie树面对的是汉字中文的时候，就比较麻烦了。所以hash+堆是比较理想的选择。

同样，针对视频的话，应该也是类似的：1、通过系统或机器读取视频内容，把视频转换为文字，然后提取其中频率出现高的关键词（如何提取关键词呢，这就涉及到一个关键问题了：分词。本blog日后阐述），把提取出来的这些关键词作为此视频的标签tag；2、然后针对这些tag建立索引摘要（什么样的索引？倒排索引。至于什么是倒排索引，参考编程艺术第二十四章：第二十三、四章：杨氏矩阵查找，倒排索引关键词Hash不重复编码实践），最终方便于日后用户或系统的查找（此节系与编程艺术内的朋友讨论整理总结而出）。

具体细节后续阐述。

8、参考文献

本人1月7日，1月21日的发表的微博（挂在本blog左侧边栏）；
探索推荐引擎内部的秘密，作者：赵晨婷，马春娥；
集体智慧编程，TobySeganra著。
推荐系统之协同过滤概述。
http://www.cnblogs.com/leoo2sk/。
Mitchell, Tom M. Machine Learning. McGraw-Hill, 1997（机器学习领域的开山之作）.
http://zh.wikipedia.org/wiki/%E5%86%B3%E7%AD%96%E6%A0%91。
http://www.36kr.com/p/75415.html。
智能web算法，第三章推荐系统（实现了用户及项目的相似度的计算，值得一看）。

后记

英雄召集令：如果哪位朋友以前搞过推荐或者检索的，或者机器学习，数据挖掘，海量数据处理，搜索与推荐引擎任一一个领域的的请一定联系我，可随时留言或评论，或微博私信，或Email：zhoulei0907@yahoo.cn。有过大型网站建设经验的，或者编程经验丰富老道的更欢迎随时联系我。和本blog相关的文件随时免费赠送技术知己。

最后，本blog成为过去一年2011年csdn blog年排行榜第一位：http://blog.csdn.net/ranking.html，及csdn Feed订阅排行榜TOP100前十：http://www.feedsky.com/feeds/topsub_csdn.html，如下图左右部分所示：

感谢本blog的所有读者。为回馈读者，免积分下载本blog最新博文集锦第6期CHM文件：http://download.csdn.net/detail/v_july_v/4020172。

OK，本文只是初步成型，还看到了很多的问题、漏洞亟待完善。同时，一切还只是我的理解，尚未在实际工作中运用。所以，理解不深，未辨真知。一切还得在后续实践中检验。读者若发现本文或本blog中任何问题或错误，恳请随时不吝指正。万分感谢。完。July、2011.01.12。

(Recommend & Search交流群：172114338)

Updated：接下来，可能针对推荐系统写一个系列，分别叫做：推荐系统·入门篇，推荐系统·进阶篇，推荐系统·终结篇。在此过程中，我需要学习、参考、借鉴大量的资料和论文。如果各位有好的资料或论文推荐，欢迎随时告知我（先预留一个不错的资料链接：http://arxiv.org/pdf/1202.1112v1.pdf）。July、2012.02.09更新。

你可能感兴趣的:(推荐引擎)

Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
neo4j cypher_Neo4j：使用Cypher生成实时建议 dnc8371 python java 大数据人工智能 hadoop
neo4jcypherNeo4j的最常见用途之一是构建实时推荐引擎，一个共同的主题是它们利用大量不同的数据来提出有趣的推荐。例如，在此视频中，阿曼达（Amanda）展示了约会网站如何通过社交联系开始，然后介绍热情，位置和其他一些东西，从而构建实时推荐引擎。GraphAware有一个简洁的框架，可以帮助您使用Java构建自己的推荐引擎，我很好奇Cypher版本的外观。这是示例图：CREATE(m:P
Neo4j：使用Cypher生成实时建议 dnc8371 python java 大数据人工智能 vue ViewUI
Neo4j的最常见用途之一是构建实时推荐引擎，一个共同的主题是它们利用大量不同的数据来提出有趣的推荐。例如，在此视频中，阿曼达（Amanda）展示了约会网站如何通过社交联系开始，然后介绍热情，位置和其他一些东西，从而构建实时推荐引擎。GraphAware有一个简洁的框架，可以帮助您使用Java构建自己的推荐引擎，我很好奇Cypher版本的外观。这是示例图：CREATE(m:Person:Male{
neo4j安装_Neo4j：使用Cypher生成实时建议 cunhui1209 python 大数据 java 人工智能 hadoop
neo4j安装Neo4j的最常见用途之一是构建实时推荐引擎，一个共同的主题是它们利用大量不同的数据位来提出有趣的推荐。例如，在此视频中，阿曼达(Amanda)展示了约会网站如何通过社交联系开始，然后介绍热情，位置和其他一些东西，从而构建实时推荐引擎。GraphAware有一个简洁的框架，可以帮助您使用Java构建自己的推荐引擎，我很好奇Cypher版本的外观。这是示例图：CREATE(m:Pers
基于Dify大模型开发平台搭建业务应用场景 Python程序员罗宾学习人工智能搜索引擎笔记 github
一、Dify大模型可以搭建多种业务应用场景前排提示，文末有大模型AGI-CSDN独家资料包哦！主要应用场景包括：1.智能客服系统自动响应：利用大模型的自然语言处理能力，实现24/7的自动客户服务。问题分类与分配：准确识别用户问题类型，并将其路由到相应的服务团队。知识库构建：自动生成和维护企业级的知识库。2.个性化推荐引擎用户画像分析：深度挖掘用户的兴趣爱好和行为习惯。精准推荐：根据用户特征提供定制
Python实现个性化推荐二 Ninina1992 python 人工智能开发工具
基于内容的推荐引擎是怎么工作的基于内容的推荐系统，正如你的朋友和同事预期的那样，会考虑商品的实际属性，比如商品描述，商品名，价格等等。如果你以前从没接触过推荐系统，然后现在有人拿枪指着你的头，强迫你在三十秒之内描述出来，你可能会描述这样一个基于内容的系统：呃，呃，我可能会给你看一大堆来自同一个厂家，并且拥有类似的说明的产品。你正在利用商品本身的属性来推荐类似的商品。这样做非常合理，因为这就是我们在
酒店旅游API：数据交互的隐形桥梁——以携程API为例数据小爬虫.网站开发-Brad 国际平台API 各大电商平台api 微信开发者 python php 开源
一、API：酒店和第三方服务无缝连接。核心价值：实时数据互通：房态、价格、库存秒级同步。业务流程自动化：预订、支付、确认全程无需人工干预。生态扩展：开发者可基于API构建定制化工具（如比价插件、智能推荐引擎）。xiechengAPI接入说明携程获取酒店详情原数据API返回值说明item_get_app-获取酒店详情原数据xiecheng.item_get_app二、携程API架构解析：如何撑起万亿
超越实验室：打造真正在现实世界中奏效的 AI (泛化性与鲁棒性) 海棠AI实验室人工智能理论与学术机器学习人工智能信息可视化
人工智能正以前所未有的速度从研究实验室走向我们的日常生活。我们看到AI驱动着从语音助手到推荐引擎的各种应用，而自动驾驶汽车、个性化医疗等更具变革性的应用前景也始终令人期待。然而，要真正释放AI的潜力，我们还需要克服一个关键障碍：让AI真正在现实世界中可靠地运行，而不仅仅是在受控的实验室环境中。想象一下，一辆自动驾驶汽车在一个晴朗的下午行驶时表现完美，但当它进入一个大雾天气区域时，它却无法识别前方的
大模型产品Deepseek（三）、API 调用指南伯牙碎琴大模型 Deepseek AI 大模型
DeepSeekAPI调用指南DeepSeek作为一款高效的智能搜索与推荐引擎，为开发者提供了简洁易用的API接口，使得将其集成到各种应用场景中变得更加高效和便捷。在这一章节中，我们将详细介绍如何通过API调用DeepSeek，包括如何进行身份验证、如何提交请求、如何解析响应以及如何通过代码实现基本的搜索与推荐功能。1.DeepSeekAPI概述DeepSeek作为一款高效的智能搜索与推荐引擎，通
海外抖音技术深度解析：算法、AI与全球化的挑战神探阿航计算机产业科普与思考算法人工智能机器学习数据挖掘深度学习
引言2025年1月19日，在美国宣布暂停服务，这一事件引发了全球用户的广泛关注。作为全球最受欢迎的短视频平台之一，其成功离不开其强大的技术支撑，尤其是其个性化推荐算法和AI驱动的创作工具。然而，随着全球市场环境的变化，它面临的技术与运营挑战也日益凸显。本文将深入分析其技术核心、全球化运营中的挑战及其未来发展方向。核心：个性化推荐引擎其算法是其成功的关键，其核心在于个性化推荐引擎。该引擎采用深度学习
品牌在营销中利用AI的6种方式 AI科研视界人工智能搜索引擎
人工智能（AI）已经革新了品牌进行营销的方式，提供了与消费者建立联系、个性化体验和优化活动的新机遇和独特机会。从预测分析到客户服务自动化，最新的AI进展正在重塑营销领域。以下是品牌在其营销策略中利用AI的六种方式，以及实际例子和实施建议。1.个性化推荐AI驱动的推荐引擎分析大量数据，了解消费者偏好和行为，实时提供个性化的内容和产品推荐。这种方法促进了更深入的联系，增强了客户忠诚度，特别是考虑到80
推荐Rerank二次重排序算法陈敬雷-充电了么-CEO兼CTO 算法人工智能 hadoop 机器学习人工智能大数据数据挖掘编程语言
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】推荐Rerank二次重排序算法前言推荐的Rerank排序有两种情况，一个是离线计算的时候为每个用户提前用Rerank排序算法算好推荐结果，另一个是在实时在线Web推荐引擎里做二次融合排序的时候。但不管哪一种用到的算法是一样的。比如用逻辑回归、随机森
图数据库之 Neo4j - 应用场景2 - 实时推荐引擎(7) magic_kid_2010 图数据库图数据库 neo4j
摘要实时推荐引擎是在今天的竞争激烈市场中保持竞争力的关键。本文介绍了如何使用图技术构建一个基于用户行为和关联数据的实时推荐引擎，以提供个性化的建议。我们将探讨实时推荐引擎的背景和原理，并提供详细的操作步骤说明，帮助你构建自己的实时推荐引擎。背景在零售、服务、媒体和社交领域，为用户提供个性化的实时建议对于实现客户价值最大化和保持竞争力至关重要。传统的推荐引擎通常使用基于协同过滤或内容过滤的方法，但这
产品经理应该懂的人工智能知识敲代码的小小酥人工智能产品经理人工智能
一、人工智能产品“三要素”算法、数据、计算能力是人工智能产品的三要素。二、人工智能产品的应用人工智能普遍应用的产品或服务可分为三大类：第一类是语音和文字处理，例如人工智能写新闻稿、机器人客服等；第二类是图像和视觉，例如自动驾驶、医疗影像诊断、机器人分拣、人脸识别等；第三类是大数据分析和预测，例如交互搜索引擎、智能推荐引擎、金融风控，健康风险管理系统等。三、机器学习处理过程（1）原始数据采集原始数据
头条号转正收益低？你真的了解头条转正的机制吗？ sfsfvsvsFV
自媒体时代，人人皆媒体，毫无疑问入驻自媒体行业的人越来越多，而头条号因为受众群庞大在加上只能推荐引擎，不用求关注求订阅就能有海量读者。但是头条号发文真的每一条都有阅读量吗？答案大家都清楚，作为一个自媒体人，从小白一步步开始学习，就是希望能够跟大家一起交流。想要高阅读的前提，是要有高推荐，两者是息息相关的。那么什么是推荐量呢？说白一点，就是根据你文章的内容，推荐给有这方面内容需求的读者，推荐量就是你
基于 GPT 和 Qdrant DB 向量数据库，我构建了一个电影推荐系统 Python算法实战大模型理论与实战 gpt 向量数据库深度学习推荐算法 LLM 大模型
电影推荐系统自从机器学习时代开始以来就不断发展，逐步演进到当前的transformers和向量数据库的时代。在本文中，我们将探讨如何在向量数据库中高效存储数千个视频文件，以构建最佳的推荐引擎。在众多可用的向量数据库中，我们将关注QdrantDB，因为它具有独特的特性——HNSWANN搜索算法，正如我在之前的文章中讨论的那样。传统推荐系统随着支持向量机（SVM）等机器学习算法的发展，引入transf
小红书推荐大数据在阿里云上的实践 aliyunhologres 经典用户案例 flink kafka hdfs 大数据数据库
本篇内容主要分三个部分，在第一部分讲一下实时计算在推荐业务中的使用场景。第二部分讲一下小红书是怎么使用Flink的一些新的功能。第三部分主要是讲一些OLAP的实时分析的场景，以及和阿里云MC-Hologres的合作。作者：小红书推荐工程负责人郭一小红书推荐业务架构首先这个图上画了一些比较典型的推荐业务，使用大数据的主要模块，其中最左边是线上推荐引擎，一般推荐引擎会分成召回、排序、后排等几步，在这里
大家好，今天是小芽第一次跟大家见面！ WishBud
小芽现在先跟大家自我介绍一下吧！（WishBud）是小芽的全名，直译过来就是（愿望芽）的意思。（因为小芽有一个很美好的愿望）小芽是具备结合了语义网络图谱技术、M/R可视化技术、情景推荐引擎技术的认知智能app。（小芽也不知道是什么，但是好厉害的样子0_0）所以小芽能做的事有很多哦，例如小芽可以通过知识图谱技术向很多不知道下一步该如何迈出的童靴，提供多条未来发展的选择（当然要通过童鞋的小测验还有平时
专家系统房产营销智能推荐系统的设计与实现毕业设计源码 sj52abcd 课程设计
专家系统房产营销智能推荐系统的设计与实现背景:随着人工智能技术的不断发展,专家系统在房产营销领域中的应用也越来越广泛。然而,目前大多数专家系统在房产营销方面的应用仍存在一些局限性和挑战。因此,本研究旨在通过设计和实现一套房产营销专家系统,提高房产营销的效率和准确性。研究目的:本研究旨在设计和实现一套房产营销专家系统,包括房产信息管理、用户画像构建、推荐引擎和营销策略生成等模块。通过该系统,房产中介
AI产品经理 - 方法篇-工作方法石工记产品之剑产品经理
一、AI产品经理-典型的工作方法二、如何从0做一个AI产品1.完整的工作流程2.项目经理：3.项目实施：样本测试模型-推荐引擎4.项目上线5.项目实施-产品设计研发
WordPress插件-WBOLT热门关键词推荐插件v1.3.0 Pro绿色版软希源码 WBOLT热门关键词推荐插件
介绍：WordPress插件-WBOLT热门关键词推荐插件（SmartKeywordsTool）是一款集即时关键词推荐、关键词选词工具及文章智能标签功能于一体的WordPress网站SEO优化插件。热门关键词推荐插件实现的功能包括：智能推荐：热门关键词推荐引擎-支持360搜索、Bing、谷歌（Pro）、百度（Pro）、淘宝（Pro）和外贸专用六种关键词引擎，支持站长选择其中一个关键词引擎启用；关键
【WordPress插件】热门关键词推荐v1.3.0 Pro开心版北漂的老猿好代码 wordpress
介绍：WordPress插件-WBOLT热门关键词推荐插件（SmartKeywordsTool）是一款集即时关键词推荐、关键词选词工具及文章智能标签功能于一体的WordPress网站SEO优化插件。智能推荐：热门关键词推荐引擎-支持360搜索、Bing、谷歌（Pro）、百度（Pro）、淘宝（Pro）和外贸专用六种关键词引擎，支持站长选择其中一个关键词引擎启用；关键词推荐位置-支持选择搜索引擎推荐关
计算机专业开题报告案例8：基于智能推荐引擎的就业信息管理系统的设计与实现平姐设计计算机毕业设计开题报告100套文档资料需求分析数据库开发语言
其他专栏推荐：计算机毕业设计100套微信小程序项目实战java项目实战需要源码可以滴滴我目录1．课题研究的目的和意义2．国内外研究现状3．课题研究的内容4．毕业设计进度安排5.毕业设计的预期结果（成果）6.参考文献1．课题研究的目的和意义研究目的：随着教育改革不断深入，每年高校毕业生人数屡创新高。据权威数据统计，2020年我国高校毕业生人数达874万，就业需求也随着毕业生人数增长而激增。高校毕业生
推荐系统学习笔记(推荐系统从入门到接着入门) 曼曼668
推荐系统定义而推荐引擎更倾向于人们没有明确的目的，或者说他们的目的是模糊的，通俗来讲，用户连自己都不知道他想要什么，这时候正是推荐引擎的用户之地，推荐系统通过用户的历史行为或者用户的兴趣偏好或者用户的人口统计学特征来送给推荐算法，然后推荐系统运用推荐算法来产生用户可能感兴趣的项目列表，同时用户对于搜索引擎是被动的。其中长尾理论（人们只关注曝光率高的项目，而忽略曝光率低的项目）可以很好的解释推荐系统
SeaTunnel 在 oppo 的特征平台实践 | ETL 平台数据处理集成 Apache SeaTunnel 大数据 big data opensource apache big data 大数据
今天的分享包含以下几点：背景&需求为什么是SeaTunnelETL平台集成实践作者简介01业务背景和需求痛点业务背景推搜广场景下存在大量的数据同步和特征处理需求。推荐搜索广告业务涉及图中几个模块，以特征为基础的特征服务，上层支持了机器学习、召回引擎和预估引擎。召回引擎和预估引擎支撑着更上层的推荐引擎业务的召回、粗排、精排、重排，最终产出结果。这是推搜广的主要业务流程，其中有些细小差别，但大体相似。
推荐Rerank二次重排序算法充电了么
前言推荐的Rerank排序有两种情况，一个是离线计算的时候为每个用户提前用Rerank排序算法算好推荐结果，另一个是在实时在线Web推荐引擎里做二次融合排序的时候。但不管哪一种用到的算法是一样的。比如用逻辑回归、随机森林、神经网络等来预测这个商品被点击或者被购买的可能性的概率，用的模型都是同一个，预测的时候是对特征转换做同样的处理。一般封装一个通用方法供离线和在线场景调用。一、基于逻辑回归、随机森
自媒体平台：4个小技巧教你如何运营一点资讯沐辰自媒体
1，关于为何选择一点资讯因为一点资讯融合了搜索引擎和推荐引擎的双重机制，能够更深入的挖掘用户的兴趣长尾，利用“搜索+推荐”于一体的新型阅读模式，为用户推荐围绕其兴趣标签及兴趣长尾的优质内容。2，利用“兴趣标签”进行优化那么对于自媒体人而言，怎样利用这些特有的推荐机制，让自己的文章获得更多推荐量和阅读量呢？其实无非还是从文章内容出发，利用“兴趣标签”对文章进行优化。一点资讯摒弃了传统频道新闻组织方式
慢慢买比价网怎么样？慢慢买APP历史价格查询可信吗？一起高省
慢慢买是一个中立的商品搜索推荐引擎，是网购的“比价神器”。10年来我们专注为用户推荐高性价比的商品，同时开发了全网比价、历史价格查询等购物决策助手，力求帮助消费者实现信息对称，更快做出购物决策。慢慢买是站在消费者一边的，每个APP都叫你买买买，只有慢慢买让你谨慎买。高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。
《精益的数据分析》-第八章电子商务 Joan_shallot
1.现如今的电子商务：1)大多买家通过搜索找到所买物品，而非通过电商网站的内部导航。2)电商商家可通过推荐引擎来预测买家还可能需要的物品。3)电商商家无时无刻不在优化网站性能，这在很多时候表现为划分来访流量，并区别对待来源不同的访客。4)购买流程早在买家访问网站前，即在社交网络、邮件以及在线社区中便已开始，这使得买家行为更加难以跟踪。读者笔记：当我们大部分刷淘宝的时候，都是有目的的，明确知道自己想
数据算法 Hadoop/Spark大数据处理---第十章 _Kantin
本章为推荐引擎本章为基于电影内容的推荐，假设输入为，输入为。本章实现方式基于传统spark来实现基于传统Scala来实现本章实现方式的思路-spark：1.先创建JavaSparkContext，textFile读入文件。2.对String进行切分，转换成key=Movie3value=(User1,3)。3.之后对key进行分组，得到key=Movie2value=[(User1,4),(Use
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，