好好学习的星熊

【推荐算法】如何利用用户行为数据为其做推荐？

以下内容为《推荐系统实践》个人学习笔记，包含书籍内容概括、自己的解读。
文章内容仅供参考，有兴趣可自行购买阅读原文。

1. 如何分类用户行为，及用数据表示用户行为？

1.1 如何对用户行为分类？

按照是否能反馈分为：
显性反馈行为（explicitfeedback）：包括用户明确表示对物品喜好的行为；
隐性反馈行为（implicit feedback）：不能明确反应用户喜好的行为。最具代表性的隐性反馈行为就是页面浏览行为。用户浏览一个物品的页面并不代表用户一定喜欢这个页面展示的物品，比如可能因为这个页面链接显示在首页，用户更容易点击它而已。

按照行为反馈方向分类为：
正反馈：指用户的行为倾向于指用户喜欢该物品；
负反馈：指用户的行为倾向于指用户不喜欢该物品；

在显性反馈中，很容易区分一个用户行为是正反馈还是负反馈，而在隐性反馈行为中，就相对比较难以确定。

1.2 如何设计表示用户行为的数据？

用户行为数据可由6部分组成：1. 用户；2. 行为；3. 行为的种类；4. 产生行为的上下文；5. 行为的内容；6. 行为的权重

不同的数据集包含不同的行为，按照有无上下文信息+显性/隐性反馈分类，可分为如下4类：

- 无上下文信息的隐性反馈数据集：每一条行为记录仅仅包含用户ID和物品ID。
- 无上下文信息的显性反馈数据集：每一条记录包含用户ID、物品ID和用户对物品的评分。
- 有上下文信息的隐性反馈数据集：每一条记录包含用户ID、物品ID和用户对物品产生行为的时间戳。
- 有上下文信息的显性反馈数据集：每一条记录包含用户ID、物品ID、用户对物品的评分和评分行为发生的时间戳。

2. 如何分析用户活跃度与物品流行度？

2.1 用户活跃度和物品流行度分布情况是怎么样的？两者有什么关系？

令 $f_u(k)$ 为对k个物品产生过行为的用户数，令 $f_i (k)$ 为被k个用户产生过行为的物品数。那么， $f_u(k)$ 和 $f_i (k)$ 都满足长尾分布。长尾分布公式如下：

$f(x)=\alpha x^{k}$
即，同时对越多物品产生过行为的用户数越少；同时被越多用户“使用过”的物品越少。

研究结论表示：用户活跃度和物品流行度的关系：用户越活跃，越倾向于浏览冷门的物品。

2.2 协同过滤算法简介

仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法。学术界对协同过滤算法进行了深入研究，提出了很多方法，比如基于邻域的方法（neighborhood-based）、隐语义模型（latent factor model）、基于图的随机游走算法（random walk on graph）等。在这些方法中，最著名的、在业界得到最广泛应用的算法是基于邻域的方法，而基于邻域的方法主要包含下面两种算法。

基于用户的协同过滤算法：给用户推荐和他兴趣相似的其他用户喜欢的物品。
基于物品的协同过滤算法：给用户推荐和他之前喜欢的物品相似的物品。

3. 如何设计推荐算法实验，及设计算法评测？

3.1 如何设计推荐算法实验？

首先，将用户行为数据集按照均匀分布随机分成M份（本章取M=8），挑选一份作为测试集，将剩下的M-1份作为训练集。
然后，在训练集上建立用户兴趣模型，并在测试集上对用户行为进行预测，统计出相应的评测指标。为了保证评测指标并不是过拟合的结果，需要进行M次实验，并且每次都使用不同的测试集。
最后，将M次实验测出的评测指标的平均值作为最终的评测指标。

3.2 如何设计推荐算法的评测指标？

对用户u推荐N个物品，记为R(u)，令用户u在测试集上喜欢的物品集合为T(u)。

评测指标1：召回率
描述用户喜欢的物品中，被推荐的物品的比例。比如用户u喜欢20个物品，我们推荐了10个，其中有5个在用户u喜欢的物品列表中，那么用户u的召回率=1/4。公式如下：

$recall=\frac{ \displaystyle\sum_u{R(u)\cap T(u)} }{ \displaystyle\sum_uT(u) }$

评测指标2：准确率
描述用户被推荐的物品中，实际喜欢的物品的比例。在上面的例子中，准确率=1/2；公式如下：

$precision=\frac{ \displaystyle\sum_u{R(u)\cap T(u)} }{ \displaystyle\sum_u{R(u)} }$

评测指标3：覆盖率
反映了推荐算法发掘长尾的能力，覆盖率越高，说明推荐算法越能够将长尾中的物品推荐给用户。最简单的覆盖率公式如下：

$Coverage=\frac{ |U_{u\in{U}}R(u)| }{ |I| }$

其中， $|U_{u\in{U}}R(u)|$ 表示被推荐物品的用户数， $∣ I ∣$ 表示所有物品的总数量。该覆盖率表示最终的推荐列表中包含多大比例的物品。如果所有的物品都被推荐给至少一个用户，那么覆盖率就是100%。（即，被推荐的物品数/物品总数量）

评测指标4：新颖度
这里用推荐列表中物品的平均流行度度量推荐结果的新颖度。如果推荐出的物品都很热门，说明推荐的新颖度较低，否则说明推荐结果比较新颖。（即，推荐视频中的热门视频数量）

4. 如何使用基于领域的算法做推荐？

4.1 基于用户的协同过滤算法

什么是基于用户的协同过滤算法？
在一个在线个性化推荐系统中，当一个用户A需要个性化推荐时，可以先找到和他有相似兴趣的其他用户，然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A。这种方法称为基于用户的协同过滤算法。

基于用户的协同过滤算法主要包括2个步骤：
(1) 找到和目标用户兴趣相似的用户集合；
(2) 找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户。

步骤(1)的关键就是计算两个用户的兴趣相似度，协同过滤算法主要利用行为的相似度计算兴趣的相似度。计算方法有：1）Jaccard公式；2）余弦相似度；3）排除法优化余弦相似度；

1） Jaccard公式
给定用户u和用户v，令N(u)表示用户u曾经有过正反馈的物品集合，令N(v)为用户v曾经有过正反馈的物品集合。那么，我们可以通过如下的Jaccard公式简单地计算u和v的兴趣相似度：即，共同正反馈物品数量/每个用户物品数量之和

$w_{uv}=\frac{ |N(u)\cap N(v)| }{ |N(u)\cup N(v)| }$

2）余弦相似度
或者通过余弦相似度计算：即，共同正反馈物品数量/每个用户物品数量之积开平方

$w_{uv}=\frac{ |N(u)\cap N(v)| }{ \sqrt{|N(u)|| N(v)|} }$

3）排除法优化余弦相似度

以上方法的时间复杂度是 $O (∣ U ∣ * ∣ U ∣)$ ，当用户数很大时非常耗时。很多用户相互之间并没有对同样的物品产生过行为，即很多时候 $O (∣ U ∣ * ∣ U ∣) = 0$ 。如果换一个思路，我们可以首先计算出 $|N(u)\cap N(v)|\ne 0$ 的用户对(u,v)，然后再对这种情况除以分母 $\sqrt{|N(u)|| N(v)|}$ 。

排除法的具体步骤如下：建立物品到用户的倒排表，对于每个物品都保存对该物品产生过行为的用户列表。令稀疏矩阵 $C[u][v]=|N(u)\cap N(v)|$ ，然后计算 $\sqrt{|N(u)|| N(v)|}$ ，再对两个矩阵进行相对位置元素的除法运算，就可以得到不同用户间的行为相似度的矩阵。

得到用户之间的兴趣相似度后，UserCF算法会给用户推荐和他兴趣最相似的K个用户喜欢的物品。这时，就要想办法衡量用户对物品的兴趣。

假设对于计算用户u对物品i兴趣，这里的兴趣，可以理解为，对该物品可能产生行为的行为度。公式如下：

$p(u,i)=\sum_{v\in S(u,k)\cap N(i)}w_{uv}r_{vi}$

其中，S (u , K )包含和用户u行为最接近的K 个用户，N (i )是对物品i 有过行为的用户集合， $w_{uv}$ 是用户u和用户v的行为相似度， $r_{vi}$ 代表用户v对物品i的行为；因为使用的是单一行为的隐反馈数据，所以所有的 $r_{vi} =1$ 。

案例：以K=3为标准进行计算，如何计算用户A对物品c、e的兴趣？

根据倒排表可得，进行过c、e行为的有BD、CD用户，那么用户A对c行为的兴趣度=用户A与用户B、D的兴趣相似度之和，即p(A,c)= $W_{AB}+W_{AD}$ =AB共同行为数量/AB行为数量之积开根号+AD共同行为数量/AD行为数量之积开根号= $1/\sqrt{6}+1/3$ =0.7416。

故，计算用户u对物品i兴趣3个步骤：
①找到有过相关物品行为的用户；②计算目标用户与相关物品行为用户的兴趣相似度；③将所有相关物品行为用户的相似度加和，即得到目标用户对特定物品的兴趣（行为度）

模型效果评估：

不同K值下模型性能不同，案例数据集中的评估指标情况如下：

研究中，设计随机挑选物品推荐，和物品流行度推荐两种方法对比，结论如下：Random算法每次都随机挑选10个用户没有产生过行为的物品推荐给当前用户，MostPopular算法则按照物品的流行度给用户推荐他没有产生过行为的物品中最热门的10个物品。两种基本推荐算法性能比较如下图所示：
MostPopular算法的准确率和召回率远远高于Random算法，但它的覆盖率非常低，结果都非常热门。可见，Random算法的准确率和召回率很低，但覆盖度很高，结果平均流行度很低。

对以上评估指标的解读情况如下：

准确率和召回率可以看到，推荐系统的精度指标（准确率和召回率）并不和参数K 成线性关系。在MovieLens数据集中，选择K =80左右会获得比较高的准确率和召回率。因此选择合适的K 对于获得高的推荐系统精度比较重要。当然，推荐结果的精度对K 也不是特别敏感，只要选在一定的区域内，就可以获得不错的精度。

流行度可以看到，在3个数据集上K 越大则UserCF推荐结果就越热门。这是因为K 决定了UserCF在给你做推荐时参考多少和你兴趣相似的其他用户的兴趣，那么如果K 越大，参考的人越多，结果就越来越趋近于全局热门的物品。

覆盖率可以看到，在3个数据集上，K 越大则UserCF推荐结果的覆盖率越低。覆盖率的降低是因为流行度的增加，随着流行度增加，UserCF越来越倾向于推荐热门的物品，从而对长尾物品的推荐越来越少，因此造成了覆盖率的降低。

优化方式：如何剔除热门物品对推荐的影响？

下面介绍对于用户兴趣相似度的计算的改进，也称为User-IIF算法，即两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度，相似度公式如下：

$w_{uv}=\frac{ \displaystyle \sum_{i \in N(u) \cap N(v)}\frac{1}{log(1+|N(i)|)} }{ \sqrt{|N(u)||N(v)|} }$

该公式通过 $\frac{1}{log(1+|N(i)|)}$ 惩罚了用户u和用户v共同兴趣列表中热门物品对他们相似度的影响。

4.2 基于物品的协同过滤算法

ItemCF算法定义：
ItemCF算法主要通过分析用户的行为记录计算物品之间的相似度。该算法认为，物品A和物品B具有很大的相似度是因为喜欢物品A的用户大都也喜欢物品B。

算法步骤：
基于物品的协同过滤算法主要分为两步。(1) 计算物品之间的相似度。(2) 根据物品的相似度和用户的历史行为给用户生成推荐列表。

物品相似度的计算公式：即同时喜欢i、j两个物品的用户数/喜欢i物品的用户数

$w_{ij}=\frac{ |N(i)\cap N(j)| }{ |N(i)| }$

因此，上述公式可以理解为喜欢物品i的用户中有多少比例的用户也喜欢物品j。

根据上述公式，可知Item算法计算物品相似度的步骤

建立用户-物品倒排表
对于每个用户，将物品列表中的物品两两在共线矩阵C中加1
将C矩阵归一化可以得到物品之间的余弦相似度矩阵W。

计算用户u对物品j的兴趣：

该算法下，计算用户u对物品j兴趣的公式如下（注意对比和基于用户的协同过滤算法中用户u对物品i兴趣的差别）：

$p_{uj}=\sum_{i\in{N(u)}\cap{S(j,K)}} w_{ji}r_{ui}$

这里N(u)是用户喜欢的物品的集合，S(j, K)是和物品j最相似的K个物品的集合， $w_{ji}$ 是物品j和i的相似度， $r_{ui}$ 是用户u对物品i的兴趣。对于隐反馈数据集，如果用户u对物品i有过行为，即可令 $r_{ui}$ =1。该公式的含义是，和用户历史上感兴趣的物品越相似的物品，越有可能在用户的推荐列表中获得比较高的排名。

优化方向：如何剔除热门物品对物品相似度的影响？

如果物品j很热门，很多人都喜欢，那么 $W_{ij}$ 就会很大，接近1。因此，该公式会造成任何物品都会和热门的物品有很大的相似度，这对于致力于挖掘长尾信息的推荐系统来说显然不是一个好的特性。为了避免推荐出热门的物品，可以用下面的公式：

$w_{ij}=\frac{ |N(i)\cap N(j)| }{ \sqrt{|N(i)||N(j)|} }$

即，喜欢两个物品的用户数/喜欢单个物品的用户数之积开根号，这个公式惩罚了物品j的权重，因此减轻了热门物品会和很多物品相似的可能性。

ItemCF的评估指标解读

精度（准确率和召回率）：可以看到ItemCF推荐结果的精度也是不和K成正相关或者负相关的，因此选择合适的K 对获得最高精度是非常重要的。

流行度：和UserCF不同，参数K 对ItemCF推荐结果流行度的影响也不是完全正相关的。随着K 的增加，结果流行度会逐渐提高，但当K 增加到一定程度，流行度就不会再有明显变化。

覆盖率：K 增加会降低系统的覆盖率。

优化方向：考虑用户活跃度对物品相似度的影响

用户活跃度对物品相似度的影响如下：活跃用户对物品相似度的贡献应该小于不活跃的用户。故应该增加IUF参数（IUF（Inverse UserFrequence），即用户活跃度对数的倒数的参数）来修正物品相似度的计算公式，即ItemCF-IUF公式，修正公式具体如下：

$w_{ij}=\frac{ \displaystyle \sum_{u \in N(i) \cap N(j)}\frac{1}{log(1+|N(u)|)} }{ \sqrt{|N(i)||N(j)|} }$

上面的公式只是对活跃用户做了一种软性的惩罚，但对于很多过于活跃的用户，比如上面那位买了当当网80%图书的用户，为了避免相似度矩阵过于稠密，我们在实际计算中一般直接忽略他的兴趣列表，而不将其纳入到相似度计算的数据集中。

如何理解ItemCF和ItemCF-IUF公式差异：
ItemCF-IUF在准确率和召回率两个指标上和ItemCF相近，但ItemCF-IUF明显提高了推荐结果的覆盖率，降低了推荐结果的流行度。从这个意义上说，ItemCF-IUF确实改进了ItemCF的综合性能。

优化方向：使用归一化以提高推荐准确率

如果将ItemCF的相似度矩阵按最大值归一化，可以提高推荐的准确率。如果已经得到了物品相似度矩阵w，那么可以用如下公式得到归一化之后的相似度矩阵w＇，公式如下：

$w_{ij}=\frac{ w_{ij} }{ \mathop{max} \limits_j w_{ij} }$

归一化的好处还包括：①增加推荐的准确度，②提高推荐的覆盖率和多样性，即将不同类型的物品进行相似度的比较，类似消除量纲的影响。

热门的类其类内物品相似度一般比较大。如果不进行归一化，就会推荐比较热门的类里面的物品，而这些物品也是比较热门的。因此，推荐的覆盖率就比较低。相反，如果进行相似度的归一化，则可以提高推荐系统的覆盖率。

对比ItemCF算法和ItemCF-Norm算法的离线实验性能。从实验结果可以看到，归一化确实能提高ItemCF的性能，其中各项指标都有了比较明

4.3 UserCF和ItemCF的综合比较

区别一：对用户兴趣偏好的差异

UserCF给用户推荐那些和他有共同兴趣爱好的用户喜欢的物品，而ItemCF给用户推荐那些和他之前喜欢的物品类似的物品。从这个算法的原理可以看到，UserCF的推荐结果着重于反映和用户兴趣相似的小群体的热点，而ItemCF的推荐结果着重于维系用户的历史兴趣。换句话说，UserCF的推荐更社会化，反映了用户所在的小型兴趣群体中物品的热门程度，而ItemCF的推荐更加个性化，反映了用户自己的兴趣传承。

ItemCF算法适用于用户不太需要流行度来辅助他们判断一个物品的好坏，而是可以通过自己熟悉领域的知识自己判断物品的质量。这些网站中个性化推荐的任务是帮助用户发现和他研究领域相关的物品。此外，这些网站的物品更新速度不会特别快，一天一次更新物品相似度矩阵对它们来说不会造成太大的损失，是可以接受的。

区别二：存储空间的差异

UserCF需要维护一个用户相似度的矩阵，而ItemCF需要维护一个物品相似度矩阵。从存储的角度说，如果用户很多，那么维护用户兴趣相似度矩阵需要很大的空间，同理，如果物品很多，那么维护物品相似度矩阵代价较大。

区别三：指标差异

首先要指出的是，离线实验的性能在选择推荐算法时并不起决定作用。

首先应该满足产品的需求，比如如果需要提供推荐解释，那么可能得选择ItemCF算法。

其次，需要看实现代价，比如若用户太多，很难计算用户相似度矩阵，这个时候可能不得不抛弃UserCF算法。

最后，离线指标和点击率等在线指标不一定成正比。

而且，这里对比的是最原始的UserCF和ItemCF算法，这两种算法都可以进行各种各样的改进。一般来说，这两种算法经过优化后，最终得到的离线性能是近似的。

为什么原始ItemCF算法的覆盖率和新颖度都不高？原因如下：

如果j非常热门，那么上面公式的分子 $|N(i)\cap{N(j)}|$ 就会越来越接近 $∣ N (i) ∣$ 。尽管上面的公式分母已经考虑到了j的流行度，但在实际应用中，热门的j仍然会获得比较大的相似度。解决方法如下：①加大对热门物品的惩罚，比如采用如下公式：

$w_{ij}=\frac{ |N(i)\cap{N(j)}| }{ |N(i)|^{1-\alpha}|N(j)|^{\alpha} }$

其中α∈[0.5,1]。通过提高α，就可以惩罚热门的j。α越大，覆盖率就越高，并且结果的平均热门程度会降低。因此，通过这种方法可以在适当牺牲准确率和召回率的情况下显著提升结果的覆盖率和新颖性（降低流行度即提高了新颖性）。

两个不同领域的最热门物品之间往往具有比较高的相似度。这个时候，仅仅靠用户行为数据是不能解决这个问题的，因为用户的行为表示这种物品之间应该相似度很高。此时，我们只能依靠引入物品的内容数据解决这个问题，比如对不同领域的物品降低权重等。

5. 如何使用隐语义模型（LFM）做推荐？

LFM（latent factor model）隐语义模型用于找到文本的隐含语义。相关的名词有LSI、pLSA、LDA和TopicModel。本章将以LFM为例介绍隐含语义分析技术在推荐系统中的应用。

5.1 如何理解隐语义模型的基础算法？

核心思想是通过隐含特征(latent factor)联系用户兴趣和物品，即对用户兴趣和物品进行分类。该方法需要解决3个问题。

①如何给物品进行分类？

②如何确定用户对哪些类的物品感兴趣，以及感兴趣的程度？

③对于一个给定的类，选择哪些属于这个类的物品推荐给用户，以及如何确定这些物品在一个类中的权重？

对于如何给物品进行分类，隐含语义分析技术比编辑人工分类有如下优势：

隐含语义分析技术因为采取基于用户行为统计的自动聚类，较好地解决了5个问题。

编辑的意见不能代表各种用户的意见，但隐含语义分析技术的分类来自对用户行为的统计，代表了用户对物品分类的看法。隐含语义分析技术和ItemCF在物品分类方面的思想类似，如果两个物品被很多用户同时喜欢，那么这两个物品就很有可能属于同一个类。

编辑很难控制分类的粒度，但隐含语义分析技术允许我们指定最终有多少个分类，这个数字越大，分类的粒度就会越细，反之分类粒度就越粗。

编辑很难给一个物品多个分类，但隐含语义分析技术会计算出物品属于每个类的权重，因此每个物品都不是硬性地被分到某一个类中。

编辑很难给出多维度的分类，但隐含语义分析技术给出的每个分类都不是同一个维度的，它是基于用户的共同兴趣计算出来的，如果用户的共同兴趣是某一个维度，那么LFM给出的类也是相同的维度。

编辑很难决定一个物品在某一个分类中的权重，但隐含语义分析技术可以通过统计用户行为决定物品在每个类中的权重，如果喜欢某个类的用户都会喜欢某个物品，那么这个物品在这个类中的权重就可能比较高。

如何使用LFM，计算用户u对物品i的兴趣？
LFM公式如下：

$Perference(u,i)=r_{ui}=p_u^Tq_i=\sum_{f=1}^F{p_{u,k}q_{i,k}}$

其中 $p_{u,k}$ 度量了用户u的兴趣和第k个隐类的关系，而 $q_{i,k}$ 度量了第k个隐类和物品i之间的关系。那么，下面的问题就是如何计算这两个参数。要计算这两个参数，需要一个训练集，对于每个用户u，训练集里都包含了用户u喜欢的物品和不感兴趣的物品，通过学习这个数据集，就可以获得上面的模型参数。

LFM如何给每个用户生成负样本？

推荐系统的用户行为分为显性反馈和隐性反馈。LFM在显性反馈数据（也就是评分数据）上解决评分预测问题并达到了很好的精度。对于隐性反馈数据集，LFM解决TopN推荐的第一个关键问题就是如何给每个用户生成负样本。可以参考如下方法：

对于一个用户，用他所有没有过行为的物品作为负样本。它的明显缺点是负样本太多，正负样本数目相差悬殊，因而计算复杂度很高，最终结果的精度也很差。

对于一个用户，从他没有过行为的物品中均匀采样出一些物品作为负样本。

对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，保证每个用户的正负样本数目相当。

对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，偏重采样不热门的物品。

以上方法，第三种好于第二种，而第二种好于第四种。

LFM模型对负样本采样时应该遵循以下原则：
①对每个用户，要保证正负样本的平衡（数目相似）；
②对每个用户采样负样本时，要选取那些很热门，而用户却没有行为的物品。

如何构建LFM的损失函数？

根据以上逻辑，可得损失函数，通过求解损失函数得到最优参数p和q，损失函数公式如下：

$C=\sum_{(u,i)\in K}{(r_{ui}-\hat{r}_{ui})^2} =\sum_{(u,i)\in K}{(r_{ui}-\sum^k_{k=1}p_{u,k}q_{i,k})^2} +\lambda||p_u||^2+\lambda||q_i||^2$

其中 $\lambda||p_u||^2+\lambda||q_i||^2$ 是防止过拟合的正则化项。

如何求解LFM的损失函数？

求解以上函数，可以使用随机梯度下降法。
随机梯度算法是最优化理论里最基础的优化算法，它首先通过求参数的偏导数找到最速下降方向，然后通过迭代法不断地优化参数。下面介绍优化方法的数学推导：

第一步，求偏导，公式如下

$\begin{align} \frac{\partial{C}}{\partial{p_{uk}}} &=-2q_{ik}\cdot e_{ui}+2\lambda p_{uk}\\ \frac{\partial{C}}{\partial{q_{ik}}}&=-2p_{uk}\cdot e_{ui}+2\lambda q_{ik} \end{align}$

第二步，得到递推公式：

$\begin{align} p_{uk} &=p_{uk}+\alpha(q_{ik}\cdot e_{ui}-\lambda p_{uk})\\ q_{ik} &=q_{ik}+\alpha(p_{uk}\cdot e_{ui}-\lambda q_{ik}) \end{align}$

其中 $\alpha$ 为学习率，通过迭代获得最优参数值；

LFM中的4个重要参数：

隐特征的个数F；

学习速率alpha；

正则化参数lambda；

负样本/正样本比例 ratio，ratio参数对LFM的性能影响最大。

LFM模型评估指标结果如下：

随着负样本数目的增加，LFM的准确率和召回率有明显提高。
当ratio>10以后，准确率和召回率基本就比较稳定。
随着负样本数目的增加，覆盖率不断降低，而推荐结果的流行度不断增加，说明ratio参数控制了推荐算法发掘长尾的能力。

5.2 基于LFM的实际系统的例子

第一步，确立目标：雅虎的研究人员以CTR作为优化目标，利用LFM来预测用户是否会单击一个链接。

第二步，预测用户行为：利用前文提到的LFM预测用户是否会单击链接，即 $\hat{r}_{ui}=p_u^T\cdot q_i$

第三步，迭代实时性问题：首先，他们利用新闻链接的内容属性（关键词、类别等）得到链接i的内容特征向量 $y_i$ 。其次，实时地收集用户对链接的行为，并且用这些数据得到链接i的隐特征向量 $q_i$ 。然后，他们会利用如下公式预测用户u是否会单击链接i：

$r_{ui}=x_u^T\cdot y_i+p_u^T\cdot q_i$

其中， $y_i$ 是根据物品的内容属性直接生成的， $x_{uk}$ 是用户u对内容特征k的兴趣程度，用户向量 $x_u$ 可以根据历史行为记录获得，而且每天只需要计算一次。而 $p_u$ 、 $q_i$ 是根据实时拿到的用户最近几小时的行为训练LFM获得的。因此，对于一个新加入的物品i，可以通过 $x_u^T\cdot y_i$ 估计用户u对物品i的兴趣，然后经过几个小时后，就可以通过 $p_u^T\cdot q_i$ 得到更加准确的预测值。

5.3 如何理解LFM和基于邻域的算法之间的差异？

两者的差异可以概括为以下5方面：①理论基础；②离线计算的空间复杂度；③离线计算的时间复杂度；④在线实时推荐；⑤推荐的解释性

理论基础：LFM具有比较好的理论基础，通过优化一个设定的指标建立最优的模型。基于邻域的方法更多的是一种基于统计的方法，并没有学习过程。
离线计算的空间复杂度：LFM在建模过程中，如果是F个隐类，那么它需要的存储空间是O(F *(M +N ))，这在M和N很大时可以很好地节省离线计算的内存。基于邻域的方法需要维护一张离线的相关表。在离线计算相关表的过程中，如果用户/物品数很多，将会占据很大的内存。假设有M 个用户和N 个物品，假设是用户相关表，则需要O(M *M )的空间，对于物品相关表，则需要O(N *N )的空间。
离线计算的时间复杂度：假设有M 个用户、N 个物品、K 条用户对物品的行为记录。对于LFM，如果用F个隐类，迭代S次，那么它的计算复杂度是O(K * F* S )。UserCF计算用户相关表的时间复杂度是O(N * (K/N )^2)，而ItemCF计算物品相关表的时间复杂度是O(M *(K /M )^2)。如果K /N < F *S，则代表UserCF的时间复杂度低于LFM，如果K /M < F *S，则说明ItemCF的时间复杂度低于LFM。一般LFM的时间复杂度要稍微高于UserCF和ItemCF，这主要是因为该算法需要多次迭代。但总体上，这两种算法在时间复杂度上没有质的差别。
在线实时推荐：LFM在给用户生成推荐列表时，需要计算用户对所有物品的兴趣权重，然后排名，返回权重最大的N 个物品。那么，在物品数很多时，这一过程的时间复杂度非常高，可达O(M *N *F )。因此，LFM不太适合用于物品数非常庞大的系统。UserCF和ItemCF在线服务算法需要将相关表缓存在内存中，然后可以在线进行实时的预测
推荐解释：ItemCF算法支持很好的推荐解释，它可以利用用户的历史行为解释推荐结果。但LFM无法提供这样的解释，它计算出的隐类虽然在语义上确实代表了一类兴趣和物品，却很难用自然语言描述并生成解释展现给用户。

6. 如何使用基于图的模型做推荐？

6.1 如何理解用户行为数据的二分图?

本章讨论的用户行为数据是由一系列二元组组成的，其中每个二元组(u, i)表示用户u对物品i产生过行为。
令G (V , E)表示用户物品二分图，其中 $V =V_U∪ V_I$ 由用户顶点集合 $V_U$ 和物品顶点集合 $V_I$ 组成。对于数据集中每一个二元组( u, i)，图中都有一套对应的边 $e( v_u, v_i)$ ，其中 $v_u∈V_U$ 是用户u对应的顶点， $v_i∈V_I$ 是物品i对应的顶点。
下图是一个简单的用户物品二分图模型，其中圆形节点代表用户，方形节点代表物品，圆形节点和方形节点之间的边代表用户对物品的行为。比如图中用户节点A和物品节点a、b、d相连，说明用户A对物品a、b、d产生过行为。

6.2 如何使用基于图的推荐算法？

如何理解基于图的推荐算法的原理？
如果将个性化推荐算法放到二分图模型上，那么给用户u推荐物品的任务就可以转化为度量用户顶点 $v_u$ 和与 $v_u$ 没有边直接相连的物品节点在图上的相关性，相关性越高的物品在推荐列表中的权重就越高。

度量图中两个顶点之间相关性的方法主要取决于下面3个因素：①两个顶点之间的路径数；②两个顶点之间路径的长度；③两个顶点之间的路径经过的顶点。

而相关性高的一对顶点一般具有如下特征：①两个顶点之间有很多路径相连；②连接两个顶点之间的路径长度都比较短；③连接两个顶点之间的路径不会经过出度比较大的顶点。

如何计算图中顶点之间相关性？
这里介绍两种方法：①基于随机游走的PersonalRank算法；②基于矩阵论设计算法。

接下来介绍计算图中顶点之间相关性的方法之一：基于随机游走的PersonalRank算法。
PersonalRank算法原理解释如下：假设要给用户u进行个性化推荐，可以从用户u对应的节点vu开始在用户物品二分图上进行随机游走。游走到任何一个节点时，首先按照概率α决定是继续游走，还是停止这次游走并从vu节点开始重新游走。如果决定继续游走，那么就从当前节点指向的节点中按照均匀分布随机选择一个节点作为游走下次经过的节点。这样，经过很多次随机游走后，每个物品节点被访问到的概率会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。

PersonalRank算法描述成公式，如下：

$PR(v)=\begin{split} \begin{cases} \displaystyle \alpha\sum_{v'\in{in(v)}}\frac{PR(v')}{|out(v')|} & (v\ne v_u) \\ \displaystyle (1-alpha)+\alpha\sum_{v'\in{in(v)}}\frac{PR(v')}{|out(v')|} & (v= v_u) \end{cases} \end{split}$

PersonalRank的时间复杂度非常高，不仅无法在线提供实时推荐，甚至离线生成推荐结果也很耗时。这里给出两种解决方案。第一种很容易想到，就是减少迭代次数，在收敛之前就停止。这样会影响最终的精度，但一般来说影响不会特别大。

另一种方法就是从矩阵论出发，重新设计算法，具体方法如下：

第一步，令M为用户物品二分图的转移概率矩阵

$M(v,v')=\frac{1}{|out(v)|}$

第二步，迭代公式转化为：

$\begin{align} r &=(1-\alpha)r_0+\alpha M^Tr \\ &=(1-\alpha)(1-\alpha M^T)^{-1}r_0 \end{align}$

第三步，对稀疏矩阵 $1-\alpha M^T$ 快速求逆

你可能感兴趣的:(业务分析笔记,推荐算法,大数据,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后