BPIT鹏

推荐系统——矩阵分解

一、隐因子模型（Latent Factor Model，LFM）

LFM是推荐系统中的经典模型，它也就是2006年Simon Funk在博客中公开的算法，当时背景是Netflix Prize比赛。LFM的核心算法是Funk-SVD算法，是推荐系统领域比较知名的算法之一。LFM主要应用在两个方面：一个是用户评分预测，一个是物品隐类Top-N热门排行。做法就是将评分矩阵分解成两个低维矩阵相乘。当年提出算法的博客链接：https://sifter.org/~simon/journal/20061211.html

二、矩阵分解（Matrix Factorization，MF）

基于矩阵分解的方法是一类流行的潜在因子模型。通过将用户和项目映射到联合潜在因子空间，矩阵分解可以将用户-项目交互建模为用户和项目潜在因子向量的内积。但是，已知基于矩阵分解的方法存在稀疏性和透明性的问题。

声明：以下内容源于腾讯技术工程，作者zhongzhao

主要介绍了显式矩阵分解和隐式矩阵分解的数学原理，包括模型思想、目标函数、优化求解的公式推导等，旨在为需要了解算法细节的同学提供参考。

1、显式数据和隐式数据

MF用到的用户行为数据分为显式数据和隐式数据两种。显式数据是指用户对item的显式打分，比如用户对电影、商品的评分，通常有5分制和10分制。隐式数据是指用户对item的浏览、点击、购买、收藏、点赞、评论、分享等数据，其特点是用户没有显式地给item打分，用户对item的感兴趣程度都体现在他对item的浏览、点击、购买、收藏、点赞、评论、分享等行为的强度上。

显式数据的优点是行为的置信度高，因为是用户明确给出的打分，所以真实反映了用户对item的喜欢程度。缺点是这种数据的量太小，因为绝大部分用户都不会去给item评分，这就导致数据非常稀疏，同时这部分评分也仅代表了小部分用户的兴趣，可能会导致数据有偏。隐式数据的优点是容易获取，数据量很大。因为几乎所有用户都会有浏览、点击等行为，所以数据量大，几乎覆盖所有用户，不会导致数据有偏。其缺点是置信度不如显式数据的高，比如浏览不一定代表感兴趣，还要看强度，经常浏览同一类东西才能以较高置信度认为用户感兴趣。

根据所使用的数据是显式数据还是隐式数据，矩阵分解算法又分为两种。使用显式数据的矩阵分解算法称为显式矩阵分解算法，使用隐式数据的矩阵分解算法称为隐式矩阵分解算法。由于矩阵分解算法有众多的改进版本和各种变体，本文不打算一一列举，因此下文将以实践中用得最多的矩阵分解算法为例，介绍其具体的数据原理，这也是spark机器学习库mllib中实现的矩阵分解算法。从实际应用的效果来看，隐式矩阵分解的效果一般会更好。

2、显式矩阵分解

在本系列第一篇文章中，我们提到，矩阵分解算法的输入是user对item的评分矩阵(图1等号左边的矩阵)，输出是User矩阵和Item矩阵(图1等号右边的矩阵)，其中User矩阵的每一行代表一个用户向量，Item矩阵的每一列代表一个item的向量。User对item的预测评分用它们的向量内积来表示，通过最小化预测评分和实际评分的差异来学习User矩阵和Item矩阵。

2.1 目标函数

为了用数学的语言定量表示上述思想，我们先引入一些符号。设rui 表示user u 对item i 的显式评分，当rui >0时，表示用户u 对item i 有评分，当rui =0时，表示用户u 对item i 没有评分，xu 表示用户u 的向量，yi 表示item i 的向量，则显式矩阵分解的目标函数为：

其中xu 和yi 都是k 维的列向量，k 为隐变量的个数。

是所有xu 构成的矩阵。

为所有yi 构成的矩阵，N 为用户数，M 为item数，λ为正则化参数。

在上述公式中，为用户向量与物品向量的内积，表示用户u 对物品i 的预测评分，目标函数通过最小化预测评分和实际评分rui 之间的残差平方和，来学习所有用户向量和物品向量。这里的残差项只包含了有评分的数据，不包括没有评分的数据。目标函数中第二项是L2正则项，用于保证数值计算稳定性和防止过拟合。

2.2 求解方法：

求解X 和Y 采用的是交替最小二乘法(alternative least square, ALS)，也就是先固定X 优化Y ，然后固定Y 优化X ，这个过程不断重复，直到X 和Y 收敛为止。每次固定其中一个优化另一个都需要解一个最小二乘问题，所以这个算法叫做交替最小二乘方法。

(1)Y 固定为上一步迭代值或初始化值，优化X ：

此时，Y 被当做常数处理，目标函数被分解为多个独立的子目标函数，每个子目标函数对应一个用户。对于用户u ，目标函数为：

这里面残差项求和的个数等于用于u 评过分的物品的个数，记为m 个。把这个目标函数化为矩阵形式，得:

其中，

表示用户u 对这m 个物品的评分构成的向量。

表示这m 个物品的向量构成的矩阵，顺序跟Ru 中物品的顺序一致。

对目标函数J关于xu 求梯度，并令梯度为零，得：

解这个线性方程组，可得到xu 的解析解为：

(2) X 固定为上一步迭代值或初始化值，优化Y：

此时，X 被当做常数处理，目标函数也被分解为多个独立的子目标函数，每个子目标函数对应一个物品。类似上面的推导，我们可以得到yi 的解析解为：

其中，

表示n 个用户对物品i 的评分构成的向量，

表示这n 个用户的向量构成的矩阵，顺序跟Ri 中用户的顺序一致。

2.3 工程实现

当固定Y 时，各个xu 的计算是独立的，因此可以对xu 进行分布式并行计算。同理，当固定X 时，各个yi 的计算也是独立的，因此也可以对yi 做分布式并行计算。因为Xi 和Yu 中只包含了有评分的用户或物品，而非全部用户或物品，因此xu 和yi 的计算时间复杂度为O(k2nu+k3)其中nu 是有评分的用户数或物品数，k 为隐变量个数。

3、隐式矩阵分解

隐式矩阵分解与显式矩阵分解的一个比较大的区别，就是它会去拟合评分矩阵中的零，即没有评分的地方也要拟合。

3.1 目标函数

我们仍然用rui 表示用户u 对物品i 的评分，但这里的评分表示的是行为的强度，比如浏览次数、阅读时长、播放完整度等。当rui >0时，表示用户u 对物品i有过行为，当rui =0时，表示用户u 对物品i没有过行为。首先，我们定义一个二值变量pui 如下：

这个pui 是一个依赖于rui 的量，用于表示用户u 对物品i 是否感兴趣，也称为用户偏好。当用户u 对物品i 有过行为时，我们认为用户u 对物品i感兴趣，此时pui =1；当用户u 对物品i 没有过行为时，我们认为用户u 对物品i 不感兴趣，此时pui =0。

模型除了要刻画用户对物品是否感兴趣外，而且还要刻画感兴趣或不感兴趣的程度，所以这里的隐式矩阵分解还引入了置信度的概念。从直观上来说，当rui >0时，rui 越大，我们越确信用户u 喜欢物品i ，而当rui =0时，我们不能确定用户u 是否喜欢物品i ，没有行为可能只是因为用户u 并不知道物品i 的存在。

因此，置信度是rui 的函数，并且当rui >0时，置信度是rui 的增函数；当rui =0时，置信度取值要小。论文中给出的置信度cui 的表达式为：

当rui >0时，cui 关于rui 线性递增，表示对于有评分的物品，行为强度越大，我们越相信用户u 对物品i 感兴趣；当rui =0时，置信度恒等于1，表示对所有没有评分的物品，用户不感兴趣的置信度都一样，并且比有评分物品的置信度低。用xu 表示用户u 的向量，yi 表示item i 的向量，引入置信度以后，隐式矩阵分解[6]的目标函数为：

其中xu 和yi 都是k 维的列向量，k 为隐变量的个数，

是所有xu 构成的矩阵，

为所有yi 构成的矩阵，N 为用户数，M 为item数，λ为正则化参数。目标函数里的内积用于表示用户对物品的预测偏好，拟合实际偏好pui，拟合强度由cui 控制。并且对于pui =0的项也要拟合。目标函数中的第二项是正则项，用于保证数值计算稳定性以及防止过拟合。

3.2 求解方法

目标函数的求解仍然可以采用交替最小二乘法。具体如下：

(1)Y 固定为上一步迭代值或初始化值，优化X ：

此时，Y 被当做常数处理，目标函数被分解为多个独立的子目标函数，每个子目标函数都是某个xu 的函数。对于用户u ，目标函数为：

把这个目标函数化为矩阵形式，得

其中，

为用户u 对每个物品的偏好构成的列向量，

表示所有物品向量构成的矩阵，Λu 为用户u 对所有物品的置信度cui 构成的对角阵，即：

对目标函数J 关于xu 求梯度，并令梯度为零，得：

解这个线性方程组，可得到xu 的解析解为：

(2) X 固定为上一步迭代值或初始化值，优化Y：

此时，X 被当做常数处理，目标函数也被分解为多个独立的子目标函数，每个子目标函数都是关于某个yi 的函数。通过同样的推导方法，可以得到yi 的解析解为：

其中，

为所有用户对物品i 的偏好构成的向量，

表示所有用户的向量构成的矩阵，Λi 为所有用户对物品i 的偏好的置信度构成的对角矩阵，即

3.3 工程实现

由于固定Y 时，各个xu 的求解都是独立的，所以在固定Y 时可以并行计算各个xu，同理，在固定X时可以并行计算各个yi 。

在计算xu 和yi 时，如果直接用上述解析解的表达式来计算，复杂度将会很高。以xu 的表达式来说，Y Λu YT 这一项就涉及到所有物品的向量，少则几十万，大则上千万，而且每个用户的都不一样，每个用户都算一遍时间上不可行。所以，这里要先对xu 的表达式化简，降低复杂度。

注意到Λi 的特殊性，它是由置信度构成的对角阵，对于一个用户来说，由于大部分物品都没有评分，以此Λi 对角线中大部分元素都是1，利用这个特点，我们可以把Λi 拆成两部分的和，即

其中I为单位阵，Λu - I 为对角阵，并且对角线上大部分元素为0，于是，可以重写为如下形式：

分解成这两项之后，第一项Y YT 对每个用户都是一样的，只需要计算一次，存起来，后面可以重复利用，对于第二项，由于Λu - I 为对角线大部分是0的对角阵，所以计算Y (Λu - I )YT 的复杂度是O(k2nu)。其中nu 是Λu - I 中非零元的个数，也就是用户u 评过分的物品数，通常不会很多，所以整个Y ΛuYT的计算复杂度由O(k2M) 降为O(k2nu)。由于M>>nu，所以计算速度大大加快。对于xu 表达式的Y Λu Pu这一项，则应Y ( Λu Pu) 这样计算，利用Pu 中大部分元素是0的特点，将计算复杂度由O(kM ) 降低到O(knu)。通过使用上述数学技巧，整个xu的计算复杂度可以降低到O(k2nu+k3)，其中nu是有评分的用户数或物品数，k 为隐变量个数，完全满足在线计算的需求。

4、增量矩阵分解算法

无论是显式矩阵分解，还是隐式矩阵分解，我们在模型训练完以后，就会得到训练集里每个用户的向量和每个物品的向量。假设现在有一个用户，在训练集里没出现过，但是我们有他的历史行为数据，那这个用户的向量该怎么计算呢？当然，最简单的方法就是把这个用户的行为数据合并到旧的训练集里，重新做一次矩阵分解，进而得到这个用户的向量，但是这样做计算代价太大了，在时间上不可行。

为了解决训练数据集以外的用户(我们称之为新用户)的推荐问题，我们就需要用到增量矩阵分解算法。增量矩阵分解算法能根据用户历史行为数据，在不重算所有用户向量的前提下，快速计算出新用户向量。

在交替最小二乘法里，当固定Y 计算xu 时，我们只需要用到用户u 的历史行为数据rui 以及Y 的当前值，不同用户之间xu的计算是相互独立的。这就启发我们，对于训练集以外的用户，我们同样可以用他的历史行为数据以及训练集上收敛时学到的Y，来计算新用户的用户向量。下面的图2表示了这一过程。

设用户历史行为数据为Pu={Pui }，训练集上学到的物品矩阵为Y，要求解的用户向量为xu，则增量矩阵分解算法求解的目标为：

这个目标函数跟第3节中固定Y 时求解xu 的目标函数是一样的，但有两个不同点：

(1)这里的Y 是不需要迭代的，它是MF在训练集上收敛时得到的Y；

(2)用户的历史行为数据Pu 要过滤掉在Y中没出现过的物品。由于Y 是固定的，我们不需要迭代，直接通过xu 的解析表达式求解xu，即：

式中的所有符号和上一节相同。

事实上，增量矩阵分解的目标函数中的Y 也不一定要是MF在训练集上学出来的，只要Y 中的每个向量都能表示对应物品的特征就行，也就是说，Y 可以是由其他数据和其他算法事先学出来的。矩阵分解的增量算法在图文推荐系统中有着广泛应用，具体的应用将在下一篇文章中介绍。

5、推荐结果的可解释性

好的推荐算法不仅要推得准确，而且还要有良好的可解释性，也就是根据什么给用户推荐了这个物品。传统的ItemCF算法就有很好的可解释性，因为在ItemCF中，用户u 对物品i 的预测评分R (u, i ) 的计算公式为

其中N(u ) 表示用户u 有过行为的物品集合，ruj 表示用户u 对物品j 的历史评分，sji 表示物品j 和物品i 的相似度。在这个公式中，N(u ) 中的物品j 对R(u, i ) 的贡献为ruj sji，因此可以很好地解释物品i 具体是由N(u) 中哪个物品推荐而来。那对于矩阵分解算法来说，是否也能给出类似的可解释性呢？答案是肯定的。

以隐式矩阵分解为例，我们已经推导出，已知物品的矩阵Y 时，用户u 的向量的计算表达式为：

令

并把Y Λu Pu 展开来写，则的表达式可以写成

其中，

可以看成是物品j 和物品i 之间的相似度，

可以看成是用户u 对用户j的评分，这样就能像ItemCF那样去解释N(u )中每一项对推荐物品i 的贡献了。从sji 的计算表达式中，我们还可以看到，物品j 和物品i 之间的相似度sji 是跟用户u 有关系的，也就是说，即使是相同的两个物品，在不同用户看来，它们的相似度是不一样的，这跟ItemCF的固定相似度有着本质上的区别，MF的相似度看起来更合理一些。

6、小结

(1)根据用户行为数据的特点，矩阵分解又分为显式矩阵分解和隐式矩阵分解两种；

(2)在显式MF算法中，用户向量和物品向量的内积拟合的是用户对物品的实际评分，并且只拟合有评分的项；

(3)在隐式MF算法中，用户向量和物品向量的内积拟合的是用户对物品的偏好(0或1)，拟合的强度由置信度控制，置信度又由行为的强度决定；

(4)在隐式MF中，需要使用一些数学技巧降低计算复杂度，才能满足线上实时计算的性能要求；

(5)对于有行为数据，但不在训练集里的用户，可以使用增量MF算法计算出他的用户向量，进而为他做推荐；

(6)MF算法也能像ItemCF一样，能给出推荐的理由，具有良好的可解释性。

三、参考链接

1、隐因子模型：https://blog.csdn.net/sinat_22594309/article/details/86576757

2、矩阵分解：http://blog.sina.com.cn/s/blog_745323d30101hav2.html

3、SVD 和 Netflix Prize 的 Funk-SVD：https://zhuanlan.zhihu.com/p/33262521

4、从主题模型(Topic Model)到隐语义模型(Latent Factor Model)：https://blog.csdn.net/m0_37788308/article/details/78316282

5、论文：Collaborative Filtering for Implicit Feedback Datasets(2008) ，考虑隐式反馈。

6、微信博文：

【科普篇】推荐系统之矩阵分解模型：https://mp.weixin.qq.com/s/u67Xx38I9dnF4ddfb5lfNw

【原理篇】推荐系统之矩阵分解模型：https://mp.weixin.qq.com/s/j_FRp9KFIpgbtnhJlLeECA

协同过滤算法：挖掘用户偏好，精准推荐商品 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
1.背景介绍协同过滤（CollaborativeFiltering，CF）作为推荐系统中的重要技术，其核心思想是利用用户和物品间的行为数据，挖掘用户隐性偏好，从而实现精准推荐。自20世纪90年代提出以来，协同过滤算法已经在电子商务、社交媒体、音乐视频等多个领域中广泛应用，取得了显著的推荐效果。协同过滤算法主要分为基于用户的协同过滤和基于物品的协同过滤两种。基于用户的协同过滤通过比较用户间的相似性，
协同过滤推荐算法禺垣机器学习笔记算法机器学习推荐算法算法机器学习
协同过滤（CollaborativeFiltering）是推荐系统中最经典的算法之一，其核心思想是“物以类聚，人以群分”，即通过分析用户的历史行为数据，找到与目标用户相似的用户群体或相似的物品，从而为目标用户推荐他们可能感兴趣的物品。一、基于用户的协同过滤（User-BasedCF）核心思想：找到与目标用户兴趣相似的其他用户（“邻居”），将这些邻居喜欢的物品推荐给目标用户。步骤：s1.计算用户
深度探索 Py2neo：用 Python 玩转图数据库 Neo4j 萧鼎 python基础到进阶教程 python 数据库 neo4j
随着社交网络、推荐系统、知识图谱等应用的普及，图数据库越来越成为解决关系复杂数据问题的重要武器。作为图数据库中的佼佼者，Neo4j凭借其强大的性能和灵活的数据模型，被广泛应用于各种关联密集型场景。而在Python生态中，py2neo是使用最广泛的Neo4j客户端库之一，它简洁直观，封装度高，能够让你在Python中像操作对象一样操作图数据。本文将全面介绍py2neo的使用方法与设计理念，帮助你快速
Vue2 视频推荐页面：完整布局与动态数据实现用 Vue2 开发视频推荐页面：简洁优雅的实现方式 Vue2 项目实战：多分类动态内容展示的实现用 Vue2 打造视频推荐系统：从零开始完整教程 Vu 南北极之间 web前端特效源码 css javascript 网页设计 html 前端网站首页视频网站
效果图【定制化开发服务，让您的项目领先一步】如有需求，直接私信留下您的联系方式。谢谢。我的邮箱：[email protected]完整代码以下包括导航栏、分类切换、推荐内容展示等。使用虚拟假数据模拟真实场景，图片用占位符代替。代码实现<html
ElasticCTR：一键部署的分布式CTR预估解决方案萧桔格Wilbur
ElasticCTR：一键部署的分布式CTR预估解决方案ElasticCTRElasticCTR，即飞桨弹性计算推荐系统，是基于Kubernetes的企业级推荐系统开源解决方案。该方案融合了百度业务场景下持续打磨的高精度CTR模型、飞桨开源框架的大规模分布式训练能力、工业级稀疏参数弹性调度服务，帮助用户在Kubernetes环境中一键完成推荐系统部署，具备高性能、工业级部署、端到端体验的特点，并且
圈子系统公众号app小程序系统源码公众号+圈子小程序：如何用“内容+社交”打造用户闭环生态？前端
圈子系统：构建"交流→共鸣→成长"的进阶生态一、系统设计理念演进1.0基础交流层话题发布/回复功能基础点赞评论互动简单分类标签系统2.0情感共鸣层情绪标签识别（AI分析内容情感倾向）共鸣指数算法（根据互动深度计算）志同道合推荐系统3.0成长体系层多维能力评估模型个性化成长路径成就勋章系统二、核心技术实现方案1.共鸣引擎#共鸣度计算算法示例defcalculate_resonance(topic):
FAISS 简介及其与 GPT 的对接（RAG）言之。 AI faiss gpt easyui
什么是FAISS？FAISS(FacebookAISimilaritySearch)是FacebookAI团队开发的一个高效的相似性搜索和密集向量聚类的库。它主要用于：大规模向量相似性搜索高维向量最近邻检索向量聚类https://github.com/facebookresearch/faissFAISS特别适合处理高维向量数据，能够快速找到与查询向量最相似的向量，广泛应用于推荐系统、图像检索、自
产品背景知识——在线推理和离线推理爱吃芝麻汤圆 #产品背景知识推理
产品背景知识——在线推理和离线推理一、核心区别：从4个维度对比1.数据处理方式与时效性在线推理（实时推理）数据特点：处理实时流入的单条或小批量数据（如用户点击、交易请求）。时效性要求：需在毫秒级到秒级内返回结果，延迟直接影响用户体验或业务决策。典型场景：电商推荐系统（用户浏览商品时实时推荐）、金融风控（交易时实时欺诈检测）。离线推理（批量推理）数据特点：处理历史累积的大规模数据集（如TB级日志、数
长尾形分布论文速览三十篇【60-89】木木阳 Long-tailed 人工智能
长尾形分布速览（60-89）这些研究展示了LLMs在长尾数据分布、持续学习、异常检测、联邦学习、对比学习、知识图谱、推荐系统、多目标跟踪、标签修复、对象检测、医疗生物医学以及其他应用中的广泛应用。通过优化和创新，LLMs在这些领域展现了卓越的性能，并为解决长尾问题提供了有效的工具和方法。1.长尾持续学习与对抗学习长尾持续学习(Paper60):通过优化器状态重用来减少遗忘，提高在长尾任务中的持续学
小红书笔记详情API接口概述及JSON数据返回参考 Json_18179014480 API json 大数据数据库大数据 json
前言一、接口概述小红书笔记详情API接口是小红书开放平台提供的一项服务，允许开发者通过编程方式获取小红书上特定笔记的详细信息。该接口的核心功能包括：获取笔记内容：标题、正文、图片、视频等多媒体信息。用户互动数据：点赞数、评论数、收藏数、分享数等。作者信息：作者昵称、头像、粉丝数等。发布信息：发布时间、标签列表等。通过该接口，开发者可以构建内容分析工具、笔记推荐系统、数据爬虫等应用，帮助企业或个人进
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
推荐系统的视频特征-视频关键帧特征提取与向量生成
总体流程概览视频文件(.mp4)↓关键帧抽取（FFmpeg/SceneDetect）↓帧图像（.jpg）↓图像模型提取特征（CLIP/CNN/ViT）↓多帧聚合成视频向量（均值池化等）↓向量库/推荐系统模型特征提取推荐：使用OpenAI的CLIP模型CLIP（ContrastiveLanguage-ImagePretraining）适合推荐系统做跨模态建模，对视频封面帧或场景帧提取效果非常好。✅1
Neo4j 图数据库安装教程（2024最新版）—— Windows / Linux / macOS 全平台指南 2501_91537435 图数据库 neo4j 数据库 windows
Neo4j图数据库安装教程（2024最新版）——Windows/Linux/macOS全平台指南Neo4j是目前最流行的图数据库（GraphDatabase），广泛应用于社交网络、推荐系统、知识图谱等领域。本文将详细介绍Windows、Linux和macOS三大平台的Neo4j安装方法，并包含配置优化、基础使用示例和常见问题解决。一、Neo4j简介1.什么是Neo4j？Neo4j是一个高性能的No
Python隐式反馈数据集库之implicit使用详解 Rocky006 python 开发语言
概要Implicit是一个专注于隐式反馈数据集的协同过滤推荐系统Python库，由BenFrederickson开发。与显式反馈（如用户明确给予的评分）不同，隐式反馈是指用户通过行为间接表达偏好的数据，如点击次数、浏览时长或购买历史。这类数据在实际应用中更为普遍，但也更难以处理。传统推荐系统如Surprise或LightFM虽然功能全面，但在处理大规模稀疏矩阵时性能不佳。Implicit库通过优化
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
基于Python的京东商品信息采集实战：用Playwright+Pandas打造高效数据抓取工具 Python爬虫项目 2025年爬虫实战项目 python pandas 开发语言爬虫游戏笔记
一、项目背景与目标在当今电商生态中，价格、销量、评论等商品信息对用户和商家来说至关重要。无论是做数据分析、电商监控，还是构建商品推荐系统，第一步都是：获取真实的商品数据。本项目以京东商城搜索结果页为目标，通过构建一个高效、可复用的商品信息采集爬虫系统，实现对商品名称、价格、店铺、评论数、链接等核心信息的提取。二、技术路线概述我们采用如下技术架构：模块技术选型浏览器自动化Playwright（现代、
重排利器：行列式点过程（DPP）在推荐系统中的应用 Jay Kay 推荐算法数学建模推荐算法
在推荐系统的重排阶段，我们常面临结果同质化问题——精排结果相似物料扎堆，导致用户体验单调。行列式点过程（DeterminantalPointProcesses,DPP）通过数学建模相关性与多样性的平衡，成为解决该问题的经典方案。一、DPP的核心思想DPP将推荐列表视为一个点过程，其核心是计算子集出现的概率。给定候选集(Z)（精排输出的Top-N物料），DPP定义子集(Y\subseteqZ)出现的
推荐算法特征工程实战：用户与物料动态画像构建指南 Jay Kay 推荐算法推荐算法算法机器学习
在推荐系统的特征工程中，动态画像是提升推荐精准性的核心武器。通过捕捉用户行为偏好和物料热度变化，算法能实现千人千面的精准推荐。本文结合两张关键图表，深入解析动态画像的构建方法与工程实践。一、用户动态画像：六大维度精准刻画兴趣偏好用户动态画像基于六个关键维度构建（如表2-1所示），形成"6W"行为模型：用户粒度物料属性时间粒度动作类型统计对象统计方法1.核心维度解析（附典型场景）维度可选值应用场景用
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
【重构推荐系统】国产大模型驱动的电商个性化推荐完整实战：架构设计、推理优化与在线部署闭环观熵国产大模型部署实战全流程指南重构人工智能 Agent 智能体落地方案
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
End-To-End 之于推荐-kuaishou OneRec 笔记 ASKED_2019 RecSys 笔记
核心思想OneRec提出了一种统一的生成式推荐系统架构，打破了传统“召回-粗排-精排”级联式推荐流程，使用单一生成模型同时完成召回与排序任务。该系统由快手团队研发，并成功部署于短视频主场景。OnlineA/BTest表现：模型总观看时长平均观看时长OneRec-1B+IPA+1.68%+6.56%一Input处理Userpositiveactionsequence，将短视频的多模态表征，通过量化的
计算机毕业设计项目、管理系统、可视化大屏、大数据分析、协同过滤、推荐系统、SSM、SpringBoot、Spring、Mybatis、小程序项目编号1000-1499 lonzgzhouzhou spring 课程设计 spring boot
大家好，我是DeBug，很高兴你能来阅读！作为一名热爱编程的程序员，我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里，我将会结合实际项目经验，分享编程技巧、最佳实践以及解决问题的方法。无论你是初学者还是有一定经验的程序员，我都希望能够为你提供有价值的内容，帮助你更好地理解编程世界。让我们一起探索编程的乐趣，一起成长，一起学习，谢谢你们的支持与关注！【源码咨询】可接Java程序设计，Bug
腾讯混元API调用优化实战：用API网关实现流量控制+缓存+监控
1大模型API的调用挑战在接入腾讯混元大模型API的电商推荐系统项目中，我们面临三个核心挑战：突发流量冲击：促销活动期间API调用量激增300%，触发腾讯云限流策略（429错误）响应延迟波动：文本生成长内容时P99延迟高达2.8秒，影响用户体验异常诊断困难：错误日志分散在多台服务器，故障定位平均耗时47分钟传统解决方案如Nginx限流和Redis缓存存在配置分散、维护成本高等问题。API网关作为流
Python爬取TMDB电影数据：从登录到数据存储的全过程 Eqwaak00 爬虫 Python python 开发语言人工智能自动化
在当今数据驱动的时代，获取电影数据对于推荐系统、市场分析和个人项目都至关重要。本文将详细介绍如何使用Python构建一个完整的TMDB（TheMovieDatabase）爬虫，从登录认证到数据解析和存储的全过程。（本来博主也想在CSDN里面上白嫖结果没有一篇文章，然后......）1.项目概述TMDB是一个广受欢迎的电影数据库网站，包含了丰富的电影信息、演员数据和用户评分。我们的目标是构建一个爬虫
拷贝漫画网页版网址，Copymanga漫画官方网站入口及APP下载
拷贝漫画是一个专为漫画爱好者打造的在线阅读平台，提供海量漫画资源，涵盖日漫、韩漫、美漫、国漫及轻小说等多种类型，满足不同读者的口味需求。平台界面简洁友好，支持多设备同步阅读（如手机、电脑、平板），并提供高清画质与个性化设置，如亮度调节、字体大小、夜间模式等，确保阅读体验舒适。此外，平台具备智能推荐系统，根据用户浏览历史、收藏记录和偏好推荐漫画，帮助用户发现新内容。社区互动功能也十分活跃，用户可分享
60天python训练营打卡day20 tan90�= python60天打卡 python 开发语言
学习目标：60天python训练营打卡学习内容：DAY20奇异值SVD分解奇异值分解这个理论，对于你未来无论是做图像处理、信号处理、特征提取、推荐系统等都非常重要，所以需要单独抽出来说一下这个思想。—甚至我在非常多文章中都看到单独用它来做特征提取（伪造的很高大上），学会这个思想并不复杂没学过线代的不必在意，推导可以不掌握，关注输入输出即可。今天这期有点类似于帮助大家形成闭环—考研数学不是白考的知识
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

推荐系统——矩阵分解

你可能感兴趣的:(推荐系统)