Mochayz

《深度学习推荐系统》笔记（1）

0 前言

1 互联网的增长引擎——推荐系统

2 前深度学习时代——推荐系统的进化之路

2.1 传统推荐模型的演化关系图

2.2 协同过滤——经典的推荐算法

UserCF

ItemCF

2.3 矩阵分解算法——协同过滤的进化

2.4 逻辑回归——融合多种特征的推荐模型

2.5 从FM到FFM——自动特征交叉的解决方案

POLY2模型——特征交叉的开始

FM模型——隐向量特征交叉

FFM模型——引入特征域的概念

2.6 GBDT+LR——特征工程模型化的开端

2.7 LS-PLM——阿里巴巴曾经的主流推荐系统

0 前言

工业界技术研发圈的方法体系：

(1) 拿着锤子找钉子：跟踪最新的顶会论文或大公司技术博客，寻找创新点，拿到自己的场景试一试，靠撞大运拿结果。

(2) 问题驱动：定义清楚问题，想清楚技术的需求，然后寻找或构思相应的技术工具。

1 互联网的增长引擎——推荐系统

推荐系统的作用和意义：

(1) 用户角度：推荐系统解决在“信息过载”的情况下，用户如何高效获得感兴趣信息的问题。

(2) 公司角度：推荐系统解决产品能够最大限度地吸引用户、留存用户、增加用户黏性、提高用户转化率的问题，从而达到公司商业目标连续增长的目的。

推荐系统要处理的问题：

对于用户（user），在特定场景（context）下，针对海量的“物品”信息，构建一个函数，预测用户对特定候选物品（item）的喜好程度，再根据喜好程度对所有候选物品进行排序，生成推荐列表。

推荐系统的技术架构：

(1) 数据和信息

推荐系统的数据部分主要负责“用户”“物品”“场景”的信息收集与处理。“客户端及服务器端实时数据处理”“流处理平台准实时数据处理”“大数据平台离线数据处理”三种平台的实时性由强到弱，海量数据处理能力由弱到强。

推荐系统的数据处理系统会将原始数据进一步加工，加工后的数据出口主要有三个：生成推荐模型所需的样本数据，用于算法模型的训练和评估；生成推荐模型服务（model serving）所需的“特征”，用于推荐系统的线上推断；生成系统监控、商业智能（Business Intelligence, BI）系统所需的统计型数据。

(2) 算法和模型

模型的结构一般由“召回层”“排序层”“ 补充策略与算法层”组成。

召回层：一般利用高效的召回规则、算法或简单的模型，快速从海量的候选集中召回用户可能感兴趣的物品。

排序层：利用排序模型对初筛的候选集进行静排序。

补充策略与算法层：也被称为“再排序层”，可以在将推荐列表返回之前，为兼顾结果的“多样性”“流行度”“新鲜度”等指标，结合一些补充的策略和算法对推荐列表进行一定的调整，最终形成用户可见的推荐列表。

在线环境进行模型服务之前，需要通过模型训练（model training）确定参数。可以根据训练环境将训练方法分为“离线训练”和“在线更新”。

此外，推荐系统的模型部分提供了“离线评估”和“线上A/B测试”等多种评估模块，用得出的评估指标指导下一步的模型迭代优化。

2 前深度学习时代——推荐系统的进化之路

2.1 传统推荐模型的演化关系图

2.2 协同过滤——经典的推荐算法

“协同过滤”就是协同大家的反馈、评价和意见一起对海量的信息进行过滤，从中筛选出目标用户可能感兴趣的信息的推荐过程。

协同过滤的特点：

协同过滤是一个直观、可解释性强的模型，但推荐结果的头部效应较明显，处理稀疏向量的能力弱。为了解决上述问题，矩阵分解技术在协同过滤共现矩阵的基础上，使用更稠密的隐向量表示用户和物品，挖掘用户和物品的隐含兴趣和隐含特征。另外，为了引入用户特征、物品特征和上下文特征，推荐系统逐渐发展到以逻辑回归模型为核心的、能够综合不同类型特征的机器学习模型的道路上。

UserCF与ItemCF的应用场景：

(1) UserCF具备更强的社交特性，适用于新闻推荐场景。

(2) ItemCF更适用于兴趣变化较为稳定的应用，适用于电商、视频推荐等场景。

UserCF

基于用户的协同过滤算法步骤：

(1) 找到和目标用户兴趣相似的用户集合。

(2) 找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户。

用户相似度计算：

(1) 余弦相似度

$\text{sim}(\boldsymbol{i},\boldsymbol{j})=\text{cos}(\boldsymbol{i},\boldsymbol{j})=\frac{\boldsymbol{i} \cdot \boldsymbol{j}}{\Vert\boldsymbol{i}\Vert \cdot \Vert\boldsymbol{j}\Vert}$

其中， $R_{i,p}$ 代表用户对物品的评分； $\bar{R}_i$ 代表用户对所有物品的平均评分，代表所有物品的集合。

(3) 修正皮尔逊系数

$\text{sim}(i,j)=\frac{\sum_{p \in P}(R_{i,p}-\bar{R_p})(R_{j,p}-\bar{R_p})} {\sqrt{\sum_{p \in P}(R_{i,p}-\bar{R_p})^2} \sqrt{\sum_{p \in P}(R_{j,p}-\bar{R_p})^2}}$

其中， $\bar{R_p}$ 代表物品得到所有评分的平均分。

最终结果的排序：

在获得 $\text{Top} \; n$ 相似用户之后，利用用户相似度和相似用户的评价的加权平均获得目标用户的评价预测。

$R_{u,p}=\frac{\sum_{s \in S}(w_{u,s} \cdot R_{s,p})}{\sum_{s \in S} w_{u,s}}$

其中，权重 $w_{u,s}$ 是用户和用户的相似度， $R_{s,p}$ 是用户对物品的评分。

在获得用户对不同物品的评价预测后，最终的推荐列表根据预测得分进行排序即可得到。

ItemCF

基于物品的协同过滤算法步骤：

(1) 基于历史数据，构建以用户为行坐标，物品为列坐标的 $m \times n$ 维的共现矩阵。

(2) 计算共现矩阵两两列向量间的相似性（计算方式与用户相似度的计算方式相同），构建 $n \times n$ 维的物品相似度矩阵。

(3) 获得用户历史行为数据中的正反馈物品列表。

(4) 利用物品相似度矩阵，针对目标用户历史行为中的正反馈物品，找出相似的 $\text{Top} \; k$ 个物品，组成相似物品集合。

(5) 对相似物品集合中的物品，利用相似度分值进行排序，生成最终的推荐列表。如果一个物品与多个用户行为历史中的正反馈物品相似，那么该物品最终的相似度应该是多个相似度的累加。

$R_{u,p}=\sum_{h \in H}(W_{p,h} \cdot R_{u,h})$

其中，是目标用户的正反馈物品集合， $w_{p,h}$ 是物品与物品的物品相似度， $R_{u,h}$ 是用户对物品的已有评分。

2.3 矩阵分解算法——协同过滤的进化

矩阵分解算法的原理：

矩阵分解算法期望为每一个用户和物品生成一个隐向量，将用户和物品定位到隐向量的表示空间上，距离相近的用户和物品表明兴趣特点接近，在推荐过程中，就应该把距离相近的物品推荐给目标用户。

用户和物品的隐向量是通过分解协同过滤生成的共现矩阵得到的。矩阵分解算法将 $m \times n$ 维的共现矩阵分解为 $m \times k$ 维的用户矩阵和 $k \times n$ 维的物品矩阵相乘的形式。其中是隐向量的维度，影响隐向量的表达能力、泛化程度，和矩阵分解的求解复杂度。

基于用户矩阵和物品矩阵，用户对物品的预估评分如下所示。

$\hat{\boldsymbol{r}}_{ui}=\boldsymbol{q}_i^\top\boldsymbol{p}_u$

其中 $\boldsymbol{p}_u$ 是用户在用户矩阵中的对应行向量， $\boldsymbol{q}_i$ 是物品在物品矩阵中的对应列向量。

矩阵分解的求解过程：

梯度下降法是进行矩阵分解的主要方法。为了让原始评分 $\boldsymbol{r}_{ui}$ 与用户向量和物品向量之积 $\boldsymbol{q}_i^\top\boldsymbol{p}_u$ 的差尽量小，最大限度地保存共现矩阵的原始信息，使用如下加入正则项的目标函数。

$\underset{\boldsymbol{q}^*,\boldsymbol{p}^*}{\text{min}} \; \sum_{(u,i) \in K} (\boldsymbol{r}_{ui}-\boldsymbol{q}_i^\top\boldsymbol{p}_u)^2 + \lambda(\Vert\boldsymbol{q}_i\Vert^2+\Vert\boldsymbol{p}_u\Vert^2)$

对目标函数的求解可以利用非常标准的梯度下降过程完成：(1) 确定目标函数。(2) 对目标函数求偏导，求取梯度下降的方向和幅度。(3) 利用上一步的求导结果，沿梯度的反方向更新参数。(4) 当迭代次数超过上限或损失低于阈值时，结束训练，否则循环更新。

隐向量的生成过程其实是对共现矩阵进行全局拟合的过程，因此有相较协同过滤有更强的泛化能力。

消除用户和物品打分的偏差：

为了消除用户和物品打分的偏差，常用的做法是在矩阵分解时加入用户和物品的偏差向量。

$\boldsymbol{r}_{ui}=\mu+b_i+b_u+\boldsymbol{q}_i^\top\boldsymbol{p}_u$

其中 $\mu$ 是全局偏差常数，是物品偏差系数，可使用物品收到的所有评分的均值，是用户偏差系数，可使用用户给出的所有评分的均值。矩阵分解目标函数相应地做出改变。

$\underset{\boldsymbol{q}^*,\boldsymbol{p}^*,\boldsymbol{b}^*}{\text{min}} \; \sum_{(u,i) \in K} (\boldsymbol{r}_{ui}-\mu-b_u-b_i-\boldsymbol{p}_u^\top\boldsymbol{q}_i)^2 + \lambda(\Vert\boldsymbol{p}_u\Vert^2+\Vert\boldsymbol{q}_i\Vert^2+b_u^2+b_i^2)$

矩阵分解的优点和局限性：

(1) 泛化能力强；空间复杂度低；更好的扩展性和灵活性。

(2) 与协同过滤一样，矩阵分解不方便加入用户、物品和上下文相关的特征。

2.4 逻辑回归——融合多种特征的推荐模型

相比协同过滤和矩阵分解利用用户和物品的“相似度”进行推荐，逻辑回归将推荐问题看成一个分类问题，通过预测正样本的概率对物品进行排序。

基于逻辑回归的推荐过程：

(1) 将用户、物品和上下文特征转换成数值型特征向量。

(2) 确定优化目标（以“点击率”为例），利用样本数据进行模型训练，确定模型参数。

(3) 在模型服务阶段，将特征向量输入逻辑回归模型，经过推断得到用户“点击”物品的概率。

(4) 利用“点击”概率对所有候选物品进行排序，得到推荐列表。

逻辑回归模型的推断过程：

(1) 将特征向量 $\boldsymbol{x}=(x_1,x_2,\cdots,x_n)^\top$ 作为模型的输入。

(2) 通过为各特征赋予相应的权重并进行加权求和，得到 $\boldsymbol{x}^\top\boldsymbol{w}$ 。

(3) 将 $\boldsymbol{x}^\top\boldsymbol{w}$ 输入sigmoid函数，使之映射到0~1的区间，得到最终的“点击率”。

逻辑回归模型的特点：

(1) 数学含义上的支撑；可解释性强；工程化的需要。

(2) 表达能力不强，无法进行特征交叉、特征筛选等一系列较为“高级”的操作。为解决这一问题，衍生出因子分解机等高维的复杂模型。在进入深度学习时代之后，多层神经网络可以完全替代逻辑回归模型。

2.5 从FM到FFM——自动特征交叉的解决方案

POLY2模型——特征交叉的开始

POLY2模型对所有特征进行了两两交叉，并对所有的特征组合赋予权重。POLY2模型本质上仍是线性模型，便于工程上的兼容。

$\phi\text{POLY2}(\boldsymbol{w},\boldsymbol{x})=\sum_{j_1=1}^{n-1}\sum_{j_2=j_1+1}^n w_{h(j_1,j_2)}x_{j_1}x_{j_2}$

POLY2模型存在两个较大的缺陷：在处理互联网数据时经常采用one-hot编码，POLY2将原本就非常稀疏的特征向量变得更稀疏；权重参数多，极大地增加了训练复杂度。

FM模型——隐向量特征交叉

FM为每个特征学习了一个隐权重向量（latent vector）。在特征交叉时，使用两个特征隐向量的内积作为交叉特征的权重。

$\phi\text{FM}(\boldsymbol{w},\boldsymbol{x})=\sum_{j_1=1}^n \sum_{j_2=j_1+1}^n(\boldsymbol{w}_{j_1} \cdot \boldsymbol{w}_{j_2})x_{j_1}x_{j_2}$

FM极大地降低了训练开销，能更好地解决数据稀疏性的问题，且相比之后的深度学习模型更容易进行线上部署和服务。

FFM模型——引入特征域的概念

相比FM模型，FFM模型引入了特征域感知（field-aware）这一概念，使模型的表达能力更强。每个特征对应的不是唯一一个隐向量，而是一组隐向量。当 $\boldsymbol{x}_{j_1}$ 特征与 $\boldsymbol{x}_{j_2}$ 特征进行交叉时， $\boldsymbol{x}_{j_1}$ 特征会从 $\boldsymbol{x}_{j_1}$ 的这一组隐向量中挑出与特征 $\boldsymbol{x}_{j_2}$ 的域对应的隐向量 $\boldsymbol{w}_{j_1,f_2}$ 进行交叉， $\boldsymbol{x}_{j_2}$ 同理。

$\phi\text{FFM}(\boldsymbol{w},\boldsymbol{x})=\sum_{j_1=1}^n \sum_{j_2=j_1+1}^n (\boldsymbol{w}_{j_1,f_2} \cdot \boldsymbol{w}_{j_2,f_1}) x_{j_1}x_{j_2}$

FFM模型的表达能力更强，但计算复杂度上升，需要在模型效果和工程投入之间进行权衡。

2.6 GBDT+LR——特征工程模型化的开端

Facebook提出了一种利用GBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当作LR模型输入，预估CTR的模型结构。GBDT是由多棵回归树组成的树林，后一棵树以前面树林的结果与真实结果的残差为拟合目标。回归树中每个节点的分裂是一个自然的特征选择过程，而多层节点的结构则对特征进行了有效的自动组合。

GBDT进行特征转换的过程：

一个训练样本在输入GBDT的某一子树后，会根据每个节点的规则最终落入某一叶子节点，把该叶子节点置1，其他叶子节点置为0，所有叶子节点组成的向量即形成了该棵树的特征向量，把GBDT所有子树的特征向量连接起来，即形成了后续LR模型输入的离散型特征向量。

事实上，决策树的深度决定了特征交叉的阶数，具备较强的特征组合能力。但GBDT容易过拟合，且特征转换方式实际上丢失了大量特征的数值信息。

GBDT+LR组合模型的提出，意味着特征工程可以完全交由一个独立的模型来完成，实现真正的端到端（End to End）训练。广义上讲，深度学习模型通过各类网络结构、Embedding层等方法完成特征工程的自动化，都是GBDT+LR开启的特征工程模型化这一趋势的延续。

2.7 LS-PLM——阿里巴巴曾经的主流推荐系统

LS-PLM（Large Scale Piece-wise Linear Linear Model），又被称为MLR（Mixed Logistic Regression）模型，在逻辑回归的基础上采用分而治之的思路，先对样本进行分片，再在样本分片中应用逻辑回归进行CTR预估。

LS-PLM的数学形式如下所示，首先用聚类函数 $\pi$ 对样本进行分类（这里采用了softmax函数对样本进行多分类），再用LR模型计算样本在分片中具体的CTR，然后将二者相乘后求和。

$f(x)=\sum_{i=1}^m \pi_i(x) \cdot \eta_i(x)=\sum_{i=1}^m \frac{e^{\mu_i \cdot x}}{\sum_{j=1}^m e^{\mu_j \cdot x}} \cdot \frac{1}{1+e^{-w_i \cdot x}}$

其中的超参数“分片数”可以较好地平衡模型的拟合与推广能力。

LS-PLM模型的特点：

(1) 端到端的非线性学习能力；模型的稀疏性强（在建模时引入了L1和L2范数）。

(2) 可以看作一个加入了注意力（Attention）机制的三层神经网络模型，其中输入层是样本的特征向量，中间层是由（分片的个数）个神经元组成的隐层，对于一个CTR预估问题，最后一层是由单一神经元组成的输出层。

关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
使用 Python 爬取网易云音乐歌单数据（完整教程） Python爬虫项目 python 开发语言 github selenium 爬虫
一、引言随着在线音乐平台的普及，网易云音乐（NetEaseCloudMusic）凭借其个性化的推荐算法和丰富的用户互动，吸引了大量用户。网易云音乐的歌单中包含了丰富的音乐数据，包括歌曲名、歌手、专辑、播放量、评论数等信息。通过爬取这些数据，可以对音乐流行趋势进行分析，挖掘音乐推荐策略，甚至训练个性化推荐模型。本教程将使用Python构建一个爬虫，解析网易云音乐的歌单接口，获取歌曲数据并进行数据分析
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

《深度学习推荐系统》笔记（1）

0 前言

1 互联网的增长引擎——推荐系统

2 前深度学习时代——推荐系统的进化之路

2.1 传统推荐模型的演化关系图

2.2 协同过滤——经典的推荐算法

UserCF

ItemCF

2.3 矩阵分解算法——协同过滤的进化

2.4 逻辑回归——融合多种特征的推荐模型

2.5 从FM到FFM——自动特征交叉的解决方案

POLY2模型——特征交叉的开始

FM模型——隐向量特征交叉

FFM模型——引入特征域的概念

2.6 GBDT+LR——特征工程模型化的开端

2.7 LS-PLM——阿里巴巴曾经的主流推荐系统

你可能感兴趣的:(大数据,深度学习,推荐算法)