云深处见晓

基于内容的推荐算法

文章目录

一.什么是基于内容的推荐算法
二.基于内容的推荐算法实现原理
- 1. 基于用户和标的物特征为用户推荐的核心思想
- 2. 构建用户特征表示
- 3. 构建标的物特征表示
- 4. 为用户做个性化推荐
三.基于内容的推荐算法应用场景
- 1. 完全个性化推荐
- 2. 标的物关联标的物推荐
- 3. 配合其他推荐算法
- 4. 主题推荐
- 5. 给用户推荐标签
四.基于内容的推荐算法的优势与缺点
- 1. 优点
- 2. 缺点
五.算法落地需要关注的重要问题
- 1. 内容来源的获取
- 2. 怎么利用负反馈
- 3. 兴趣随时间变化
- 4. 数据清洗
- 5. 加速计算与节省资源
- 6. 怎么解决基于内容的推荐越推越窄的问题
- 7. 工程落地技术选型
- 8. 业务的安全性

一.什么是基于内容的推荐算法

首先我们给基于内容的推荐算法下一个定义，让读者有初步的印象，后面更容易理解我们讲的基于内容的推荐算法。

所谓基于内容的推荐算法(Content-Based Recommendations)是基于标的物相关信息、用户相关信息及用户对标的物的操作行为来构建推荐算法模型，为用户提供推荐服务。这里的标的物相关信息可以是对标的物文字描述的metadata信息、标签、用户评论、人工标注的信息等。用户相关信息是指人口统计学信息(如年龄、性别、偏好、地域、收入等等)。用户对标的物的操作行为可以是评论、收藏、点赞、观看、浏览、点击、加购物车、购买等。基于内容的推荐算法一般只依赖于用户自身的行为为用户提供推荐，不涉及到其他用户的行为。

广义的标的物相关信息不限于文本信息，图片、语音、视频等都可以作为内容推荐的信息来源，只不过这类信息处理成本较大，不光是算法难度大、处理的时间及存储成本也相对更高。

基于内容的推荐算法算是最早应用于工程实践的推荐算法，有大量的应用案例，如今日头条的推荐有很大比例是基于内容的推荐算法。

二.基于内容的推荐算法实现原理

基于内容的推荐算法的基本原理是根据用户的历史行为，获得用户的兴趣偏好，为用户推荐跟他的兴趣偏好相似的标的物，读者可以直观上从下图理解基于内容的推荐算法。

图1：基于内容的推荐算法示意图

从上图也可以看出，要做基于内容的个性化推荐，一般需要三个步骤，它们分别是：基于用户信息及用户操作行为构建用户特征表示、基于标的物信息构建标的物特征表示、基于用户及标的物特征表示为用户推荐标的物，具体参考图2：

图2：基于内容的个性化推荐的三个核心步骤

本节我们先简单介绍一下怎么基于上图的步骤1、步骤2为用户做推荐(即步骤3中给用户做推荐的核心思想)，然后分别对这三个步骤加以说明，介绍每个步骤都有哪些方法和策略可供选择。

1. 基于用户和标的物特征为用户推荐的核心思想

有了用户特征和标的物特征，我们怎么给用户做推荐呢？我认为主要的推荐思路有如下三个：

（1）基于用户历史行为记录做推荐

我们需要事先计算标的物之间的相似性，然后将用户历史记录中的标的物的相似标的物推荐给用户。

不管标的物包含哪类信息，一般的思路是将标的物特征转化为向量化表示，有了向量化表示，我们就可以通过cosine余弦相似度计算两个标的物之间的相似度了。

（2）用户和标的物特征都用显式的标签表示，利用该表示做推荐

标的物用标签来表示，那么反过来，每个标签就可以关联一组标的物，那么根据用户的标签表示，用户的兴趣标签就可以关联到一组标的物，这组通过标签关联到的标的物，就可以作为给用户的推荐候选集。这类方法就是所谓的倒排索引法，是搜索业务通用的解决方案。

（3）用户和标的物嵌入到同一个向量空间，基于向量相似做推荐

当用户和标的物嵌入到同一个向量空间中后，我们就可以计算用户和标的物之间的相似度，然后按照标的物跟用户的相似度，为用户推荐相似度高的标的物。还可以基于用户向量表示计算用户相似度，将相似用户喜欢的标的物推荐给该用户，这时标的物嵌入是不必要的。

讲清楚了基于内容的推荐的核心思想，那么下面我们分别讲解怎么表示用户特征、怎么表示标的物特征以及怎么为用户做推荐。

2. 构建用户特征表示

用户的特征表示可以基于用户对标的物的操作行为(如点击、购买、收藏、播放等)构建用户对标的物的偏好画像，也可以基于用户自身的人口统计学特征来表达。有了用户特征表示，我们就可以基于用户特征为用户推荐与他特征匹配的标的物。构建用户特征的方法主要有如下5种：

（1）用户行为记录作为显示特征

记录用户过去一段时间对标的物的偏好。拿视频行业来说，如果用户过去一段时间看了A、B、C三个视频，同时可以根据每个视频用户观看时长占视频总时长的比例给用户的行为打分，这时用户的兴趣偏好就可以记录为
，其中S1、S2、S3分别是用户对视频A、B、C的评分。

该方案直接将用户历史操作过的标的物作为用户的特征表示，在推荐时可以将与用户操作过的标的物相似的标的物推荐给用户。

（2）显式的标签特征

如果标的物是有标签来描述的，那么这些标签可以用来表征标的物。用户的兴趣画像也可以基于用户对标的物的行为来打上对应的标签。拿视频推荐来举例，如果用户过去看了科幻和恐怖两类电影，那么恐怖、科幻就是用户的偏好标签了。

每个标的物的标签可以是包含权重的，而用户对标的物的操作行为也是有权重的，从而用户的兴趣标签是有权重的。

在具体推荐时，可以将用户的兴趣标签关联到的标的物(具备该标签的标的物)推荐给用户。

（3）向量式的兴趣特征

可以基于标的物的信息将标的物嵌入到向量空间中，利用向量来表示标的物，我们会在后面讲解嵌入的算法实现方案。有了标的物的向量化表示，用户的兴趣向量就可以用他操作过的标的物的向量的平均向量来表示了。

这里表示用户兴趣向量有很多种策略，可以基于用户对操作过的标的物的评分以及时间加权来获取用户的加权偏好向量，而不是直接取平均。另外，我们也可以根据用户操作过的标的物之间的相似度，为用户构建多个兴趣向量(比如对标的物聚类，用户在某一类上操作过的标的物的向量均值作为用户在这个类别上的兴趣向量)，从而更好地表达用户多方位的兴趣偏好。

有了用户的兴趣向量及标的物的兴趣向量，可以基于向量相似性计算用户对标的物的偏好度，再基于偏好度大小来为用户推荐标的物。

（4）通过交互方式获取用户兴趣标签

很多APP在用户第一次注册时让用户选择自己的兴趣标签，一旦用户勾选了自己的兴趣标签，那么这些兴趣标签就是系统为用户提供推荐的原材料。具体推荐策略与上面的(3)一样。

（5）用户的人口统计学特征

用户在登陆、注册时提供的关于自身相关的信息、通过运营活动用户填写的信息、通过用户行为利用算法推断得出的结论，如年龄、性别、地域、收入、爱好、居住地、工作地点等是非常重要的信息。基于这些关于用户维度的信息，我们可以将用户特征用向量化表示出来，向量的维度就是可获取的用户特征数。

有了用户特征向量就可以计算用户相似度，将相似用户喜欢的标的物推荐给该用户。

3. 构建标的物特征表示

标的物的特征，一般可以利用显式的标签来表示，也可以利用隐式的向量(当然one-hot编码也是向量表示，但是不是隐式的)来刻画，向量的每个维度就是一个隐式的特征项。前面提到某些推荐算法需要计算标的物之间的相似度，下面我们在讲标的物的各种特征表示时，也简单介绍一下标的物之间的相似度计算方法。顺便说一下，标的物关联标的物的推荐范式也需要知道标的物之间的相似度。下面我们从4个方面来详细讲解怎么构建标的物的特征表示。

（1）标的物包含标签信息

最简单的方式是将将标签按照某种序排列，每个标签看成一个维度，那么每个标的物就可以表示成一个N维的向量了(N是标签的个数)，如果标的物包含某个标签，向量在相应标签的分量上的值为1，否则为0，即所谓的one-hot编码。有可能N非常大(如视频行业，N可能是几万、甚至几十万上百万)，这时向量是稀疏向量(一般标的物只有少量的几个或者几十个标签)，我们可以采用稀疏向量的表示来优化向量存储和计算，提升效率。有了标的物基于标签的向量化表示，很容易基于cosine余弦计算相似度了。

实际上标签不是这么简单的，有很多业务标签是分级的，比如电商(如淘宝)，有多级的标签(见下面图3)，标签的层级关系形成一颗树状结构，这时该怎么向量化呢？最简单的方案是只考虑叶子节点的标签(也是最低层级的标签)，基于叶子节点标签构建向量表示。更复杂的方法，可以基于层级结构构建标签表示及计算标的物相似度。

图3：标签的层级表示关系

标签可以是通过算法获取的，比如通过NLP技术从文本信息中提取关键词作为标签。对于图片/视频，它们的描述信息(标题等)可以提取标签，另外可以通过目标检测的方法从图片/视频中提取相关对象构建标签。

标签可以是用户打的，很多产品在用户与标的物交互时可以为标的物打标签，这些标签就是标的物的一种刻画。标签也可是人工标注的，像Netflix在做推荐时，请了上万个专家对视频从上千个维度来打标签，让标签具备非常高的质量。基于这么精细优质的标签做推荐，效果一定不错。很多行业的标的物来源于第三方提供商，他们在入驻平台时会被要求按照某些规范填写相关标签信息(比如典型的如电商)。

（2）标的物具备结构化的信息

有些行业标的物是具备结构化信息的，如视频行业，一般会有媒资库，媒资库中针对每个节目会有标题、演职员、导演、标签、评分、地域等维度数据，这类数据一般存在关系型数据库中。这类数据，我们可以将一个字段(也是一个特征)作为向量的一个维度，这时向量化表示每个维度的值不一定是数值，但是形式还是向量化的形式，即所谓的向量空间模型（Vector Space Model，简称VSM）。这时我们可以通过如下的方式计算两个标的物之间的相似度。

假设两个标的物的向量表示分别为：

这时这两个标的物的相似性可以表示为：

其中代表的是向量的两个分量之间的相似度。可以采用Jacard相似度等各种方法计算两个分量之间的相似度。上面公式中还可以针对不同的分量采用不同的权重策略，见下面公式，其中是第t个分量(特征)的权重，具体权重的数值可以根据对业务的理解来人工设置，或者利用机器学习算法来训练学习得到。

（3）包含文本信息的标的物的特征表示

像今日头条和手机百度APP这类新闻资讯或者搜索类APP，标的物就是一篇篇的文章(其中会包含图片或者视频)，文本信息是最重要的信息形式，构建标的物之间的相似性有很多种方法。下面对常用的方法做一些讲解说明。

a. 利用TF-IDF将文本信息转化为特征向量

TF-IDF通过将所有文档(即标的物)分词，获得所有不同词的集合(假设有M个词)，那么就可以为每个文档构建一个M维(每个词就是一个维度)的向量，而该向量中某个词所在维度的值可以通过统计每个词在文档中的重要性来衡量，这个重要性的度量就是TF-IDF。下面我们来详细说明TF-IDF是怎么计算的。

TF即某个词在某篇文档中出现的频次，用于衡量这个词在文档中的重要性，出现次数越多的词重要性越大，当然我们会提前将“的”、“地”、“啊”等停用词去掉，这些词对构建向量是没有任何实际价值的，甚至是有害的。TF具体计算公式如下，tk 是第k个词，dj 是第j个文档，下式中分子是 tk 在中出现的次数，分母是 dj 中词的总个数。

IDF代表的是某个词在所有文档中的“区分度”，如果某个词只在少量几个文档中出现，那么它包含的价值就是巨大的(所谓物以稀为贵)，如果某个词在很多文档中出现，那么它就不能很好地衡量(区分出)这个文档。下面是IDF的计算公式，其中N是所有文档的个数，是包含词的文档个数，这个公式刚好跟前面的描述是一致的：稀有的词区分度大。

有了上面对TF和IDF的定义，实际的TF-IDF就是上面两个量的乘积：

有了基于TF-IDF计算的标的物的向量表示，我们就很容易计算两个标的物之间的相似度了(cosine余弦相似度)。

b. 利用LDA算法构建文章(标的物)的主题

LDA算法是一类文档主题生成模型，包含词、主题、文档三层结构，是一个三层的贝叶斯概率模型。对于语料库中的每篇文档，LDA定义了如下生成过程（generativeprocess）：

[1] 对每一篇文档，从主题分布中抽取一个主题；

[2] 从上述被抽到的主题所对应的单词分布中抽取一个单词；

[3] 重复上述过程直至遍历文档中的每一个单词。

我们通过对所有文档进行LDA训练，就可以构建每篇文档的主题分布，从而构建一个基于主题的向量(每个主题就是向量的一个分量，而值就是该主题的概率值)，这样我们就可以利用该向量来计算两篇文档的相似度了。主题模型可以理解为一个降维过程，将文档的词向量表示降维成主题的向量表示(主题的个数是远远小于词的个数的，所以是降维)。想详细了解LDA的读者可以看参考文献1、2。

c. 利用doc2vec算法构建文本相似度

doc2vec或者叫做 paragraph2vec, sentence embeddings，是一种非监督式算法，可以获得句子、段落、文章的稠密向量表达，它是 word2vec 的拓展，2014年被Google的两位大牛提出，并大量用于文本分类和情感分析中。通过doc2vec学出句子、段落、文章的向量表示，可以通过计算向量之间距离来表达句子、段落、文章之间的相似性。

这里我们简单描述一下doc2vec的核心思想。doc2vec受word2vec启发，由它推广而来，我们先来简单解释一下word2vec的思路。

word2vec通过学习一个唯一的向量表示每个词，每个词向量作为矩阵W中的一列(W是所有词的词向量构成的矩阵)，矩阵列可以通过词汇表为每个词做索引，排在索引第一位的放到矩阵W的第一列，如此类推。将学习问题转化为通过上下文词序列中前几个词来预测下一个词。具体的模型框架如下图：

图4：word2vec算法框架

简单来说，给定一个待训练的词序列，词向量模型通过极大化平均对数概率

将预测任务通过softmax变换看成一个多分类问题

上式中是词i的归一化的对数概率，具体用下式来计算，其中U、b是参数，h是通过词向量的拼接或者平均来构建的

word2vec算法随机初始化词向量，通过随机梯度下降法来训练神经网络模型，最终得到每个词的向量表示。

doc2vec类似地，每个段落/文档表示为向量，作为矩阵D的一列，每个词也表示为一个向量，作为矩阵W中的一列。将学习问题转化为通过上下文词序列中前几个词和段落/文档来预测下一个词。将段落/文档和词向量通过拼接或者平均来预测句子的下一个词(下图是通过“the”、“cat”、“sat”及段落id来预测下一个词“on”)。在训练的时候我们固定上下文的长度，用滑动窗口的方法产生训练集。段落向量/句向量在上下文中共享。

图5：doc2vec模型结构

对算法原理感兴趣的读者可以看看参考文献3、4、5。工程实现上有很多开源框架有word2vec或者doc2vec的实现，比如gensim中就有很好的实现，作者公司就用gensim来做word2vec嵌入用于相似视频的推荐业务中，效果非常不错，读者可以参考https://radimrehurek.com/gensim/models/doc2vec.html。

（4）图片、音频、或者视频信息

如果标的物包含的是图片、音频或者视频信息，处理起来会更加复杂。一种方法是利用它们的文本信息(标题、评论、描述信息、利用图像技术提取的字幕等文本信息等等，对于音频，可以通过语音识别转化为文本)采用上面(3)的技术方案获得向量化表示。对于图像或者视频，也可以利用openCV中的PSNR和SSIM算法来表示视频特征，也可以计算视频之间的相似度。另外一种可行的方法是采用图像、音频处理技术直接从图像、视频、音频中提取特征进行向量化表示，从而容易计算出相似度。总之，图片、图像、音频都可以转化为NLP问题或者图像处理问题(见下面图6)，通过图像处理和NLP获得对应的特征表示，从而最终计算出相似度，这里不详细讲解。

图6：视频/图片问题都可以转化为NLP或图像处理问题

4. 为用户做个性化推荐

有了上面用户和标的物的特征表示，剩下就是基于此为用户做个性化推荐了，一般有5种方法和策略，下面我们来一一讲解。这里的推荐就是完全个性化范式的推荐，为每个用户生成不一样的推荐结果。

(1）采用跟基于物品的协同过滤类似的方式推荐

该方法采用基于用户行为记录的显式特征表示用户特征，通过将用户操作过的标的物最相似的标的物推荐给用户，算法原理跟基于物品的协同过滤类似，计算公式甚至是一样的，但是这里计算标的物相似度是基于标的物的自身信息来计算的，而基于物品的协同过滤是基于用户对标的物的行为矩阵来计算的。

用户u对标的物s的喜好度sim(u,s)可以采用如下公式计算，其中U是所有用户操作过的标的物的列表，是用户u对标的物的喜好度，是标的物与s的相似度。

有了用户对每个标的物的相似度，基于相似度降序排列，就可以取topN推荐给用户了。

除了采用上面的公式外，我们在推荐时也可以稍作变化，采用最近邻方法(K-NearestNeighbor, KNN)。对于用户操作/喜欢过的每个标的物，通过kNN找到最相似的k个标的物。

其中是给用户u的推荐，是标的物最近邻(最相似)的k个标的物。

(2）采用跟基于用户协同过滤类似的方法计算推荐

如果我们获得了用户的人口统计学向量表示或者基于用户历史操作行为获得了用户的向量化表示，那么我们可以采用跟基于用户的协同过滤方法相似的方法来为用户提供个性化推荐，具体思路如下：

我们可以将与该用户最相似的用户喜欢的标的物推荐给该用户，算法原理跟基于用户的协同过滤类似，计算公式甚至是一样的。但是这里计算用户相似度是基于用户的人口统计学特征向量表示来计算的(计算用户向量cosine余弦相似度)或者是基于用户历史行为嵌入获得的特征向量来计算的，而基于用户的协同过滤是基于用户对标的物的行为矩阵来计算用户之间的相似度。

用户u对标的物s的喜好度sim(u,s)可以采用如下公式计算，其中U是与该用户最相似的用户集合，是用户对标的物s的喜好度，是用户与用户u的相似度。

有了用户对每个标的物的相似度，基于相似度降序排列，就可以取topN推荐给用户了。

与前面一样我们也可以采用最近邻方法(K-NearestNeighbor, KNN)。通过kNN找到最相似的k个用户，将这些用户操作/喜欢过的每个标的物推荐给用户。

其中是给用户u的推荐，是用户相似的k个用户。是用户操作/喜欢过的标的物的集合。

(3）基于标的物聚类的推荐

有了标的物的向量表示，我们可以用kmeans等聚类算法将标的物聚类，有了标的物的聚类，推荐就好办了。从用户历史行为中的标的物所在的类别挑选用户没有操作行为的标的物推荐给用户，这种推荐方式是非常直观自然的。电视猫的个性化推荐就采用了类似的思路。具体计算公式如下，其中是给用户u的推荐，H是用户的历史操作行为集合，Cluster(s)是标的物s所在的聚类。

（4）基于向量相似的推荐

不管是前面提到的用户的显示的兴趣特征(利用标签来衡量用户兴趣)或者是向量式的兴趣特征(将用户的兴趣投影到向量空间)，我们都可以获得用户兴趣的向量表示。

如果我们获得了用户的向量表示和标的物的向量表示，那么我们就可以通过向量的cosine余弦相似度计算用户与标的物之间的相似度。一样地，有了用户对每个标的物的相似度，基于相似度降序排列，就可以取topN推荐给用户了。

基于向量的相似的推荐，需要计算用户向量与每个标的物向量的相似性。如果标的物数量较多，整个计算过程还是相当耗时的。同样地，计算标的物最相似的K个标的物，也会涉及到与每个其他的标的物计算相似度，也是非常耗时的。整个计算过程的时间复杂度是O(n)，其中N是标的物的总个数。

上述复杂的计算过程可以利用Spark等分布式计算平台来加速计算。对于T+1级(每天更新一次推荐结果)的推荐服务，利用Spark事先计算好，将推荐结果存储起来供前端业务调用是可以的。

另外一种可行的策略是利用高效的向量检索库，在极短时间(一般几毫秒或者几十毫秒)内为用户索引出topN最相似的标的物。目前FaceBook开源的FAISS库(https://github.com/facebookresearch/faiss)就是一个高效的向量搜索与聚类库，可以在毫秒级响应查询及聚类需求，因此可以用于个性化的实时推荐。目前国内有很多公司将该库用到了推荐业务上。

FAISS库适合稠密向量的检索和聚类，所以对于利用LDA、Doc2vector算法构建向量表示的方案是实用的，因为这些方法构建的是稠密向量。而对于TF-IDF及基于标签构建的向量化表示，就不适用了，这两类方法构建的都是稀疏的高维向量。

（5）基于标签的反向倒排索引做推荐

该方法在《推荐系统产品与算法概述》这篇文章中也简单做了介绍，这里再简单说一下，并且给出具体的计算公式。基于标的物的标签和用户的历史兴趣，我们可以构建出用户基于标签兴趣的画像及标签与标的物的倒排索引查询表(熟悉搜索的同学应该不难理解)。基于该反向索引表及用户的兴趣画像，我们就可以为用户做个性化推荐了。该类算法其实就是基于标签的召回算法。

具体推荐过程是这样的(见下面图7)：从用户画像中获取用户的兴趣标签，基于用户的兴趣标签从倒排索引表中获取该标签对应的标的物，这样就可以从用户关联到标的物了。其中用户的每个兴趣标签及标签关联到的标的物都是有权重的。

图7：基于倒排索引的电影推荐

假设用户的兴趣标签及对应的标签权重如下，其中T是标签，S是用户对标签的偏好权重。

假设标签关联的标的物分别为

…

其中O,w分别是标的物及对应的权重，那么

上式中U是用户对标的物的偏好集合，我们这里将标的物看成向量空间的基，所以有上面的公式。不同的标签可以关联到相同的标的物(因为不同的标的物可以有相同的标签)，上式中最后一个等号右边需要合并同类项，将相同基前面的系数相加。合并同类项后，标的物(基)前面的数值就是用户对该标的物的偏好程度了，我们对这些偏好程度降序排列，就可以为用户做topN推荐了。

到此我们介绍完了基于内容的推荐算法的核心原理，那么这些算法是怎么应用到真实的产品中的呢？有哪些可行的推荐产品形态？这就是下节的主要内容。

三.基于内容的推荐算法应用场景

基于内容的推荐是最古老的一类推荐算法，在整个推荐系统发展史上具有举足轻重的地位。虽然它的效果可能没有协同过滤及新一代推荐算法好，但是它们还是非常有应用价值的，甚至是必不可少的。基于内容的推荐算法主要用在如下几类场景。

1. 完全个性化推荐

就是基于内容特征来为每个用户生成不同的推荐结果，我们常说的推荐系统就是指这类推荐形态。上面一节第四部分已经完整地讲解了怎么为用户做个性化推荐，这里不再赘述。

2. 标的物关联标的物推荐

标的物关联标的物的推荐也是工业界最常用的推荐形态，大量用于真实产品中。

上一节第三部分讲了很多怎么构建标的物之间相似度的方法，其实这些方法可以直接用来做标的物关联标的物的推荐，只要我们将与某个标的物最相似的topN的标的物作为关联推荐即可。

3. 配合其他推荐算法

由于基于内容的推荐算法在精准度上不如协同过滤等算法，但是可以更好的适应冷启动，所以在实际业务中基于内容的推荐算法会配合其他算法一起服务于用户，最常用的方法是采用级联的方式，先给用户协同过滤的推荐结果，如果该用户行为少没有协同过滤推荐结果，就为该用户推荐基于内容的推荐算法产生的推荐结果。

4. 主题推荐

如果我们有标的物的标签信息，并且基于标签系统构建了一套推荐算法，那么我们就可以将用户喜欢的标签采用主题的方式推荐给用户，每个主题就是用户的一个兴趣标签。通过一些列主题的罗列展示，让用户从中筛选自己感兴趣的内容(见下面图8)。Netflix的首页大量采用基于主题的推荐模式。主题推荐的好处是可以将用户所有的兴趣点按照兴趣偏好大小先后展示出来，可解释性强，并且让用户有更多维度的自由选择空间。

当然，在真实产品中可以采用比下面图8这种简单标签直接展示更好的方式。具体来说，我们可以为每个标签通过人工编辑生成一句更有表达空间的话(如武侠标签，可以采用“江湖风云再起，各大门派齐聚论剑”这样更有深度的表述)，具体前端展示时映射到人工填充的话而不是直接展示原来的标签。

图8：电视猫主题推荐(红色圈圈中就是基于标签的用户兴趣)

5. 给用户推荐标签

另外一种可行的推荐策略是不直接给用户推荐标的物，而是给用户推荐标签，用户通过关注推荐的标签，自动获取具备该标签的标的物。除了可以通过推荐的标签关联到标的物获得直接推荐标的物类似的效果外，间接地通过用户对推荐的标签的选择、关注进一步获得了用户的兴趣偏好，这是一种可行的推荐产品实现方案。

四.基于内容的推荐算法的优势与缺点

基于内容的推荐算法算是一类比较直观易懂的算法，目前在工业级推荐系统中有大量的使用场景，在本节我们对基于内容的推荐算法的优缺点加以说明，方便读者在实践中选择取舍，构建适合业务场景的内容推荐系统。

1. 优点

基于上面的介绍，基于内容的推荐算法是非常直观的，具体来说，它有如下6个优点。

（1）可以很好的识别用户的口味

该算法完全基于用户的历史兴趣来为用户推荐，推荐的标的物也是跟用户历史兴趣相似的，所以推荐的内容一定是符合用户的口味的。

（2）非常直观易懂，可解释性强

基于内容的推荐算法基于用户的兴趣为用户推荐跟他兴趣相似的标的物，原理简单，容易理解。同时，由于是基于用户历史兴趣推荐跟兴趣相似的标的物，用户也非常容易接受和认可。

（3）可以更加容易的解决冷启动

只要用户有一个操作行为，就可以基于内容为用户做推荐，不依赖其他用户行为。同时对于新入库的标的物，只要它具备metadata信息等标的物相关信息，就可以利用基于内容的推荐算法将它分发出去。因此，对于强依赖于UGC内容的产品(如抖音、快手等)，基于内容的推荐可以更好地对标的物提供方进行流量扶持。

（4）算法实现相对简单

基于内容的推荐可以基于标签维度做推荐，也可以将标的物嵌入向量空间中，利用相似度做推荐，不管哪种方式，算法实现较简单，有现成的开源的算法库供开发者使用，非常容易落地到真实的业务场景中。

（5）对于小众领域也能有比较好的推荐效果

对于冷门小众的标的物，用户行为少，协同过滤等方法很难将这类内容分发出去，而基于内容的算法受到这种情况的影响相对较小。

（6）非常适合标的物快速增长的有时效性要求的产品

对于标的物增长很快的产品，如今日头条等新闻资讯类APP，基本每天都有几十万甚至更多的标的物入库，另外标的物时效性也很强。新标的物一般用户行为少，协同过滤等算法很难将这些大量实时产生的新标的物推荐出去，这时就可以采用基于内容的推荐算法更好地分发这些内容。

2. 缺点

虽然基于内容的推荐实现相对容易，解释性强，但是基于内容的推荐算法存在一些不足，导致它的效果及应用范围受到一定限制。主要的问题有如下4个：

（1）推荐范围狭窄，新颖性不强

由于该类算法只依赖于单个用户的行为为用户做推荐，推荐的结果会聚集在用户过去感兴趣的标的物类别上，如果用户不主动关注其他类型的标的物，很难为用户推荐多样性的结果，也无法挖掘用户深层次的潜在兴趣。特别是对于新用户，只有少量的行为，为用户推荐的标的物较单一。

（2）需要知道相关的内容信息且处理起来较难

内容信息主要是文本、视频、音频，处理起来费力，相对难度较大，依赖领域知识。同时这些信息更容易有更大概率含有噪音，增加了处理难度。另外，对内容理解的全面性、完整性及准确性会影响推荐的效果。

（3）较难将长尾标的物分发出去

基于内容的推荐需要用户对标的物有操作行为，长尾标的物一般操作行为非常少，只有很少用户操作，甚至没有用户操作。由于基于内容的推荐只利用单个用户行为做推荐，所以更难将它分发给更多的用户。

（4）推荐精准度不太高

基于工业界的实践经验，相比协同过滤算法，基于内容的推荐算法精准度要差一些。

五.算法落地需要关注的重要问题

基于内容的推荐算法虽然容易理解，实现起来相对简单，但在落地到真实业务场景中，有很多问题需要思考解决。下面这些问题是在落地基于内容推荐算法时必须思考的，这里将他们列举出来，并提供一些简单的建议，希望可以帮到读者。

1. 内容来源的获取

对于基于内容的推荐来说，有完整的、高质量的内容信息是可以构建精准的推荐算法的基础，那我们有哪些方法可以获取内容来源呢？下面这些策略是主要获取内容(包括标的物内容和用户相关内容)来源的手段。

（1）标的物“自身携带”的信息

标的物在上架时，第三方会准备相关的内容信息，如天猫上的商品在上架时会补充很多必要的信息。对于视频来说，各类metadata信息也是视频入库时需要填充的信息。我们要做的是增加对新标的物入库的监控和审核，及时发现信息不全的情况并做适当处理。

（2）通过爬虫获取标的物相关信息

通过爬虫爬取的信息可以作为标的物信息的补充，特别是补充上面（1）不全的信息。有了更完整的信息就可以获得更好的特征表示。

（3）通过人工标注数据

往往人工标注的数据价值密度高，通过人工精准的标注可以大大提升算法推荐的精准度。但是人工标注成本太大。

（4）通过运营活动或者产品交互让用户填的内容

通过抽奖活动让用户填写家庭组成、兴趣偏好等，在用户开始注册时让用户填写兴趣偏好特征，这些都是获取内容的手段。

（5）通过收集用户行为直接获得或者预测推断出的内容

通过请求用户GPS位置知道用户的活动轨迹，用户购物时填写收货地址，用户绑定的身份证和银行卡等，通过用户操作行为预测出用户的兴趣偏好，这些方法都可以获得部分用户数据。

（6）通过与第三方合作或者产品矩阵之间补充信息

目前中国有大数据交易市场，通过正规的数据交易或者跟其他公司合作，在不侵犯用户隐私的情况下，通过交换数据可以有效填补自己产品上缺失的数据。

如果公司有多个产品，新产品可以借助老产品的巨大用户基数，将新产品的用户与老产品用户关联起来(id-maping或者账号打通)，这样老产品上丰富的用户行为信息可以赋能给新产品。

2. 怎么利用负反馈

用户对标的物的操作行为不一定代表正向反馈，有可能是负向的。比如点开一个视频，看了不到几秒就退出来了，明显表明用户不喜欢。有很多产品会在用户交互中直接提供负向反馈能力，这样可以收集到更多负向反馈。下面是今日头条和百度APP推荐的文章，右下角有一个小叉叉(见下面图9中红色圈圈)，点击后展示上面的白色交互区域，读者可以勾选几类不同的负向反馈机制。

图9：负向反馈的交互形式：利用用户负向反馈来优化产品体验

负向反馈代表用户强烈的不满，因此如果推荐算法可以很好的利用这些负向反馈就能够大大提升推荐系统的精准度和满意度。基于内容的推荐算法整合负向反馈的方式有如下几种：

(1) 将负向反馈整合到算法模型中

在构建算法模型中整合负向反馈，跟正向反馈一起学习，从而更自然地整合负向反馈信息。

(2) 采用事后过滤的方式

先给用户生成推荐列表，再从该推荐列表中过滤掉与负向反馈关联的或者相似的标的物。

(3) 采用事前处理的方式

从待推荐的候选集中先将与负向反馈相关联或者相似的标的物剔除掉，然后再进行相关算法的推荐。

3. 兴趣随时间变化

用户的兴趣不是一成不变的，一般用户的兴趣是随着时间变化的，那怎么在算法中整合用户的兴趣变化呢？可行的策略是对用户的兴趣根据时间衰减，最近的行为给予最大的权重。还可以分别给用户建立短期兴趣特征和长期兴趣特征，在推荐时既考虑短期兴趣又考虑长期兴趣，最终推荐列表中整合两部分的推荐结果。

对于新闻资讯等这类时效性强的产品，能够整合用户的实时兴趣变化可以大大提升用户体验，这也是现在信息流类推荐产品大行其道的原因。

4. 数据清洗

基于内容的推荐算法依赖于标的物相关的描述信息，这些信息更多的是以文本的形式存在，这就涉及到自然语言处理了，文本中可能会存在很多歧义、符号、脏数据，我们需要事先对数据进行很好的处理，才能让后续的推荐算法产生好的效果。

5. 加速计算与节省资源

在实际推荐算法落地时，我们会事先为每个标的物计算N(=50)个最相似的标的物，事先将计算好的标的物存起来，减少时间和空间成本，方便后续更好地做推荐。同时也可以利用各种分布式计算平台和快速查询平台(如Spark、FAISS库等)加速计算过程。另外，算法开发过程中尽量做到模块化，对业务做抽象封装，这可以大大提升开发效率，并且可能会节省很多资源。

6. 怎么解决基于内容的推荐越推越窄的问题

前面提到基于内容的推荐存在越推越窄的缺点，那怎么避免或者减弱这种影响呢？当然用协同过滤等其他算法是一个有效的方法。另外，我们可以给用户做兴趣探索，为用户推荐兴趣之外的特征关联的标的物，通过用户的反馈来拓展用户兴趣空间，这类方法就是强化学习中的EE方法。如果我们构造了标的物的知识图谱系统，我们就可以通过图谱拓展标的物更远的联系，通过长线的相关性来做推荐，同样可以有效解决越推越窄的问题。

7. 工程落地技术选型

本篇文章主要讲的是基于内容的推荐系统的算法实现原理，具体工程实践时，需要考虑到数据处理、模型训练、分布式计算等技术，当前很多开源方案可以使用，常用的如Spark mllib，scikit-learn，Tensorflow，pytorch，gensim等，这些工具都封装了很多数据处理、特征提取、机器学习算法，我们可以基于第二节的算法思路来落地实现。

8. 业务的安全性

除了技术外，在推荐产品落地中还需要考虑推荐的标的物的安全性，避免推荐反动、色情、标题党、低俗内容，这些就需要基于NLP或者CV技术对文本或者视频进行分析过滤。如果是UGC平台型的产品，还需要考虑怎么激励优质内容创作者，让好的内容得到更多的分发机会，同时对产生劣质内容的创作者采取一定的惩罚措施，比如限制发文频率、禁止一段时间的发文权限等。

你可能感兴趣的:(深度学习,推荐算法,算法,机器学习)

2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
笔记:代码随想录算法训练营day39:LeetCode 198.打家劫舍,213.打家劫舍II,337.打家劫舍III jingjingjing1111 笔记 leetcode 算法数据结构动态规划
学习资料:代码随想录198.打家劫舍力扣题目链接思路：有点像贪心，是一个不断比较取最大路径的思路定义：偷到下标为i的这家，能偷到的最大值递推公式：选当前这家偷能得到的钱和不偷当前这家的钱作比较，选能偷到的最大金额。因为这个金额是逐一递推过来的，所以是能够代表最大值的。初始化：把第一家和第二家初始化，简单来说，因为递推公式需要i-1和i-2遍历顺序：顺着偷打印：//五部曲//定义:dp[i]为偷到第
院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会 CSDN资讯机器学习人工智能
随着Manus出圈，OpenManus、OWL迅速开源，OpenAI推出智能体开发工具，全球AI生态正经历新一轮智能体革命。大模型如何协同学习？大模型如何自我进化？新型强化学习技术如何赋能智能体？围绕这些关键问题，由CSDN&Boolan联合举办的「2025全球机器学习技术大会」将于4月18-19日在上海隆重举行。大会云集院士、10所高校科研工作者、近30家一线科技企业技术实战专家组成的超50位重
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
手写机器学习算法系列——K-Means聚类算法(一) 木有鱼丸223 手写机器学习算法系列机器学习算法聚类
代码仓库(数字空间项目，GN可上)不想看的话，我也将代码上传到本博客中。1.聚类算法简介在数据科学和机器学习领域，聚类(Clustering)算法是一种无监督学习方法，它将相似的对象分到同一个组，而不同的对象则被分到不同的组。这种算法的主要目标是根据数据的特征进行分组，以此找出数据的内在结构。聚类算法的一个核心特点就是它并不需要预先知道数据的类别，而是通过算法自动进行分组。在实际应用中，我们常见的
策略模式与责任链模式 CV明学习策略模式责任链模式
策略模式策略模式(StrategyPattern)又叫政策模式(PolicyPattern)它是将定义的算法家族，分别分装起来，让它们之间可以互相替换，从而让算法的变化不会影响到使用算法的用户。可以避免多重分支的if。。。else。。。和switch语句属于行为型模式适用场景假如系统中有很多类，而他们的区别仅仅在于他们的行为不同。一个系统需要动态地在几种算法中选择一种。需要屏蔽算法规则。Compa
可视化图解算法：合并k个已排序（升序）的链表
1.题目描述合并k个升序的链表并将结果作为一个升序的链表返回其头节点。数据范围：节点总数满足0≤n≤10^5^，链表个数满足1≤k≤10^5^，每个链表的长度满足1≤len≤200，每个节点的值满足∣val∣ListNode:#writecodehere#1.定义（引用）小顶堆heap=PriorityQueue()#2.每个链表的第一个节点放入堆中foriinrange(len(lists)):
.net 插件式开发——实现web框架中大数据算法嵌入(BP算法逼近) weixin_34219944 json 人工智能
关于算法的引入：插件式架构设计，可移植性强，利于算法的升级。【插件式开发相关资料】https://www.cnblogs.com/lenic/p/4129096.html以BP算法为例：1、首先定义一个接口规范////////插件的统一入口///publicinterfaceIPluginPerfrom{//////统一算法插件入口//////输出参数的个数///输出参数///输入参数///str
【设计模式】策略模式和责任链模式 dearfulan 设计模式策略模式设计模式责任链模式
策略模式任何程序都离不开算法，我们需要通过算法去解决特定的问题策略模式将算法的实现分别封装起来，让他们之间可以方便的进行替换，而不需要去改动代码。属于行为型模式。举个例子:拼多多现在有促销活动，其优惠策略可能是拼团活动价格，优惠券抵扣，补贴价格，购物返现等…如果直接写代码，那么就是在代码里写一堆if…else…，会使得代码非常复杂和臃肿，这个时候就需要策略模式了适合场景针对同一类问题，不同场景有不
用js搞清策略模式和责任链模式的区别技术蹭蹭蹭策略模式责任链模式 javascript
策略模式和责任链模式都是常用的设计模式，它们的目的都是为了解耦和提高代码的可维护性。但是，它们的应用场景不同，下面对它们进行详细的比较和介绍。策略模式策略模式是一种定义一系列算法的方法，从概念上来看，所有这些算法完成的都是相同的工作，只是实现不同。它可以让算法的变化独立于使用它的客户端（也就是上下文），从而可以在不修改客户端的情况下，增加或替换算法。策略模式主要包含三个角色：上下文（Context
KNN算法实例_手写识别系统 V文宝机器学习算法
创建一个简单的书写识别系统，使用KNN算法来识别手写数字。分别使用手写KNN算法和调用scikit-learn库来实现。在数据处理过程中，将使用一个常见的手写数字数据集，如MNIST数据集。数据集我们将使用MNIST数据集，它包含60000个训练样本和10000个测试样本。每个样本是一个28x28像素的灰度图像，表示0-9之间的手写数字。手写KNN算法我们首先手写一个KNN算法来实现书写识别系统。
蓝桥杯常见算法模板（Python组） -777. 蓝桥杯算法
目录1.二分1.整数二分（二分答案）：2.浮点数二分（考不到）2.前缀和、差分1.前缀和一维：二维：2.差分一维：二维：3.贪心4.线性DP1.最长上升子序列（子序列问题一般下标从一开始）2.最长公共子序列3.常见背包模型1.0-1背包2.完全背包3.多重背包4.混合背包5.二维费用背包6.分组背包5.搜索1.DFS模板：1.子集问题2.全排列问题2.BFS6.数据结构1.并查集2.树状数组3.树
深入理解信息检索之BM25算法 Lunar* 算法与优化自然语言处理人工智能
1.BM25算法简介BM25算法，全称为"BestMatching25"，是由StephenRobertson和KarenSpärckJones在1990年代初基于早期的概率排名模型（如二元独立检索模型）发展而来。它通过一种概率论的方法来衡量文档与用户查询之间的相关性。2.BM25的核心原理BM25算法的核心在于两个主要的概念：逆文档频率（IDF）和词频（TF）调整。逆文档频率（IDF):IDF用
验证码识别：使用OCR技术识别图形验证码详解数据知道 2025年爬虫和逆向教程 ocr python 爬虫 OCR识别验证码识别图片验证码
文章目录一、基本原理二、所需工具2.1Python环境2.2图像处理库2.3OCR引擎2.4Python接口三、实现步骤3.1获取验证码图像3.2图像预处理3.3使用OCR进行字符识别3.4基本OCR识别样例四、提高识别准确率的方法4.1字符分割4.2使用深度学习模型4.3数据增强4.4集成多个OCR引擎五、实际应用中的注意事项六、总结验证码（CAPTCHA）是一种用于区分人类用户和自动化程序的安
《灵珠觉醒：从零到算法金仙的C++修炼》卷三·天劫试炼（40）翻天印压回文串 - 最长回文子序列（区间DP）轻口味算法 c++代理模式
《灵珠觉醒：从零到算法金仙的C++修炼》卷三·天劫试炼（40）翻天印压回文串-最长回文子序列（区间DP）哪吒在数据修仙界中继续他的修炼之旅。这一次，他来到了一片神秘的回文森林，森林中有一本古老的翻天印，印身闪烁着神秘的光芒。森林的入口处有一块巨大的石碑，上面刻着一行文字：“欲破此林，需以翻天印之力，压回文串，区间DP显真身。”哪吒定睛一看，石碑上还有一行小字：“字符串"bbbab"的最长回文子序列
OpenCV图像基础天行者@ opencv 人工智能计算机视觉
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是OpenSourceComputerVisionLibrary,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国WillowGarage为OpenCV提供主要的支持OpenCV可用于开发实时的图
30.代码随想录算法训练营第三十天|452. 用最少数量的箭引爆气球,435. 无重叠区间,763. 划分字母区间白鹭鸣鸣！算法 java
30.代码随想录算法训练营第三十天|452.用最少数量的箭引爆气球,435.无重叠区间,763.划分字母区间452.用最少数量的箭引爆气球-力扣（LeetCode）有一些球形气球贴在一堵用XY平面表示的墙面上。墙面上的气球记录在整数数组points，其中points[i]=[xstart,xend]表示水平直径在xstart和xend之间的气球。你不知道气球的确切y坐标。一支弓箭可以沿着x轴从不同
C++回文自动机总斯霖 c++算法
算法原理节点结构：每个节点代表一个回文子串。包含长度len、失败指针fail和子节点转移trans。双根结构：偶根（0号节点）：长度为0，处理偶数长度回文。奇根（1号节点）：长度为-1，处理奇数长度回文。构建过程：逐个字符处理，维护当前最长回文后缀节点last。对于新字符，沿last的失败链找到可扩展的节点，创建新节点并更新指针。失败指针：类似AC自动机，用于在无法扩展时跳转到其他回文后缀。C++
从LayerNorm到RMSNorm：深度学习归一化技术的进化！qwen2.5的技术。 KangkangLoveNLP qwen2.5 深度学习人工智能 transformer pytorch 自然语言处理 python 神经网络
RMSNorm（RootMeanSquareNormalization，均方根归一化）是一种用于深度学习的归一化技术，是LayerNorm（层归一化）的一种改进。它通过计算输入数据的均方根（RootMeanSquare,RMS）来进行归一化，避免了传统归一化方法中均值和方差的计算1.LayerNorm（层归一化）LayerNorm（层归一化）是一种用于深度学习的归一化技术，主要用于稳定训练过程、加
基于OFDM的无人机中继通信链路matlab误码率仿真简简单单做算法 MATLAB算法开发 #通信信号 matlab OFDM 无人机中继通信
目录1.算法运行效果图预览2.算法运行软件版本3.部分核心程序4.算法理论概述5.算法完整程序工程1.算法运行效果图预览(完整程序运行后无水印)2.算法运行软件版本matlab2024b/matlab2022a3.部分核心程序（完整版代码包含详细中文注释和操作步骤视频）.................................................................
深入解析：大型机器学习模型的基本概念与特点 AI大模型-大飞机器学习人工智能 AI大模型 AI 神经网络大模型
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。本文目录如下：·大模型的定义·大模型相关概念区分·大模型的发展历程·大模型的特点·大模型的分类·大模型的泛化与微调1.大模型的定义大模型是指具有大规模参数和复杂计算结
搞定leetcode面试经典150题之哈希算法醒了就刷牙 LeetCode刷题哈希算法 leetcode 面试算法
系列博客目录搞定leetcode面试经典150题之哈希算法搞定leetcode面试经典150题之双指针搞定leetcode面试经典150题之滑动窗口文章目录系列博客目录理论知识1.哈希函数（HashFunction）2.哈希表（HashTable）通过HashMap实现3.哈希算法的应用4.哈希算法的时间复杂度编程理论1.HashSet的工作原理2.HashMap(哈希表)的工作原理3.哈希表中的
深入浅出 K 近邻算法：原理、实践与应用烂蜻蜓机器学习近邻算法算法
引言在机器学习的众多算法中，K近邻算法（K-NearestNeighbors，简称KNN）以其简洁而强大的特性占据着重要地位。它既可以用于分类任务，也能在回归任务中发挥作用。无论是处理简单数据集，还是面对复杂的数据分布，KNN都展现出独特的魅力。本文将深入探讨KNN算法的原理、特点、优缺点、实现步骤以及在分类和回归任务中的具体应用。KNN算法的基本原理KNN算法属于监督学习范畴，其核心思想质朴而直
【漫话机器学习系列】137.随机搜索（Randomized Search） IT古董漫话机器学习系列专辑机器学习人工智能
随机搜索（RandomizedSearch）详解在机器学习和深度学习的模型训练过程中，超参数调优（HyperparameterTuning）是至关重要的一环。随机搜索（RandomizedSearch）是一种高效的超参数优化方法，它通过在候选超参数的数值分布（如正态分布、均匀分布等）中随机选择超参数组合，从而找到最优的超参数配置。1.超参数调优的必要性超参数是模型在训练之前需要人为设定的参数，例如
leetcode【面试经典150系列】（一） 23#.lsy 算法算法数据结构
目录121.买卖股票最佳时机题目描述示例算法分析代码(python3)122.买卖股票最佳时机II题目描述示例算法分析代码（python3）55.跳跃游戏题目描述示例算法分析代码45.跳跃游戏II题目描述示例算法分析代码121.买卖股票最佳时机题目描述给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子
【大模型学习】第十九章什么是迁移学习好多渔鱼好多 AI大模型人工智能大模型 AI 机器学习迁移学习
目录1.迁移学习的起源背景1.1传统机器学习的问题1.2迁移学习的提出背景2.什么是迁移学习2.1迁移学习的定义2.2生活实例解释3.技术要点与原理3.1迁移学习方法分类3.1.1基于特征的迁移学习（Feature-basedTransfer）案例说明代码示例3.1.2基于模型的迁移（Model-basedTransfer）案例说明BERT用于情感分析的例子3.1.3基于实例的迁移（Instanc
医学人工智能影像诊断数据收集与整理 V搜xhliang0246 人工智能健康医疗算法
在医学领域中，人工智能（AI）尤其是深度学习技术，已经被广泛应用于医学影像的分析和诊断。为了训练这些模型，需要大量的高质量标注数据。下面我会给出一个简单的示例流程，介绍如何收集、整理和准备医学影像数据集，并提供一些基础的Python代码示例。数据收集首先，你需要收集包含医学影像的数据集。这些数据通常来自医院或研究机构，并且需要经过伦理审查和患者同意。示例数据集假设我们有一个包含肺部X光片的数据集，
深度学习模块缝合教程：从理论到实践 RockLiu@805 深度学习模块机器视觉深度学习人工智能
深度学习模块缝合教程：从理论到实践引言随着深度学习的不断发展，模型的设计与优化成为研究者关注的核心问题之一。如何有效地“缝合”不同模块，以实现更高效的计算和更强大的功能，是当前深度学习研究中的一个重要课题。在本文中，我们将从基础概念出发，详细探讨深度学习模块缝合的方法、技巧及其应用场景。无论是理论深厚的研究者还是实验导向的实践者，都可以从中获得启发。一、深度学习基础知识详解深度学习是人工智能领域的
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》