零度anngle

读书笔记《推荐系统实践》- 个性化推荐系统总结

转载：https://www.jianshu.com/p/319e4933c5ba

对于推荐系统，本文总结内容，如下图所示：

推荐系统.png

文章很长，你可以跳着看你感兴趣的部分。

一、什么是推荐系统

1. 为什么需要推荐系统

结论是，为了解决互联网时代下的信息超载问题。

看个数据：

据IDC《数字宇宙》的研究报告表明，2020 年全球新建和复制的信息量将超过40ZB，是2012年的12倍；中国的数据量在2020年超过8ZB，比2012年增长22倍。

单位换算是这样的：
1ZB = 1024 EB;
1EB = 1024 PB;
1PB = 1024 TB;
1TB = 1024 GB;
1GB = 1024 MB;

即便坐拥海量信息，用户却无法找到真正对自己有用的，可见效率之低。

从前，人们是这样解决信息超载问题的：

现实中，我有个东西想买（有明确目的）
- 小便利店 --> 凭经验浏览所有货架；
- 大型超市 --> 借助分类指示牌；
不知道买啥（没有明确目的）
- 空间大，随便逛
引申到互联网，有明确目的时
- 电商网站 --> 搜索引擎，信息检索；
没有明确目的时
- 巴掌大的地儿，靠个性化推荐

信息超载，不是互联网独有的，在现实生活也会存在这样的问题，毕竟人的大脑同时能够处理的信息只有4-7个，我们面对的问题从来没有变过，区别在于当下的情况，所处的环境。

正如《大数据时代》中作者所言，这仅仅是一个开始，人们与世界的交流方式，从原来对因果关系的渴求，转变为现在对相关关系的发现和使用上。

2. 搜索引擎与推荐系统

众所周知，解决信息过载问题，最有代表性的解决方案是【分类目录】和【搜索引擎】，这两种解决方案分别催生了互联网领域的两家著名公司--雅虎和谷歌。

搜索引擎

分类目录，是将著名网站分门别类，从而方便用户根据类别查找公司。

但随着互联网规模不断扩大，分类目录网站只能涵盖少数热门网站，已无法满足用户需求。因此，搜索引擎诞生了。

搜索引擎，用户通过输入关键字，查找自己需要的信息。

但是，用户必须主动提供准确的关键词，才能找到信息。所以用户的其他需求，比如用户无法找到准确描述自己需求的关键词时，搜索引擎就无能为力了。

推荐系统，和搜索引擎一样，是一种帮助用户快速发展有用信息的工具。通过分析用户的历史行为，给用户的兴趣建模，从而主动给用户推荐能够满足他们兴趣和需求的信息。

并且，推荐系统能够很好的发掘物品的长尾，挑战传统的2/8原则（80%的销售额来自20%的热门品牌）。

从技术角度来看，搜索引擎和推荐系统的区别在于：

1）搜索引擎，注重搜索结果之间的关系和排序；
2）推荐系统，需要研究用户的兴趣模型，利用社交网络的信息进行个性化的计算；

3）搜索引擎，由用户主导，需要输入关键词，自行选择结果。如果结果不满意，需要修改关键词，再次搜索；
4）推荐系统，由系统主导，根据用户的浏览顺序，引导用户发现自己感兴趣的信息；

3. 推荐系统的定义

推荐系统通过发掘用户的行为，找到用户的个性化需求，从而将长尾物品准确推荐给需要它的用户，帮助用户找到他们感兴趣但很难发现的物品。

高质量的推荐系统会使用户对系统产生依赖，因此，推荐系统不仅能为用户提供个性化服务，还能与用户建立长期稳定的关系，提高用户忠诚度，防止用户流失。

二、推荐系统评测

如何判定什么是好的推荐系统？这是评测需要解决的首要问题。

一般推荐系统的参与方有3个：

用户
物品提供商
推荐系统提供网站

因此，评测一个推荐系统时，需要考虑3方的利益，一个好的推荐系统是能够令三方共赢的系统。

推荐系统评测，总结图如下：

推荐系统评测.png

1. 实验方法

获得评测指标的实验方法，通常分3种：

离线实验（offline experiment）
用户调查（user study）
在线实验（online experiment）

我们分别介绍3种实验方法的优缺点。

1）离线实验

离线实验的方法的步骤如下：
a）通过日志系统获得用户行为数据，并按照一定格式生成一个标准的数据集；
b）将数据集按照一定的规则分成训练集和测试集；
c）在训练集上训练用户兴趣模型，在测试集上进行预测；
d）通过事先定义的离线指标，评测算法在测试集上的预测结果。

从以上步骤看出，离线实验的都是在数据集上完成的。意味着，它不需要一个实际的系统作为支撑，只需要有一个从日志中提取的数据集即可。

离线实验的优点是：

不需要有对实际系统的控制权；
不需要用户参与实践；
速度快，可以测试大量算法；

缺点是：

数据集的稀疏性限制了适用范围，例如一个数据集中没有包含某用户的历史行为，则无法评价对该用户的推荐结果；
评价结果的客观性，无法得到用户主观性的评价；
难以找到离线评价指标和在线真实反馈(如点击率、转化率、点击深度、购买客单价、购买商品类别等)之间的关联关系；

2）用户调查

用户调查需要一些真实的用户，让他们在需要测试的推荐系统上完成一些任务。在他们完成任务时，需要观察和记录用户的行为，并让他们回答一些问题。

最后，我们通过分析他们的行为和答案，了解测试系统的性能。

用户调查的优点是：

可以获得用户主观感受的指标，出错后容易弥补；

缺点是：

招募测试用户代价较大；
无法组织大规模的测试用户，统计意义不足；

3）在线实验

在完成离线实验和用户调查之后，可以将系统上线做AB测试，将它和旧算法进行比较。

在线实验最常用的评测算法是【A/B测试】，它通过一定的规则将用户随机分成几组，对不同组的用户采用不同的算法，然后通过统计不同组的评测指标，比较不同算法的好坏。

它的核心思想是:
a) 多个方案并行测试;
b) 每个方案只有一个变量不同;
c) 以某种规则优胜劣汰。

其中第2点暗示了A/B 测试的应用范围：A/B测试必须是单变量。
对于推荐系统的评价中，唯一变量就是--推荐算法。

有个很棒的网站，http://www.abtests.com，里面有很多通过实际AB测试提高网站用户满意度的例子。

AB测试的优点是：

可以公平获得不同算法实际在线时的性能指标，包括商业上关注的指标；

缺点是：

周期较长，必须进行长期的实验才能得到可靠的结果；

大型网站做AB测试，可能会因为不同团队同时进行各种测试对结果造成干扰，所以切分流量是AB测试中的关键。

不同的层以及控制这些层的团队，需要从一个统一的地方获得自己AB测试的流量，而不同层之间的流量应该是正交的。

AB测试系统.png

4）总结

一般来说，一个新的推荐算法最终上线，需要完成上述的3个实验。

首先，通过离线实验证明它在很多离线指标上优于现有的算法；
其次，通过用户调查确定用户满意度不低于现有的算法；
最后，通过在线AB测试确定它在我们关心的指标上优于现有的算法；

2. 评测指标

评测指标用于评测推荐系统的性能，有些可以定量计算，有些只能定性描述。

1）用户满意度

用户满意度是评测推荐系统的重要指标，无法离线计算，只能通过用户调查或者在线实验获得。

调查问卷，需要考虑到用户各方面的感受，用户才能针对问题给出准确的回答。

在线系统中，用户满意度通过统计用户行为得到。比如用户如果购买了推荐的商品，就表示他们在一定程度上满意，可以用购买率度量用户满意度。

一般情况，我们可以用用户点击率、停留时间、转化率等指标度量用户的满意度。

2）预测准确度

预测准确度，度量的是推荐系统预测用户行为的能力。是推荐系统最重要的离线评测指标。

大部分的关于推荐系统评测指标的研究，都是针对预测准确度的。因为该指标可以通过离线实验计算，方便了学术界的研究人员。

由于离线的推荐算法有不同的研究方向，准确度指标也不同，根据研究方向，可分为：预测评分准确度和TopN推荐。

a）预测评分准确度

预测评分的准确度，衡量的是算法预测的评分与用户的实际评分的贴近程度。
这针对于一些需要用户给物品评分的网站。

预测评分的准确度指标，一般通过以下指标计算：

平均绝对误差（MAE）

MAE.png

MAE因其计算简单、通俗易懂得到了广泛的应用。但MAE指标也有一定的局限性，因为对MAE指标贡献比较大的往往是那种很难预测准确的低分商品。

所以即便推荐系统A的MAE值低于系统B，很可能只是由于系统A更擅长预测这部分低分商品的评分，即系统A比系统B能更好的区分用户非常讨厌和一般讨厌的商品，显然这样区分的意义不大。
均方根误差（RMSE）

RMSE.png

Netflix认为RMSE加大了对预测不准的用户物品评分的惩罚（平方项的惩罚），因而对系统的评测更加苛刻。

研究表明，如果评分系统是基于整数建立的（即用户给的评分都是整数），那么对预测结果取整数会降低MAE的误差。

b）TopN推荐

网站提供推荐服务时，一般是给用户一个个性化的推荐列表，这种推荐叫做TopN推荐。

TopN推荐的预测准确率，一般通过2个指标度量：

准确率（precision）
召回率（recall）

R(u)是根据用户在训练集上的行为给用户做出的推荐列表，T(u)是用户在测试集上的行为列表。

TopN推荐更符合实际的应用需求，比如预测用户是否会看一部电影，比预测用户看了电影之后会给它什么评分更重要。

3）覆盖率

覆盖率（coverage）是描述一个推荐系统对物品长尾的发掘能力。
最简单的定义是，推荐系统推荐出来的物品占总物品的比例。

假设系统的用户集合为U，推荐系统给每个用户推荐一个长度为N的物品列表R(u)，覆盖率公式为：

覆盖率是内容提供者关心的指标，覆盖率为100%的推荐系统可以将每个物品都推荐给至少一个用户。

除了推荐物品的占比，还可以通过研究物品在推荐列表中出现的次数分布，更好的描述推荐系统的挖掘长尾的能力。

如果分布比较平，说明推荐系统的覆盖率很高；如果分布陡峭，说明分布系统的覆盖率较低。

信息论和经济学中有两个著名指标，可以定义覆盖率：

信息熵

p(i)是物品i的流行度除以所有物品流行度之和。

基尼系数（Gini Index）

p(ij)是按照物品流行度p()从小到大排序的物品列表中第j个物品。
- 评测马太效应
马太效应，是指强者越强，弱者越弱的效应。推荐系统的初衷是希望消除马太效应，使得各物品都能被展示给对它们感兴趣的人群。

但是，很多研究表明，现在的主流推荐算法（协同过滤）是具有马太效应的。评测推荐系统是否具有马太效应可以使用基尼系数。

如，G1是从初始用户行为中计算出的物品流行度的基尼系数，G2是从推荐列表中计算出的物品流行度的基尼系数，那么如果G1

4）多样性

为了满足用户广泛的兴趣，推荐列表需要能够覆盖用户不同兴趣的领域，即需要具有多样性。

多样性描述了推荐列表中物品两两之间的不相似性。假设s(i,j)在[0,1]区间定义了物品i和j之间的相似度，那么用户u的推荐列表R(u)的多样性定义如下：

推荐系统整体多样性可以定义为所有用户推荐列表多样性的平均值：

5）新颖性

新颖性也是影响用户体验的重要指标之一。它指的是向用户推荐非热门非流行物品的能力。

评测新颖度最简单的方法，是利用推荐结果的平均流行度，因为越不热门的物品，越可能让用户觉得新颖。

此计算比较粗糙，需要配合用户调查准确统计新颖度。

6）惊喜度

推荐结果和用户的历史兴趣不相似，但却让用户满意，这样就是惊喜度很高。

目前惊喜度还没有公认的指标定义方式，最近几年研究的人很多，深入研究可以参考一些论文。

7）信任度

如果用户信任推荐系统，就会增加用户和推荐系统的交互。

提高信任度的方式有两种：

增加系统透明度
提供推荐解释，让用户了解推荐系统的运行机制。
利用社交网络，通过好友信息给用户做推荐
通过好友进行推荐解释

度量信任度的方式，只能通过问卷调查。

8）实时性

推荐系统的实时性，包括两方面：

实时更新推荐列表满足用户新的行为变化；
将新加入系统的物品推荐给用户；

9）健壮性

任何能带来利益的算法系统都会被攻击，最典型的案例就是搜索引擎的作弊与反作弊斗争。

健壮性（robust，鲁棒性）衡量了推荐系统抗击作弊的能力。

2011年的推荐系统大会专门有一个推荐系统健壮性的教程，作者总结了很多作弊方法，最著名的是行为注入攻击（profile injection attack）。
就是注册很多账号，用这些账号同时购买A和自己的商品。此方法针对亚马逊的一种推荐方法，“购买商品A的用户也经常购买的其他商品”。

评测算法的健壮性，主要利用模拟攻击：

a）给定一个数据集和算法，用算法给数据集中的用户生成推荐列表；
b）用常用的攻击方法向数据集中注入噪声数据；
c）利用算法在有噪声的数据集上再次生成推荐列表；
d）通过比较攻击前后推荐列表的相似度评测算法的健壮性。

提高系统健壮性的方法：

选择健壮性高的算法；
选择代价较高的用户行为，如购买行为比浏览行为代价高；
在使用数据前，进行攻击检测，从而对数据进行清理。

10）商业目标

设计推荐系统时，需要考虑最终的商业目标。不同网站具有不同的商业目标，它与网站的盈利模式息息相关。

总结：

作者认为，对于可以离线优化的指标，在给定覆盖率、多样性、新颖性等限制条件下，应尽量优化预测准确度。

3. 评测维度

增加评测维度的目的，就是知道一个算法在什么情况下性能最好。

一般评测维度分3种：

用户维度
主要包括用户的人口统计学信息、活跃度以及是不是新用户等；
物品维度
包括物品的属性信息、流行度、平均分以及是不是新加入的物品等；
时间维度
包括季节，是工作日还是周末，白天还是晚上等；

如果推荐系统的评测报告中，包含了不同维度下的系统评测指标，就能帮我们全面了解系统性能。

三、推荐算法通用模型

1. 推荐算法通用模型

推荐系统有3个重要的模块：

用户建模模块
推荐对象建模模块
推荐算法模块

通用的推荐系统模型流程如图，技术一点的描述过程如下：
a）推荐系统通过用户行为，建立用户模型；
b）通过物品的信息，建立推荐对象模型；
c）通过用户兴趣匹配物品的特征信息，再经过推荐算法计算筛选，找到用户可能感兴趣的推荐对象，然后推荐给用户。

用户建模模块
建立用户模型之前，需要考虑下面几个问题:
(1)模型的输入数据有哪些，如何获取模型的输入数据。
(2)如何考虑用户的兴趣及需求的变化。
(3)建模的对象是谁。
(4)如何建模。
(5)模型的输出是什么。

获取用户信息就是解决模型输入数据的问题，输入数据主要有以下几种:
(1)用户属性：人口统计学信息；

(2)用户手动输入的信息：包括用户在搜索引擎中输入的关键词，用户反馈的信息，对推荐对象的喜好程度等；

(3)用户的浏览行为和浏览内容：包括浏览次数、频率、停留时间等，浏览页面时的操作(收藏、保存、复制等)等。服务器端保存的日志也能较好地记录用户的浏览行为和内容。

(4)推荐对象的属性特征：不同的推荐对象，用户建模的输入数据也不同。网页等推荐对象通常考虑对象的内容和用户之间的相似性，而产品等推荐对象通常考虑用户对产品的评价。

为提高推荐质量，推荐对象的相关的属性也要考虑进去，比如除网页内容以外，还要考虑网页的发布人、时间等。

产品类的对象还要考虑产品的品牌、价格、出售时间等。

获取模型输入数据的方式有显式获取、隐式获取和启发式获取三种方式。

用户模型的建模方法主要有遗传算法、基于机器学习的方法，例如 TF-IDF、自动聚类、贝叶斯分类器、决策树归纳和神经网络方法等。

推荐对象建模

考虑以下几个问题:
(1)提取推荐对象的什么特征，如何提取，提取的特征用于什么目的。
(2)对象的特征描述和用户文件描述之间有关联。
(3)提取到的每个对象特征对推荐结果会有什么影响。
(4)对象的特征描述文件能否自动更新。

2. 算法模块

目前主要的推荐算法，如下图所示。

推荐算法是整个推荐系统中最核心的部分，在很大程度上决定了推荐系统类型和性能的优劣。

四、推荐算法详述

1）基于内容的推荐

原理是基于用户感兴趣的物品A，找到和A内容信息相近的物品B。

利用用户和物品本身的内容特征，如用户的地理位置、性别、年龄，电影物品的导演、演员、发布时间等。
比如你喜欢看《怪奇物语I》，系统会给你推荐《怪奇物语II》。

所以提取推荐对象的特征，是内容推荐算法的关键。但是对于多媒体内容，如视频、音乐，很难找到它们之间的特性关联性。

基于内容的推荐的优点如下：
(1) 简单、有效，推荐结果直观，容易理解，不需要领域知识。
(2) 不需要用户的历史数据，如对对象的评价等。
(3) 没有关于新推荐对象出现的冷启动问题。
(4) 没有稀疏问题。
(5) 算法成熟，如数据挖掘、聚类分析等。

基于内容的推荐的缺点如下：
(1) 受到了推荐对象特征提取能力的限制。
比如图像、视频，没有有效的特征提取方法。即便是文本资源，特征提取也只能反应一部分内容，难以提取内容质量，会影响用户满意度。

(2) 很难出现新的推荐结果。
根据用户兴趣的喜好进行推荐，很难出现惊喜。对于时间敏感的内容，如新闻，推荐内容基本相同，体验度较差。

(3)存在新用户出现时的冷启动问题。
当新用户出现时，系统较难获得该用户的兴趣偏好，无法进行有效推荐。

(4) 推荐对象内容分类方法需要的数据量较大。

2）协同过滤算法

仅仅基于用户行为数据设计的推荐算法，称为协同过滤算法。此方法主要根据用户对物品的历史行为，寻找用户或物品的近邻集合，以此计算用户对物品的偏好。

主要的算法分3种，最广泛应用的是基于领域的方法：

a）基于领域的模型算法

主要包含两种算法：

i) 基于用户的协同过滤算法（UserCF）
这种算法给用户推荐和他兴趣相似的其他用户喜欢的物品。

算法步骤：
(1) 找到和目标用户兴趣相似的用户集合；
(2) 找到这个集合中的用户喜欢的，且目标用户没有听说过的物品，推荐给目标用户。

算法的关键是计算两个用户的兴趣相似度。协同过滤计算用户兴趣相似度是利用用户行为的相似度。

UserCF

计算用户相似度的方法有3种：
- 余弦相似性
- 相关相似性（皮尔森系数相关）
- 修正的余弦相似性

计算用户兴趣相似度时，要避免热门物品自带马太效应的影响。换句话说，两个用户对冷门物品采取过同样行为，更能说明他们的兴趣相似。

缺点：
- 用户数目越大，计算用户兴趣相似度越复杂，时间、空间复杂度的增长和用户数的增长近似于平方关系。
- 解释性不强

ii) 基于物品的协同过滤算法（ItemCF）
这种算法给用户推荐和他之前喜欢的物品相似的物品。

该算法是目前业界应用最多的算法，如亚马逊、Netflix、YouTube，都是以该算法为基础。

ItemCF 与基于内容的推荐算法的区别
- 基于内容的推荐算法，计算的是物品内容属性之间的相似度。如，电影的导演是不是同一个人；
- ItemCF是通过用户的行为计算物品之间的相似度。如，物品A、B具有很大相似度，是因为喜欢物品A的用户也大都喜欢物品B。
算法步骤：
(1) 根据用户的历史行为，计算物品之间的相似度；
(2) 根据物品的相似度和用户的历史行为给用户生成推荐列表。

两个物品产生相似度，是因为它们共同被很多用户喜欢，也就是说，每个用户都可以通过它们的历史兴趣列表给物品“贡献”相似度。

ItemCF

用户活跃度对物品相似度的影响
IUF（Inverse User Frequence），用户活跃度对数的倒数的参数。
论文提出的观点是，活跃用户对物品相似度的贡献应该小于不活跃的用户。用IUF修正物品相似度的计算。
物品相似度的归一化
研究表明，将ItemCF的相似度矩阵按最大值归一，可以提高推荐的准确率。
UserCF 与 ItemCF 的优缺点

b）隐语义模型算法

LFM（latent factor model）隐语义模型是最近几年推荐系统领域最热门的话题，它的核心思想是通过隐含特征联系用户兴趣和物品。

i）隐语义模型解决了什么问题

比如，用户A的兴趣列表里，有关于侦探小说、科普图书和计算机技术图书。用户B的兴趣列表集中在数学和机器学习方面。

如何给用户A和B推荐图书？

除了UserCF与ItemCF，还可以对书和物品的兴趣进行分类。对于某个用户，首先得到他的兴趣分类，然后从分类中挑选他可能喜欢的物品。

基于兴趣分类的方法，大概需要解决的问题：
- 如何给物品进行分类？
- 如何确定用户对哪类物品感兴趣，以及感兴趣程度？
- 对于一个给定的分类，选择哪些属于这个类的物品推荐给用户，以及如何确定这些物品在一个类中的权重？
人工编辑分类存在的问题：
- 编辑的意见不能代表各种用户的意见。
- 编辑很难控制分类的粒度。
- 编辑很难给一个物品多个分类。
- 编辑很难给出多维度的分类。
- 编辑很难决定一个物品在某一个分类的权重。
隐语义分析技术解决了上述5个问题：
- 用户的行为代表了用户对物品分类的看法。比如，如果两个物品被很多用户同时喜欢，这个两个物品很可能属于同一类。
- 隐语义技术允许我们指定最终的分类数目，分类数越多，分类粒度越细。
- 隐语义技术可以计算出物品属于每个类的权重，因为每个物品不是硬性地被分到一个类目中。
- 隐语义技术给出的每个分类都不是一个维度，它根据用户的共同兴趣计算得出。
- 隐语义技术可以通过统计用户行为决定物品在每个类中的权重，如果喜欢某个类的用户都会喜欢某个物品，那么这个物品在这个类中的权重就可能较高。

隐语义技术有很多著名的模型和方法，其中耳熟能详的名词有pLSA、LDA、隐含类别模型、隐含主题模型、矩阵分解。这些技术和方法在本质上是相同的，都可以用于个性化推荐系统。

ii）LFM算法详解

LFM公式

推荐系统的用户行为分为显性反馈和隐性反馈，LFM在显性反馈数据（评分数据）上解决评分预测问题达到了很好的精度。

对于隐性反馈数据，这种数据集的特点是，只有正样本（用户喜欢什么物品），没有负样本（用户对什么物品不感兴趣）。

在隐性反馈数据集上应用LFM解决TopN推荐，第一个关键问题是如何给每个用户生成负样本。

对于这个问题，Rong Pan在文章中做了很多探讨，对比了如下几种方法：
- 1）对于一个用户，用他所有没有过行为的物品作为负样本。
- 2）对于一个用户，从他没有过行为的物品中均匀采样出一些物品作为负样本。
- 3）对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，保证每个用户的正负样本数目相当。
- 4）对于一个用户，从他没有过行为的物品中采样出一些物品作为负样本，但采样时，偏重采样不热门的物品。

对于1），它的明显缺点是负样本太多，正负样本数目相差悬殊，因而计算复杂度很高，最终结果的精度也很差。另外三种方法的效果，作者表示，3）> 2）> 4）。

对负样本的采样还应该遵循以下原则：
- 对每个用户，要保证负样本的平衡（数目相似）
- 对每个用户采样负样本时，要选取那些很热门，而用户却没有行为的物品。

通过离线实验对比LFM在TopN推荐中的性能，在LFM中，有4个重要参数：

隐特征的个数F；
学习速率alpha；
正则化参数lambda；
负样本/正样本比例ratio；
实验表明，ratio参数对LFM的性能影响最大。

iii）基于LMF的实际系统的例子

雅虎的研究人员公布过一个使用LFM进行雅虎首页个性化设计的方案。

LFM的缺点是，很难实现实时的推荐。
经典的LFM模型每次训练时，需要扫描所有用户的行为记录，这样才能计算出用户隐类向量和物品隐类向量。所以一般每天只训练一次。

雅虎的解决方案是：

利用新闻链接的内容属性（关键词、类别等）得到链接的内容特征向量；
实时收集用户对链接的行为，并用这些数据得到链接的隐特征向量；
利用公式预测用户是否会单击链接。

iiii）LFM和基于领域的方法区别

总结如下图：

c）基于图的模型

用户行为很容易用二分图表示，因此很多图的算法都可以用到推荐系统中。也可以把基于领域的模型看做是基于图的模型的简单形式。

i）用户行为数据的二分图表示

基于图的模型（graph-based model）是推荐系统中的重要内容，其基本思想是将用户行为数据表示为一系列的二元组。

每一个二元组(u,i)代表用户u对物品 i 产生过行为，这样便可以将这个数据集表示为一个二分图。

下图是一个简单的用户物品二分图模型，其中圆形节点代表用户，方形节点代表物品，圆形节点和方形节点之间的边代表用户对物品的行为。比如图中用户节点A和物品节点a、b、d相连，说明用户A对物品a、b、d产生过行为。

ii）基于图的推荐算法

基于用户行为二分图，给用户u推荐物品，可以转化为计算用户顶点u和与所有物品顶点之间的相关性，然后取与用户没有直接边相连的物品，按照相关性的高低生成推荐列表。

其实，这是一个图上的排名问题，最著名的就是Google的pageRank算法。

度量图中两个顶点之间相关性，一般取决于3个因素：
- 两个顶点之间的路径数；
- 两个顶点之间的路径长度；
- 两个顶点之间的路径经过的顶点；
相关性高的两个顶点，一般具有以下特征：
- 两个顶点之间有很多路径相连；
- 链接两个顶点之间的路径长度都比较短；
- 链接两个顶点之间的路径不会经过出度比较大的顶点。

iii）PageRank算法简介

PageRank是Larry Page 和 Sergey Brin设计的，用来衡量特定网页相对于搜索引擎中其他网页的重要性的算法，其计算结果作为Google搜索结果中网页排名的重要指标。

网页之间通过超链接相互连接，互联网上不计其数的网页就构成了一张超大的图。

PageRank假设用户从所有网页中随机选择一个网页进行浏览，然后通过超链接在网页直接不断跳转。到达每个网页后，用户有两种选择：到此结束或者继续选择一个链接浏览。

算法令用户继续浏览的概率为d，用户以相等的概率在当前页面的所有超链接中随机选择一个继续浏览。

这是一个随机游走的过程。
当经过很多次这样的游走之后，每个网页被访问用户访问到的概率就会收敛到一个稳定值。这个概率就是网页的重要性指标，被用于网页排名。算法迭代关系式如下所示：

上式中PR(i)是网页i的访问概率（也就是重要度），d是用户继续访问网页的概率，N是网页总数。in(i)表示指向网页i的网页集合，out(j)表示网页j指向的网页集合。

iiii）PersonalRank算法简介

对于推荐系统，我们需要计算的是物品节点相对于某一个用户节点u的相关性。

Standford的Haveliwala于2002年在他《Topic-sensitive pagerank》一文中提出了PersonalRank算法，该算法能够为用户个性化的对所有物品进行排序。它的迭代公式如下：

我们发现PersonalRank跟PageRank的区别只是用ri替换了1/N，也就是说从不同点开始的概率不同。

我们重新描述一下算法的过程：

假设要给用户u进行个性化推荐，可以从用户u对应的节点Vu开始在用户物品二分图上进行随机游走。

游走到任何一个节点时，首先按照概率α决定是继续游走，还是停止这次游走并从Vu节点开始重新游走。如果决定继续游走，那么就从当前节点指向的节点中按照均匀分布随机选择一个节点作为游走下次经过的节点。

这样，经过很多次随机游走后，每个物品节点被访问到的概率会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。

缺点
PersonalRank每次都需要在全图迭代，所以时间复杂度非常高。
解决办法是，
- 减少迭代次数，在收敛前停止。会影响精度，但影响不大。
- 从矩阵论出发，重新设计算法。

3）基于关联规则的推荐

主要用于购物车分析。

（以下内容摘自网络）

关联规则是反映一个事物与其他事物之间的相互依存性和关联性，常用于实体商店或在线电商的推荐系统：通过对顾客的购买记录数据库进行关联规则挖掘，最终目的是发现顾客群体的购买习惯的内在共性。

例如购买产品A的同时也连带购买产品B的概率，根据挖掘结果，调整货架的布局陈列、设计促销组合方案，实现销量的提升，最经典的应用案例莫过于<啤酒和尿布>。

关联规则分析中的关键概念包括：支持度(Support)、置信度(Confidence)与提升度(Lift)。首先，我们简单温故下这3个关键指标~

1、支持度 (Support)：支持度是两件商品（A∩B）在总销售笔数(N)中出现的概率，即A与B同时被购买的概率。类似于中学学的交集，需要原始同时满足条件。

公式：

例子说明：

比如某超市2016年有100w笔销售，顾客购买可乐又购买薯片有20w笔，顾客购买可乐又购买面包有10w笔，那可乐和薯片的关联规则的支持度是20%，可乐和面包的支持度是10%。

2、置信度 (Confidence)：置信度是购买A后再购买B的条件概率。简单来说就是交集部分C在A中比例，如果比例大说明购买A的客户很大期望会购买B商品。

公式：

例子说明：

某超市2016年可乐购买次数40w笔，购买可乐又购买了薯片是30w笔，顾客购买可乐又购买面包有10w笔，则购买可乐又会购买薯片的置信度是75%，购买可乐又购买面包的置信度是25%，这说明买可乐也会买薯片的关联性比面包强，营销上可以做一些组合策略销售。

3、提升度 (Lift)：提升度表示先购买A对购买B的概率的提升作用，用来判断规则是否有实际价值，即使用规则后商品在购物车中出现的次数是否高于商品单独出现在购物车中的频率。如果大于1说明规则有效，小于1则无效。

公式：

例子说明：

可乐和薯片的关联规则的支持度是20%，购买可乐的支持度是3%，购买薯片的支持度是5%，则提升度是1.33>1, A-B规则对于商品B有提升效果。

4）基于知识推荐

基于知识的推荐（Knowledge-based Recommendation），主要应用于知识型的产品中，主要解决的问题是，为你量身定制升级打怪的进阶路线图。

比如你想学习钢琴，如果你是刚入门的小白，那你最好从简单的谱子学起。但这样带来一个问题，是因为你的历史行为都在初级范围之内，根据兴趣偏好，推荐给你的信息也都在初级范围。无法满足你的升级需求。

这个时候就需要基于知识的推荐。推荐系统知道你现在所处的知识级别（用户知识），也知道学习钢琴所有的级别（产品知识），然后根据你现在的情况为你推荐适合你进阶的信息。

以上为个人理解，百度百科的解释为：

使用用户知识和产品知识, 通过推理什么产品能满足用户需求来产生推荐。这种推荐系统不依赖于用户评分等关于用户偏好的历史数据, 故其不存在冷启动方面的问题。基于知识的推荐系统响应用户的即时需求, 当用户偏好发生变化时不需要任何训练。

举例：
针对海量习题带来的信息过载导致学习针对性不强、效率不高等问题，提出了基于知识点层次图的个性化习题推荐算法（A Personalized Exercises Recommendation Algorithm based on Knowledge Hierarchical Graph,ReKHG）。

首先，借鉴课程知识点体系结构的特点，构建了表征知识点层次关系的权重图，该权重图有效反映知识点间的层次关系。

然后，根据学生对知识点的掌握情况，在知识点层次图的基础上提出了一种个性化习题推荐算法。该算法通过更新学生-知识点失分率矩阵，获取学生掌握薄弱的知识点，以此实现习题推荐。

ps：以上举例来自于某论文，没有用于实际案例中。关于知识推荐，没有找到太多实际案例，国外的论文论述的比较多一些。

5）混合推荐

每个算法都不是完美的，因此实际应用中，可以混合使用各种推荐算法，各取所长。

五、推荐算法数据来源

1. 利用用户行为信息

用户行为数据一般存于日志中。
用户行为可以分为：显性反馈行为和隐性反馈行为。
互联网上的很多数据分布满足一种称为Power Law的分布，称为长尾分布。

2. 利用用户标签数据

推荐系统联系用户和物品的几种途径

推荐系统的目的是联系用户的兴趣和物品，这种联系需要依赖不同的媒介。目前流行的有3种方式：物品、用户、特征。

前两种我们都很熟悉，特征有不同的表现形式，可以是物品的属性集合，可以是隐语义向量，这里我们用标签表示。

标签分两类
- 让作者或者专家给物品打标签
- 让普通用户给物品打标签，即UGC标签应用，既描述了用户的兴趣又将表达了物品的语义。

以豆瓣为例，打标签作为一种用户重要的行为，蕴含了丰富的用户兴趣信息。

标签推荐系统算法
- 统计每个用户最常用的标签
- 对于每个标签，统计被打过这个标签次数最多的物品
- 对于一个用户，首先找到他常用的标签，然后找到具有这些标签的最热门物品推荐给这个用户
算法改进：
- TF-IDF，降低热门标签的权重，使推荐结果更准确
- 数据稀疏性：对于新用户或者新物品来说，其标签数量可能过少，需要对标签进行扩展，即对每个标签找到和它相似的标签，也就是计算标签相似度。（拓展方法--话题模型）
- 标签清理：清理掉同义词、无义词，方便做出推荐解释
给用户推荐标签
- 推荐的好处
  - 方便用户输入标签
  - 提高标签质量
- 推荐方法
  - 推荐系统中最热门的标签（PopularTags）
  - 推荐物品最热门的标签（Item PopularTags）
  - 推荐用户经常使用的标签（User PopularTags）
  - 前面两种融合（Hybrid PopularTags）
- 冷启动物品的推荐方法
  - 从物品的内容数据中抽取关键词作为标签
  - 根据仅有的标签做拓展

3. 利用上下文信息

用户所处的上下文，包括用户访问推荐系统的时间、地点、心情等，有助于提高推荐系统的性能。

比如，用户夏天喜欢过的T恤，冬天再推荐就不合适了。
用户在中关村，打开美食推荐，如果给的结果是国贸是不合适了。

1）时间上下文信息

时间对用户兴趣的影响：
- 用户兴趣是变化的
- 物品也是有生命周期的
- 季节效应
推荐系统的实时性
用户兴趣是不断变化的，其变化体现在用户不断增加的新行为中。一个实时的推荐系统需要能够实时响应用户新的行为，让推荐列表不断变化，从而满足用户不断变化的兴趣。

实现推荐系统的实时性除了对用户行为的存取有实时性要求，还要求推荐算法本身具有实时性，而推荐算法本身的实时性意味着：
- 实时推荐系统不能每天都给所有用户离线计算推荐结果，然后在线展示昨天计算出来的结果。所以，要求在每个用户访问推荐系统时，都根据用户这个时间点前的行为实时计算推荐列表
- 推荐算法需要平衡考虑用户的近期行为和长期行为，即要让推荐列表反应出用户近期行为所体现的兴趣变化，又不能让推荐列表完全受用户近期行为的影响，要保证推荐列表对用户兴趣预测的延续性。
推荐算法的时间多样性
推荐系统每天推荐结果的变化程度被定义为推荐系统的时间多样性。时间多样性高的推荐系统中用户会经常看到不同的推荐结果。

提高推荐结果的时间多样性需要分两步解决：
- 首先，需要保证推荐系统能够在用户有了新的行为后及时调整推荐结果，使推荐结果满足用户最近的兴趣；
- 其次，需要保证推荐系统在用户没有新的行为时也能经常变化一下结果，具有一定的时间多样性
如果用户没有行为，推荐思路：
- 在生成推荐结果时加入一定的随机性。比如从推荐列表前20个结果中随机挑选10个结果展示给用户，或者按照推荐物品的权重采样10个结果展示给用户。
- 记录用户每天看到的推荐结果，然后在每天给用户进行推荐时，对他前几天看到过很多次的推荐结果进行适当地降权。
- 每天给用户使用不同的推荐算法。可以设计很多推荐算法，比如协同过滤算法、内容过滤算法等，然后在每天用户访问推荐系统时随机挑选一种算法给他进行推荐。

协同过滤算法可以利用时间信息提高预测的准确度。

时间上下文相关的ItemCF算法
- 物品相似度
  用户在相隔很短的时间内喜欢的物品具有更高相似度。
- 在线推荐
  用户近期的行为比用户很久之前的行为，更能体现用户现在的兴趣。
时间上下文相关的UserCF算法
- 用户兴趣相似度
  如果两个用户【同时】喜欢相同的物品，则他们有更大的兴趣相似度。
- 相似兴趣用户的最近行为
  给用户推荐和他兴趣相似的用户最近喜欢的物品。

2）地点上下文信息

用户兴趣和地点相关的两种特征：
- 兴趣本地化，不同地方的用户兴趣存在着很大的差别，不同国家和地区用户的兴趣存在着一定的差异性。
- 活动本地化，一个用户往往在附近的地区活动。因此，在基于位置的推荐中我们需要考虑推荐地点和用户当前地点的距离，不能给用户推荐太远的地方。

4. 利用社交网络数据

获取社交网络数据的途径
- 电子邮件
- 用户注册信息
- 用户位置数据
- 论坛和讨论组
- 即时聊天工具
- 社交网站
  - Facebook中的绝大多数用户联系基于社交图谱：由于人们之间的亲属关系、工作关系而形成；
  - Twitter中的绝大多数用户联系基于兴趣图谱：通过人们之间的共同兴趣和信念形成；
社交网络数据的分类
- 双向确认的社交网络数据，以Facebook和人人网为代表，用户之间形成好友关系需要通过双方的确认；
- 单向关注的社交网络数据，以Twitter和新浪微博为代表，用户A可以关注用户B，而不用得到用户B的允许；
- 基于社区的社交网络数据，用户之间并没有明确的关系，但是这种数据包含了用户属于不同社区的数据。比如豆瓣小组，属于同一个小组可能代表了用户兴趣的相似性；
社会化推荐的优点
- 好友推荐可以增加推荐的信任度
- 社交网络可以解决冷启动问题

六、冷启动问题

1）冷启动主要分3类：

用户冷启动
一个新用户，没有任何历史行为数据，怎么做推荐。
物品冷启动
一个新上线的物品，没有用户对它产生过行为，怎么推荐给感兴趣的用户。
系统冷启动
一个新开发的网站，没有用户数据，怎么做个性化推荐。

2）解决方案：

提供非个性化推荐，如热门排行。等有了数据之后再推荐。
利用用户注册信息，做粗粒度的个性化。
利用用户的社交网络账号，导入用户的好友，推荐好友喜欢的物品。
用户初次登录时，对一些物品进行反馈，根据这些信息做个性化。
对于新上线的物品，利用内容信息，推荐给喜欢类似物品的用户。
系统冷启动，可以引入外部资源，如专家知识，建立起物品的相关度。

3）冷启动，启动用户兴趣的物品需要具有以下特点：

比较热门
具有代表性和区分性
启动物品集合需要有多样性

4）选择启动物品集合的系统

如何设计一个选择启动物品集合的系统？Nadav Golbandi在论文中提出用一个决策树解决。

首先，给定一群用户，用这群用户对物品评分的方差度量这群用户兴趣的一致程度。如果方差很小，说明这一群用户的兴趣不太一致，也就是物品具有比较大的区分度，反之则说明这群用户的兴趣比较一致。

再根据用户的评分方差计算物品的区分度。

也就是说，对于物品i，将用户分为3类--喜欢物品i的用户，不喜欢物品i的用户和不知道物品i的用户。如果这3类用户集合内的用户对其他的物品兴趣很不一致，说明物品i具有较高的区分度。

算法首先从所有用户中找到具有最高区分度的物品i，然后将用户分成3类。然后在每类用户中再找到最具区分度的物品，然后将每一类用户又各自分为3类，也就是将总用户分为9类，然后继续这样下去，最终可以通过对一系列物品的看法将用户进行分类。

在冷启动时，从根节点开始询问用户对该节点物品的看法，然后根据用户的选择将用户放到不同的分枝，直到进入最后的叶子节点，此时对用户的兴趣有了比较清楚的了解，从而可以开始对用户进行比较准确地个性化推荐。

5）利用物品的内容信息

就是基于内容的推荐，很适合解决物品冷启动问题。

物品冷启动对诸如新闻网站等时效性很强的网站的推荐非常重要，因为那些网站中时时刻刻都有新加入的物品，而且每个物品必须能够在第一时间展现给用户，否则经过一段时间后，物品的价值就大大降低了。

一般来说，物品的内容可以通过向量空间模型表示，该模型会将物品表示成一个关键词向量。

如果物品的内容是诸如导演、演员等实体，可以直接将实体作为关键词。
如果内容是文本，需要引入自然语言的技术抽取关键词。如何建立文章、话题和关键词的关系是话题模型研究的重点，代表性的话题模型有LDA。

LDA有3种元素，文档、话题、词语。详细内容可参考相关论文。

向量空间模型的优点是简单，缺点是丢失了一些信息，比如关键词之间的关系信息。

七、推荐系统实例

推荐系统和其他系统之间的关系

3种联系用户和物品的推荐系统

3）推荐系统架构
推荐系统需要由多个推荐引擎组成，每个推荐引擎负责一类特性和一种任务，推荐系统的任务是将推荐引擎的结果按照一定权重或者优先级合并，排序然后返回。如下图：

推荐系统架构图

优点：
- 方便增加或删除引擎，控制不同引擎对推荐结果的影响。
- 可以实现推荐引擎级别的用户反馈。对不同用户给出不同引擎组合权重。

4）推荐引擎架构

推荐引擎架构主要包括三部分：
- 图中A部分负责从数据库或缓存中拿到用户行为数据，通过分析不同行为，生成当前用户的特征向量，如果使用非行为特征，就不需要行为提取和分析模块了，该模块的输出就是用户特征向量。
- 图中B部分负责将用户的特征向量通过特征-物品相关矩阵转化为初始推荐物品列表。
- 图中C部分负责对初始的推荐列表进行过滤、排名等处理，从而生成该引擎的最终推荐结果。

推荐引擎架构图

生成用户特性向量
- 用户行为的种类
- 用户行为产生的时间
- 用户行为的次数
- 物品的热门程度
过滤模块过滤掉以下物品
- 用户已经产生过行为的物品
- 候选物品以外的物品（不符合用户筛选条件的物品）
- 某些质量很差的物品

以上，就是所有内容的总结。内容主要来自于《推荐系统实践》，以及相关论文、博客。

《推荐系统实践》中提到的papaer总结：
https://book.douban.com/review/5514664/
参考论文：
http://t.cn/RjXktmC
http://t.cn/RjXkiFP
http://blog.csdn.net/qingqingpiaoguo/article/details/60882309
https://www.zhihu.com/question/27141495/answer/161027882

作者：rui_liu
链接：https://www.jianshu.com/p/319e4933c5ba
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

你可能感兴趣的:(算法/排序,推荐系统)

Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
淘宝商城四面（附架构面试专题）及B2C商城架构项目实战分享！风平浪静如码
一面主要问题如下（主要注重基础，问得很深很广，压力面试）：首先自我介绍数据结构算法的基本问题，如排序算法，二叉树遍历，后序遍历非递归，图的最短路径问题对一个数组进行绝对值排序的算法java中hashmap的底层实现java中垃圾回收机制GC原理等介绍自己的项目，数据库中用到的数据结构数据模型，死锁的概念（问的应该是数据库的死锁），如何避免死锁?乐观锁和悲观锁?一致性hash算法项目中业务对象的关联
【华为OD机试真题 Python语言】135、采样过滤 | 机试真题+思路参考+代码解析 KFickle 华为od python 华为华为OD机试真题采样过滤
文章目录一、题目题目描述输入输出样例1二、思路参考三、代码参考作者：鲨鱼狼臧个人博客首页：鲨鱼狼臧专栏介绍：2024华为OD机试真题，使用Python进行解答，专栏每篇文章都包括真题，思路参考，代码分析，思路参考超过百字，欢迎大家订阅学习一、题目题目描述在做物理实验时，为了计算物体移动的速率，通过相机等工具周期性的采样物体移动距离。由于工具故障，采样数据存在误差甚至相误的情况。需要通过一个算法过滤
MATLAB在工业缺陷检测中的应用
本文还有配套的精品资源，点击获取简介：缺陷检测、伤痕检测、瑕疵检测和划痕检测是工业自动化和质量控制中至关重要的环节，MATLAB作为一种高级编程环境，在图像处理和计算机视觉任务中扮演了重要角色。本文详细介绍了如何使用MATLAB实现这些检测过程，包括图像采集、预处理、特征提取和决策制定等步骤。通过介绍内置图像处理工具箱中的应用，色彩转换技术、边缘检测算法以及形态学操作等方法，我们阐述了如何识别和处
10、区块链技术及其应用吃瓜不吐籽595 解密《质量4.0与数字化转型》区块链比特币去中心化
区块链技术及其应用1.区块链简介区块链技术作为一种分布式账本，近年来受到了广泛关注。它不仅仅是一种技术革新，更是一种思维模式的转变。区块链的核心在于其去中心化、不可篡改和透明的特性，使得它在多个领域都有广泛的应用前景。区块链的基本概念区块链本质上是一个共享的、不可变的数字账本，记录了所有参与者之间的交易。每个区块包含了一系列交易记录，并通过加密算法与前一个区块相连，形成一条链。这种结构确保了数据的
学习嵌入式第六天缺口212 学习算法数据结构
一.数组的排序1.冒泡排序冒泡排序是一种简单的排序算法，其核心思想是通过重复遍历待排序的数组，每次比较相邻的两个元素，如果它们的顺序错误就把它们交换过来，直到没有元素需要交换为止。从数组的第一个元素开始，依次比较相邻的两个元素。如果前一个元素大于后一个元素，则交换这两个元素。每完成一轮遍历，最大的元素会“冒泡”到数组的末尾。之后缩小遍历范围（不再考虑已排好的末尾元素），重复上述过程，直到所有元素有
华为OD机试2025B卷真题题库目录｜机考题库 + 算法考点详解（Python/JS/C/C++）
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
时间轮算法
据说是复杂度O(1)的牛逼算法，所以抽时间学习学习。现在要实现一个定时器，这个定时器控制很多任务。该怎么做呢？第一反应是任务做成一个队列，属性有个时间，每次计时后将该属性减1，到0的时候就执行。这种方式可行，但是效率不高，因为每次都要遍历所有任务，所以时间复杂度是O(N)。优化的方法是什么呢？有点类似哈希表，增加一个时间队列，同时将任务预先排放在一个时间队列中。如果是100秒的时间范围，那么就是1
一文看懂NTP协议 Neolock 网络协议网络协议 ntp 网络
最近碰到一个NTP协议相关的题，卡了很久，才发现一直在用的NTP协议完全不了解他的原理，遂学习并总结一下1.NTP概述NTP（NetworkTimeProtocol）是一种用于同步计算机系统时钟的网络协议，旨在通过分层架构和精密算法，将设备时间同步至全球协调时间（UTC），精度可达毫秒甚至微秒级。其核心目标是通过减少时钟偏差和网络延迟影响，确保分布式系统的时间一致性2.NTP分层架构（Stratu
怎么能得到各种淘宝优惠券呢？领取淘宝优惠券的平台有哪些? 氧惠评测
要得到各种淘宝优惠券，可以通过以下几种途径：一、使用第三方优惠券平台除了直接在淘宝平台领取外，还可以使用第三方优惠券平台来获取更多的优惠券资源。这些平台通常会与淘宝商家合作，提供额外的优惠券和返利服务。以下是一些常见的领取淘宝优惠券的平台：氧惠APP特点：氧惠APP不仅提供了淘宝的优惠券，还涵盖了其他主流电商平台和生活服务平台，如美团、饿了么等。它以其全面的优惠信息和精准的推荐系统赢得了用户的喜爱
GDPR/等保2.0合规指南：企业商城系统必备的10大安全机制万米商云安全数据库网络
在数字经济全球化与数据主权博弈的双重背景下，企业商城系统作为承载用户隐私、交易数据与商业机密的核心载体，需同时满足欧盟《通用数据保护条例》（GDPR）与中国《网络安全等级保护2.0》的复合合规要求。本文从技术实现视角，解析企业商城系统必备的10大安全机制及其实施要点。一、全链路加密传输1、HTTPS强制部署采用OV/EV型SSL证书实现TLS1.3协议升级，支持国际RSA2048位或国密SM2算法
Real-World Blur Dataset for Learning and Benchmarking Deblurring Algorithms 钟屿深度学习
用于学习和评估去模糊算法的真实世界模糊数据集摘要近年来，针对相机抖动和物体运动模糊的单幅图像去模糊提出了许多基于学习的方法。为了将这些方法推广到真实世界的模糊场景，包含大量真实模糊图像及其对应的清晰真实图像（groundtruth）的数据集至关重要。然而，目前尚不存在这样的数据集，因此所有现有方法都依赖于合成数据集，这导致它们无法有效去除真实世界图像的模糊。在本工作中，我们提出了一个用于学习和评估
华为OD机试 2025 B卷 - 最大括号深度 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为机试2025B卷
最大括号深度华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述现有一字符串仅由‘(‘，’)’，’{‘，’}’，’[‘，’]’六种括号组成。若字符串满足以下条件之一，则为无效字符串：任一类型的左右括号数量不相等；存在未按正确顺序（先左后右）闭合的括号。输出括号的最大嵌套深度，若字符串无效则输出0。0≤字符串长度≤10
一文详解REST风格 AA-代码批发V哥 JavaEE 开发技巧/知识 restful
一文详解REST风格一、REST风格的核心概念1.1什么是REST？1.2REST与HTTP的关系二、REST风格的核心原则2.1资源为中心，URI表示资源2.2用HTTP方法表示操作类型2.3用HTTP状态码表示结果2.4响应格式标准化2.4.1成功响应2.4.2错误响应2.5无状态通信三、RESTfulAPI设计实战案例3.1资源定义3.2API设计清单3.3进阶设计：关联资源与过滤排序3.3
三生原理的颠覆性价值（无同类研究完全对可标）？
AI辅助创作：一、‌方法论层面的开创性‌‌动态嵌套解经路径‌该研究突破传统注疏模式，将《周易》“三生万物”等命题与分形几何、递归生成系统结合，构建可验证的数学映射模型（如素数生成公式p=3(2n+1)+2(2n+m+1)），使经典文本的哲学命题转化为算法逻辑，开创“批判性再解读-科学化重构”双轨框架。‌跨文化符号系统互译‌通过“阴阳元参数化联动”工具（如素数2为阴元、3为阳元），将传统文化核心符号
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
智能体学习记录一罗同学213 学习
智能体是什么智能体（IntelligentAgent）是一种能够感知周围环境、自主决策并执行行动以实现特定目标的智能化系统或程序。它可以是软件（如聊天机器人）、硬件（如机器人），或两者结合的实体，核心特征包括：自主性：无需人工实时干预，独立运行（如自动驾驶车辆避障）。反应性：实时感知环境变化并快速响应（如智能家居调节温度）。目标导向：基于预设目标优化行动（如推荐系统最大化用户点击率）。学习能力：通
Python打卡Day11 常见的调参方式
核心知识：1.模型=算法+实例化设置的外参（超参数）+训练得到的内参2.只要调参就需要考2次所以如果不做交叉验证，就需要划分验证集和测试集，但是很多调参方法中都默认有交叉验证，所以实际中可以省去划分验证集和测试集的步骤基线模型（基准模型）:首先运行一个使用默认参数的模型，记录其性能作为比较的基准。超参数调整数据1.网格搜索(GridSearchCV):-需要定义参数的网格（param_grid），
python学智能算法（二十七）|SVM-拉格朗日函数求解上西猫雷婶机器学习人工智能 python学习笔记支持向量机 python 机器学习算法人工智能
【1】引言前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。本篇文章的学习目标是：求解SVM拉格朗日函数。【2】求解方法【2.1】待求解函数支持量机算法的拉格朗日函数为：L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\rig
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
【算法】贪心算法——柠檬水找零
题解：柠檬水找零(贪心算法)目录1.题目2.题解3.参考代码4.证明5.总结1.题目题目链接：LINK2.题解分情况讨论+贪心算法当顾客为5元时，收下当顾客为10元时，收下10元并找回5元当顾客为20元时，收下20元并找回10+5元或者5+5+5元这里仅20元时候找钱会有分歧，所以这里我们用贪心算法，即优先留下尽可能多的5元，尽快把10元扔出去。原因：5元是“万金油”，既可以给10元找零，也可以给
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
函数对象 tal0n
函数对象是STL库提供的除了迭代器，迭代器配接器以外的另外一种概念。简单来说：函数对象提供了一种方法，将要调用的函数与准备传递给这个函数的隐藏参数捆绑在一起。即：该对象实现了operator()的同时还提供了部分执行时的上下文环境。下面我们通过例子来详细看下函数对象。例子STL中有一个find_if的算法实现，他的参数包括：一组表示范围的迭代器，一个用于生成bool类型值的判断式。例如我们需要在一
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
短剧小程序的「技术革命」：从「粗放生长」到「精准运营」 weixin_lynhgworld 小程序
随着短剧行业进入「存量竞争」阶段，技术能力正成为小程序的核心竞争力。从内容推荐到用户留存，从广告变现到IP开发，每一环节都需要数据驱动和算法优化。一、智能推荐：让「用户找到剧」变成「剧找到用户」传统短剧平台依赖标签匹配，而小程序通过多维度数据实现精准推荐：「情绪图谱」分析：记录用户观看时的快进、暂停、重复播放等行为，构建情绪波动曲线；「场景化推荐」：根据时间（如深夜）、地点（如地铁）、设备（如手机
深入理解Mysql索引底层数据结构与算法桑翔
一.索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构二.索引数据结构1.二叉树2.红黑树3.Hash表4.B-Tree1.叶节点具有相同的深度,叶节点的指针为空2.所有索引元素不重复3.节点中的数据索引从左到右递增排序B-Tree5.B+Tree1.非叶子节点不存储data,可以放更多的索引2.叶子节点包含所有索引字段3.叶子节点用指针连接,提高区间访问的性能(体现在做范围查询的时候)
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
用Python爬取网易云歌单 Avaricious_Bear python 开发语言
最近，博主喜欢上了听歌，但是又苦于找不到好音乐，于是就打算到网易云的歌单中逛逛本着“用技术改变生活”的想法，于是便想着写一个爬虫爬取网易云的歌单，并按播放量自动进行排序这篇文章，我们就来讲讲怎样爬取网易云歌单，并将歌单按播放量进行排序1、用requests爬取网易云歌单打开网易云音乐歌单首页，不难发现这是一个静态网页，而且格式很有规律，爬取起来应该十分简单按照以前的套路，很快就可以写完代码，无非就
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &