weixin_30426879

什么是协同过滤推荐算法？

剖析千人千面的大脑——推荐引擎部分，其中这篇是定位：对推荐引擎中的核心算法：协同过滤进行深挖。

首先，千人千面融合各种场景，如搜索，如feed流，如广告，如风控，如策略增长，如购物全流程等等；其次千人千面的大脑肯定是内部的推荐引擎，这里有诸多规则和算法在实现对上述各个场景进行“细分推荐排序”；最后是推荐引擎的算法又以“协同过滤”为最核心、最主流热门，也是当下众多内容型、电商型、社交工具、分发型的基础。

由于协同过滤的算法介绍，网上也蛮多但片段化。要么侧重讲“原理流程”，这个占了4成；要么讲算法公式，这个占5成；还有1成是偏向业务的理解，但这个笼统很难参考。

因此，这篇是属于推荐引擎-理论搭建体系-之二，PM可以侧重关注：

（1）了解协同过滤之前，先知道什么是：集体智慧。（没有对比就没有“感知”，这个集体智慧是更好帮助了解、对比协同过滤。因为网上很多片段化的文章，没有对比出来，不利于PM去联想和学习的）

（2）了解什么是协同过滤（这点偏向理论，网上的很多也如此。但我挑选了精简部分，就只要2点关键：1知道它有什么作用，2为什么需要是它）

（3）学习协同过滤的核心。要实现包括三大重要部分：【干货，核心】

一是收集用户偏好（知道为什么要收、收哪些哪样的、如何收集、收集过程有什么原则？）；
二是找到相似的用户或者物品（这里的核心有2大方面：1是怎样定义算“相似”，属于相似度问题，用什么公式去计算、有什么特点；2是相似邻居问题，可用什么公式计算两个相似邻居）；
三是计算推荐（这里核心是基于物品的方式是如何计算推荐、基于用户又是如何、两者PK又有什么差异点，如在场景，多样性）每个部分再挖出各个关键点、（学习，不是了解，是学习）

（4）举个推荐引擎中-应用协同过滤的实践案例。国外的产品案例。（包括如何使用，用什么公式，什么场景，有什么问题，怎么解决，代码层面附录。PS：为什么选国外呢？是因为这个推荐最早是应用于国外，不管是算法还是理论层面，确实要比国内深究多一分，觉得比较客观，可以参考和适用更强，这点可以跳着看。）

以上，个人认为走推荐、画像、搜索等PM核心要掌握第（1）~（3）部分，公式可以除外。其他策略PM们也可以关注各种的原理、特点、面试关键词，以用来作为谈资、需求筹码、面试拔高、综合素质的层次跨越获取高薪。

一、集体智慧和协同过滤

1. 什么是集体智慧

（1）原理和介绍：

集体智慧 (Collective Intelligence) 并不是移动互联网时代特有的，只是在移动互联网时代，大家在 Web 应用中利用集体智慧构建更加有趣的应用或者得到更好的用户体验。

核心原理：

集体智慧是指在大量的人群的行为和数据中收集答案，帮助你对整个人群得到统计意义上的结论，这些结论是在单个个体上无法得到的，它往往是某种趋势或者人群中共性的部分。

（PS：从上面可以知道，这里的“结论”是提取共性。这里的本质应用就可以是推荐系统的“人以群分，物以类聚”思想。）

(补充1：）

集体智慧(Collective Intelligence，CI)，简称集智，它是一种共享的或群体的智能。

在互联网时代之前就存在，可以分为两面去看：

在网络时代来临之前，集体智慧就一直活跃在生物学、社会学、计算机科学、大众行为学等领域 [1] [2] 。
随着Web 2.0的崛起和社会性软件的普及，集体智慧这在社交网络服务、众包、分享、评论和推荐等领域也得到了广泛应用 [3] （典型案例包括：维基百科、百度百科、百度知道、猪八戒网、任务中国、Threadless、InnoCentive、digg、iStockphoto、Mechanical Turk等。）

（补充2：）

为什么会补充说明这个？有2个原因：一是有些饭友不太清楚；二是我觉得这个概念其实很多公司、业务、产品在设计、在做策略、在做发展都离不开，多多少少会掺和到，所以抛出这个概念，可以让大家注意到。

总之越来越多的传统公司和组织也开始使用各种集体智慧平台或工具，借助外部智慧以解决复杂问题。尤其现在主推的各种智能平台，智能城市、策略。

（2）从案例去看：

Wikipedia 和 Google 是两个典型的利用集体智慧的移动互联网应用：

【Wikipedia】（维基百科）

入口：https://www.wikipedia.org/
Wikipedia 是一个知识管理的百科全书。（相对于传统的由领域专家编辑的百科全书）
Wikipedia 允许最终用户贡献知识，随着参与人数的增多，Wikipedia 变成了涵盖各个领域的一本无比全面的知识库。
所以在 Wikipedia 上，这种改版和修正被变为每个人都可以做的事情，任何人发现错误或者不完善都可以贡献他们的想法，即便某些信息是错误的，但它一定也会尽快的被其他人纠正过来。从一个宏观的角度看，整个系统在按照一个良性循环的轨迹不断完善，这也正是集体智慧的魅力。

（补充：或许也许有人会质疑它的权威性，但如果你从另一个侧面想这个问题，也许就可以迎刃而解。在发行一本书时，作者虽然是权威，但难免还有一些错误，然后通过一版一版的改版，书的内容越来越完善。（饭友们可以回忆思考下。常见的个性化推荐产品，如电商，如头条，网易等等，不管是推荐系统也好，搜索也罢，各种策略产品，是不是都说你越使用、越反馈，越懂你，越精准，这里的本质原理是“相通”的））

【Google】（姑姑，哈哈）

入口：https://www.google.com.hk/ （PS被封杀需）
Google：目前最流行的搜索引擎，与 Wikipedia 不同，它没有要求用户显式的贡献，但仔细想想 Google 最核心的 PageRank 的思想，它利用了 Web 页面之间的关系，将多少其他页面链接到当前页面的数目作为衡量当前页面重要与否的标准；

或许饭友们绝对这不好理解，那么你可以把它想象成一个选举的过程，每个 Web 页面都是一个投票者同时也是一个被投票者，PageRank 通过一定数目的迭代得到一个相对稳定的评分。Google 其实利用了现在 Internet 上所有 Web 页面上链接的集体智慧，找到哪些页面是重要的。

（饭友们同样可思考下：这里的页面上各种的链接，找到哪些页面，是不是和我们很多内容型产品，找到相似的内容资料，如文章，如视频等相似呢？这里“投票者”其实可以理解是用户对内容的行为反馈）

（补充1：这里的web页面不算仅指PC端，也是包含移动端。更多是泛指产品中的每个”网络页面”。）

2. 什么是协同过滤

（1）怎么去理解呢？

协同过滤是利用集体智慧的一个典型方法。

（PS，协同过滤是推荐的核心算法，即集体智慧和推荐是关系的，个中原理参见上面所说的。）

要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题：

如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？
大部分的人会问问周围的朋友，看看最近有什么好看的电影推荐，而一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。

核心原理：协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的，在协同过滤中，这些用户成为邻居，然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。

（2）会遇到什么问题？

当然其中有一些核心的问题：

如何确定一个用户是不是和你有相似的品位？（数据，动作，用户/内容画像）
如何将邻居们的喜好组织成一个排序的目录？（召回，排序，推荐）

如同第一章所说，同样与集体智慧PK。可以发现：

协同过滤相对于集体智慧而言，它从一定程度上保留了个体的特征，就是你的品位偏好，所以它更多可以作为个性化推荐的算法思想。

（补充2：所以可以想象，这种推荐策略在移动互联网的长尾中是很重要的，将大众流行的东西推荐给长尾中的人怎么可能得到好的效果，所以回到推荐系统的一个核心问题：了解你的用户，然后才能给出更好的推荐。）

二、深入协同过滤的核心

前面作为背景知识，介绍了集体智慧和协同过滤的基本思想，主要是为饭友们对推荐相关的打一些基础和铺垫。

接下来，下面这一节将深入分析协同过滤的原理，介绍基于协同过滤思想的多种推荐机制，优缺点和实用场景。

（核心1、面试问题坑、需求反推工作量思考：协同过滤的基本核心有3个要素。）

首先，要实现协同过滤，需要一下几个步骤：

收集用户偏好；
找到相似的用户或物品；
计算推荐。

1. 收集用户偏好

原理作用：

一句话：要从用户的行为和偏好中发现规律，并基于此给予推荐。所以，如何收集用户的偏好信息成为系统推荐效果最基础的决定因素。（前者饭友PM都知道，后者是面试或需求中常会问）

2. 核心策略：如何收集呢？

（即用户有很多方式向系统提供自己的偏好信息，而且不同的应用也可能大不相同，下面举例进行介绍。以下可以作为需求分析、口径定义使用。）

（补充1：面试坑：当问到具体的用户偏好收集、如何定义行为、权重、正负反馈等相关问题，实际就是这节相关内容，所以下面的案例都可以参考回答，基本对全产品都通用，具有很强的适用性。）

（补充2：这种类型相关的，可以参考以前社区的一些文章，以下我找了一些：）

【重要/实践】腾讯视频推荐策略：播放结束后，如何进行推荐策略思考？
【快课/实践】剖析京东JD在“猜你喜欢”的产品设计+推荐策略。

（补充3：有很多办法和操作，具体业务，具体产品都可能不太同。我也无法罗列完全，但挑选了业内常用，实用性和发散性好的。如下表：）

（补充4：PS：布尔值是“真” True 或“假” False 中的一个。代码层有时也会在适当时将值 True 和 False 转换为 1……）

通用、标准的：

（表 1 用户行为和用户偏好）

偏业务：如内容型（以腾讯视频为例）

上面已经提过了。

再举个形象例子：你说你很爱你女友；女友反问：你有多爱？如果女友是讲情义的，那么你就给以前为她做过的DIY礼物打上最高权重，优先展示说出这些内容；如果女友是讲金钱的，那么你就准备为她买过的、即将买的iPhoneXS送她，优先物质。权重，就是优先级，重要性。

下面的，可以直接应用到视频平台的推荐赋值，还是比较全面的。但是，我建议还是要思考到业务情况，赋值和权项范围是要视情况调整。

偏业务：如服务型（以美团为例）

用户特征
人口属性：用户年龄，性别，职业等。
行为特征：对商户/商圈/品类的偏好（实时、历史），外卖偏好，活跃度等。
建模特征：基于用户的行为序列建模产生的特征等。
商户特征
属性特征：品类，城市，商圈，品牌，价格，促销，星级，评论等。
统计特征：不同维度/时间粒度的统计特征等。
图像特征：类别，建模特征等。
业务特征：酒店房型等。
Query特征
分词，意图，与商户相似度，业务特征等。
上下文特征
时间，距离，地理位置，请求品类，竞争情况等。
广告曝光位次。

（其他如电商也是同理，在这里就不一一梳理。有兴趣可以看社区的用户画像、推荐等专辑内容，里面有不同细分类的梳理，由于这些是要结合，所以会相对分散到某个不同细分领域的产品或业务上。）

总结-提取策略、方法论：

（补充1：下面是对提上述的一些“收集特征、权重赋值”等抽象出“可复用”的思想。）

（补充2：）【面试坑、问题点】

关于策略类PM都离不开大数据的行为收集，特征定义。下面是对这些细分的总结。我梳理每个独立的点，都可以回答。回答的问题范围是“上述案例的一些“关键词””，所以建议先回答下面的一些要点，若面试官深挖再回答上面的细分案例。

（补充3：上述回答逻辑，即总-分-分原理，这样有助于逻辑回答，也有助于符合面试的不断深挖过程。尽量避免一开始就回答具体，这样会让面试官一来问的更细，反而出现没有学习和复盘到而出现更多意外，二来也是给各自心理门槛，即过三关心理，面试官深入问的，你基本都能回答出。）

下面不用产品这个词，而是用“应用”，泛指更多端的产品

策略1：

以上列举的用户行为都是比较通用的、经典业务的。但是如果是推荐、搜索等PM，是可以根据自己应用（业务、产品）的特点添加特殊的用户行为，并用他们表示用户对物品的喜好。

策略2：

方法论，面试可以分享，大大加分！

在一般应用中，提取的用户行为一般都多于一种，关于如何组合这些不同的用户行为，基本上有以下两种方式：（策略、方法论）

【将不同的行为分组】：（假设以第一个案例为例），一般可以分为“查看”和“购买”等等，然后基于不同的行为，计算不同的用户 / 物品相似度。类似于当当网或者 Amazon 给出的“购买了该图书的人还购买了 …”，“查看了图书的人还查看了 …”
【用户、行为加权】：（假设以第二个案例为例），根据不同行为反映用户喜好的程度将它们进行加权，得到用户对于物品的总体喜好。（有些饭友联系到画像内容，这里我要补充下：一般来说，显式的用户反馈比隐式的权值大，但比较稀疏，毕竟进行显示反馈的用户是少数；同时相对于“查看”，“购买”行为反映用户喜好的程度更大，但这也因应用而异。）

【补充：上面的全部，都可以作为针对“如何组合、提取用户行为”的面试问题，所表达的观点，这肯定会加分，并且这些都是关键知道思想。就如同可以理解成：以前走农村包围城市的战略，其根本指导思想是：如论持久战。所以上面1-3的例子是做法，那么作为策略PM一个核心的点是，你要学会有方法策略，怎么能迁移复用。这里的指导思想就如上面所说的，虽然不一定说完整全面，但对于大部分互联网产品，都是这个原理。】

策略3：

当策略PM做到上面之后，也就是收集了用户行为数据之后，接下来还需要对数据进行一定的预处理。

常问的问题类似：你觉得在收集数据/用户数据、数据源等处理等等，要注意什么。或者遇到什么的坑，或者说你是怎么想的，总之核心是“数据处理”。这个对于画像PM等底层数据PM，一定会问！

其中最核心的工作就是：减噪和归一化。

减噪：用户行为数据是用户在使用应用过程中产生的，它可能存在大量的噪音和用户的误操作，可以通过经典的数据挖掘算法过滤掉行为数据中的噪音，这样可以是的分析更加精确。

（补充1：这里具体的方法，算法等细节，可以参考用户画像等相关内容，这话题又比较大，此处不展开了。只要知道什么回事即可。）

归一化：如前面讲到的，在计算用户对物品的喜好程度时，可能需要对不同的行为数据进行加权。但可以想象，不同行为的数据取值可能相差很大。

例子1：比如，用户的查看数据必然比购买数据大的多，如何将各个行为的数据统一在一个相同的取值范围中，从而使得加权求和得到的总体喜好更加精确，就需要进行归一化处理。

例子2：从以往实战来看，最简单的归一化处理:就是将各类数据除以此类中的最大值，以保证归一化后的数据取值在 [0,1] 范围中。

n同上补充的点，这个相对抽象，饭友们可以结合我举得例子去理解~

（补充2：即上面所做，当进行的预处理后（这个一般可以和数据和开发一起搞），根据不同应用的行为分析方法，可以选择分组或者加权处理，之后可以得到一个用户偏好的二维矩阵，一维是用户列表，另一维是物品列表，值是用户对物品的偏好，一般是 [0,1] 或者 [-1, 1] 的浮点数值。）

图另外后面再配。就是数组矩阵的样式，如果很抽象就简单理解成excel表左列右行的样式。

2. 找到相似的用户或物品

原理：当已经对用户行为进行分析得到用户喜好后，可以根据用户喜好计算相似用户和物品，然后基于相似用户或者物品进行推荐。

目前主流的，都是围绕最典型的 CF 的两个分支：

基于用户的 CF ；
基于物品的 CF；

策略1、面试问题：

这两种方法都有个共同核心：就是都需要计算相似度。

所以，下面先看看最基本的几种计算相似度的方法。

由于涉及到计算，那就肯定会有各种公式。否则根本不能说算法。所以下面有相关的技术细节，可能有技术和算法逻辑强的PM能看得很明白。但没有这方面基础的，也没关系，下面我梳理都会按大白话和尽可能了解的语言去讲述原理。

（补充1：还是要说个很现实的事情。这篇依然有一丢的技术术语，PM不理解或者不明白是很正常的，但如果连百度、连问查找都不愿意，那谈何学习和成长呢？要知道，你薪资涨幅高低、大厂公司offer等依然有一堆PM在与你竞争。）

（1）相似度的计算

策略1：

关于相似度的计算，现有的几种基本方法都是基于向量（Vector）的。（饭友其实简单理解，也就是计算两个向量的距离，距离越近相似度越大。）

计算相似度逻辑1：（面试细节）

在推荐的场景中，在用户 – 物品偏好的二维矩阵中：

可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，
或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。

——————————分割线（下面是技术细节+推荐PM角度的阐述）——————

（补充2：由于涉及到公式，所以一定要保证全面性。所以每个相似度计算方法都附上了：原理、公式、关键点、面试常会问到的细节。饭友们各取所需。）

下面详细介绍几种常用的相似度计算方法：

欧几里德距离（Euclidean Distance）

【原理】：最初用于计算欧几里德空间中两个点的距离，假设 x，y 是 n 维空间的两个点，它们之间的欧几里德距离是：

【关键点、面试细节】：

可以看出，当 n=2 时，欧几里德距离就是平面上两个点的距离。

当用欧几里德距离表示相似度，一般采用以下公式进行转换：距离越小，相似度越大。

皮尔逊相关系数（Pearson Correlation Coefficient）：

【原理】：皮尔逊相关系数一般用于计算两个定距变量间联系的紧密程度，它的取值在 [-1，+1] 之间。

sx, sy是 x 和 y 的样品标准偏差。

Cosine 相似度（Cosine Similarity）

Cosine 相似度被广泛应用于计算文档数据的相似度：

Tanimoto 系数（Tanimoto Coefficient）

Tanimoto 系数也称为 Jaccard 系数，是 Cosine 相似度的扩展，也多用于计算文档数据的相似度：

——————————分割线（下面是原理思想细节+推荐PM角度的阐述）——————

补充3：说回重点。后面我想单纯只讲公式没有太多意义。为何？

是因为策略PM不一定要知道公式，只需知道原理和思想，知道什么场景该适合用啥；
单纯说公式没意思，不是开发开始不懂那么多，这样子失去原来的意义；
不能结合业务也没意义。虽然这个没办法在这里展开，因为太细了，我也没那么全面；

因此，我针对上面提到的计算方式，用大白话去讲解各种的原理。

这里的原理是指：公式本身都是计算，都是为了解决同一个问题。所以假设A找B为目标，那么A会怎样去找？会通过什么方式、什么流程、遇到什么问题、怎么解决。

【PS：这个可以理解是：如果我想得到10的数字，那么可以用乘法、加法、减法、除法、取余、逻辑运算、同异法等等。如5+5=10、5*2=10，15-5=10，这些都是公式，但本质还是为了得到10，只是可能场景不同我们思考的方向不一样。

所以大家不要看到公式那么怕，百度下或者有兴趣有空看看，这里面比我们之前学高数、高考都简单不少的~ 】

以下基本80%都是PM可以看得懂的，但前提是要静心慢慢看。

毕竟这方面是有门槛的，但正因为有门槛才有壁垒，有壁垒才是产品力、核心竞争力之一，少了难了才会更缺、更值钱和难替换。

同理，我会以PM角度附上了：原理、公式、关键点、面试常会问到的细节。饭友们各取所需。）

（2）相似邻居的计算

上面介绍完相似度的计算公式、逻辑、面试坑、@开发RD交流细节，下面看看如何根据相似度找到用户-物品的邻居：

常用的挑选邻居的原则可以分为两类：

补充了图：图 1 给出了二维平面空间上点集的示意图。

固定数量的邻居：K-neighborhoods 或者 Fix-size neighborhoods。

【原理】：不论邻居的“远近”，只取最近的 K 个，作为其邻居。（下面是流程、逻辑想法）

如图 1 中的 A，假设要计算点 1 的 5- 邻居，那么根据点之间的距离，取最近的 5 个点，分别是点 2，点 3，点 4，点 7 和点 5。
但很明显可以看出，这种方法对于孤立点的计算效果不好。
【核心问题，如果细节会问到-即为什么的解答】因为要取固定个数的邻居，当它附近没有足够多比较相似的点，就被迫取一些不太相似的点作为邻居，这样就影响了邻居相似的程度。（比如图 1 中，点 1 和点 5 其实并不是很相似。）

基于相似度门槛的邻居：Threshold-based neighborhoods

【原理】：

与计算固定数量的邻居的原则不同，基于相似度门槛的邻居计算是对邻居的远近进行最大值的限制，落在以当前点为中心，距离为 K 的区域中的所有点都作为当前点的邻居，
这种方法计算得到的邻居个数不确定，但相似度不会出现较大的误差。
如图 1 中的 B，从点 1 出发，计算相似度在 K 内的邻居，得到点 2，点 3，点 4 和点 7。
【核心观点，问为什么认为好】这种方法计算出的邻居的相似度程度比前一种优，尤其是对孤立点的处理。

图1. 相似邻居计算示意图：

3. 计算推荐

经过前期的计算已经得到了相邻用户和相邻物品，下面介绍如何基于这些信息为用户进行推荐。

本系列的上半场，~已经简要介绍过基于协同过滤的推荐算法可以分为基于用户的 CF 和基于物品的 CF，所以按逻辑去看，下面深入这两种方法的计算方法，

PM主要关注是：计算的基本原理、使用场景和优缺点。（这个是高频面试问法、考点，让你介绍下原理思想。）

（1）基于用户的 CF（User CF）

基于用户的 CF 的基本思想相当简单！

【原理】：基于用户对物品的偏好找到相邻邻居用户，然后将邻居用户喜欢的推荐给当前用户。

（PS：请看我梳理出来的思考流程，看文字+看图配合更好理解。）

计算就是将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度（找领居）
找到 K 邻居后，根据邻居的相似度权重以及他们对物品的偏好，（看邻居偏好）
预测当前用户没有偏好的未涉及物品，计算得到一个排序的物品列表作为推荐。（召回排序）

以上。作为面试或者分享你对这个原理的看法，绝对是可以用。

（下面图 2 就是一个例子，对于用户 A，根据用户的历史偏好，这里只计算得到一个邻居 – 用户 C，然后将用户 C 喜欢的物品 D 推荐给用户 A。）

图 2.基于用户的 CF 的基本原理：

（2）基于物品的 CF（Item CF）

基于物品的 CF 的原理和基于用户的 CF 类似！！！

【原理】：只是在计算邻居时采用物品本身，而不是从用户的角度，即基于用户对物品的偏好找到相似的物品，然后根据用户的历史偏好，推荐相似的物品给他。

（PS：请看我梳理出来的思考流程，看文字+看图配合更好理解。）

从计算的角度看，就是将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度，（找用户偏好的“共性”物品）
得到物品的相似物品后，根据用户历史的偏好预测当前用户还没有表示偏好的物品，计算得到一个排序的物品列表作为推荐。（预测召回，排序）

（举个例子，如图 3 ，对于物品 A，根据所有用户的历史偏好，喜欢物品 A 的用户都喜欢物品 C，得出物品 A 和物品 C 比较相似，而用户 C 喜欢物品 A，那么可以推断出用户 C 可能也喜欢物品 C。）

图 3.基于物品的 CF 的基本原理：

（3）User CF vs. Item CF

前面介绍了 User CF 和 Item CF 的基本原理，下面分几个不同的角度深入看看它们各自的优缺点和适用场景：

计算复杂度：Item CF 和 User CF 是基于协同过滤推荐的两个最基本的算法。

User CF 是很早以前就提出来了，Item CF 是从 Amazon（亚马逊，成为市值第一的公司，不是没有道理的……）的论文和专利发表之后（2001 年左右）开始流行，

大家都觉得 Item CF 从性能和复杂度上比 User CF 更优，其中的一个主要原因就是：

对于一个在线网站，用户的数量往往大大超过物品的数量，同时物品的数据相对稳定，因此计算物品的相似度不但计算量较小，同时也不必频繁更新。（但只是适用一些电商）
但往往忽略了这种情况只适应于提供商品的电子商务网站，对于新闻，博客或者微内容的推荐系统，情况往往是相反的，物品的数量是海量的，同时也是更新频繁的。

面试挖坑：用户海量、内容物品海量，因此要看产品实际情况而去使用相应的协同过滤算法，不能一概而论。

所以单从复杂度的角度，这两个算法在不同的系统中各有优势，推荐引擎的设计者需要根据自己应用的特点选择更加合适的算法。

适用的场景：

场景策略：在非社交网络的网站中：内容内在的联系是很重要的推荐原则，它比基于相似用户的推荐原则更加有效。

可以看到，在这种情况下我认为有几个很重要的点：

Item CF 的推荐成为了引导用户浏览的重要手段。（比如在当当网（购书网站）上，当你看一本书的时候，推荐引擎会给你推荐相关的书籍，这个推荐的重要性远远超过了网站首页对该用户的综合推荐。)
同时 Item CF 便于为推荐做出解释。（在一个非社交网络的网站中，给某个用户推荐一本书，同时给出的解释是某某和你有相似兴趣的人也看了这本书，这很难让用户信服，因为用户可能根本不认识那个人；但如果解释说是因为这本书和你以前看的某本书相似，用户可能就觉得合理而采纳了此推荐。）
相反的，在现今很流行的社交网络站点中，User CF 是一个更不错的选择，User CF 加上社会网络信息，可以增加用户对推荐解释的信服程度。
推荐多样性和精度。

一般来说，刚开始研究推荐引擎的学者们在相同的数据集合上分别用 User CF 和 Item CF 计算推荐结果，发现推荐列表中，只有 50% 是一样的，还有 50% 完全不同。

（但是这两个算法确有相似的精度，所以可以说，这两个算法是很互补的。具体怎么度量，可以参考下面梳理的几个方面。一是整体的度量方法，而是不同的业务指标）

度量策略-两种经典方法：

（PS：无涉及具体业务，可通用）

补充1面试坑：常问到的：如你如何衡量推荐效果好不好？从技术指标？业务指标如何看？不同业务下又如何观察，验证？改善？。

补充：2类似的可以以前饭团的内容，如：

【重要】衡量个性化推荐产品效果的核心指标有哪些？
【实践】浅析建立个性化推荐数据指标体系&实践（以电商为例）

关于推荐的多样性，有两种度量方法：

第一种度量方法：是从单个用户的角度度量。

就是说给定一个用户（见下补充），查看系统给出的推荐列表是否多样。（直观）

也就是要比较推荐列表中的物品之间两两的相似度，不难想到，对这种度量方法，Item CF 的多样性显然不如 User CF 的好，因为 Item CF 的推荐就是和以前看的东西最相似的。

（补充1 ，可作为面试细节：这里的用户，一般在我们PM可以叫白名单用户、随机用户、抽样用户、分组测试用户、体验用户都可以~ 具体看业务规则策略。如我以前做这方面验证会分两种情况：如特定场景会分组用户测试（侧重是对场景的验证，白名单）、如果是走量测试机率、抗压等等，就导出随机大量。后者一般有条件都可以联合用户画像去勾选某些条件的用户群））

第二种度量方法是考虑系统的多样性，也被称为覆盖率 (Coverage)，它是指一个推荐系统是否能够提供给所有用户丰富的选择。

在这种指标下，Item CF 的多样性要远远好于 User CF（因为 User CF 总是倾向于推荐热门的），从另一个侧面看，也就是说，Item CF 的推荐有很好的新颖性，很擅长推荐长尾里的物品。

所以，尽管大多数情况，Item CF 的精度略小于 User CF，但如果考虑多样性，Item CF 却比 User CF 好很多。

PK的实践分析：

面试策略：在面试的时候，尤其刚入门推荐的PM可能会问到深入：你为什么说UCF和ICF是这样，为什么就说它的多样性会更好… 这时候，你需要有一些的原理、实践策略反推出支撑。

所以，存在上面的情况，或者是如果对推荐的多样性还心存疑惑，那么下面再举个实例看看 User CF 和 Item CF 的多样性到底有什么差别。

（补充：我按思考的金字塔原理梳理以下几点。每一点都可以作为单独“结论”。即假设谈需求、面试的时候：你针对这个类似问题可以回答以下的任一点。如果他细问再联系上下几点。当然，你熟悉之外就请随便搭，这样的方法只是方便对这方面基础不太扎实的PM。）

个人推荐的顺序是： 1-2、 2、1-3，都可以用于作答。

首先，假设每个用户兴趣爱好都是广泛的，喜欢好几个领域的东西，不过每个用户肯定也有一个主要的领域，对这个领域会比其他领域更加关心。
给定一个用户，假设他喜欢 3 个领域 A,B,C，A 是他喜欢的主要领域，这个时候来看 User CF 和 Item CF 倾向于做出什么推荐：
如果用 User CF, 它会将 A,B,C 三个领域中比较热门的东西推荐给用户；
而如果用 ItemCF，它会基本上只推荐 A 领域的东西给用户。
那么看到因为 User CF 只推荐热门的，所以它在推荐长尾里项目方面的能力不足；
而 Item CF 只推荐 A 领域给用户，这样他有限的推荐列表中就可能包含了一定数量的不热门的长尾物品，同时 Item CF 的推荐对这个用户而言，显然多样性不足。
但是对整个系统而言，因为不同的用户的主要兴趣点不同，所以系统的覆盖率会比较好。

从上面的分析，可以很清晰的看到：这两种推荐都有其合理性，但都不是最好的选择，因此他们的精度也会有损失。

怎么优化、解决？

其实对这类系统的最好选择是：

如果系统给这个用户推荐 30 个物品，既不是每个领域挑选 10 个最热门的给他，也不是推荐 30 个 A 领域的给他，而是比如推荐 15 个 A 领域的给他，剩下的 15 个从 B,C 中选择。

解决策略：所以结合 User CF 和 Item CF 是最优的选择。

结合的基本原则就是：当采用 Item CF 导致系统对个人推荐的多样性不足时，通过加入 User CF 增加个人推荐的多样性，从而提高精度，
而当因为采用 User CF 而使系统的整体多样性不足时：可以通过加入 Item CF 增加整体的多样性，同样同样可以提高推荐的精度。

用户对推荐算法的适应度：

毕竟之前更多是谈引擎特性去考虑，除了上面小谈用户，我在这也梳理相关的，作为补充。

面试坑、策略：

策略：以下可以作为用户视觉的“推荐引擎、推荐策略”相关问题的想法，记住是想法！具体怎么说，除了按我梳理的逻辑顺序，也可以自己去按理解去表达。由于站在用户角度，就是上帝角度，只要结合了推荐算法的特性，怎么回答都可以。】
坑：切记！不要说用户觉得爽就行了，也不要说看指标就很不错了！不要单单的说怎样怎样就好，一定要结合推荐引擎本身！客观的说！切记切记~ 否则你就跳坑了~ 此坑适用于其他的策略PM面试。

回到来说，前面大部分都是从推荐引擎的角度考虑哪个算法更优，面试或者谈需求时，如果不懂技术或者细节，也可以拔高的回答：其实，我认为更多的应该考虑作为推荐引擎的最终使用者——应用用户对推荐算法的适应度。

对于 User CF：

推荐的原则：是假设用户会喜欢那些和他有相同喜好的用户喜欢的东西；
但如果一个用户没有相同喜好的朋友，那 User CF 的算法的效果就会很差，所以一个用户对的 CF 算法的适应度是和他有多少共同喜好用户成正比的。

对于Item C：

Item CF 算法也有一个基本假设：就是用户会喜欢和他以前喜欢的东西相似的东西，那么可以计算一个用户喜欢的物品的自相似度。
逻辑1：一个用户喜欢物品的自相似度大，就说明他喜欢的东西都是比较相似的，也就是说他比较符合 Item CF 方法的基本假设，那么他对 Item CF 的适应度自然比较好；
逻辑2：反之，如果自相似度小，就说明这个用户的喜好习惯并不满足 Item CF 方法的基本假设，那么对于这种用户，用 Item CF 方法做出好的推荐的可能性非常低。

小结：

以上的介绍，相信饭友小伙伴们，起码已经对协同过滤推荐的各种方法，原则，特点和适用场景有深入，60%的了解，那就可以了。

下面就进入实战案例分析，重点介绍如何基于 Apache Mahout 实现协同过滤推荐算法。这是国外的一个案例，国外搞推荐算法和理论很早，比较成熟，值得参详。

——————————分割线（下面是从技术角度去看，PM略看）——————

这篇是国外一个推荐系统技术案例分析，但为什么不选纯产品案例（即无技术，无参数）呢？

是因为这个在社区已经有不少了。推荐引擎本质就是一个综合的算法模型，肯定会涉及比较强的技术。加之饭友有一些是开发，可能是开发转PM，那么从开发角度去理解PM的推荐系统也是比较关键的。

脱离了代码层面，或者从代码层面、技术原理方面，如何结合到业务的思考。所以我挑选了一些内容和组合、点评，有了以下部分。比较干涩，PM略看。若要看，请看第3小节，即slope One部分，比较多适合推荐相关策略PM的干货。还是那句话，关注原理思想。

总结

算法理论、思想的口水话、面试点：

移动互联网的一个核心思想就是“集体智慧”，基于协同过滤的推荐策略的基本思想就是基于大众行为，为每个用户提供个性化的推荐，从而使用户能更快速更准确的发现所需要的信息。

产品角度口水话、面试交流点：

从产品角度分析，现今比较成功的推荐引擎，比如 Amazon（鼻祖），豆瓣（早期），头条（最近发起者）、网易云、QQ、阿里淘宝、JD等都采用了协同过滤的方式，现在很多大厂、主流场景都用了混搭方式。但核心还是玩协同过滤的多，不管如何，后期都离不开这一步。

其中类似维基百科这些，计算出来的推荐是开放的，可以共用他人的经验，很好的支持用户发现潜在的兴趣偏好。

基于协同过滤的推荐策略也有不同的分支，它们有不同的实用场景和推荐效果，PM可以根据自己产品、业务应用的实际情况选择合适的方法，异或组合不同的方法得到更好的推荐效果。

其他口水话：这篇定位依然是推荐引擎-理论搭建、扫盲系列之二。

第一篇是：理论体系]搭建-推荐体系：扫盲（一），系列一共有2-3篇，下一篇可能会选一种更加主流算法去解决大数据的应用。

如我们常见到策略PM类招聘JD写着：“聚类算法”，推荐。那么这个几百80%都会出现，我后面抽空再给大家介绍。

以上，谢谢，希望对饭友们有帮助。

转载于:https://www.cnblogs.com/Little-Li/p/11354590.html

你可能感兴趣的:(人工智能,数据结构与算法,面试)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
面试官：Spring 如何控制 Bean 的加载顺序？
在大多数情况下，我们不需要手动控制Bean的加载顺序，因为Spring的IoC容器足够智能。核心原则：依赖驱动加载SpringIoC容器会构建一个依赖关系图（DependencyGraph）。如果BeanA依赖于BeanB（例如，A的构造函数需要一个B类型的参数），Spring会保证在创建BeanA之前，BeanB已经被完全创建和初始化好了。@ServicepublicclassServiceA{
C++面试核心知识点全面解析：从基础到高级
掌握这些核心知识点，轻松应对90%的C++技术面试一、基础语法与关键字1.1const关键字的多种用法//1.常量变量constintMAX_SIZE=100;//2.常量指针与指针常量constint*ptr1=&var;//指向常量的指针int*constptr2=&var;//常量指针constint*constptr3=&var;//指向常量的常量指针//3.常量成员函数classMyCl
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
Java实习模拟面试之安徽九德 —— 面向对象编程、Spring框架与数据库技术详解培风图南以星河揽胜 java面试 java 面试 spring
关键词：Java实习生、模拟面试、安徽九德、SpringBoot、MySQL、Redis、面向对象编程、团队协作一、前言作为一名计算机相关专业的学生，想要顺利进入一家互联网公司或软件开发企业实习，技术面试是必须面对的一道门槛。本文将带你走进一场真实的Java实习生模拟面试场景，以“安徽九德”公司为背景，围绕其发布的招聘岗位要求，进行一次全方位的技术面试演练。本次模拟面试涵盖以下核心知识点：Java
C++ 性能优化指南三月微风 c++性能优化开发语言
C++性能优化指南（针对GCC编译器，面向高级工程师面试）代码优化面试常问点：如何避免不必要的对象拷贝？为什么要用引用或std::move？虚函数调用有什么性能开销？原理解释：传递对象时按值会拷贝整个对象，特别是大对象会频繁分配/释放内存，影响性能；应尽量改用引用或指针传递。C++11引入移动语义（move），允许“窃取”临时对象的资源，避免深拷贝。虚函数调用需要先通过对象的虚函数表指针（vptr
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
C#常见面试题 rapLiu c#数据库开发语言
1.http和https的区别1.HTTP明文传输，数据都是未加密的，安全性较差，HTTPS（SSL+HTTP）数据传输过程是加密的，安全性较好。2.使用HTTPS协议需要到CA（CertificateAuthority，数字证书认证机构）申请证书，一般免费证书较少，因而需要一定费用。证书颁发机构如：Symantec、Comodo、GoDaddy和GlobalSign等。3.HTTP页面响应速度比
C#常见面试题 rapLiu java 开发语言
1.i++中为什么用到锁在C#中，i++通常不需要用锁，因为i++操作本身是一个原子操作。原子操作是指一个操作要么完全执行，要么完全不执行，不会被中断。因此，在单线程环境下，i++操作是安全的。然而，在多线程环境下，如果多个线程同时对i进行++操作，就可能会出现竞争条件（racecondition），导致数据不一致或错误的结果。为了避免这种情况，需要使用锁来保护i的操作，确保在同一时刻只有一个线程
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s