数据分析v

清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

[导语]本文是清华大学张敏副教授在Byte Tech 2019 机器智能前沿论坛上的分享实录。Byte Tech 2019由中国人工智能学会、字节跳动、清华大学联合主办，清华大学数据科学研究院协办。

大家好，今天和大家分享一下个性化推荐研究进展。主要探讨三个关键词：可解释性、鲁棒性和公平性。我们大概2013年左右就开始做可解释的推荐，此后也开始逐渐研究鲁棒性和公平性。为什么这三个词很重要呢？

图说：可解释性、鲁棒性和公平性是人工智能目前面对的三个重要挑战。

可能大家对人工智能的发展非常耳熟能详。的确，在这次人工智能热潮开始之后，人们认为人工智能越来越强大。但对很多从事人工智能研究的学者来说，现在更多想的是人工智能在哪些地方遇到了最大的瓶颈。目前大家基本达成了共识：当前人工智能领域的两个核心的挑战是可解释性和鲁棒性。

除了可解释性和鲁棒性之外，从两三年前开始，国外的研究越来越关注第三个问题：公平性。我们在研究过程中发现，可解释性、鲁棒性和公平性这三点并不是完全割裂的。所以今天的报告既会分别讨论这三点，但也试图呈现它们之间的关联。因为这三个话题很大，所以我们用一个具体的领域来讨论，也就是我们课题组这些年一直在研究的个性化推荐。

首先是可解释性。什么叫可解释性？其实很简单。我们除了知道怎么做一件事，怎么完成一个任务之外，还想知道“为什么”。这个“为什么”其实有两个不同角度。首先从用户的角度来说，我们不仅希望给用户看到推荐的结果，例如在线购物网站呈现的推荐商品，还能告诉用户为什么推荐这个商品。另一个例子是新闻推荐。为什么系统从今天的几百条新闻中给用户推了这些内容。我们需要理由，并且要把这个理由解释给用户。这就是结果的可解释性。第二个方面是系统角度的可解释性，也就是系统开发人员需要的解释。在我们实验室的研究过程中，有时候学生对我说这个结果很好或很不好，他们可能很怕我问一个问题：为什么结果会这样？为什么我们方法的效果比别人的好？如果不好，问题出在哪里？特别的，到底是哪些因素/特征/数据带来了问题，有没有可能改进？这是关于系统的可解释性。在现在的人工智能（特别是深度学习）研究中，大家对解释性机器学习探讨得比较多。很多人说深度学习的缺点是不知道结果是怎么给出来的，就是指缺少系统的可解释性。

我们现在先讨论一下面向用户的可解释性。之后在讨论鲁棒性问题时会提到系统的可解释性。

目前推荐系统已经有了非常广泛的应用。大家一定用过推荐系统，无论是新闻阅读信息流还是在线购物等。现在推荐系统给出的理由非常简单，最常见的理由之一是买了某件商品的用户也买了其他什么东西，然后说“你可能也感兴趣…”。事实上，现在推荐系统没有给出更有说服力的推荐理由的原因，并不是不想给，而是给不出来。为什么呢？我们从推荐算法说起。这里我简单介绍一下基本概念，尽量让没有推荐系统背景的朋友也能理解。

推荐系统简明原理

在推荐系统技术中，协同过滤是一个很常用也很有效的办法。在协同过滤技术中，我们经常会看到类似下图所示的矩阵。这个矩阵中记录了某个用户是否买了什么商品，这时系统根据买了同一个商品的人，还买过什么其他商品，来产生推荐的商品候选。但系统并不是直接查矩阵就把结果推出来了。人们会把这个矩阵分解成两部分：一部分是用户，另一部分是商品。这两个部分的隐变量会共享相同的维度，对接用户和商品，把它们映射到同一个空间上。这就是常用的隐变量分解机模型。事实上，给你推荐这个商品的真正理由可能是，在你的第三个、第十个、第十二个维度代表的向量上，你的喜好和被推荐商品的这三个维度代表的向量非常匹配。但如果系统告诉用户说，“我把这个商品推荐给你，是因为你在第十二维上的特征和商品的第十二维很匹配”，用户可能会觉得莫名其妙。

图说：分解机模型可以用来协助基于协同过滤方法的推荐系统的实现。

所以我们想知道，到底有没有一种方法，既可以给出精准的推荐，同时还能给出可靠的解释。于是人们开始在这个方向做一些尝试。我们在2014年左右提出了Explainable Recommendation这个概念（如下图）。后来也有不少人在这个方向做了相关研究，我们提出的EFM模型也成为了大家做可解释推荐时经常用来比较的baseline方法。当时的思路就是，虽然中间的隐变量是不可解释的，但如果找到中间桥梁——这个桥梁就是具体的特征，比如商品的特性——那么推荐的结果就能被解释。例如，系统在推荐一个手机的时候，会解释说这款手机拍照性能好，外观漂亮。这样可能会比较适合一个时尚的女孩。如果系统发现其他用户感兴趣的是另外的特征，就能找到别的合适的手机来推荐，例如把一款屏幕大、字体大、操作简单、待机时间长的手机推荐给你，而你正在给父母买一款智能老人机，你就很可能会被说服。我们用了这种方法后，可以把用户点击率从3%到4%，这是非常大的提升。

人们可能会问：“也许我们不需要理由呢？”所以我们用在线购物网站真实的数据做了实验来分析这样的解释到底有没有效果。第一组实验直接给推荐结果，没有解释；第二组给同样的推荐结果，只是同时给出了“看过这个商品的这个用户还看了什么”的简单解释，这样就可以把点击率从3.20%到3.22%；第三，我们给了新的解释，提供了例如屏幕较大，待机时间较长这样更具体的信息，发现点击率又进一步提升到4.34%。所以真实的用户实验告诉我们，只要给出了合理的解释，推荐精准度会有非常大的提升 —— 有时候人做事情需要别人给我们一个理由。

图说：可解释的推荐算法EFM的原理解释

但是，上述方法也有问题。首先，并不是所有东西都很容易找出特征。比如对新闻来说，我们很难描述这个新闻带有什么样的属性，让我们可以做类似的处理。此外，因为人的语言表达很自由，所以自然语言处理表达有非常大的多样性。比如说有人可能在评论中说“这个东西也没有明显的缺点，但是感觉不太好用”。这种情况很难快速找出完整、精准的特征描述。所以我们认为也许可以尝试把粒度提升一点，不在那么细的粒度上做特征级别的可解释性。于是这就给了我们更多的思路。下图是亚马逊购上的评论。大家可能会发现其实除了用户对商品的评论和打分之外，其他用户还会对某个用户的评论打分：分数代表了其他用户觉得这个评论到底有没有用。如果我们对所有商品都找到这样的有用的评论信息，当用户浏览购买的时候，我们可以把最有用的评论呈现给用户，那么推荐系统影响的不单是购买的结果，还会帮助用户挑选商品时的早期和中间的选择决策过程。

图说：用户的评论也可以被其他用户评论。

因此，我们从这个角度做了一些工作。我们首先研究是否可以自动发现评论的有用性。因为互联网上有一个重要的原则叫“lazy user”，也就是不要指望用户主动做太多事情。所以愿意给出别人的评论是否有用的用户非常少，数据就很稀疏。那么我们系统能不能自己学习出来呢？其次我们在研究有用性的过程中有没有可能把它与最终的推荐算法结合在一起？而不是仅仅判断某些评论是否有用却没有让推荐系统利用到这一点。

所以我们设计了下图中的模型，这是一个基于注意力机制网络（Attention network）的深度学习模型。我们在这个模型中，试图在最终给出评论推荐的同时，通过中间注意力的机制的选择，挑出更有用更可靠的评论。这个工作我们发表在2018年的WWW会议上。模型的效果非常好，与经典的推荐算法以及基于深度学习的算法等state of art方法相比，我们的模型都会有统计意义上显著的提升。此外，模型是否考虑Attention，效果会有非常大的差异和变化。如下图所示。

图说：基于Neural Attention Network来给出评论级别的可解释的推荐算法。

图说：加入了基于attention 机制的可解释推荐方法，模型的性能得到显著提升。

怎么看这个模型对用户是否有效？我们对比了几种常见的方式。比如现在大多数购物网站主要有以下几种方式对评论排序：

时间排序，最近的评论在前面；
随机排序；
排除垃圾评论后按照内容长度排序（因为一般认为越长的评论越有用）。

然而，基于时间和长度的排序往往效果比随机还要差，而我们提出的方法表现更好。这里有一点值得注意的是，事实上，我们这个拿来做标准答案的大规模用户标注的有效性数据，是有偏的（bias）。因为曾经被人评过有用的东西，会因为马太效应，更容易被其他人认为有用。而那些事实上有用，但却没有机会立刻呈现的评论会永远沉寂下去。而这个bias也是我们所说的“不公平性”的情况之一。所以我们做了第三方更客观的评价，发现这种bias的确存在，而通过算法分析找到的方法，比靠用户在系统中的投票，是更可靠更有效的方法。

在可解释性方面还有更多要讨论的问题，比如应该用产生式的方法还是判别式的方法，我们的观点是都可以。还有怎么评价这个解释的有效性呢？我们觉得一个可行的思路是要和用户的行为结合在一起。另外，推荐算法可能带来的偏差怎么处理？尤其是解释本身是否带来不公平性？这也是非常容易存在的一个问题，有可能变成哲学问题。

鲁棒性问题

第二个要讨论的问题，是鲁棒性。这个问题涉及到很多方面。在个性化推荐领域，鲁棒性问题的具体表现之一是很严重的数据缺失的挑战。我们都知道可以根据用户的历史做推荐，但如果一个新用户什么历史都没有，你要怎么做推荐呢？这称作冷启动（cold-start）问题。

在推荐系统中有一类方法基于协同过滤，还有一类方法是基于内容匹配，前者虽然一般来说效果更好但是无法处理冷启动情况，而后者即使冷启动时还能够工作。我们可以把他们融合起来，用历史数据学到给这两种方法分配的权值：例如0.8和0.2。冷启动的时候，协同过滤那部分是0，但还至少有0.2权重的基于内容（content-based）的方法能够使用。但很显然对不同用户、不同的商品，这种融合的权值应该是不一样的。所以我们提出一个思路（如下图）：我们不要固定选好一个对所有人一样的权值，而是提出一个统一的框架（unified framework），自动用注意力网络学习出在不同的情况下不一样的权值。如果大家感兴趣的话，可以看一下我们发表在CIKM 2018上的论文：Attention-based Adaptive Model to Unify Warm and Cold Starts Recommendation。效果确实非常好，能非常有效地解决冷启动问题，并且对总体效果非常有帮助。

图说：统一的框架可以解决冷启动推荐问题。

更有趣的是，当学生把下图拿给我的时候，我觉得这可以算是个很漂亮的工作了，因为这项工作同时也体现了系统的可解释性。为什么刚才提到的模型结果很好呢？这是因为通过学习到的不同Attention，会发现左上角是新的item（例如新商品或新的消息），右下角是新的用户。对于信息充足的情况和信息严重不足的情况（新的商品+新的用户），这幅图都给了解释。所以你会发现，当我们解决鲁棒性的同时，对于系统级别的可解释性也有非常大的改善。

图说：提升推荐系统的鲁棒性同时也可能提升系统的可解释性。

公平性问题

最后我们用很短的时间再探讨一下公平性问题。公平性问题很值得注意。比如2018年的一个研究发现，在两个公开数据集MovieLens和LastFM上，对男性的推荐效果比对女性推荐效果好，对老人和18岁以下年轻人的推荐效果，比18岁到50岁之间的人群的推荐效果更好，这不是系统有意识地产生偏见，可能和数据量以及用户习惯有关，但是不公平性的确存在。另一方面对被推荐物及相关信息也存在不公平性，例如我们前面讨论过的对评论的不公平性，以及更多推荐流行的东西，也会带来对不热门的东西的不公平性。有时候对用户和对物品的公平性，是有冲突的。例如我们希望增加推荐的多样性，但是有研究表明，增加多样性的时候提升了对被推荐物的公平性，但是却降低了对用户的公平性。

图说：推荐系统对不同人群的效果不同，降低了对用户和对推荐物的公平性。

最后一分钟时间分享一下我们在用户行为的不公平性上发现的有趣现象。人们常在看新闻的信息流时经常说这个文章质量太差了，怎么给我推荐这些呢？事实上我们来看看点击率，会吃惊地发现：低质量的新闻总体点击率（下面左图中的蓝线）始终比高质量新闻点击率（图中的红线）高，甚至我们会发现有一些用户在点击之前其实是知道这条新闻的质量肯定不怎么样的，但人们还是有猎奇心理，“我知道它不太好可我就是要点”，点完以后发现这条新闻质量果然是不怎么样。但反过来，对推荐系统来说就感到很奇怪了——用户们你们明明喜欢点的呀，怎么还觉得不好呢。所以这种大量存在的点击的偏置也是不公平的，是对高质量新闻的不公平。

图说：低质量新闻的点击率始终比高质量新闻的点击率高。

怎么解决呢？从算法思路可以一定程度上来解决。我们的思路是不要光看点击，不能只拿点击率来做评价指标，而要看用户的满意度。这个满意度虽然没有被用户显式地给出来，但是可以从用户的行为找到蛛丝马迹来进行自动分析。相关的工作我们发表到了2018年的SIGIR上（文章和主要方法可见下图）。

图说：低质量新闻的点击率始终比高质量新闻的点击率高。

以上是我今天跟大家简短分享的内容，主要是希望大家关注到可解释性、鲁棒性、公平性这三个非常重要的因素，而且这三个因素并非独立存在，而是在相互作用的。如果我们希望有一个更好的人工智能系统，一定要在这三个方面做进一步的工作。真正智能化的人工智能技术依然前路漫漫，还有非常多的挑战和非常多的机会等待我们去发现和面对。

编辑：文婧；校对：洪舒越；

「完」

转自：数据派THU ；

关联阅读

原创系列文章：

1：从0开始搭建自己的数据运营指标体系（概括篇）

2 ：从0开始搭建自己的数据运营指标体系（定位篇）

3 ：从0开始搭建自己的数据运营体系（业务理解篇）

4 ：数据指标的构建流程与逻辑

5 ：系列：从数据指标到数据运营指标体系

6: 实战：为自己的公号搭建一个数据运营指标体系

7: 从0开始搭建自己的数据运营指标体系（运营活动分析）

数据运营关联文章阅读：

运营入门，从0到1搭建数据分析知识体系

推荐：数据分析师与运营协作的9个好习惯

干货：手把手教你搭建数据化用户运营体系

推荐：最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始，构建数据化运营体系

干货：解读产品、运营和数据三个基友关系

干货：从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读：

干货：数据分析团队的搭建和思考

关于用户画像那些事，看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系，看这一文章就够了

干货：聚焦于用户行为分析的数据产品

80%的运营注定了打杂？因为你没有搭建出一套有效的用户运营体系

从底层到应用，那些数据人的必备技能

读懂用户运营体系：用户分层和分群

做运营必须掌握的数据分析思维，你还敢说不会做数据分析

合作请加qq：365242293

更多相关知识请回复：“ 月光宝盒 ”；

数据分析（ID : ecshujufenxi ）互联网科技与数据圈自己的微信，也是WeMedia自媒体联盟成员之一，WeMedia联盟覆盖5000万人群。

NocoBase 本周更新汇总：支持自定义用户资料的表单
汇总一周产品更新日志，最新发布可以前往我们的博客查看。NocoBase目前更新包括的版本更新包括三个分支：main，next和develop。main：截止目前最稳定的版本，推荐安装此版本。next：包含即将发布的新功能，经过初步测试的版本，可能存在部分已知或未知问题。主要面向测试用户,用于收集反馈和进一步优化功能。适合愿意提前体验新功能并提供反馈的测试用户。develop：开发中的版本，包含最新
程序员这辈子| 还有5天到2025年，说点掏心窝的话~ 前端后端程序员
1.不要追求完美，专注于成长作为一名程序员，初入职场时总想着把每一行代码都写得完美无缺，生怕出错。其实，真正重要的是不断地学习和成长。不要担心犯错，那是成长的必经之路。每一个Bug都是你前进的一步。#这是一个模拟简单的Bug修复过程的代码defdivide(a,b):try:returna/bexceptZeroDivisionError:print("Error:Divisionbyzerois
cpp智能指针 xianwu543 c++开发语言网络 mysql 数据库
普通指针的不足new和new[]的内存需要用delete和deletel]释放。程序员的主观失误，忘了或漏了释放。程序员也不确定何时释放。普通指针的释放类内的指针，在析构函数中释放。C++内置数据类型，如何释放?new出来的类，本身如何释放?C++11新增三个智能指针类型unique_ptrshared_ptrweak_ptr一、智能指针unique_ptrunique_ptr独享它指向的对象，也
Java Lambda 表达式详解及其用法 —— 含集合操作示例情书 java
JavaLambda表达式详解及其用法——含集合操作示例Lambda表达式自Java8引入以来，大大简化了代码的书写，特别是在集合操作和流处理（StreamAPI）方面。本文将详细介绍Lambda表达式的概念、使用方法及其在集合中的应用，并结合示例说明如何使用Lambda表达式进行集合的转换和处理。1.什么是Lambda表达式？Lambda表达式是一种可以把函数作为参数的简洁表达方式，主要用于替代
【云原生技术】k8s是不是不能处理0.1core的CUP配置，必须配置成100mi？阿寻寻云原生 kubernetes 容器
CPU的资源请求和限制特定的表示方式CPU配置的单位配置要求示例在Kubernetes中，CPU的资源请求和限制确实有特定的表示方式。关于你提到的0.1core和100m这两个值，以下是详细的解释：CPU配置的单位KubernetesCPU单位：Kubernetes使用milliCPU（毫核）作为CPU的计量单位。1核CPU=1000milliCPU(m)。例如，0.1核实际上表示为100m（10
【软件开发/设计】需求文档模板阿寻寻软件开发/设计团队开发
需求文档模板一、需求文档模板1.文档信息2.项目概述3.范围定义4.需求详情4.1功能需求4.2非功能需求4.3用户界面和用户体验4.4数据管理4.5业务规则和逻辑5.项目里程碑和交付物6.假设和依赖7.风险评估8.附录9.审核和批准二、需求文档编写人员1、业务分析师2、产品经理3、项目经理4、跨职能团队协作5、总结创建一个高质量的需求文档对于确保项目成功至关重要。以下是一个需求文档的模板，可以帮
【揭秘】图像算法工程师岗位如何进入？认识祂人工智能算法图像算法工程师
“图像算法工程师，主要专注于开发图像处理和计算机视觉算法，广泛应用于各行业。本文，我们来揭秘一下他们的日常工作，以及如何成为这一领域的专业人才。”01图像算法工程师的日常工作算法设计与开发图像算法工程师的核心任务是设计和开发算法，以解决特定的图像处理或计算机视觉问题。常见的任务包括：图像分类：使用卷积神经网络（CNN）对图像进行分类，常见算法如ResNet、VGG。目标检测：在图像中定位并标注物体
1024基金会发起人冯雷受邀参与国家自然科学基金会《数智时代创新驱动创业理论建构与实践对话》人工智能
11月15日，由国家自然科学基金委员会管理科学部主办，自然科学基金项目“创新驱动创业的重大理论与实践问题研究”项目组、浙大管理学院联合承办的“数智时代创新驱动创业理论建构与实践对话”会议在浙江杭州圆满落幕。大会的圆桌会议「与实践对话」环节以其深度的话题讨论、内容的前瞻性、与话题的精彩性吸引了各界的目光。1024基金会发起人冯雷受邀出席，和其他行业专家共同探讨数智时代创新驱动创业的现实问题与实践需求
成为 Web3 开发者：why and how
作者丨Pignard首先介绍一下什么是Web3。2014年，以太坊联合创始人GavinWood首次提出“Web3”的概念，给互联网需要过多信任的问题提供了一种解决方案。不可否认，中心化网络已经帮助数十亿人融入了互联网，并在其上创建了稳定、可靠的基础设施。但与此同时，少数中心化巨头几乎垄断了互联网，甚至可以为所欲为。而Web3通过区块链、加密货币和NFT将权力以所有权的形式归还用户。Web3如今已成
从零开始：使用FunC编写TON智能合约之计数器篇 web3func区块链
在区块链技术的广泛应用中，智能合约无疑是最具前景的领域之一。智能合约允许我们在去中心化的环境中执行可信的交易和协议。TON（TheOpenNetwork）作为新兴的区块链平台，以其高效、可扩展的特性吸引了众多开发者的关注。本文将带你入门TON智能合约的编写，通过实现一个简单的计数器合约，让你掌握使用FunC语言编写智能合约的基本技巧。了解TON与FunC在开始编写智能合约之前，我们需要对TON和F
面向 Data+AI 的统一数据目录探索 | Data Infra NO.22 回顾（含资料发布）数据库
随着生成式人工智能（GenerativeAI）的崛起，从图像生成、自然语言处理到个性化推荐系统，生成式AI技术正迅速改变着各行各业的面貌。而在这场变革背后，数据的管理和治理显得尤为重要。对于企业来说，数据不仅是基础资源，更是构建AI应用和增强业务能力的关键。ApacheGravitino（incubating）与Databend作为数据领域两个知名的开源项目，正通过各自的创新技术和实践，为数据管理
OpenBuild是什么？如何参与 OpenBuild 开源社区贡献？ web3开源以太坊
OpenBuild是什么？OpenBuild是一个面向Web3开发者的开源社区。我们致力于为开发者提供高质量的系统性内容和活动，同时连接Web2和Web3，帮助开发者过渡到去中心化的网络，并通过提供必要的工具和资源，帮助开发者建立结构化系统，构建信任，创造商业机会。4StepsOnboarding More Web2devtoWeb3OpenBuild产品网站：openbuild.xyzDisco
Databend 实现高效实时查询：深入解读 Dictionary 功能数据库
作者：洪文丽开源之夏2024“支持ExternalDictionaries”项目参与者东北大学软件工程专业云计算方向大二在读，喜欢挑战自我，尝试新鲜事物背景介绍在大型系统中，数据通常存储在多个不同的数据源中，例如PostgreSQL、MySQL和Redis负责存储在线数据，而Databend和ClickHouse则用于存储分析数据。传统的分析查询方法往往需要同时使用到多种不同的数据，通常通过ETL
龙年公仔放送 | EdgeOne网站加速与防护训练营，鹅厂大牛带你实战无忧！ cdn
在数字化时代，网站的性能与安全性直接关系到用户体验和业务连续性，而当前许多网站面临着访问速度慢、加载时间长、易受DDoS攻击、CC攻击等安全威胁的困扰，而EdgeOne作为腾讯云下一代的CDN，集加速与安全防护于一身，已广泛应用于电商、金融、游戏等行业。如何应用EdgeOne，高效玩转网站加速与防护？腾讯云开发者社区携手EdgeOne团队精心打造《EdgeOne一站式玩转网站加速与防护实战营》，鹅
Go微服务十二 Go使用nacos 注册服务，服务发现太阳上的雨天微服务 go 微服务 nacos
创作不易感谢支持。一条主写Go和PHP的小菜鸟。平常有时间喜欢自己写点东西，如有不对的地方，欢迎大佬指点。个人博客：太阳上的雨天地址：http://blog.caixiaoxin.cn善于分享，希望有助他人.非常感谢各位大佬的关注和支持Go使用阿里nacos管理服务注册和发现，思路Demo连接nacosfuncInitNacos()*nacosRF{//return&nacosRF{}d:=&na
Databend 产品月报（2024年8月）数据库
很高兴为您带来Databend2024年8月的最新更新、新功能和改进！我们希望这些增强功能对您有所帮助，并期待您的反馈。KafkaConnectSinkConnector插件我们推出了一种将Kafka连接到Databend的新方式：databend-kafka-connect，这是一个KafkaConnectsinkconnector插件。该插件支持AppendOnly和Upsert两种写入模式，
EventLoop事件循环机制(浏览器和Node EventLoop)
前端的同学们应该都听说过EventLoop的概念，网上各大平台关于它的文章也是成百上千质量参差不一，其实在笔者刚开始接触js的时候这对这方面一头雾水，也是看了高程、官方文档以及大量的文章后才对它有了深刻认识，在这儿就来和大家分享下我对它的的认识和理解，不过要讲明白EventLoop这个东东还是要从头说起。本篇内容循序渐进比较长，需要耐心看完。注：如遇到有一些链接无法访问可能需要科学上网文章首发本人
300行ABAP代码实现一个最简单的区块链原型
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
【全开源】智慧小区物业管理小程序FastAdmin+UniApp 现任明教教主~ 小程序 uni-app
基于FastAdmin+UniApp开发的智慧小区物业管理小程序，包含小区物业缴费、房产管理、在线报修、业主活动报名、在线商城等功能。为物业量身打造的智慧小区运营管理系统，贴合物业工作场景，轻松提高物业费用收缴率，更有功能模块个性化组合，助力物业节约成本高效运营。功能特性1.房产管理可批量添加房产，后台轻松管理小区房产。2.户主管理Excel批量导入户主同时绑定房产，帮助物业管理户主信息。3.物业
c++瓷砖橙子亿 c++开发语言
今天的题目叫“瓷砖”，是“DFS深度优先搜索递归”一类的。题目描述在一个w×h的矩形广场上，每一块1x1的地面都铺设了红色或黑色的瓷砖。小谢同学站在某一块黑色的瓷砖上，他可以从此处出发，移动到上、下、左、右四个相邻的且是黑色的瓷砖上。现在他想知道，通过重复上述移动所能经过的黑色瓷砖数。输入第一行为两个数h和w，2≤w,h≤50,之间有一个空格隔开。以下为一个w行h列的二维字符矩阵，每个字符为“.”
大模型密度定律：AI代码生成器将迎来爆发式增长？前端
近年来，人工智能（AI）技术飞速发展，尤其是在代码生成领域，涌现出许多强大的AI代码生成器。清华大学刘知远团队近期提出的“大模型密度定律”，为我们理解AI技术的发展速度提供了新的视角，也预示着AI代码生成技术的未来发展趋势。该定律指出，模型能力密度每3.3个月翻倍，这将如何改变我们对AI发展的认知，并对AI代码生成器产生怎样的影响呢？让我们深入探讨。大模型密度定律：能力密度与指数级增长“大模型密度
LeetCode--33. 搜索旋转排序数组【直接二分】 Rinai_R LeetCode leetcode 算法职场和发展笔记学习经验分享 golang
LeetCode-33.搜索旋转排序数组前言关于这道题，我最开始想把这个旋转数组还原回去，但是后来发现没有那么麻烦，直接二分即可，重点在于关于当前区间的有序判断，故来写一份题解来分享一下。正文首先我们看看题目要我们干什么，题目大意就是给定一个经过轮转的有序数组和一个target值，要我们找到这个target在数组中的下标，没有则返回-1.既然有序，那么便能和二分扯上关系，但是这个数组经过了轮转，这
Redis学习笔记1【数据类型和常用命令】 Rinai_R Redis学习笔记 redis 学习笔记数据库经验分享
Redis学习笔记基础语法1.数据类型String:最基本的类型，可以存储任何数据，例如文本或数字。示例值为helloworld。Hash:用于存储键值对，适合存储对象或结构体。示例值为{"name":"Jack","age":21}。List:有序的字符串列表，适用于队列等场景。示例值为[A->B->C]。Set:不重复的元素集合，适用于需要唯一性的场景。示例值为{A,B,C}。SortedSe
计算机组成原理的学习笔记（1） Rinai_R 计算机组成原理学习笔记
学习笔记前言本文主要是对于b站尚硅谷的计算机组成原理的学习笔记，仅用于学习交流。一、hello.c如何运行起来？1.预处理阶段在编译C程序时，预处理器首先处理代码。预处理器会：插入头文件：例如，当在代码中使用#include时，预处理器会将stdio.h中的内容插入到源代码中。这样，编译器在处理时就得到了所有必要的函数声明和宏定义。宏替换和条件编译：将所有的宏定义替换为实际值，并处理任何条件编译的
Linux基础——vim编辑器 Jerk·Z linux 编辑器 vim
vim编辑器一.vim的概述1.1vim优势Linux系统，所有的文件，都是没有后缀名的。我们要操作文件就是对文件进行编辑，使用vi或者vim编辑器。vim是vi的加强版，和vi相比，扩展了好多的功能，可以查找，复制、替换高亮等等。1.2vi编辑器使用#vi后面直接跟着文件名，如果这个文件不存在，代表的是帮我们创建文件并编辑#如果存在的话，就代表打开文件执行进行编辑#刚开文件的时候，【普通模式】#
deepin 下如何实现一个文件即可读写又可只读 deepin
在Linux系统的运维过程中，我们常常会遇到需要对文件或目录进行灵活权限管理的场景。例如，某个应用的存储目录空间不足，或者需要为开发人员提供只读访问权限，同时又不影响原有配置文件的写入权限。本文将介绍如何通过mount--bind和相关选项来实现这些需求。问题背景在实际工作中，我们可能会遇到以下场景：应用程序的存储目录空间不足，但无法直接扩容。需要为开发人员提供配置文件的只读权限，同时保留原有文件
python打印对角线相连的菱形米酒馆 PYTHON python 开发语言
【开发该软件的操作系统】：windows10【软件开发环境/开发工具】：PyCharm【编程语言】：Python【开发目的】：这是老师布置的作业啦~供初学者参考学习【开发者】：江西农业大学2020级大二学生代码实现：输入菱形边长，打印对角线相连的菱形。代码如下：#打印对角线相连的菱形n=int(input('请输入菱形每边星星个数，n='))m=t=2*n-1#双重赋值,m和t为行数whilem>
深度求索DeepSeek V2.5-1210发布：强大的AI代码生成器，开启联网搜索新纪元前端
深度求索团队近日发布了AI代码生成器DeepSeekV2.5系列的最终版本——DeepSeekV2.5-1210，并正式上线了备受期待的联网搜索功能。这标志着DeepSeekV2系列发展历程的一个重要里程碑，也为AI大模型在代码生成和信息检索领域树立了新的标杆。此次更新不仅带来了模型能力的全面提升，更重要的是开启了AI与实时信息互联的新篇章。DeepSeekV2.5-1210的核心改进：Post-
Github配置SSH连接方式 nk南枫 github ssh
1.检查是否有SSH密钥使用以下命令检查是否有一个SSH密钥。如果没有，需要生成一个新的密钥ls-al~/.ssh如果有看到类似id_rsa和id_rsa.pub的文件，说明已经有SSH密钥了，可以直接跳转到第3步2.生成新的SSH密钥使用以下命令生成一个新的SSH密钥ssh-keygen-trsa-b4096-C"[email protected]"在提示输入文件保存位置时，按回车键使
【设计模式-行为型】命令模式博一波设计模式命令模式
一、什么是命令模式什么是命令模式？就是字面理解，下命令，但是还不能这么快下定义，可以举一个例子来说明一下。好多电影里面经常会有一个神秘的杀手组织，他们只管要钱和目标。不管是谁的委托，经常有个大富豪，说“为了确保万无一失，无论多少钱，我要求派出江湖第一杀手”，他们可是把命令模式玩的飞起。就好像《这个杀手不太冷》中主角杀手莱昂接受任务和执行任务的过程。在电影中，莱昂（里昂）是一个职业杀手，他通过中间人
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）

关联阅读

你可能感兴趣的:(清华张敏教授：个性化推荐研究进展（可解释性、鲁棒性和公平性）)