文文学霸

KDD2022 | 推荐系统通用序列表示模型UniSRec

机构｜中国人民大学

研究方向 | 推荐系统和图机器学习

本文提出一种面向推荐系统的通用序列表示学习方法。已有序列推荐模型通常显示地建模商品 ID，迁移性较差并存在冷启动问题。本文提出基于商品文本学习可迁移的通用商品表示，并在多领域行为序列上预训练来学习通用序列表示。预训练得到的模型可以高效地迁移至新领域和新平台。

前言：当前对序列推荐的研究集中于开发更高效的序列表示学习（SRL）模型。大部分已有方法都是显示地对商品 ID 进行序列建模，然而这些模型难以迁移至新的推荐场景，如新的领域或平台。为了解决建模商品 ID 带来的限制，本文提出了一个新的 SRL 方法 UniSRec。具体的，UniSRec 利用商品的文本信息学习可迁移至不同推荐场景的通用表示。为了学习通用商品表示，我们设计了基于参数白化和混合专家网络（MoE）增强的商品编码架构；为了学习通用序列表示，我们设计了两种基于对比学习的优化目标，在预训练阶段采样多个领域的序列/商品作为负例。预训练后的通用序列表示模型可以参数高效地迁移至新的领域或平台中。在真实数据集上构建的大量实验验证了 UniSRec 的效果。特别的，当把 Amazon 数据集上预训练的 UniSRec 模型迁移至一个新平台（某英国电商）时，也可以观察到效果提升，验证了本文提出的通用序列表示学习方法的强大迁移性。

作者：侯宇蓬，中国人民大学硕士生二年级，导师为赵鑫教授，研究方向为推荐系统和图机器学习。

论文题目： Towards Universal Sequence Representation Learning for Recommender Systems

论文下载地址：

https://arxiv.org/pdf/2206.05941

论文开源代码：

https://github.com/RUCAIBox/UniSRec

一、背景与动机

序列化推荐模型通常可以归纳为一类序列表示学习（SRL）任务，即先将用户行为形式化为按时序排列的商品序列，然后开发高效的网络架构来捕捉序列交互特征并反映用户偏好，如 RNN、CNN、GNN、Transformer、MLP 等。

然而大多数针对推荐系统的 SRL 方法都依赖于显示的商品 ID 建模，存在迁移性差和冷启动的问题。即使各个推荐场景的数据格式是完全相同的，这些序列推荐模型依然难以迁移至新的领域或平台，严重限制了推荐模型的重用性。面对一个新的推荐场景，我们往往需要重新训练一个模型，这十分繁琐又耗费资源。此外，对于那些在数据中仅仅存在几次交互历史的冷启动商品，由于训练数据较少，现有的基于商品 ID 建模的模型也难以被很好地推荐给合适的用户。

二、思路与挑战

受到预训练语言模型的启发，我们致力于设计一个新的 SRL 方法，打破显示建模 ID 带来的限制，学习更具通用的序列表示。核心想法是利用与商品相关的文本（如商品描述、标题、品牌等）来学习可在不同域之间迁移的商品表示和序列表示。

但我们仍然面对一些主要挑战：

文本表示的语义空间无法直接适用于推荐任务中。直接引入原始文本表征作为额外商品特征往往会带来次优的结果，我们仍需探索如何利用及建模商品文本来提升推荐效果。
利用多个领域的数据来提升目标场景的推荐效果是很困难的事情。学习过程往往会发生跷跷板效应，即从不同的领域特定的模式中学习会导致冲突与震荡。

三、UniSRec 模型

本节我们来介绍本论文提出的 UniSRec 模型。给定多个领域的历史交互序列，UniSRec 致力于学习通用的商品和序列表示。这些通用表示可以参数高效地迁移并泛化至新的推荐场景（新领域 or 新平台）。

1. 输入

用户行为序列可以被形式化为（按时间顺序排列），其中每个商品都对应着一个独特的商品 ID 和一段描述性的文本（如商品描述、标题或品牌）。商品的描述文本可以形式化为，其中来自于共享的词表，表示商品文本截断的长度。

注意这里的每个序列包含了一个用户在某个特定领域的交互行为，而一个用户可以在多个不同领域和平台产生多个行为序列。由于不同领域间存在较大的语义差距，我们没有将一个用户的行为简单地混合为一个序列，而是将它们视为不同的序列，且并不显示地标注一个序列的用户是谁。注意到商品 ID 在本方法中只作为辅助信息，我们主要使用商品文本生成 ID 无关的可泛化的表示。除非特别指定，否则商品 ID 都不会作为 UniSRec 的输入。

2. 通用商品文本表示

通用序列行为建模的第一步即是将不同推荐场景的商品表示为通用语义空间中的向量。之前的方法通常是给商品 ID 分配一个可学习的嵌入表示。由于不同领域的商品 ID 的集合通常不同，这种方法限制了商品表示的可迁移性。

我们的做法是基于商品文本学习可迁移的商品表示，是通过自然语言描述了商品的特性。越来越多的证据显示，自然语言提供了一个通用的数据格式，可以连接不同的任务和领域。受此启发，我们首先使用预训练语言模型（PLM）学习文本表征。进一步，由于不同领域的文本表征可能会形成不同的语义空间（即使文本编码器相同），我们提出使用参数白化网络和混合专家网络（MoE）增强的适配器模块来将原始的文本表示转换至适用于推荐任务的通用的语义空间。

2.1 基于预训练语言模型的商品文本编码

这里我们使用常用的 BERT 模型，给定一个商品对应的商品文本，我们有

其中是一个特殊的符号，是 BERT 模型最后一层中对应位置的隐向量。

2.2 基于参数白化的语义转换

尽管我们已经获得了 BERT 编码的语义表征，它们无法直接适用于推荐任务中。已有的研究发现，BERT 生成的表示空间是非平滑且各向异性的。受到白化方法的启发，我们使用了一个简单的线性变换，希望将原始的 BERT 表示转换为各向同性的表示。与使用预设的均值/方差的原始白化方法不同，为了在未知领域上更好地泛化，我们在白化操作中引入了可学习参数

通过这种形式的语义转换，各向异性的问题可以被一定程度上缓解，有利于学习通用表示。

2.3 基于混合专家增强的适配器模块的领域融合与适配

由于不同域之间往往存在较大的语义差距，因此学习通用商品表示时要考虑如何迁移和融合不同域的信息。举例来说，Food 域的高频词有 natural, sweet, fresh 等，而 Movies 域则是 war, love, story 等。如果直接学习一个 BERT 原始表示到某共享语义空间的映射，则可能因为域之间存在 bias 而使模型表达能力不足，无法适配到新的推荐场景。因此我们提出对每个商品学习多个参数白化表示，并自适应融合成通用的商品表示。

具体地，我们使用了混合专家架构（mixture-of-expert, MoE）来实现这个想法。我们引入个参数白化网络作为 experts，并基于参数化的路有模块构建了 MoE 增强的适配器（Adaptor）

其中是第个参数白化网络的输出，是门控路由模块生成的对应的融合权重，具体计算方式如下

注意我们使用原始的 BERT 表示作为路由模块的输入，因为其携带着领域相关的语义偏置。这里的是可学习参数。为了 experts 间的负载均衡，我们使用来生成随机高斯噪声。

MoE 增强的适配器有如下三个优点：

单个商品的表示可以由学习多个参数白化网络而增强；
我们无需在域之间进行直接的语义映射，而是使用一个可学习的门控单元来自适应地建立语义联系，从而可以更好地进行领域融合与适配；
这个轻量化的适配器模块便于后续进行参数高效的微调。

3. 通用序列表示

在我们设计了这种通用商品表示方法后，在架构层面，我们已经可以使用同一个序列模型建模不同推荐场景的商品了。但是由于不同的域通常对应着不同的用户行为模式，简单地把这些不同领域的序列混合起来使用并不会取得很好的效果。这可能会导致跷跷板效应，即多个领域相关的模式可能会是互相冲突的。为此我们提出了两种基于对比学习的任务用于预训练，希望可以进一步促进不同域之间的融合与适配。

3.1 自注意力序列编码

这里我们使用和 SASRec 相似的方式进行行为序列编码，其中商品的表示不是 ID 嵌入表示了，而是我们上一节得到的通用商品编码。

3.2 多领域序列表示预训练

拿到多个领域的商品序列，我们接下来研究如何设计合适的优化目标来使序列编码器的输出落入通用表示空间中。

序列-商品对比任务。简单来讲就是给定序列，预测下一时刻的商品。对于一个给定的序列，它的下一时刻商品为正例。与传统的 next item prediction 任务不同，在本任务中我们使用 in-batch 的多个域的商品作为负例，希望可以增强不同域的通用表示的融合与适配。

序列-序列对比任务。第二个任务我们考虑设计一个序列级别的自监督任务来增强预训练。我们使用两种启发式的数据增强策略，来为一个序列生成负例。具体来说，对于一个商品序列，我们随机丢弃掉原始序列中的商品或者商品文本中的单词来构造正例，而负例则是 in-batch 的多个域的其他序列。

多任务学习。在预训练阶段，我们使用多任务策略来联合优化提出的两种对比损失。

通过上述方法优化的预训练模型可以被微调以适配到新的推荐场景中。

4. 参数高效的微调

鉴于预训练后的 UniSRec 可以生成通用商品序列表示，当我们需要适配一个新的推荐场景时，我们选择只微调模型的一部分参数。具体而言，我们会固定整个行为编码器（本文 3.1 节中的 Transformer Encoder）的参数，只微调 MoE 增强的适配器（本文 2.3 节）的参数。我们发现提出的 MoE 增强的适配器可以快速适配到未见过的领域，将预训练模型与新领域的特征进行融合。根据新的推荐场景中商品 ID 是否可用，我们考虑两种微调设置，命名为归纳（Inductive）与转导（Transductive）。

归纳（Inductive）。对于新商品频繁涌现的推荐场景，传统的基于商品 ID 的模型可能并不适用。由于 UniSRec 天然不依赖于商品 ID，因此其可以为新商品学习通用文本表示。这时我们可以按如下概率预测商品

这里我们在整个候选商品集合上计算下一商品的概率。

转导（Transductive）。对于近乎所有商品都在训练集出现的场景，我们也可以同时学习商品 ID 表示。我们可以简单将通用文本表示和 ID 表示加和并进行预测

其中代表 ID 表示增强后的通用序列表示。

对于这两种设置，我们都使用常用的交叉熵损失进行优化，并更新 MoE 增强的适配器的参数。

四、实验

为了验证 UniSRec 的迁移性，本文采用了跨域和跨平台两种实验设置。具体来说，我们将 Amazon 2018 数据集的 5 个 domain（Food, Home, CDs, Kindle, Movies）用于预训练，并将这一个预训练的 UniSRec 模型在各个下游数据集上微调。

下游数据集分为两类：

跨域：我们将 Amazon 2018 数据集中另 5 个规模较小的 domain（Pantry, Scientific, Instruments, Arts, Office）视作新 domain 并测试 UniSRec 的效果。
跨平台：我们使用某英国电商数据集 Online Retail 作为新平台进行测试。

注意预训练数据与下游的六个数据集均可以看作没有用户 / 商品重叠。

可以发现在各个下游数据集上，UniSRec 都取得了不错的效果。尤其对于 Online Retail 数据集来说，使用没有用户/商品重叠的另一个平台的交互数据来帮助本平台的推荐效果在之前是很难做到的。

本文还构建了实验分析了预训练数据集的选择，发现使用多个领域的数据预训练会比单一数据预训练取得更好的效果。

消融实验也验证了提出的各个模块的有效性，并证明多领域上的预训练确实会带来提升。

针对冷启动商品的实验，我们可以看到 UniSRec 在那些交互次数较少的组别上，可以获得较大的效果提升。其他更详细的实验分析请参考我们的原论文。

五、总结

传统序列推荐模型因为商品 ID 在域/平台间不共享而存在着迁移性差和商品冷启动的问题。本文提出一种新的序列表示学习方法 UniSRec，希望打破显示建模商品 ID 带来的限制，编码商品文本并生成迁移性强的通用商品表示，并进一步在多个域上预训练来学习到通用序列表示。预训练后的 UniSRec 模型可以参数高效地在新的域/平台上微调。在跨域/跨平台数据集上进行的大量实验验证了 UniSRec 的效果，尤其是通过本文提出的预训练方法，Amazon 数据集上的行为序列可以提升英国电商平台数据集上的推荐效果，验证了 UniSRec 的强大迁移性。

Python 是如何执行我的代码的？冰糖心书房 Python python java linux
理解Python如何执行你的代码，可以帮助我们解释很多“为什么”——为什么会有.pyc文件？为什么Python相对较慢？多线程为什么不能利用多核？我们可以用一个“厨师做菜”的比喻来理解整个过程，然后再深入技术细节。一、比喻：厨师（Python）根据菜谱（你的代码）做菜想象一下，你是一位顾客，写了一份非常精确的菜谱（你的.py文件）交给一位名叫CPython的大厨（最常见的Python解释器）。第一
探索Cachier：Python函数的持久化缓存利器胡同琥Randolph
探索Cachier：Python函数的持久化缓存利器cachierPersistent,stale-free,localandcross-machinecachingforPythonfunctions.项目地址:https://gitcode.com/gh_mirrors/ca/cachier在Python开发的世界中，性能优化和资源管理是永恒的话题。今天，我们要介绍的是一个强大的开源项目——C
Pyramda：Python 中的函数式编程利器惠悦颖
Pyramda：Python中的函数式编程利器pyramdaPythonpackagesupportingheavyfunctionalprogrammingthroughcurrying.TranslationoftheRamdalibraryfromjavascripttopython.项目地址:https://gitcode.com/gh_mirrors/py/pyramdaPyramda是
[特殊字符] Excel 读取收件人 + Outlook 批量发送带附件邮件 —— Python 自动化实战 happydog007 python自动化办公 excel outlook python
许多公司定期需要将不同部门或客户的报告发送给指定人员。手动操作容易出错、耗时且繁琐。今天这篇文章教你如何利用Python实现：从Excel中读取“收件人+抄送人+附件文件路径”；使用win32com.client调用Outlook自动生成并发送邮件；✅附加模板正文，并保持批量发送规范无需手工操作。从Excel中读取部门、收件人与附件路径fromopenpyxlimportload_workbook
[特殊字符] Python 实战 | 批量统计中文文档词频并导出 Excel happydog007 python自动化办公 python 开发语言
本文展示如何用Python脚本：批量读取文件夹中的多篇中文文档；用jieba分词并统计词频（过滤停用词与单字符）；将各文档词频输出为对应Excel文件；是文本分析、内容审查、报告编写中的实用技巧。Step1：批量加载文件夹中文本文件路径importospath='主要业务'files=[os.path.join(path,f)forfinos.listdir(path)]使用标准库os.listd
探索开源虚拟 Excel 函数模块：Python 中的 Excel 功能利器
在数据处理和分析的领域中，Excel一直是一款备受青睐的工具，它提供了丰富多样的函数，帮助用户高效地完成各种数据操作。而现在，我（董翔）开发一个基于Python的虚拟Excel函数模块，它将Excel的强大功能带到了Python的世界里，让你在Python环境中也能轻松使用类似Excel的函数。这个模块我已经在GitHub上发布，项目链接为：https://github.com/dxiang-wi
暑假算法日记第三天
目标：刷完灵神专题训练算法题单阶段目标：【算法题单】滑动窗口与双指针LeetCode题目:3439.重新安排会议得到最多空余时间I2134.最少交换次数来组合所有的1II1297.子串的最大出现次数2653.滑动子数组的美丽值1888.使二进制字符串字符交替的最少反转次数567.字符串的排列438.找到字符串中所有字母异位词30.串联所有单词的子串2156.查找给定哈希值的子串其他:今日总结往期打
写测试太烦？Copilot + Jest 让你 3 分钟搞定单元测试
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
60天python训练营打卡day46
学习目标：60天python训练营打卡学习内容：DAY46通道注意力(SE注意力)知识点回顾：1.不同CNN层的特征图：不同通道的特征图2.什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。3.通道注意力：模型的定义和插入的位置4.通道注意力后的特征图和热力图学习时间：2025.06.29@浙大疏锦行
python规划 t_hj python
-----------动态内容与反爬策略----------动态页面处理Selenium：自动化浏览器（点击、滚动、表单提交）Playwright（更现代的替代方案）API逆向工程分析Ajax请求（ChromeDevTools）直接调用API接口（如知乎热榜API）反爬应对User-Agent轮换、IP代理（免费/付费代理池）验证码处理（简单验证码用OCR，复杂验证码需打码平台）请求频率控制（ti
Python 训练营打卡 Day 46 2401_86382089 Python打卡 python
通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。transformer中的叫做自注意力机制，他是一种自己学习自己的机制，他可以自动学习到图片中的主体，并忽略背景。我们现在说的很多模块，比如通道注意力、空间注意力、通道注意力等等，都是基于自注意力机制的。从数学角度看，注意力机制是对输入特征进行加权求
如何在YashanDB中实现多级缓存策略数据库
随着大数据时代的到来，数据存储和访问的效率要求越来越高。数据库技术在面对海量数据、高并发访问时，性能瓶颈逐渐凸显，尤其是响应时间和系统吞吐量成为开发者和DBA关注的重点。为了解决这些问题，缓存策略被引入作为一种有效的解决方案。然而，不同类型的缓存（如内存缓存、磁盘缓存等）之间需要协调工作，以达到最佳性能。在此背景下，YashanDB作为一个云原生数据库，支持多级缓存策略，为数据访问提供了灵活的加速
Python训练营打卡 Day53 yunvwugua__ python自学打卡 python 开发语言
对抗生成网络知识点回顾：对抗生成网络的思想：关注损失从何而来生成器、判别器nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法leakyReLU介绍：避免relu的神经元失活现象对抗生成网络（GAN）知识点回顾对抗生成网络的思想思想：就像在餐厅中，有一个厨师（生成器）负责制作假菜，一个评论家（判别器）负责区分真菜和假菜。厨师的目标是制作出评论家无法区分的假菜，而评论家的目标是找
华为OD机试 2025B卷 - 货币单位转换(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD机试华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述记账本上记录了若干条多国货币金额，需要转换成人民币分（fen），汇总后输出。每行记录一条金额，金额带有货币单位，格式为数字+单位，可能是单独元，或者单独分，或者元与分的组合。要求将这些货币全部换算成人民币分（fen）后进行汇总，汇总结果仅保留整数，小数部分舍弃。元和分的换算关系都是
C++编程语言入门指南 jdlxx_dongfangxing c++
一、C++语言概述C++是由丹麦计算机科学家BjarneStroustrup于1979年在贝尔实验室开发的一种静态类型、编译式、通用型编程语言。最初被称为"CwithClasses"(带类的C)，1983年更名为C++。它既具有高级语言的抽象特性，又保留了底层硬件操作能力，被广泛应用于系统软件、应用软件、驱动程序、嵌入式软件、高性能服务器和客户端应用以及娱乐软件等开发领域。作为C语言的超集，C++
C++二分查找入门指南
一、二分法概述二分查找（BinarySearch）是一种在‌有序数组‌中查找特定元素的高效算法。它的基本思想是通过不断将搜索范围减半来快速定位目标元素，时间复杂度为O(logn)，远优于线性查找的O(n)。二分法不仅用于查找，还广泛应用于求解各种数学和计算问题，如求方程的近似解、寻找最优解等。在计算机科学中，二分查找是最基础且最重要的算法之一，几乎所有程序员都需要熟练掌握。二、二分查找的基本原理二
更换SSL证书引发的异常：`sun.security.validator.ValidatorException: PKIX path building failed` `[Nginx跳转失败：501] 猿享天开技术经验 ssl nginx 网络协议
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
河南萌新联赛2024第（四）场的个人题解（适合小白）耳朵听不见deaf ACM 算法
河南萌新联赛2024第（四）场的题目链接文章目录ABCEGIJKLAA题目链接思路： sum=计算原来每个连通块的士兵数量总和的平方。枚举每个点，若破坏当前点，当前点所在的连通块的计算值，记录ma=没破坏前的计算值-破坏后的计算值，记录最大值涉及的知识：tarjan算法不明白的话，可以看我的第二篇博客LCA算法有用的知识：__int128 占用128字节的整数存储类型，范围为-2127~2
Python 训练营打卡 Day 50 2401_86382089 Python打卡 python
预训练模型CBAM注意力现在我们思考下，是否可以对于预训练模型增加模块来优化其效果，这里我们会遇到一个问题：预训练模型的结构和权重是固定的，如果修改其中的模型结构，是否会大幅影响其性能。其次是训练的时候如何训练才可以更好的避免破坏原有的特征提取器的参数。所以今天的内容，我们需要回答2个问题。resnet18中如何插入cbam模块？采用什么样的预训练策略，能够更好的提高效率？可以很明显的想到，如果是
Python训练营打卡 Day50
预训练模型+CBAM模块知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调预训练模型+CBAM模块知识点回顾ResNet结构解析残差块：ResNet的核心是残差块，它通过残差连接解决了深层网络的梯度消失问题。残差块允许梯度直接传播到后面的层，从而使得网络能够训练得更深。网络结构：ResNet由多个残差块组成，每个残差块包含两个或三个卷积层，以及一个
快速排序算法追烽少年x 数据结构数据结构
快速排序算法快速排序是一种高效的排序算法，其核心思想是通过分治法将数组分成两部分，一部分小于某个基准值，另一部分大于基准值，然后递归地对这两部分进行排序。以下是快速排序算法的C++实现：快速排序的C++实现代码：#include#includeusingnamespacestd;voidSwap(int&a,int&b){intnTemp=a;a=b;b=nTemp;}intPartition(v
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
Python爬虫实战：研究chardet库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 chardet
1.引言1.1研究背景与意义在互联网信息爆炸的时代，网络数据采集技术已成为信息获取、数据分析和知识发现的重要手段。Python作为一种高效的编程语言，凭借其丰富的第三方库和简洁的语法，成为爬虫开发的首选语言之一。然而，在网络数据采集中，文本编码的多样性和不确定性一直是困扰开发者的主要问题之一。不同网站可能采用不同的编码方式（如UTF-8、GBK、GB2312等），甚至同一网站的不同页面也可能使用不
区块链技术核心组件及应用架构的全面解析
区块链技术是一套融合密码学、分布式系统与经济激励的复合型技术体系，以下是其核心组件及应用架构的全面解析：一、区块链核心技术栈1.分布式账本技术（DLT）核心原理：多节点共同维护不可篡改的数据链数据结构：哈希指针哈希指针区块N区块N+1区块N+2关键创新：默克尔树（MerkleTree）实现高效数据验证2.密码学保障技术算法示例应用场景非对称加密ECC/secp256k1,RSA数字签名（设备身份认
03每日简报20250705 Alvin_YD 每日简报人工智能娱乐社交电子媒体传媒
每日简报新闻简报：AI行业信任危机浮现标题：知名科技作者AlbertoRomero发文《我对AI行业正在失去所有信任》来源：TheAlgorithmicBridge（算法之桥）核心内容：作者立场：长期支持AI技术的作者AlbertoRomero公开表达对行业信任的崩塌，称"作为一个支持者，我本不愿有这种感受"。行业痛点：未具体说明的行业乱象导致公众信任度下降暗示AI发展过程中存在伦理或透明度问题传
Kafka-python 核心 API 深度解析：BrokerConnection 与 ClusterMetadata 的全方位指南佑瞻 python工程化 kafka python 分布式
在Kafka应用开发中，我们时常会面临连接管理混乱、元数据获取不及时等问题，这些问题的根源往往在于对底层API的理解不够深入。今天我们将聚焦kafka-python客户端中两个核心类——BrokerConnection和ClusterMetadata，通过剖析其核心功能与应用场景，帮助大家建立系统化的Kafka连接与元数据管理知识体系。BrokerConnection：Kafka连接管理的中枢神经
KafkaAdminClient 技术详解：Python 操作 Kafka 集群的管理接口佑瞻 python工程化 python kafka
一、KafkaAdminClient基础概念KafkaAdminClient是kafka-python客户端提供的集群管理类，用于通过编程方式管理Kafka集群资源。其核心定位是为开发者提供一套标准化接口，实现对主题、分区、ACL、消费者组等资源的全生命周期管理。核心特性说明：接口定位：专门用于集群资源管理，区别于KafkaConsumer/KafkaProducer的数据读写功能版本要求：要求B
Python日志模块
Python日志模块学习教程：b站王铭东老师Python中logging模块能够完成相关信息的记录，在debug时使用它事半功倍一、模块介绍日志级别DEBUG、INFO、WARNING、ERROR、CRITICAL默认是WARNING，当在WARNING或其之上时才被跟踪日志格式logging.basicConfig函数中，可以指定日志的输出格式format，这个参数可以输出很多有用的信息一般使用
正则表达式咸鱼时日翻身正则表达式
是指定一组与之匹配的字符串，限定符号a*a出现0或者多次a+a出现1次或者多次a？a出现0次或者1次a{2,5}出现在2到5次之间或运算法（cat|dog）匹配cat或者dog字符类[abz]+表示匹配的字符只能是中括号中的字母如果使用了^则为取反符号元字符、/d代表数字字符/w代表英文字符数字加上下划线/s代表tab和换行符其中/加大写的DWS则表示取反符号.表示任意字符不包括换行符号^a匹配行
Python爬虫笔记汇总大厂_jvS python 爬虫笔记
except:print(“爬取失败”)4.网络图片爬取及存储#实例4：爬取图片‘’‘r.content#表示返回内容的二进制格式’‘’importrequestsimportosroot=‘./Pic/’path=root+url.split(‘/’)[-1].split(‘@’)[0]url=‘http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AW
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

KDD2022 | 推荐系统通用序列表示模型UniSRec

你可能感兴趣的:(大数据,算法,编程语言,python,计算机视觉)