阿里巴巴淘系技术团队官网博客

超长用户行为建模在躺平家居内容推荐中的应用实践

简介用户行为建模

用户兴趣建模一直是推荐系统中重要的优化点之一，用户的历史行为则是用户潜在兴趣最直接的表达。在深度学习技术大规模应用于推荐系统领域前，工程师们通过离线计算历史行为的统计特征或在线计算历史行为的命中特征来对用户序列进行表达。近年来，随着深度学习算法和相关工程技术的快速发展，直接使用原始行为序列在深度模型中进行端到端训练变得可行。

Google 提出YouTubeDNN[1]使用 pooling的方式对用户观看视频序列进行聚合表示并输入进上层DNN,随后阿里提出的DIN[2],DIEN[3],DSIN[4]分别使用attention,rnn和transformer来对用户行为序列进行表征。上述工作主要针对用户实时和中短期行为进行建模，在电商场景中用户具有丰富的历史行为，仅使用近期行为无法建模用户长期以来稳定的兴趣和周期性的行为，同时也会将推荐系统的数据反馈循环限制在局部的热门的内容中。针对超长周期行为建模，集团内的MIMN[5]和SIM[6]等工作提出了兼顾性能与效果的方案，为长周期行为建模提供了解决思路。

下面将介绍我们在躺平家居内容推荐场景中使用超长周期用户行为建模的应用和实践。

业务背景

躺平作为阿里旗下的家居家装平台，承担着为整个天猫家装和淘宝家装提供全链路数字化支持的任务。手淘内的躺平家居频道是躺平业务获取C端流量并进行内容分发从而建立用户家居、生活方式心智场的主要阵地。在躺平频道中，内容主要以场景搭配为主，内容内挂载了多个商品锚点，点击商品锚点可以跳转到商品的详情页。

家居行业中用户行为具有长周期，高货单，低频次，重决策的特点。比如用户在购买大型家具的决策过程中，可能需要进行多次的长时间的对比，仅使用短期的交互行为很难刻画出用户的这类决策模式，这引起我们思考如何对用户家装家居完整周期的行为进行刻画从而更好地满足其诉求。

作为创新业务，目前躺平家居频道的用户心智还不是很强，在每日访问频道的用户中，过去7天来访的用户占比25%,过去7天在频道内有内容点击行为的用户占比11%，即便延长到30天占比也只有35%左右。这样的场景流量分布特点使得我们在对用户兴趣进行建模时面临着用户行为稀疏的问题。下图是有历史内容行为的用户覆盖率以及用户内容行为的平均长度与用户行为天数的关系。

可以看出，有历史内容点击行为的UV覆盖率较低，延长历史行为周期长度虽可以覆盖更多用户，但用户行为数量依然稀少。

算法方案

基于躺平频道的场景特点，我们利用用户在手淘商品域的行为来缓解用户行为稀疏的问题以及刻画用户的长期兴趣。事实上，我们在躺平频道内收集到的用户反馈数据是非常有限的，而用户在躺平频道内的内容交互行为只是用户在手淘内众多交互行为中的子集，比如用户可能在来访频道的之前就与其他相关的商品发生过交互，下面介绍我们使用手淘商品域行为来进行兴趣建模的方案。

模型结构

红色虚线框为本文涉及的算法优化部分，基准模型为团队内至夏同学基于MMoE开发的多任务模型[7],下面分别介绍我们在短期和长期商品行为建模中的实践。

基于静态泛家居类目筛选的短期行为建模

在第一阶段，我们利用集团内的基础特征服务ABFS获取用户在手淘内最近10天的实时商品点击行为数据，考虑到场景的垂直特性我们根据静态的类目相关性规则对原始的行为数据进行筛选。具体筛选规则为：基于频道内容推荐池内容所挂载的商品计算出出现次数>100的叶子类目，选取ABFS返回结果中符合属于这些叶子类目的行为作为短期的商品行为特征。

具体实现分为以下3个模块：

▐ 候选内容挂载商品集合表征向量提取

由于每条内容所附带的商品数量不同，我们先将候选内容附带的商品向量进行sum pooling得到定长的候选商品集合向量items：

k为候选打分内容中附带的商品数量,为候选内容挂载的第个商品。

▐ 与候选商品集合相关的兴趣向量提取

使用候选商品集合向量items和短期商品行为向量进行target attention[1]，得到用户与候选商品相关的短期商品兴趣表达。

为一个全连接的神经网络,为行为序列中第个行为的embedding表征。

▐ 行为序列内部相关的兴趣向量提取

在基准模型中，由于内容行为序列的长度非常短，我们没有对其内部相关关系进行建模。引入短期泛家居类目商品行为后，通过数据分析发现该序列的平均长度达到了为20+。我们希望除了建模行为序列与候选商品的相关关系，还能够对行为序列之间的相关关系进行建模。self attention 常被用来建模序列内部行为之间的相关关系[4]，我们也采用了类似的方法。具体地，我们使用了多头的自注意力机制:

其中分别为原始序列中的行为向量经过线性变换后的矩阵。
不同注意力头得到的向量拼接后输入进一个前馈神经网络，最后对中的向量求平均得到用户的兴趣向量

▐ 实验分析

下表是分别使用不同的attention机制的离线效果对比：

short-term seq attention	ctr auc	cvr auc
target	+0.1pt	+1.2pt
self	-0.2pt	+0.5pt
target&self	+0.2pt	+2.7pt

实验表明在短期行为建模中，使用self attention替换target attenion会带来一定效果下降，这说明短期行为与候选商品之间的关系对兴趣表达具有很大作用。同时引入target attention 和self attention 相比于仅使用target attention会带来一定提升，说明引入行为序列内部之间的相关关系对短期兴趣建模有帮助。

基于动态引流商品检索的长期行为建模

在业务背景部分提到，家居行业消费者具有长周期，高货单，低频次，重决策的特点，我们首先想到的是将用户更长时间范围内的交互行为进行收集并利用起来，但即使延长内容序列的周期长度，用户在躺平频道内产生的交互行为数量依然非常稀少，所以我们选择使用用户在手淘的商品交互数据进行长周期的用户行为建模。

在前期的调研中发现，主搜算法团队使用用户近两年的成交行为按照季度划分为8个季度序列来基于当前意图对长期行为建模[8]。阿里妈妈的广告算法团队提出的两阶段搜索范式来建模用户的超长行为序列(SIM)[9]，在第一阶段使用待预估的广告从原始的用户行为中检索出Top-k相关的子序列，第二阶段使用第一阶段产出的子序列来捕捉当前用户对广告的更精准的兴趣表达。

结合躺平自身的场景特性和存储计算资源的情况，我们采取了类似SIM的两阶段范式对用户的长期行为进行建模。与SIM不同的是，我们使用引流商品的一级类目来从用户的原始行为中检索出相关的子序列。这主要出于以下两点考虑：

▐ 性能方面

使用候选打分内容挂载的类目信息需针对待打分的每一个内容查询其长周期用户行为数据并发送至RTP进行打分。而使用引流商品进行检索则只需要1次用户行为数据查询，该特征对每个候选打分内容来说是相同的，可以作为用户侧特征发送至RTP。

▐ 效果方面

数据分析显示躺平信息流中的引流商品卡片以及包含引流商品自身的内容卡片的pctr均高于大盘，这侧面说明使用引流商品进行查询是能够获得较高的相关性序列的。相比于使用静态的类目筛选规则，基于引流商品查询能够覆盖更长周期的用户行为并且一些长尾的类目行为信息也能够得到保留。

使用一级类目作为查询条件能够保留更多更丰富的相关行为，家居家装场景中商品之间天然存在一定的搭配关系，比如餐具和餐桌布艺，床类和柜类以及灯具灯饰;同一个二级类目下的叶子类目之间的行为所包含的信息也存在着关联的关系，比如床类二级类目下实木床，布艺床，皮艺床等。使用二级类目或叶子类目检索得到序列无法包含这样的关系。

简化版的离线和在线数据流图如下：

▐ 实验分析

在长期行为建模中我们也分别尝试了使用两种attention机制：

long-term seq attention	ctr auc	cvr auc
target	-0.2pt	+1.1pt
self	+0.5pt	+3.6pt
target & self	+0.1pt	+2.2pt

与短期商品行为建模的结论不同的是，仅单独使用self attention就能够获得较好的效果。这可能与我们的子序列检索机制有关，使用引流商品进行检索可以认为以引流商品的一级类目作为query对用户的原始行为序列进行了一次hard attention，尽管能够保留较丰富的行为，但与候选商品之间的关联关系可能会被减弱。

线上效果

▐ 效率指标

我们统计了线上完整7天的AB实验结果：

实验	pctr	ipv_pctr	pctcvr
仅使用短期序列	+2.35%	+0.73%	+3.11%
短期序列&长期序列	+3.95%	+1.16%	+5.15%

引入短期商品行为对于线上的核心效果指标均带来了一定的提升，表明商品域行为的利用对于用户兴趣的建模具有正向的作用。在此基础上，进一步引入长周期的行为能够对线上指标带来进一步的提升，这说明基于用户全周期行为进行兴趣建模是必要的。

▐ 多样性指标

除了效率指标外，我们观察发现对于推荐的多样性指标也有所提升，风格和场景为频道内场景化内容的两个属性，风格包括北欧，中式，现代等，场景包括客厅，卧室，书房等：

短期行为的引入对于多样性的影响非常微弱，而引入长期行为后，对于曝光内容和点击内容的多样性均有大幅度的提升，说明长期行为中包含了短期行为所不能表征的潜在兴趣的，并且模型的推荐结果能够命中它们，这对于减少推荐系统中存在的马太效应也有正向的帮助。

工程实现中的问题

▐ 索引构建

由于我们的场景较为垂直，构造索引阶段将用户所有的历史行为数据进行存储会造成一定的浪费，我们基于频道内历史7天访问的UV附带的引流商品计算出出现次数最多的topk类目，再从原始行为表中筛选出这些类目下的行为，这可以大大减轻离线存储和在线索引构建的资源消耗。

▐ 序列特征构造

在最开始的离线实验阶段，我们设置了长期行为序列的最大长度为200，训练过程中发现整体的耗时存在大幅度的增长，后来考虑到离线训练和线上推理的时间以及实际的平均长度我们将最大长度缩简为了50。同时包含长短期序列的模型相比于基准模型RTP打分的RT增加了约6ms，TPP场景全链路RT增加约8ms。

▐ iGraph回流提示quota超限

在首次进行iGraph数据回流的时候，提示了以下错误：
ErrorCode=FlowExceeded, ErrorMessage=Error: Your flow quota is exceeded

这是由于所在的ODPS项目空间的读取quota超过上限了，会被系统限流从而导致iGraph读取ODPS数据失败。需要联系所在空间的项目负责人，请他联系ODPS的管理员帮忙调整quota上限。

总结展望

用户兴趣建模一直是推荐系统中重要的优化点之一，在用户心智不强，活跃度低，反馈行为稀疏的垂直频道中如何充分地捕捉用户的潜在兴趣从而更好承接用户也是我们不断在学习和探索的问题。结合躺平家居频道的特点，我们利用用户在手淘内丰富的商品行为来补充完善用户兴趣建模，考虑到全网行为的多样性我们基于静态的叶子类目筛选过滤出相关的短期商品行为，基于动态的引流商品查询用户的长期商品行为，并基于行为序列之间的相互关系以及与候选商品之间的关系对用户的兴趣进行刻画，提升了场景的推荐效果。

本次优化是针对长期用户行为建模的一次尝试，还存在许多改进和优化的地方。目前仅使用了用户在商品域的点击数据，在未来可以继续引入信号更强的收藏，加购以及购买等信息。目前使用的长期序列为时间跨度为历史180天，这里还存在一定的的延长空间。除此之外，垂直频道自身具有不同的流量来源渠道，除了用户的主动访问外，像首猜引导或者push引导等来源均包含一定的上下文信息，这些上下文信息能够反映用户在访问频道时的一些意图，结合流量来源以及人群特性进行设计定制化的承接策略也是未来可以考虑的方向。

参考资料

[1] Covington P, Adams J, Sargin E. Deep neural networks for youtube recommendations[C]//Proceedings of the 10th ACM conference on recommender systems. 2016: 191-198.

[2] Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 1059-1068.

[3] Zhou G, Mou N, Fan Y, et al. Deep interest evolution network for click-through rate prediction[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 5941-5948.

[4] Y. Feng, F. Lv, W. Shen, M. Wang, F. Sun, Y. Zhu, K. Yang, Deep session interest network for click-through rate prediction, in: Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, 2019, pp. 2301–2307 .

[5] Pi Q, Bian W, Zhou G, et al. Practice on long sequential user behavior modeling for click-through rate prediction[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 2671-2679.

[6] Pi Q, Zhou G, Zhang Y, et al. Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 2685-2692.

[7] MMoE在躺平家居内容推荐的应用与实践

[8] Perceive Your User in Depth and Width: 淘宝搜索中用户行为建模综述

[9] 基于搜索的超长用户行为建模范式 Search-based Interest Model

阿里巴巴集团商业机器智能部招聘啦~

商业机器智能部是一支数据和算法一体的团队，服务于淘宝、天猫、聚划算、闲鱼和躺平等业务线的二十余个业务场景，提供线上零售、内容社区、3D智能设计和端上智能等数据和算法服务。在创造业务价值的同时，我们不断输出学术成果，在诸多顶会和杂志上发表数篇学术论文。团队学习氛围浓厚。真诚邀请海内外相关方向的优秀应届毕业生加入我们。

如果您有兴趣可将简历发至[email protected]，期待您的加入！

✿ 拓展阅读

作者|阅谦

编辑|橙子君

出品|阿里巴巴新零售淘系技术

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

超长用户行为建模在躺平家居内容推荐中的应用实践

▐ 候选内容挂载商品集合表征向量提取

▐ 与候选商品集合相关的兴趣向量提取

▐ 行为序列内部相关的兴趣向量提取

▐ 实验分析

▐ 性能方面

▐ 效果方面

▐ 实验分析

▐ 效率指标

▐ 多样性指标

▐ 索引构建

▐ 序列特征构造

▐ iGraph回流提示quota超限

你可能感兴趣的:(算法,大数据,机器学习,人工智能,编程语言)