忘川之水&

关联规则置信度与支持度以及Apriori算法简介

关联规则：购物篮分析，最早的出现是为了发现超市销售数据库中不同商品之间的关联关系。

文章目录

- 1.案例引入
- - （1）啤酒与尿布的故事
  - （2）购物篮例子
- 2.关联分析问题定义
- - 2.1二元表示
  - 2.2项集和支持度计数
  - 2.3 关联规则
  - 2.4为什么使用支持度和置信度？
  - 2.5.1频繁项集的产生
  - 2.5.2Apriori算法
未完待续

1.案例引入

（1）啤酒与尿布的故事

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市。沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中，这种独特的销售现象引起了管理人员的注意，经过后续调查发现。
　　原来，美国的妇女通常在家照顾孩子，所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布，而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。
　这个发现为商家带来了大量的利润，但是如何从浩如烟海却又杂乱无章的数据中，发现啤酒和尿布销售之间的联系呢？

（2）购物篮例子

商店的收银台每天都收集了大量的顾客购物篮数据，如下表，一般也称作购物篮事务，表中每一行对应一个事务，包含一个唯一标识的TID和给定顾客购买的商品的集合。零售商对分析这些数据很感兴趣，以便了解他们的顾客的购买行为，可以使用这些价值的信息来支持各种商业应用，如市场促销，顾客管理等。
　　
关联分析，用于发现隐藏在大型数据集中有意义的联系。我们将所发现的联系用关联规则或频繁项集的形式表示，从上表中可以提取出如下规则：
{尿布}---------------------->{啤酒}
　　该规则表明尿布和啤酒销售之间存在很强的联系，因为许多购买了尿布的顾客也购买了啤酒。商家们可以利用这类规则，帮助他们发现新的销售组合或者商机。
　　
　　在数据问题中，我们需要处理两个关键问题：

从大型事务数据集中发现模式可能在计算上要付出很高的代价。
所发现的某些模式也有可能是虚假的，因为他们可能是偶然发生的。这两个问题是我们在接下来需要解决的。

2.关联分析问题定义

2.1二元表示

我们可以用二元形式表示购物篮数据，其中每行对应一个事务，每列对应一个项。项可以用二元变量表示，项在事务中出现它的值为1，否则为0。
　　项在事务中的出现比不出现更重要，因此项也是非对称的二元变量。这也是实际购物篮数据的极其简单的展现，这种表示忽略了数据的一些比较重要特征，比如价格和数量等。
　　

2.2项集和支持度计数

在关联分析中，包含0个或多个项的集合被称为项集（itemset），如果一个项集包含k个项，则称它为k-项集。如{啤酒，尿布，牛奶}是一个3项集。空集是不包含任何项的项集。
　　项集的一个最重要的性质是它的支持度计数，也就是包含特定项集的事务个数。我们从数学上定义项集X的支持度计数表示为
　　
从表中可以得出=={啤酒，尿布，牛奶}==的支持度计数为2，因为只有两个事务中包含了这三个项。

2.3 关联规则

关联规则是形如X->Y的蕴含表达式，其中X和Y是不相交项集。
关联规则的强度使用它的支持度（support）和置信度（confidence）度量：

支持度确定可以用于给定数据集的频繁程度，数学表达式如下。

分子指X和Y同时出现的次数，N是事务的总数，即行数
置信度确定Y在包含X的事务中出现的频繁程度，数学表达式如下。

购买X的情况下同时购买X和Y的概率，分子指X和Y同时出现的次数，分母是前置项出现的总和

例子：
考虑规则{牛奶，尿布}–>{啤酒}
（1）{牛奶，尿布，啤酒}的支持度计数为2
（2）事务总数N=5
（3）{牛奶，尿布}前置出现项的次数为3
（4）支持度S=2/5=0.4，置信度C=2/3=0.67

2.4为什么使用支持度和置信度？

关联规则发现：给定事务的集合T，关联规则发现是指==找出支持度大于等于minsup(最小支持度)并且置信度大于等于minconf(最小置信度)==的所有规则。
但是根据上述规则挖掘关联规则的时候，计算的代价太高。我们在实际业务中通常采用的一种策略：将关联规则挖掘任务分解为两个子任务：

（1）频繁项集的产生：其目标是发现满足最小支持度阈值的所有项集，这些项集就是频繁项集（frequent itemset）。该任务开销也是最大的。
（2）规则的产生：其目标是从上一步发现的频繁项集中提取所有高置信度规则，这些规则称作强规则。

2.5.1频繁项集的产生

根据高中数学集合的基本知识，一个含有K个元素的集合，它的非空子集个数为
（不包括空集)。频繁项集也是在集合中寻找非空子集的过程，需要计算规模可能是指数级别的，复杂度高。

为了降低频繁项集产生的计算复杂度，采用两种方法：

（1）减少候选项集的数目（M）：使用先验Apriori原理，无需计算支持度而删除某些候选项集的有效方法。也算是一种剪枝的方法。
（2）减少比较次数：将每个候选集与每个事务相匹配，同时，可以存储候选项集或压缩数据集减少比较次数。
接下来解释先验原理：
定理1：先验原理：如果一个项集是频繁的，则它的所有子集一定也是频繁的。同理，如果一个子集是非频繁的，则整个超集是非频繁的。

我们通过上述原理，立马可以对很多非频繁项集进行剪枝，这种剪枝方法也称作基于支持度的剪枝。依赖的原理为：一个项集的支持度绝不会超过他的子集的支持度。

图3：基于支持度的剪枝：如果{a,b}是非频繁的，则所有超集均为非频繁的

2.5.2Apriori算法

（1）算法介绍
　　1993年美国学者Agrawal提出通过分析购物篮中的商品集合，从而找出商品之间关联关系的关联算法，并根据商品之间的关系，找出客户的购买行为。Agrawal从数学及计算机算法角度提出了商品关联关系的计算方法——Apriori算法。
　　沃尔玛从上个世纪90年代尝试将Aprior算法引入到POS机数据分析中，并获得了成功，于是产生了“啤酒与尿布”的故事。
　　如何寻找？
　　在历史购物记录中，一些商品总是在一起购买。但人看上去不是那么的直观的，而是隐蔽的。让计算机做这事，设计算法让计算机自动去找，找到这样的模式(规律)。
　　目标:寻找那些总是一起出现商品。
　　如：购买mahout实战—>机器学习实战
　　引出支持度和置信度
　　《mahout实战》与《机器学习实战》一起该买的记录数占所有商品记录总数的比例——支持度(整体)
　　买了《mahout实战》与《机器学习实战》一起该买的记录数占所有购买《mahout实战》记录数的比例——置信度==(局部)==
　　需要达到一定的阈值

（2）举例
　　Apriori算法是第一个且最重要的关联规则算法，使用基于支持度的剪枝技术，从而控制候选项集的指数级别的增长。
　　我们把前面的商品的例子，假设最小支持度阈值是60%，相当于最小支持度计数为3。（根据支持度=x/5=0.6=>x=3）

分析：

（1）根据最小支持度阈值0.6，计算最小支持度为3，则根据最小支持度删去支持度低于3的候选集，此时我们称之为候选1-项集。如上图去掉了可乐和鸡蛋的两项。
（2）将得到的候选1项集合并为候选2项集，如上图，根据支持度计数将低于3的舍去，舍去{啤酒，面包}和{啤酒，牛奶}，得到所有的候选2-项集。
（3）利用候选2项集得到候选3项集：{啤酒，尿布，面包}3，{啤酒，尿布，牛奶}3，{面包，尿布，牛奶}3，因为{啤酒，面包}，{啤酒，牛奶}在候选二项集中已经被判定非频繁项集，因此根据先验原理，它的超集也是非频繁项集，最后得到{面包，尿布，牛奶}3的频繁项集。

算法描述：

（1）初始通过单遍扫描数据集，确定每个项的支持度。从而得到频繁1-项集的集合F1.
（2）使用上次迭代发现的频繁（k-1）项集，产生新的频繁k项集。（关键步骤）
（3）对候选集支持度计数，算法需要扫描一次数据集，使用子集函数确定包含在每一个事务t中所有候选k项集。
（4）计算候选项的支持度计数之后，算法将删去支持度计数小于minsup的所有候选集。
（5）当没有新的频繁项集产生，算法结束。

总结：Apriori算法的频繁项集产生的部分有两个重要特点：

（1）逐层计算，从频繁1-项集到最长的频繁项集，每次遍历项集格中的一层。
（2）使用“产生-测试”（geberate and test）策略来发现频繁项集。每次迭代后，新的候选项集都由前一次迭代发现的频繁项集产生，然后对每个候选的支持度进行计数，并与最小支持度阈值进行比较。

未完待续

你可能感兴趣的:(推荐系统,关联规则)

推荐系统中的归因分析 liliangcsdn 人工智能大数据
推荐系统中，归因分析(AttributionAnalysis)分析用户完成转化前到底是哪个渠道最起决定性作用。参考网络相关资料，常用的用户转化归因分析模型有如下6种，现收录参阅。1）最后点击归因转化全部归因于用户转化前最后一次点击的渠道。用户8月1日小红书种草，8月5日搜索官网，8月10日淘宝广告点击并完成下单。“最后点击归因”将此次转化归于淘宝广告，适用电商促销季投放归因。2）首次点击归因转化价
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
2025年人工智能、虚拟现实与交互设计国际学术会议学术小八学术人工智能 vr 交互
重要信息官网：www.aivrid.com时间：2025年10月17-19日地点：中国-东莞部分介绍征稿主题包括但不限于：生物特征模式识别机器视觉专家系统深度学习智能搜索自动编程智能控制智能机器人系统组件虚拟现实平台用于VR/AR的AI平台数据和生成、操作、分析和验证浸入式环境和虚拟世界的生成优化和现实的渲染人工智能与用户体验个性化推荐系统情感计算与用户响应虚拟现实与沉浸式技术沉浸式环境设计交互设
时尚搭配助手，深度解析用Keras构建智能穿搭推荐系统忆愿高质量领域文章 keras 人工智能深度学习机器学习 python
文章目录引言：当算法遇见时尚第一章数据工程：时尚系统的基石1.1数据获取的多元化途径1.2数据预处理全流程1.2.1图像标准化与增强1.2.2多模态数据处理第二章模型架构设计：从分类到推荐2.1基础CNN模型（图像分类）2.2多任务学习模型（属性联合预测）第三章推荐算法核心3.1协同过滤与内容推荐的融合第四章系统优化4.1注意力机制应用第五章实战演练5.2实时推荐API实现第六章前沿探索：时尚AI
Shusen Wang推荐系统学习 --召回 ItemCF 我.佛.糍.粑学习深度学习人工智能推荐算法
学习b站up主ShusenWang的推荐系统基于物品的协同过滤（ItrmCF）中心思想就是，如果你喜欢a，b，c三件商品，d商品与abc相似，那么你也可能喜欢d商品对此就要计算物品的相似程度物品相似度物品相似度的思想是，一个物品的相同用户很多就意味着这两件物品是相似的sim(i1,i2):=∣V∣∣W1∣∣W2∣sim(i_{1},i_{2}):={\frac{\big|\mathcal{V}\b
知识图谱系列（2）：知识图谱的技术架构与组成要素程序员查理 #知识图谱知识图谱架构人工智能 AI Agent RAG
1.引言知识图谱作为一种强大的知识表示和组织方式，已经在搜索引擎、推荐系统、智能问答等多个领域展现出巨大的价值。在之前的上一篇文章中，我们介绍了知识图谱的基础概念与发展历程，了解了知识图谱的定义、核心特征、发展历史以及在AI发展中的地位与作用。要深入理解和应用知识图谱，我们需要进一步探索其内部的技术架构和组成要素。知识图谱不仅仅是一个简单的数据结构，而是一个复杂的技术体系，涉及知识的表示、存储、查
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
基于python+flask框架的某图书馆书籍推荐系统的设计与实现（开题+程序+论文）计算机毕设 zhihao502 python flask 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景在数字化时代，图书馆作为知识传播与积累的重要场所，面临着如何更有效地服务于广大读者的挑战。随着信息量的爆炸式增长，读者在浩瀚的书海中寻找符合个人兴趣和需求的书籍变得日益困难。传统的图书检索方式已难以满足读者快速、精准获取推荐书籍的需求。因此，开发一套智能化的图书馆
Neo4j 的向量搜索（Neo4jVector）和常见的向量数据库（比如 Milvus、Qdrant）之间的区别与联系
先说联系（共同点）点内容✅都支持向量检索都可以基于embedding（向量）做相似度搜索，比如给一段文本、找出最相似的若干条记录。✅都用于语义检索你可以把它们用在RAG（检索增强生成）、ChatwithDocs、智能问答、推荐系统等应用里。✅都支持批量插入、查询都可以批量向数据库中插入文本+向量，然后用向量做top-k检索（如search(k=8)）。✅都和LangChain集成它们都可以通过la
推荐算法（推广搜）——广告和推荐有什么不同？
导语近几年新兴起一个行业：推广搜。即推荐、广告、搜索算法的简称。各大厂都隐隐将其作为公司核心技术来发展。此文将带领大家探秘广告和推荐有什么区别以及其相似处。再此强调一下，广告算法里面的推荐广告和自然推荐结果里的推荐系统进行对比，但因为广告算法里面还有“搜索广告”，搜索广告和推荐系统差异性就太大了，这里不做讨论。一、不同点1.1本质不同推荐广告和自然推荐本质中要处理的群体和衡量的利益完全不一样。（图
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
Linux下Redis安装配置全攻略（2024最新版）「已注销」 linux redis 运维
手残党也能搞定的Redis安装指南还在为Linux安装Redis发愁？（别问我怎么知道的）今天这个保姆级教程绝对能让你爽到飞起！从零开始到完全可用只要10分钟，连小白都能轻松上手！（信我，真的）环境准备（超级重要）先确认你的Linux发行版（敲黑板！）：#查看系统信息cat/etc/os-release推荐系统：Ubuntu20.04/22.04LTSCentOS7/8RockyLinux8/9安
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
DeepFM算法原理及应用场景
DeepFM（DeepFactorizationMachine）是一种结合了因子分解机（FactorizationMachines,FM）和深度神经网络（DNN）的混合模型，主要用于处理高维稀疏数据（如推荐系统中的点击率预测）。其核心思想是同时捕捉低阶（线性）和高阶（非线性）特征交互。1.算法原理模型结构如下：FM部分：负责捕捉低阶特征交互（如一阶和二阶特征组合）。一阶项：线性特征权重。二阶项：通
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
基于Elasticsearch的短视频平台个性化推荐系统设计与实现亲爱的非洲野猪 elasticsearch 音视频推荐算法
在当今内容爆炸的时代，个性化推荐系统已成为短视频平台的核心竞争力之一。本文将详细介绍如何利用Elasticsearch（ES）构建一个高效、可扩展的短视频个性化推荐系统。一、系统架构概述我们的推荐系统将采用混合推荐策略，结合协同过滤、内容相似度和热度推荐等多种方法。Elasticsearch作为核心搜索引擎和数据存储，将承担以下职责：用户画像存储与查询视频内容索引与检索实时行为日志分析推荐结果计算
协同过滤算法：挖掘用户偏好，精准推荐商品 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
1.背景介绍协同过滤（CollaborativeFiltering，CF）作为推荐系统中的重要技术，其核心思想是利用用户和物品间的行为数据，挖掘用户隐性偏好，从而实现精准推荐。自20世纪90年代提出以来，协同过滤算法已经在电子商务、社交媒体、音乐视频等多个领域中广泛应用，取得了显著的推荐效果。协同过滤算法主要分为基于用户的协同过滤和基于物品的协同过滤两种。基于用户的协同过滤通过比较用户间的相似性，
协同过滤推荐算法禺垣机器学习笔记算法机器学习推荐算法算法机器学习
协同过滤（CollaborativeFiltering）是推荐系统中最经典的算法之一，其核心思想是“物以类聚，人以群分”，即通过分析用户的历史行为数据，找到与目标用户相似的用户群体或相似的物品，从而为目标用户推荐他们可能感兴趣的物品。一、基于用户的协同过滤（User-BasedCF）核心思想：找到与目标用户兴趣相似的其他用户（“邻居”），将这些邻居喜欢的物品推荐给目标用户。步骤：s1.计算用户
深度探索 Py2neo：用 Python 玩转图数据库 Neo4j 萧鼎 python基础到进阶教程 python 数据库 neo4j
随着社交网络、推荐系统、知识图谱等应用的普及，图数据库越来越成为解决关系复杂数据问题的重要武器。作为图数据库中的佼佼者，Neo4j凭借其强大的性能和灵活的数据模型，被广泛应用于各种关联密集型场景。而在Python生态中，py2neo是使用最广泛的Neo4j客户端库之一，它简洁直观，封装度高，能够让你在Python中像操作对象一样操作图数据。本文将全面介绍py2neo的使用方法与设计理念，帮助你快速
Vue2 视频推荐页面：完整布局与动态数据实现用 Vue2 开发视频推荐页面：简洁优雅的实现方式 Vue2 项目实战：多分类动态内容展示的实现用 Vue2 打造视频推荐系统：从零开始完整教程 Vu 南北极之间 web前端特效源码 css javascript 网页设计 html 前端网站首页视频网站
效果图【定制化开发服务，让您的项目领先一步】如有需求，直接私信留下您的联系方式。谢谢。我的邮箱：[email protected]完整代码以下包括导航栏、分类切换、推荐内容展示等。使用虚拟假数据模拟真实场景，图片用占位符代替。代码实现<html
ElasticCTR：一键部署的分布式CTR预估解决方案萧桔格Wilbur
ElasticCTR：一键部署的分布式CTR预估解决方案ElasticCTRElasticCTR，即飞桨弹性计算推荐系统，是基于Kubernetes的企业级推荐系统开源解决方案。该方案融合了百度业务场景下持续打磨的高精度CTR模型、飞桨开源框架的大规模分布式训练能力、工业级稀疏参数弹性调度服务，帮助用户在Kubernetes环境中一键完成推荐系统部署，具备高性能、工业级部署、端到端体验的特点，并且
圈子系统公众号app小程序系统源码公众号+圈子小程序：如何用“内容+社交”打造用户闭环生态？前端
圈子系统：构建"交流→共鸣→成长"的进阶生态一、系统设计理念演进1.0基础交流层话题发布/回复功能基础点赞评论互动简单分类标签系统2.0情感共鸣层情绪标签识别（AI分析内容情感倾向）共鸣指数算法（根据互动深度计算）志同道合推荐系统3.0成长体系层多维能力评估模型个性化成长路径成就勋章系统二、核心技术实现方案1.共鸣引擎#共鸣度计算算法示例defcalculate_resonance(topic):
FAISS 简介及其与 GPT 的对接（RAG）言之。 AI faiss gpt easyui
什么是FAISS？FAISS(FacebookAISimilaritySearch)是FacebookAI团队开发的一个高效的相似性搜索和密集向量聚类的库。它主要用于：大规模向量相似性搜索高维向量最近邻检索向量聚类https://github.com/facebookresearch/faissFAISS特别适合处理高维向量数据，能够快速找到与查询向量最相似的向量，广泛应用于推荐系统、图像检索、自
产品背景知识——在线推理和离线推理爱吃芝麻汤圆 #产品背景知识推理
产品背景知识——在线推理和离线推理一、核心区别：从4个维度对比1.数据处理方式与时效性在线推理（实时推理）数据特点：处理实时流入的单条或小批量数据（如用户点击、交易请求）。时效性要求：需在毫秒级到秒级内返回结果，延迟直接影响用户体验或业务决策。典型场景：电商推荐系统（用户浏览商品时实时推荐）、金融风控（交易时实时欺诈检测）。离线推理（批量推理）数据特点：处理历史累积的大规模数据集（如TB级日志、数
长尾形分布论文速览三十篇【60-89】木木阳 Long-tailed 人工智能
长尾形分布速览（60-89）这些研究展示了LLMs在长尾数据分布、持续学习、异常检测、联邦学习、对比学习、知识图谱、推荐系统、多目标跟踪、标签修复、对象检测、医疗生物医学以及其他应用中的广泛应用。通过优化和创新，LLMs在这些领域展现了卓越的性能，并为解决长尾问题提供了有效的工具和方法。1.长尾持续学习与对抗学习长尾持续学习(Paper60):通过优化器状态重用来减少遗忘，提高在长尾任务中的持续学
小红书笔记详情API接口概述及JSON数据返回参考 Json_18179014480 API json 大数据数据库大数据 json
前言一、接口概述小红书笔记详情API接口是小红书开放平台提供的一项服务，允许开发者通过编程方式获取小红书上特定笔记的详细信息。该接口的核心功能包括：获取笔记内容：标题、正文、图片、视频等多媒体信息。用户互动数据：点赞数、评论数、收藏数、分享数等。作者信息：作者昵称、头像、粉丝数等。发布信息：发布时间、标签列表等。通过该接口，开发者可以构建内容分析工具、笔记推荐系统、数据爬虫等应用，帮助企业或个人进
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他