使用pycaret来进行数据挖掘：关联规则挖掘

关联规则用于发现大型数据库中变量之间的有趣关系。它旨在使用一些有趣的方法来识别在数据库中发现的强规则。通过对关联规则的挖掘我们可以发现超市或者电商的大规模交易数据中商品之间的规律性，最著名的案例是“啤酒与尿布”的故事，20世纪90年代的美国超市中，超市管理人员分析销售数据时发现了一个令人难于理解的现象：在某些特定的情况下，“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中。还比如人们在超市的销售数据中发现，如果顾客同时购买面包和牛奶，他们也会购买黄油。这样的信息可以为企业营销活动的决策带来帮助。

下面我们解释一些关于关联规则的基础理论知识，首先我们定义：

$I=\{i_{1},i_{2},\ldots ,i_{n}\}$ ，其中 I 表示所有物品的集合, ${i_{1},i_{2},\ldots$ 表示第1，第2，第...个商品。

$D=\{t_{1},t_{2},\ldots ,t_{m}\}$ ，其中D表示数据库中所有的交易(订单)记录， $t_{1},t_{2},\ldots$ 表是第1，第2，第...个订单记录。

每笔交易在D具有唯一的交易 ID 并且其中包含商品集合I的子集。

关联规则是通过在数据库中搜索频繁 if-then 模式的强关联物品的组合，这种组合称为频繁项集。但是在数据库中找到所有频繁项集并不是一件容易的事，因为它涉及遍历所有数据以便从所有可能的项集中找到所有可能的项集组合。可能项集的集合是物品集合I的幂集，并且具有大小是 $2^{n}-1$ ，当然这意味着排除不被认为是有效项集的空集，但是幂集的大小将随着幂集内的项目n的数量呈指数增长通过使用支持的向下闭合属性（也称为反单调性），可以进行有效的搜索。这将保证频繁项集及其所有子集也是频繁的，因此不会将不频繁项集作为频繁项集的子集。利用这一特性，一些高效的算法（例如，Apriori 和 Eclat）可以找到所有频繁项集。

上图物品集:{a,b,c}的幂集为所有子集的集合(包含空集在内)其子集的数量为 $2^{n}$ ，而频繁项集的数量为 $2^{n}-1$ (排除空集)。

关联规则被定义为：

$X\Rightarrow Y$ ，其中 $X,Y\subseteq I$ ，这里X,Y都是 I 的子集，可以这样理解如果用户买了1个或多个商品，那么也会购买另外1个或多个商品。这里X,Y是 I 的子集因此它们各种都包含了1个或者多个商品。这是关联规则的一般定义，但是在实际的应用场景中一般会定义商品的子集和单个商品之间的关联规则：

$X\Rightarrow i_{j}$ ，其中 $i_{j}\in I$ 。这个规则可以这么理解：如果客户购买了一个或多个商品,那也会购买另外一个商品。其中 ${\Rightarrow}$ 含义是“如果...那么...”,即英语中的 if... then.

在这里我们使用support(支持度) 、confidence(置信度)、lift(提升度)、conviction(出错率)等评估指标来衡量频繁项集的强关联程度。

support (支持度)表示两种物品在数据集中同时出现的概率:

support (X,Y)= $P(X \cap Y)$

即强关联的物品组合在给定数据集中出现的频率，可以这么理解，同时购买过面包和牛奶这两种商品的订单在所有订单中所占比例。

confidence(置信度)他表示一个条件概率： $P(i_{j}| X)$ 可以这么理解,在所有购买面包的订单中又购买过牛奶的订单所占的比例。我们可以利用条件概率的公式来计算置信度：

lift(提升度)，它可以用来比较预期的 Confidence 和实际的 Confidence，表示在含有X的条件下同时含有Y的可能性与无条件下含有Y的可能性之比，即在Y自身出现的可能性P(Y)的基础上，X的出现对于Y的“出镜率”P(Y|X)的提升程度：

$lift(X\Rightarrow Y) = P(Y|X)/P(Y)$ 。

如果 lift = 1，表示X与Y相互独立，X对Y出现的可能性没有提升作用，其值越大（lift >1）表示X对Y的提升程度越大，也表示关联性越强。

conviction(出错率) ，它的作用于度量关联规预测错误的概率，表⽰X出现⽽Y不出现的概率。

${\mathrm {conv}}(X\Rightarrow Y)={\frac {1-{\mathrm {supp}}(Y)}{1-{\mathrm {conf}}(X\Rightarrow Y)}}.$

下面我们举一个简单的例子来加深我们对support,confidence,lift,conviction等评价指标的理解：下面显示了数据库中的5笔交易记录其中包含了7种商品。

我们来算一下{啤酒,尿布}的support(支持度),

supp(啤酒，尿布)=1/5=0.2 ，在所有的5个订单中,只有一个订单购同时买过啤酒和尿布(第3个订单)。

supp(牛奶,面包,黄油)=1/5=0.2 ,在所有的5个订单中,只有一个订单同时购买过牛奶,面包和黄油(第4个订单)。

conf({黄油，面包} ${\Rightarrow}$ {牛奶})=P(牛奶|黄油,面包)=P(牛奶∩黄油∩面包)/P(黄油∩面包)=1, 这里表示在所有购买过黄油和面包的订单中有多个订单也购买了牛奶，从数据表中我们可以发现只有一个订单购买过黄油和面包(第4个订单)并且在这个订单中也购买了牛奶，所以P(牛奶∩黄油∩面包)/P(黄油∩面包)=1/1=1.

conf(水果 ${\Rightarrow}$ 鸡蛋)=P(鸡蛋|水果)=P(鸡蛋∩水果)/P(水果)=2/3=0.67 这里表示有3个订单购买过水果，在这3个购买水果的订单中又有两个订单购买过鸡蛋所以概率是2/3.

lift({牛奶,面包} ${\Rightarrow}$ {黄油})=P(黄油|牛奶，面包) / P(黄油)=0.5/0.4=1.25,这里lift>1 说明购买面包，牛奶对购买黄油是有帮助的，在这里需要说明的是：如果 lift (Y|X)= 1，表示X与Y相互独立，X对Y出现的可能性没有提升作用，其值越大（lift >1）表示X对Y的提升程度越大，也表示关联性越强。

conv({牛奶,面包} ${\Rightarrow}$ {黄油})=

=(1-0.4)/(1-0.5)=0.6/0.5=1.2

这表明含有现牛奶和面包但不含有黄油的概率增加了20%。

Apriori 算法

Apriori 由 R. Agrawal 和 R. Srikant 在 1994 年给出，用于频繁项集挖掘和关联规则学习。它通过识别数据库中频繁出现的单个项目并将它们扩展到越来越大的项目集，只要这些项目集出现得足够频繁。该算法的名称是 Apriori，因为它使用了频繁项集属性的先验知识。

Apriori算法使用“自下而上”的方法，其中频繁子集一次扩展一项（称为候选生成的步骤），并针对数据测试候选组。当没有找到进一步的成功扩展时，算法终止。Apriori 使用广度优先搜索和哈希树结构来有效地计算候选项目集。它从长度的项目集生成候选长度的项目集。然后它修剪具有不常见子模式的候选者。根据向下闭合定理，候选集包含所有频繁长度项集。之后，它扫描数据库以确定候选中的频繁项集。

下面是一个癌症数据集的样本,其中字母代表的特定突变组合，我们要重这些组合中搜索频繁项集：

首先计算每个字母的support (支持度)，然后设置一个最小阈值:3 来修剪项目集：

由于所有字母的支持度都大于等于3，因此不做修剪。频繁项集是 {a}、{b}、{c} 和 {d}，接下来我们我们在{a}、{b}、{c} 和 {d}的基础上计算二元组(任意两个字母的组合在一起)的支持度：

现在我们设置二元组最小支持度阈值为 4，因此在修剪后只有 {a, d} 和 {c, d} 将被保留。接下来我们在 {a, d} 和 {c, d}的基础上计算三元组(任意三个字母的组合在一起)的支持度：

因为最后我们只剩一个三元组，所以下一轮四元组是空的，所以算法将停止。最后保留的频繁项集为：{a}、{b}、{c} 、{d}、{a, d} 、 {c, d}、{a,c,d}。

利用pycaret来实现数据关联规则挖掘

PyCaret 是 Python 中的一个开源、低代码机器学习库，它可以自动执行机器学习工作流。它是一种端到端的机器学习和模型管理工具，它可成倍的提高您的工作效率。与其他开源机器学习库相比，PyCaret 是一个低代码的机器学习框架，可用于仅用几行代码替换您之前写的几百行代码。这使得开发过程以指数方式快速和高效。PyCaret 本质上是几个机器学习库和框架的 Python 包装器，例如 scikit-learn、XGBoost、LightGBM、CatBoost、spaCy、Optuna、Hyperopt、Ray 等等。今天我们通过一个简单的关联规则挖掘的例子来看看pycaret有多么强大！

pycaret来实现关联规则挖掘一般有下面几个步骤：

Getting Data：从 PyCaret 存储库导入模拟数据，或者也可以读取外部真实数据
Setting up Environment：在 PyCaret 中设置算法环境并准备开始实现关联规则挖掘
Create Model：创建关联规则挖掘的算法模型
Plot Model：使用各种绘图分析模型性能

数据

我们将使用来自 UCI 数据集的一个小样本，称为在线零售数据集。这是一个交易数据集，其中包含 2010年1月12日至 2011年9月12 日之间发生的交易。下面简单描述一下数据字段的含义：

InvoiceNo：发票编号,一个 6 位的唯一整数。如果此代码以字母“c”开头，则表示取消。
StockCode: 商品代码，一个 5 位整数，每个商品都有一个唯一的代码。
Description：商品的描述信息。
Quantity：每笔交易的每个商品的数量。
InvoiceDate: 发票日期和时间,生成每笔交易的日期和时间。
UnitPrice: 商品的单价，以英镑为单位的商品价格。
CustomerID: 客户编号，每个客户唯一分配的 5 位整数。
Country: 国家名称，每个客户所在国家的名称。

1.Getting Data

由于pycaret已经内置了这个零售数据集，因此你可以使用pycaret提供的get_data方法来获取数据：

from pycaret.datasets import get_data
data = get_data('france')
print('唯一发票数量:',data.InvoiceNo.nunique())
print('唯一商品数量:',data.Description.nunique())

我们发现数据集中唯一的发票数量是461，唯一的商品数量是1565.

2.Setting up Environment

这里我们将使用setup() 函数，它的作用是初始化 PyCaret 中的环境，并将数据集转换为 Apriori 算法可接受的形状。 setup() 需要三个强制参数：pandas的dataframe、transaction_id，它是表示事务 id 的列的名称(本例中是发表编号)，将用于对矩阵进行透视； item_id 是用于创建规则的列的名称(本例中是Description)。通常，这将是感兴趣的变量。您还可以传递可选参数 ignore_items 以忽略item_id 中的某些值。

from pycaret.arules import *
exp=setup(data=data,transaction_id='InvoiceNo',item_id = 'Description')

成功执行setup()后，它会打印包含少量重要信息的信息网格：

Transactions ：数据集中的唯一交易数。在这种情况下，唯一的 InvoiceNo的数量。
Items ：数据集中的唯一项目的数量。
Ignore Items ：规则挖掘中要忽略的项目。很多时候，频繁项集的组合没有意义，所以可能要忽略它们。例如：许多交易数据集将包含运费，很多其他的商品可能和运费有着强关联,所以为了忽略这种无意义的频繁项集可以在 setup() 中使用 ignore_items 参数忽略。后面我们将再运行 setup() 一次，后面我们将忽略某些特定无意义的物品。

这里统计出来的Transactions和Items的数量和我们前面统计的结果一样。

3.Create a Model

创建关联规则模型很简单， create_model() 不需要强制参数。它有 4 个可选参数，如下所示：

metric: 设置评估指标: 'confidence','support', 'lift', 'leverage', 'conviction',默认值为‘confidence’
threshold:评估指标的最小阈值，默认设置为 0.5。
min_support:0 到 1 之间的浮点数，用于返回的项目集的最小支持度为0.05
round：评估结果中的分数中的小数位数指标将四舍五入

下面我们将创建一个使用默认参数的关联规则模型，最终将挖掘出所有的频繁项集{ $antecedents\Rightarrow consequents$ }：

model1 = create_model()
print('频繁项集数量:',len(model1))
model1.head()

这里关联规则模型挖掘出了141个频繁项集{ $antecedents\Rightarrow consequents$ }，并计算出 'confidence','support', 'lift', 'leverage', 'conviction'等评估指标。

4.Setup with `ignore_items`

我们发现在上述的频繁项集的结果中antecedents和consequents中存在很多的POSTAGE, 而POSTAGE表示运费，所以大多数和运费组合在一起的频繁项集没有意义,所以我们要排除掉POSTAGE。下面我们要在setup()方法中使用Ignore Items参数来排除POSTAGE。

exp=setup(data=data,
          transaction_id='InvoiceNo',
          item_id = 'Description',
          ignore_items = ['POSTAGE'])

model2 = create_model()
print('频繁项集数量:',len(model2))
model2.head()

排除掉后POSTAGE关联规则模型挖掘出了45个频繁项集。

5.Plot Model

下面我们用二维及三维可视化的方法来分别展示每一组频繁项集的评估分数在平面和空间中的分布：

plot_model(model2)

plot_model(model2, plot = '3d')

参考资料

Association rule learning

pycaret官方文档

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
Python实现关联规则推荐这孩子谁懂哈 Python Machine Learning python 关联规则机器学习
1.什么关联规则关联规则（AssociationRules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache