xianjie0318

数据挖掘RapidMiner工具使用----决策树案例分析

一、理解决策树

1、决策树简介

决策树方法在分类、预测、规则提取等领域有着广泛应用,它是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新集进行预测，是一种非参数学习算法。对每个输入使用由该区域的训练数据计算得到的对应的局部模型。决策树是一树状结构，它的每一个叶节点对应着一个分类，非叶节点对应着在某个属性上的划分，根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点，多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题，从已知类标记的训练样本中学习并构造出决策树是一个自上而下，分而治之的过程

2、决策树的基本原理

1）基本算法（贪心算法）

自上而下分而治之的方法
开始时，所有的数据都在根节点
属性都是离散值字段(如果是连续的，将其离散化)
所有记录用所选属性递归的进行分割
属性的选择是基于一个启发式规则或者一个统计的度量(如,information gain)

停止分割的条件

一个节点上的数据都是属于同一个类别
没有属性可以再用于对数据进行分割

2）了解决策树的具体算法

首先了解一下：信息熵的概念

信息熵是一个数学上颇为抽象的概念，在这里不妨把信息熵理解成某种特定信息的出现概率（离散随机事件的出现概率）。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。信息熵也可以说是系统有序化程度的一个度量。

计算公式

H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)

其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大.

然后，了解决策树的算法分类：

决策树算法	算法描述
ID3算法	其核心是在决策树的各级节点上，使用信息增益方法作为属性的选择标准，来帮助确定生成每个节点时所应采用的合适属性。
C4.5算法	C4.5决策树生成算法相对于ID3算法的重要改进是使用信息增益率来选择节点属性。C4.5算法可以克服ID3算法存在的不足：ID3算法只适用于离散的描述属性，而C4.5算法既能够处理离散的描述属性，也可以处理连续的描述属性。
CART算法	CART决策树是一种十分有效的非参数分类和回归方法，通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时，该树为回归树；当终结点是分类变量，该树为分类树。

下面将详细介绍ID3算法，也是最经典的决策树分类算法。
(1) D3算法简介及基本原理
ID3算法基于信息熵来选择最佳测试属性。它选择当前样本集中具有最大信息增益值的属性作为测试属性；样本集的划分则依据测试属性的取值进行，测试属性有多少不同取值就将样本集划分为多少子样本集，同时决策树上相应于该样本集的节点长出新的叶子节点。ID3算法根据信息论理论，采用划分后样本集的不确定性作为衡量划分好坏的标准，用信息增益值度量不确定性：信息增益值越大，不确定性越小。因此，ID3算法在每个非叶节点选择信息增益最大的属性作为测试属性，这样可以得到当前情况下最纯的拆分，从而得到较小的决策树。
设S是s个数据样本的集合。假定类别属性具有m个不同的值：Ci(i=1,2,...,m)。设Si是类Ci中的样本数。对一个给定的样本，它总的信息熵为

（11-1）
其中，Pi是任意样本属于Ci的概率，一般可以用si/s估计。
设一个属性A具有k个不同的值{a1,a2,...,ak}，利用属性A将集合S划分为k个子集{S1,S2,...,Sk}，其中Sj包含了集合S中属性A取aj值的样本。若选择属性A为测试属性，则这些子集就是从集合S的节点生长出来的新的叶节点。设sij是子集Sj中类别为Ci的样本数，则根据属性A划分样本的信息熵值为

（11-2）
其中，

，

是子集中类别为的样本的概率。
最后，用属性A划分样本集S后所得的信息增益（Gain）为

（11-3）
显然E(A)越小，Gain(A) 的值越大，说明选择测试属性A对于分类提供的信息越大，选择A之后对分类的不确定程度越小。属性A的个不同的值对应的样本集的个子集或分支，通过递归调用上述过程（不包括己经选择的属性），生成其他属性作为节点的子节点和分支来生成整个决策树。ID3决策树算法作为一个典型的决策树学习算法，其核心是在决策树的各级节点上都用信息增益作为判断标准来进行属性的选择，使得在每个非叶节点上进行测试时，都能获得最大的类别分类增益，使分类后的数据集的熵最小。这样的处理方法使得树的平均深度较小，从而有效地提高了分类效率。
(2) ID3算法具体流程
ID3算法的具体详细实现步骤如下：
1）   对当前样本集合，计算所有属性的信息增益；
2）   选择信息增益最大的属性作为测试属性，把测试属性取值相同的样本划为同一个子样本集；
3）   若子样本集的类别属性只含有单个属性，则分支为叶子节点，判断其属性值并标上相应的符号，然后返回调用处；否则对子样本集递归调用本算法。

二、实例——用决策树预测购买者类型

1、背景和概要说明
    Richard 在一家大型网上零售公司工作。他所在的公司即将推开下一代电子阅读器，并希望最大限度地提高营销活动的有效性。他们有许多客户，其中有些客户购买过公司前几代数字阅读器中的其中一款产品。 Richard 注意到，在公司推出前一代产品时，有些人非常急于获得该产品，而其他人则似乎愿意等着过一段时间再购买。他想知道是什么促使一些人在产品推出时立即抢购，而其他人的购买动力则要差一些。
Richard 所在的公司通过庞大的网站为新款电子阅读器提供特定产品和服务，借此推动这款电子阅读器的销售 - 例如，电子阅读器拥有者可以使用公司网站购买数字杂志、报纸、书籍、音乐等。公司还销售数以千计其他类型的媒体，例如传统的印刷书籍以及各种电子产品。 Richard 相信通过挖掘与公司网站上的一般消费者行为有关的客户数据，他将能够确定哪些客户将最早购买新款电子阅读器，哪些客户次之，以及哪些客户将等着过一段时间再购买。他希望通过预测客户何时准备好购买下一代电子阅读器，能够确定针对最有可能响应广告和促销活动的人员进行营销的时间。
2、业务理解
    Richard 不仅希望能够预测购买行为发生的时间，还希望能够了解客户在公司网站上的行为如何表明购买新电子阅读器的时间。
Richard 相信他可以将公司的客户按以下四个最终将购买新款电子阅读器的群体进行分类：创新者、早期采用者、早期主体采用者或晚期主体采用者。这些群体符合Richard 对于公司前一代产品采用速度的非正式观察。他希望通过观察客户在公司网站上的活动，可以大概预测每个人最有可能购买电子阅读器的时间。他认为数据挖掘可以帮助他确定哪些活动是用于预测客户将归于哪个类别的最佳预测因子。知道这一点后，他可以确定根据购买可能性针对每个客户进行营销的时间。
3、数据理解
     Richard 请我们帮助他开展该项目。我们决定使用决策树模型来找出用于预测购买行为的有效预测因子。因为 Richard 所在的公司通过网站开展所有业务，所以拥有一个丰富的数据集，其中包含每个客户的信息，例如他们最近浏览的是什么产品，以及他们已实际购买什么产品。他为我们准备了两个数据集。训练数据集包含已购买公司前一代阅读器的客户在公司网站上的活动，以及他们购买阅读器的时间。第二个数据集包含Richard 希望其购买新款电子阅读器的当前客户的属性。他希望根据训练数据集中所包含人员的特征和购买时间，确定检验数据集中的每个人将归于哪个采用者类别。
在分析数据集时，Richard 发现客户在数字媒体和书籍方面的活动，以及在公司网站上所销售电子产品方面的一般活动，都同人们在购买电子阅读器时的活动有许多共同之处。在牢记这一点的情况下，我们和 Richard 合作编制了包含以下属性的数据集：
User_ID：为在公司网站上拥有帐户的每个人指定的具有唯一性的数字识别码。
Gender：客户的性别，参考客户帐户而定。在此数据集中，使用“M”表示男性，使用“F”表示女性。Decision Tree 操作符可以处理非数字数据类型。
Age：从公司网站的数据库中提取数据时相应人员的年龄。按系统日期与帐户中记录的相应人员的生日之间的时间差计算，并按四舍五入的方式精确到整数。
Marital_Status：帐户中记录的相应人员的婚姻状况。在帐户中表示自己已婚的人员在数据集中被输入为“M”。由于公司网站没有区分人员的单身类型，因此离异与丧偶的人士同一直单身的人士被归为了一类（在数据集中使用“S”表示）。
Website_Activity：该属性用于表示每个客户在公司网站上的活跃程度。通过与 Richard 合作，我们使用公司网站数据库中记录每个客户访问公司网站时持续时间的信息，来计算客户使用公司网站的频度和每次的持续时间。然后这会转换为以下其中一个类别：很少访问、定期访问或频繁访问。
Browsed_Electronics_12Mo：一个内容为 Yes/No 的列，用于表示相应人员在过去的一年中是否曾在公司网站上浏览电子产品。
Bought_Electronics_12Mo：另一个内容为 Yes/No 的列，用于表示他们在过去的一年中是否曾通过 Richard 公司的网站购买电子产品。
Bought_Digital_Media_18Mo：一个内容为 Yes/No 的字段，用于表示相应人员在过去的一年半中是否曾购买过某种形式的数字媒体（例如 MP3 音乐）。该属性不包括购买数字书籍。
    Bought_Digital_Books： Richard 认为，作为与公司新款电子阅读器相关的购买行为指标，该属性有可能是最佳指标。因此，我们将该属性与购买其他类型的数字媒体区分开来。此外，该属性用于表示客户是否曾购买过数字书籍，而不仅仅只限于过去一年左右的时间。
Payment_Method：表示相应人员的付款方式。如果相应人员曾采用多种方式付款，则使用众值，或最常使用的付款方式。该属性有四个选项：
   – 银行转账 - 通过电子支票或其他电汇形式由银行直接向公司付款。
   – 网站帐户 - 客户在其帐户中设置了一个信用卡或永久性电子资金转帐，以便在购物时直接通过帐户划拨。
    – 信用卡 - 相应人员每次通过公司网站购物时，都输入信用卡卡号和授权码。
    – 月结账单 - 相应人员会定期购物，并会收到稍后通过邮寄支票或通过公司网站付款系统支付的纸质或电子账单。
eReader_Adoption：该属性仅在训练数据集中存在。其中包含与购买前一代电子阅读器的客户有关的数据。在产品发布后一周内购买的人员在此属性中被记录为“Innovator”。在第一周之后但在第二到第三周之内购买的人员被输入为“Early Adopter”。在第三周之后但在前两个月之内购买的人员为“Early Majority”。在前两个月之后购买的人员为“Late Majority”。将训练数据应用于检验数据时，此属性将用作标签。
4、操作步骤

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树算法构造决策树来发现数据中蕴涵的分类规则．如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两部分进行。第一部分，决策树的生成：由训练样本集生成决策树的过程。一般情况下，训练样本数据集是根据实际需要有历史的、有一定综合程度的，用于数据分析处理的数据集。第二部分，决策树的剪技：决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修正的过程，主要是用新的样本数据集（称为测试数据集）中的数据校验决策树生成过程中产生的初步规则，将那些影响预测准确性的分枝剪除。

首先：导入数据

分为两个部分，一部分为：训练数据集-训练数据.xlsx，另外一部分：测试数据集，分别导入RapidMiner 数据存储库中，保存路径//Local Repository/data/，

导入数据

导入数据后，对数据进行简单的视觉评估：缺失、失真数据、异常值等

然后，数据预处理

若存在缺失值，通过左侧的‘Cleansing’数据清洗操作符：“Peplace Missing Value”操作符进行处理，这里替换单一属性，Gender为空时，默认回填M值

若需要数据过滤，通过左侧的‘Blending’操作符：“Filter Example”操作符添加过滤条件，增加过滤条件

Gender等于M

...........等等

其次，角色设置

用户ID是用来唯一标示用户的，对于模型预测分析没有关系，因此它不应该作为变量包含在模型里面，我们把用户ID的角色设置为id。

调用“Set Role”操作符，和训练数据输出端链接，在参数设置界面里，属性名称选为“User_ID”，“target role”设置为id角色，对于测试数据集也重复同样操作

另外，在训练数据集中“购买时间”的字段，是一个“label”类型的字段，我们需要对它指定为标签类型，以便后面在用到决策树模型学习的时候，知道它是一个标记属性，在参数设置里的“Edit List”中，可以增加更多的角色设置，我们在其中对“eReader_Adoption”设置为“label”属性

依次，加载决策树

找到“Decision Tree”决策树操作符，并将其拖拽到训练数据集的连接线上，这个模型在运行的时候就能够自动输出到结果输出端

各参数说明
criterion: 为选择的属性和数值分裂指定使用的标准
minimal size for split: 允许分裂的节点的最小尺寸
minimal leaf size: 树叶的最小尺寸
minimal gain: 为了产生一个分裂必须达到的最小增益
maximal depth: 树的最大深度（-1：无边界）
confidence: 用于修剪的封闭式错误计算的置信度等级
number of prepruning alternatives: 当预先修剪将阻止一个分裂时，可选择的节点数
no pre pruning: 禁止提前修剪，并提供一个没有任何预修剪的树
no pruning: 禁止修剪，并提供一个未修剪的树
决策树的默认criterion是gain_radio（增益率）

运行流程

点击运行按钮，我们可以看到生成决策树图形

在左面的图形面板中，可以对树状图形进行缩放，调整树枝的位置等等。在图中，圆角的矩形中表示的是节点，末端的指教矩形表示的是树叶；节点（网站活跃度，是否购买过电子书籍、年龄）用来预测标签属性，从上到下，敏感度逐级降低；在末端的叶子节点，表示的预测的类别结果（选取概率最大的类别作为预测类别）。

我们需要用到“Apply Model”应用模型操作符，将其与决策树操作符进行连接，将测试数据集输出端与应用模型操作符的输入端连接，然后把应用模型的预测结果与输出端连接，这样我们的预测模型就搭建好了，点击运行按钮，我们发现决策树为我们创建了新的属性字段，显示了预测结果，以及各个类别的概率，他会用概率最高的来作为最终的结论如图

中国首款AI原生IDE：字节跳动Trae国内版深度解析与实践指南代码的建筑师学习记录模型学习笔记 AI IDE Trae 字节跳动 AI代码编辑器
一、Trae国内版重磅发布：中国AI编程新标杆2025年3月3日，字节跳动正式推出国内首个AI原生集成开发环境（AIIDE）——Trae国内版。作为对标Cursor的国产工具，Trae以动态智能协作为核心，重新定义开发者与AI的协同模式。其核心目标是通过深度集成AI能力，帮助开发者从“工具使用者”向“AI协同创新者”转型，显著提升全流程开发效率。关键发布亮点：模型支持：搭载字节自研的Doubao-
《数据挖掘导论》第二章数据爱吃草莓的西瓜酱数据挖掘导论数据挖掘
第二章数据数据类型数据质量数据预处理相似度测量数据Collectionofdataobjectsandtheirattributes特征值数值型的或者描述性的（男/女-->0/1）特征和特征值之间的区别：相同的属性可能被赋予不同的特征值，如身高的单位可能是米或者英尺不同的属性可以映射到相同的值集，如ID是无界的，age有最大值和最小值1.特征的类型Nominal（标称）Examples:IDnum
k8s基础架构介绍忍界英雄 docker kubernetes 容器云原生
k8s基础架构介绍k8s是对容器进行编排的一种工具。通过k8s可以实现对容器的编排、部署、更新等学习k8s之前，先了解相关的一些使用和配置k8s的一些工具。k8s的常用工具在kubernetes中，主要有三个日常使用的工具，这些工具使用kube前缀命名，这三个工具如下：kubeadm用来初始化集群的指令，能够创建集群,并且添加新的节点。可用其它部署工具替代。具体功能有:初始化集群：在控制平面节点（
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
基于大模型的单纯性孔源性视网膜脱离预测及治疗方案研究报告 LCG元围术期危险因子预测模型研究人工智能
目录一、引言1.1研究背景与目的1.2国内外研究现状1.3研究方法与创新点二、单纯性孔源性视网膜脱离概述2.1发病机制2.2高危因素2.3临床表现与诊断方法三、大模型在术前预测中的应用3.1模型选择与数据收集3.2术前风险预测指标3.3预测结果分析与验证四、基于预测结果的手术方案制定4.1手术原则与目标4.2不同预测结果下的手术方式选择4.3手术案例分析五、麻醉方案的确定5.1麻醉方式的选择依据5
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
(学习总结28)Linux 基本命令3 瞌睡不来学习 linux
Linux基本命令3工具使用命令使用vim编辑器命令vim使用nano文本编辑器命令nano使用gcc/g++编译器命令gcc/g++使用gdb/cgdb调试器命令gdb/cgdb使用自动化构建命令make使用版本控制器命令git系统或进程相关命令读取输入并赋值给变量命令read设置或修改shell环境命令set设置环境变量命令export测试网络连接命令ping显示系统登录记录命令last显示失
AI Agent代理框架与直接 API 调用的选择、构建块、工作流与代理的模式 AI Echoes 人工智能
建立有效的代理代理与工作流的概念什么是代理？代理可以有多种定义。一部分客户将其视为能够独立运行、利用多种工具完成复杂任务的全自主系统；而另一部分客户则认为代理是按照预定义工作流程执行任务的系统。我们将这两种实现统称为“代理系统”，但在架构上做出区分：工作流是指通过预定义代码路径协调LLM与工具的组合；代理则是让LLM自主决定流程和工具使用，保持对任务执行过程的动态控制。何时使用代理？在使用LLM构
什么是代理？ AI Echoes 大数据运维
构建有效的代理什么是代理？"代理"的定义多样：完全自主的系统（长期独立运行，使用工具完成复杂任务）遵循预定义工作流的规范性实现在Anthropic的架构体系中：工作流：通过预定义代码路径编排LLM和工具代理：动态自主决策流程和工具使用的系统何时（不）使用代理基本原则：优先选择最简单的解决方案仅在必要时增加复杂性权衡考量：代理系统以延迟/成本换取任务性能明确定义任务→工作流（可预测性）灵活决策需求→
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
AI 大模型应用数据中心的数据分析架构 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《AI大模型应用数据中心的数据分析架构》关键词：数据中心、AI大模型、数据分析、架构设计、应用实践摘要：本文深入探讨了AI大模型在数据中心数据分析架构中的应用，从数据中心背景、AI大模型架构与技术、数据处理与分析技术、AI大模型应用与实践等多个方面，全面解析了AI大模型如何助力数据中心实现高效数据分析和智能处理，为读者提供了系统的理论指导和实际案例分析。第一部分:数据中心背景与AI大模型概述第1章
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
CSS3 用户界面设计指南 froginwe11 开发语言
CSS3用户界面设计指南引言随着互联网的快速发展，用户界面设计已经成为网站和应用程序吸引和留住用户的关键因素之一。CSS3，作为Web开发中的核心技术之一，提供了丰富的工具和特性来改善用户界面。本文将深入探讨CSS3在用户界面设计中的应用，包括基本概念、常用技巧以及实际案例分析。CSS3用户界面基本概念1.媒体查询媒体查询（MediaQueries）是CSS3的一个重要特性，它允许开发者根据不同的
XGBoost算法深度解析：从原理到实践彩旗工作室人工智能算法机器学习人工智能
一、算法起源与核心思想XGBoost（eXtremeGradientBoosting）由陈天奇于2014年提出，是梯度提升决策树（GBDT）的优化版本。其核心思想通过迭代集成弱学习器（CART树）逐步修正预测误差，并引入正则化机制控制模型复杂度，防止过拟合。与GBDT相比，XGBoost在目标函数中融合了损失函数（衡量预测误差）和正则化项（约束树结构与叶子权重），形成结构风险最小化框架，从而提升泛
appium入坑必备--详解uiautomator2，让你摆脱usb_appium uiautomator2 weixin_45933550 appium java python
APP元素定位+基本工具介绍万字详解基本操作uc-devtools与Airtest工具使用目录UiAutomatorUiautomator2环境搭建常用操作连接设备Wifi连接USB连接定位工具定位元素启动应用停止应用查包名定位方式ResourceId定位Text定位Description定位ClassName定位xpath定位坐标定位重复元素定位截图文件推送与拉取常用鼠标操作滑动屏幕解锁屏幕获取
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
地理信息系统（ArcGIS）在水文水资源及水环境中的应用：实践技术与案例分析深度剖析 KY_chenzhao arcgis GIS 水文水资源地理信息
随着全球工业化和经济的快速发展，水资源短缺、水污染等问题日益严峻，成为制约可持续发展的重大瓶颈。地理信息系统（GIS）以其强大的空间数据管理和分析能力，在水文水资源及水环境的研究和管理中展现出独特优势。本文将深入探讨ArcGIS在水文水资源及水环境中的实践技术应用，并通过案例分析，展示其在实际工作中的巨大潜力。一、ArcGIS简介及其在水文水资源中的应用优势ArcGIS是Esri公司开发的一款功能
我的创作纪念日：730天的技术写作之旅小李的便利店话题tips 纪念日
我的创作纪念日：730天的技术写作之旅机缘从一篇案例分析开始2023年3月13日，我写下了第一篇技术博客《软考高级-系统分析师-案例分析-系统维护与设计模式》。那时的初心很简单：沉淀实战经验——在备考软考系统分析师时，发现许多知识需要结合实践才能深入理解。技术交流——希望通过文章与同行探讨设计模式的应用场景，避免“纸上谈兵”。自我鞭策——用公开写作倒逼自己系统化梳理知识体系。没想到这一写，就走过了
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
AI工具使用手册：笑着学会让DeepSeek叫你主人 skyksksksksks AI个人杂记人工智能深度学习神经网络自然语言处理机器学习
【别慌！你的智商还没欠费】各位父老乡亲兄弟姐妹们，今天我们要研究的是这个号称"赛博菩萨"的DeepSeek。先说好了啊，这玩意儿绝对比你家二哈听话，比前男友靠谱，关键还不用买狗粮！下面这张表请含泪收藏：功能对比DeepSeek你家二哈前男友响应速度0.5秒拆家2小时起已读不回3天+知识储备全网数据只会要饭王者荣耀段位售后服务24小时在线随地大小便人间蒸发术使用成本网费电费狗粮+沙发钱青春损失费—我
基于大模型预测的巨细胞病毒视网膜炎诊疗全流程研究报告 LCG元围术期危险因子预测模型研究人工智能
目录一、引言1.1研究背景与意义1.2研究目的1.3研究方法与创新点二、巨细胞病毒视网膜炎概述2.1疾病定义与特点2.2流行病学分析2.3现有治疗手段综述三、大模型技术原理与应用现状3.1大模型介绍3.2在医疗领域的应用案例3.3选择大模型预测巨细胞病毒视网膜炎的原因四、术前预测与评估4.1数据收集与整理4.2大模型预测模型的构建4.3预测内容与指标4.4案例分析：术前预测实例展示五、术中方案制定
Selenium工具使用Python语言实现下拉框定位操作测试1998 职场和发展 python 软件测试自动化测试 selenium 测试用例测试工具
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快我们通常遇到的下拉框有显性的下拉框和隐性的下拉框；有的下拉框还可以进行单选或多选操作，在selenium中如何实现下拉框的定位通常使用select标签进行定位。对于一些页面中隐性的下拉框，则需要CSS/JS动态加载，非标准的HTMLSELECT元素，通过Python语言如何实现定位，让我们一起来研究一下吧.select的方法列表如下：显性
【Python实用教学篇】手把手4步教会你用Python连接数据库！田野猫咪数据库 python 开发语言
一，打开数据库(Mysql)服务二，用Sqlyog(回复yog获取sqlyog工具使用方法)连接自己要测试的数据库，创建测试用数据库和表三，打开PyCharm，(python开发2.*版本可以直接使用MySQL，python3.*版本需要下载使用PyMySQL包才能连接数据库)，按照下图方法安装PyMySql包1.ctrl+alt+s调出设置面板，选择project下的pythoninterpre
开源模型应用落地-qwen模型小试-Qwen-Agent（十一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言Qwen-Agent是一个利用开源语言模型Qwen的工具使用、规划和记忆功能的框架。其模块化设计允许开发人员创建具有特定功能的定制代理，为各种应用程序提供了坚实的基础。同时，开发者可以利用Qwen-Agent的原子组件构建智能代理，以理解和响应用户查询。二、术语2.1.Qwen-Agent是一个开发框架。开发者可基于本框架开发Agent应用，充分利用基于通义千问模型（Qwen）的指令遵循、
松鼠豆豆的坚果侦探社：一棵会长大的「吃货决策树」安意诚Matrix 机器学习故事汇决策树算法机器学习
松鼠豆豆的坚果侦探社：一棵会长大的「吃货决策树」秋日森林的烦恼秋分那天，小松鼠豆豆的树洞炸开了锅。"这是什么怪东西呀！“豆豆叼着一颗月牙形的坚果，爪子在满地的盲盒壳里扒拉——红肚皮的橡果、带刺的板栗、圆溜溜的山核桃，还有三颗长得一模一样的"迷你橄榄球”。昨天她刚因为咬到苦杏仁酸得跳脚，现在看着堆成小山的坚果，尾巴都愁成了毛球。"要想不踩雷，得学会给坚果分类！"妈妈松鼠啃着松果笑，"就像你小时候认蘑
kaggle竞赛（初识）薛定谔的码* 人工智能
PART0:Kaggle介绍Kaggle是什么？答案很简单Kaggle是数据挖掘比赛火起来的，以至于中国兴起了很多很多类似的比赛；Kaggle是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。Kaggle提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中与论坛上的其他参赛者互动，能
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
weka 决策树 marui1982 机器学习
1.参数说明：Generaloptions:-hor-helpOutputhelpinformation.-synopsisor-infoOutputsynopsisforclassifier(useinconjunctionwith-h)-t（trainfile，训练文件，通常训练时只需要此文件即可，会进行10交叉验证）Setstrainingfile.-T（测试文件，如果设置，则不进行交叉验证
梯度提升决策树（GBDT） binggorun 决策树算法机器学习
GBDT（GradientBoostingDecisionTree），全名叫梯度提升决策树，是一种迭代的决策树算法，又叫MART（MultipleAdditiveRegressionTree），它通过构造一组弱的学习器（树），并把多颗决策树的结果累加起来作为最终的预测输出。该算法将决策树与集成思想进行了有效的结合。原理GBDT的核心思想是将多个弱学习器（通常是决策树）组合成一个强大的预测模型。具体
利用busybox和mkfs.jffs2制作根文件系统浪子--赟 Working Notes mkfs.jffs2工具用法嵌入式根文件系统移植 jffs2根文件系统制作 hi3518c
PC机系统：Ubuntu12.04LTS目标板：海思3518CFlash类型：SPIFlash（16M）Busybox：BusyBox-1.16.1.tgz嵌入式交叉编译工具链：arm-hisiv100nptl-linux-gcc目标板根文件系统格式：JFFS2（在闪存上使用非常广泛的读/写文件系统）根文件系统制作工具：mkfs.jffs2一、mkfs.jffs2工具使用说明：mkfs.jffs2
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

数据挖掘RapidMiner工具使用----决策树案例分析

计算公式

你可能感兴趣的:(数据挖掘RapidMiner工具使用----决策树案例分析)