辉常努腻

数据结构-集成算法-随机森林

数据结构-集成算法-随机森林 [内附spark-ml代码]

- 随机森林
- - - 集成算法
    - 随机森林的相关基础知识
  - 随机森林
  - 梯度提升树
  - 多层感知分类器

随机森林

集成模型指将基础模型组合成为一个模型。Spark 支持两种主要的集成算法：随机森林和梯度提升树。

集成算法

集成学习（ensemble learning）

是目前非常流行的机器学习策略，基本上所有问题都可以借用其思想来得到效果上的提升。基本出发点就是把算法和各种策略集中在一起，说白了就是一个搞不定大家一起上！集成学习既可以用于分类问题，也可以用于回归问题，在机器学习领域会经常看到它的身影，本章就来探讨一下几种经典的集成策略，并结合其应用进行通俗解读。

Bagging算法

集成算法有3个核心的思想：bagging、boosting和stacking，这几种集成策略还是非常好理解的，下面向大家逐一介绍。

并行的集成

Bagging即boostrap aggregating，其中boostrap是一种有放回的抽样方法，抽样策略是简单的随机抽样。其原理很直接，把多个基础模型放到一起，最后再求平均值即可，这里可以把决策树当作基础模型，其实基本上所有集成策略都是以树模型为基础的，公式如下：

首先对数据集进行随机采样，分别训练多个树模型，最终将其结果整合在一起即可，思想还是非常容易理解的，其中最具代表性的算法就是随机森林。

随机森林是机器学习中十分常用的算法，也是bagging集成策略中最实用的算法之一。那么随机和森林分别是什么意思呢？森林应该比较好理解，分别建立了多个决策树，把它们放到一起不就是森林吗？这些决策树都是为了解决同一任务建立的，最终的目标也都是一致的，最后将其结果来平均即可，如图所示

随机森林的特点

我们前边提到，随机森林是一种很灵活实用的方法，它有如下几个特点：

在当前所有算法中，具有极好的准确率 It is unexcelled in accuracy among current algorithms；
能够有效地运行在大数据集上 It runs efficiently on large data bases；
能够处理具有高维特征的输入样本，而且不需要降维 It can handle thousands of input variables without variable deletion；
能够评估各个特征在分类问题上的重要性 It gives estimates of what variables are important in the classification；
在生成过程中，能够获取到内部生成误差的一种无偏估计 It generates an internal unbiased estimate of the generalization error as the forest building progresses；
对于缺省值问题也能够获得很好得结果 It has an effective method for estimating missing data and maintains accuracy when a large proportion of the data are missing

随机森林的相关基础知识

1.信息、熵以及信息增益的概念

这三个基本概念是决策树的根本，是决策树利用特征来分类时，确定特征选取顺序的依据。理解了它们，决策树你也就了解了大概。

信息是用来消除随机不确定性的东西。当然这句话虽然经典，但是还是很难去搞明白这种东西到底是个什么样，可能在不同的地方来说，指的东西又不一样。对于机器学习中的决策树而言，如果带分类的事物集合可以划分为多个类别当中，则某个类（xi）的信息可以定义如下:

I(x)用来表示随机变量的信息，p(xi)指是当xi发生时的概率。
熵是用来度量不确定性的，当熵越大，X=xi的不确定性越大，反之越小。对于机器学习中的分类问题而言，熵越大即这个类别的不确定性更大，反之越小。
信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好。

信息

这个是熵和信息增益的基础概念，我觉得对于这个概念的理解更应该把他认为是一用名称，就比如‘鸡‘(加引号意思是说这个是名称)是用来修饰鸡(没加引号是说存在的动物即鸡)，‘狗’是用来修饰狗的，但是假如在鸡还未被命名为’鸡’的时候，鸡被命名为‘狗’，狗未被命名为‘狗’的时候，狗被命名为’鸡’，那么现在我们看到狗就会称其为‘鸡’，见到鸡的话会称其为‘鸡’，同理，信息应该是对一个抽象事物的命名，无论用不用‘信息’来命名这种抽象事物，或者用其他名称来命名这种抽象事物，这种抽象事物是客观存在的。

熵

既然信息已经说完，熵说起来就不会那么的抽象，更多的可能是概率论的定义，熵是约翰.冯.诺依曼建议使用的命名（当然是英文），最初原因是因为大家都不知道它是什么意思，在信息论和概率论中熵是对随机变量不确定性的度量,与上边联系起来，熵便是信息的期望值，可以记作：

熵只依赖X的分布，和X的取值没有关系，熵是用来度量不确定性，当熵越大，概率说X=xi的不确定性越大，反之越小，在机器学期中分类中说，熵越大即这个类别的不确定性更大，反之越小，当随机变量的取值为两个时，熵随概率的变化曲线如下图：

当p=0或p=1时，H§=0,随机变量完全没有不确定性，当p=0.5时，H§=1,此时随机变量的不确定性最大

条件熵

条件熵是用来解释信息增益而引入的概念，概率定义：随机变量X在给定条件下随机变量Y的条件熵，对定义描述为：X给定条件下Y的条件干率分布的熵对X的数学期望，在机器学习中为选定某个特征后的熵，公式如下：

这里可能会有疑惑，这个公式是对条件概率熵求期望，但是上边说是选定某个特征的熵，没错，是选定某个特征的熵，因为一个特征可以将待分类的事物集合分为多类，即一个特征对应着多个类别，因此在此的多个分类即为X的取值。

信息增益

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好，在概率中定义为：待分类的集合的熵和选定某个特征的条件熵之差（这里指的是经验熵或经验条件熵，由于真正的熵并不知道，是根据样本计算出来的），公式如下：

注意：这里不要理解偏差，因为上边说了熵是类别的，但是在这里又说是集合的熵，没区别，因为在计算熵的时候是根据各个类别对应的值求期望来等到熵

决策树

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。

随机森林的生成

前面提到，随机森林中有许多的分类树。我们要将一个输入样本进行分类，我们需要将输入样本输入到每棵树中进行分类。打个形象的比喻：森林中召开会议，讨论某个动物到底是老鼠还是松鼠，每棵树都要独立地发表自己对这个问题的看法，也就是每棵树都要投票。该动物到底是老鼠还是松鼠，要依据投票情况来确定，获得票数最多的类别就是森林的分类结果。森林中的每棵树都是独立的，99.9%不相关的树做出的预测结果涵盖所有的情况，这些预测结果将会彼此抵消。少数优秀的树的预测结果将会超脱于芸芸“噪音”，做出一个好的预测。将若干个弱分类器的分类结果进行投票选择，从而组成一个强分类器，这就是随机森林bagging的思想（关于bagging的一个有必要提及的问题：bagging的代价是不用单棵决策树来做预测，具体哪个变量起到重要作用变得未知，所以bagging改进了预测准确率但损失了解释性。）。下图可以形象地描述这个情况：

有了树我们就可以分类了，但是森林中的每棵树是怎么生成的呢？

每棵树的按照如下规则生成：

如果训练集大小为N，对于每棵树而言，随机且有放回地从训练集中的抽取N个训练样本（这种采样方式称为bootstrap sample方法），作为该树的训练集；

从这里我们可以知道：每棵树的训练集都是不同的，而且里面包含重复的训练样本（理解这点很重要）。

为什么要随机抽样训练集？

如果不进行随机抽样，每棵树的训练集都一样，那么最终训练出的树分类结果也是完全一样的，这样的话完全没有bagging(装袋)的必要；

为什么要有放回地抽样？

我理解的是这样的：如果不是有放回的抽样，那么每棵树的训练样本都是不同的，都是没有交集的，这样每棵树都是"有偏的"，都是绝对"片面的"（当然这样说可能不对），也就是说每棵树训练出来都是有很大的差异的；而随机森林最后分类取决于多棵树（弱分类器）的投票表决，这种表决应该是"求同"，因此使用完全不同的训练集来训练每棵树这样对最终分类结果是没有帮助的，这样无异于是"盲人摸象"。

如果每个样本的特征维度为M，指定一个常数m<
每棵树都尽最大程度的生长，并且没有剪枝过程。

一开始我们提到的随机森林中的“随机”就是指的这里的两个随机性。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入，使得随机森林不容易陷入过拟合，并且具有很好得抗噪能力（比如：对缺省值不敏感）。

随机森林分类效果（错误率）与两个因素有关：

森林中任意两棵树的相关性：相关性越大，错误率越大；
森林中每棵树的分类能力：每棵树的分类能力越强，整个森林的错误率越低。

减小特征选择个数m，树的相关性和分类能力也会相应的降低；增大m，两者也会随之增大。所以关键问题是如何选择最优的m（或者是范围），这也是随机森林唯一的一个参数。

随机森林

随机森林即决策树的集成，它由多个决策树组合而成。如决策树一样，随机森林能处理类别特征、支持多分类而且不需要特征缩放。
Spark MLlib 的随机森林算法同时支持二分类和多类别分类，以及连续型和类别型特征上的回归。
下面用 Spark 的随机森林算法来构建模型，在 StumbleUpon 数据集上进行训练，并得到在测试数据集上的评估指标。同样，数据会按照 9∶1 分为训练数据和测试数据。

def randomForestPipeline(vectorAssembler: VectorAssembler, dataFrame: DataFrame) = {
	val Array(training, test) = dataFrame.randomSplit(Array(0.9, 0.1), seed = 12345)
    // 设置 Pipeline
    val stages = new mutable.ArrayBuffer[PipelineStage]()
    val labelIndexer = new StringIndexer()
    .setInputCol("label")
    .setOutputCol("indexedLabel")
    stages += labelIndexer
    val RandomForest = new RandomForestClassifier()
    .setFeaturesCol(vectorAssembler.getOutputCol)
    .setLabelCol("indexedLabel")
    .setNumTrees(20)
    .setMaxDepth(5)
    .setMaxBins(32)
    .setMinInstancesPerNode(1)
    .setMinInfoGain(0.0)
    .setCacheNodeIds(false)
    .setCheckpointInterval(10)
    
    stages += vectorAssembler
    stages += RandomForest
    val pipeline = new Pipeline().setStages(stages.toArray)
    // 拟合 Pipeline
    val startTime = System.nanoTime()
    val model = pipeline.fit(training)
    val elapsedTime = (System.nanoTime() - startTime) / 1e9
    println(s"Training time: $elapsedTime seconds")
    val holdout = model.transform(test).select("prediction","label")
    // 选择(prediction, true label)并计算测试误差
    val evaluator = new MulticlassClassificationEvaluator()
    .setLabelCol("label")
    .setPredictionCol("prediction")
    .setMetricName("accuracy")
    val mAccuracy = evaluator.evaluate(holdout)
    println("Test set accuracy = " + mAccuracy)
}

其输出如下：
Accuracy: 0.348

在二维散点图中可视化预测数据和实际数据，其结果如下所示

梯度提升树

梯度提升树是决策树的集成。它迭代地对决策树进行训练以最小化损失函数。它能处理类别型特征、支持多类别分类且不需要特征缩放。
Spark MLlib 中梯度提升树是通过现有决策树的实现而实现的。它同时支持分类和回归。
下面用 Spark 的梯度提升树算法来构建模型，在 StumbleUpon 数据集上进行训练，并得到在测试数据集上的评估指标。同样，数据会按照 9∶1 分为训练数据和测试数据。代码如下：

val Array(training, test) = dataFrame.randomSplit(Array(0.9, 0.1), seed = 12345)
// 设置 Pipeline
val stages = new mutable.ArrayBuffer[PipelineStage]()
val labelIndexer = new StringIndexer()
.setInputCol("label")
.setOutputCol("indexedLabel")
stages += labelIndexer
// 创建梯度提升树模型
val gbt = new GBTClassifier()
.setFeaturesCol(vectorAssembler.getOutputCol)
.setLabelCol("indexedLabel")
.setMaxIter(10)
stages += vectorAssembler
stages += gbt
val pipeline = new Pipeline().setStages(stages.toArray)
// 拟合 Pipeline
val startTime = System.nanoTime()
val model = pipeline.fit(training)
val elapsedTime = (System.nanoTime() - startTime) / 1e9
println(s"Training time: $elapsedTime seconds")

val holdout = model.transform(test).select("prediction","label")
// 需将类型转为 RegressionMetrics
val rm = new RegressionMetrics(holdout.rdd.map(x => (x(0).asInstanceOf[Double],
x(1).asInstanceOf[Double])))
logger.info("Test Metrics")
logger.info("Test Explained Variance:")
logger.info(rm.explainedVariance)
logger.info("Test R^2 Coef:")
logger.info(rm.r2)
logger.info("Test MSE:")
logger.info(rm.meanSquaredError)
logger.info("Test RMSE:")
logger.info(rm.rootMeanSquaredError)
val predictions =
model.transform(test).select("prediction").rdd.map(_.getDouble(0))
val labels = model.transform(test).select("label").rdd.map(_.getDouble(0))
val accuracy = new MulticlassMetrics(predictions.zip(labels)).precision
println(s" Accuracy : $accuracy")

输出如下：
Accuracy: 0.3647

多层感知分类器

神经网络是一个复杂的自适应系统，它会借助各权重的变更而改变信息流，进而改变自己的内部结构。针对多层神经网络的权重优化过程也称为反向传播（backpropagation）。反向传播超出了本书讨论范围，另也涉及激活函数和基本的微积分知识。
多层感知分类器（multilayer perceptron classifier）基于前向反馈（feed-forward）人工神经网络。它由多个神经层构成，每层都与下一层全连接。其输入层的各节点对应输入数据。其他节点都会对经该节点的输入、相应的权重和偏置（bias）进行线性组合，再应用一个激活函数（activationfunction）或连接函数后，映射为对应的输出。
下面用 Spark 的多层感知分类器算法来构建模型，在 libsvm 样例数据集上进行训练，并得到在测试数据集上的评估指标。同样，数据会按照 6∶4 分为训练数据和测试数据。代码如下：

object MultilayerPerceptronClassifierExample {
    def main(args: Array[String]): Unit = {
        val spark = SparkSession
        .builder
        .appName("MultilayerPerceptronClassifierExample")
        .getOrCreate()
        // 将 LIBSVM 格式的数据载入并转为一个 DataFrame
        val data = spark.read.format("libsvm")
        .load("/Users/manpreet.singh/Sandbox/codehub/github/machinelearning/spark-ml
        /Chapter_06/2.0.0/scala-spark-app/src/main/scala/org/sparksamples/classification/
        dataset/spark-data/sample_multiclass_classification_data.txt")
        // 将数据分割为训练数据和测试数据
        val splits = data.randomSplit(Array(0.6, 0.4), seed = 1234L)
        val train = splits(0)
        val test = splits(1)
        // 指定神经网络的层:
        // 输入层有 4 个特征，中间的两层分别有 5 个特征和 4 个特征
        // 输出层的大小则为 3
        val layers = Array[Int](4, 5, 4, 3)
        // 创建并设置训练器
        val trainer = new MultilayerPerceptronClassifier()
        .setLayers(layers)
        .setBlockSize(128)
        .setSeed(1234L)
        .setMaxIter(100)
        // 训练模型
        val model = trainer.fit(train)
        // 计算在测试数据集上的准确度
        val result = model.transform(test)
        val predictionAndLabels = result.select("prediction", "label")
        val evaluator = new MulticlassClassificationEvaluator()
        .setMetricName("accuracy")
        println("Test set accuracy = " + evaluator.evaluate(predictionAndLabels))
        spark.stop()
    }
}

【MySQL】B树和B+树的区别？MySQL为什么选用B+树作为索引数据结构？熏鱼的小迷弟Liu 数据结构 mysql b树
B树和B+树的区别：结构方面：1.节点存储内容：B树：节点同时存储索引和数据。B+树：只有叶子节点存储数据记录或指向数据记录的指针，非叶子节点只存键值，用于索引。B+树的非叶子节点可以存储更多的键值，从而拥有更宽的分支。2.叶子结点关系：B树：叶子节点之间没有特定的顺序或指针连接，它们是独立的，查找不同叶子节点中的数据时可能需要多次随机访问磁盘。B+树：所有叶子节点通过双向链表，这种结构使得范围查
手机租赁系统开发核心技术解析红点租赁系统开发其他
内容概要如果把手机租赁系统比作一台精密运转的智能管家，那它的骨架可不是用代码随便搭的乐高积木。这玩意儿得同时搞定三件事：让用户像刷短视频一样流畅下单，让风控系统比小区门禁还难糊弄，还得让物流信息比外卖小哥的定位更透明。想象一下，当你在APP里滑动挑选最新款折叠屏手机时，后台其实正在上演三重加密的信用评分大战——你的芝麻信用分、电商平台消费记录甚至社交账号活跃度，都被塞进算法熔炉里炼成租赁权限的通行
深入理解Java集合框架：构建高效、灵活的数据管理方案漏洞猎人001 java 开发语言
深入理解Java集合框架：构建高效、灵活的数据管理方案引言Java集合框架（JavaCollectionsFramework,JCF）是Java语言提供的一套用于表示和操作集合的统一架构。它包含了一系列的接口和类，用于存储和操作对象集合，如列表（List）、集合（Set）、映射（Map）和队列（Queue）等。集合框架的设计初衷是为了提供一套灵活、可重用且类型安全的集合数据结构，帮助开发者以统一和
蓝桥杯Python赛道备赛——Day6：算术（二）（数学问题） SKY YEAM 蓝桥杯备赛蓝桥杯 python 职场和发展
本期博客是蓝桥杯备赛中算术（数学问题）的第二期，包括：快速幂算法、逆元（模意义下的倒数）、组合数计算和排列数计算。每一种数学问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法算术（二）（数学问题）一、快速幂算法二、逆元（模意义下的倒数）三、组合数计算四、排列数计算一、快速幂算法1.定义：快速计算大指数幂的算法。2.算法原理：二进
蓝桥杯Python赛道备赛——Day1：基础算法 SKY YEAM 蓝桥杯备赛蓝桥杯 python 算法
本博客就蓝桥杯中的基础算法（这一部分说是算法，但更是一些简单的操作）进行罗列，包括：枚举、模拟、前缀和、差分、二分查找、进制转换、贪心、位运算和双指针。每一个算法都在给出概念解释的同时，给出了示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法（2）PythonOOP（面向对象编程）基础算法（操作）一、枚举二、模拟三、前缀和四、差分五、二分查找六、进制转换七、贪心八、位运
数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】 kay_545 YOLO11改进有效涨点 python 人工智能机器学习
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转本专栏所有程序均经过测试，可成功执行专栏地址：YOLO11入门+改进涨点——点击即可跳转欢迎订阅目录json2txt脚本xml2txttxt2json
量子计算+AI：未来AI Agent的计算范式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶
量子计算+AI：未来AIAgent的计算范式关键词：量子计算，人工智能，AIAgent，量子算法，量子机器学习，量子优化，量子数据处理摘要：量子计算和人工智能（AI）的结合正在改变AIAgent的计算范式。通过量子计算的超强算力和独特性质，AIAgent在数据处理、算法优化和决策能力方面展现出巨大潜力。本文将详细探讨量子计算与AI结合的核心概念、算法原理、系统架构，并通过实际案例展示量子AIAge
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
Android第四次面试总结（基础算法篇）每次的天空 android 面试算法
一、反转链表//定义链表节点类classListNode{//节点存储的值intval;//指向下一个节点的引用ListNodenext;//构造函数，用于初始化节点的值ListNode(intx){val=x;}}classSolution{//反转链表的方法publicListNodereverseList(ListNodehead){//初始化前一个节点为nullListNodeprev=n
芒格的“清晰思考“方法在量子计算商业模式设计中的应用 AGI大模型与大数据研究院 DeepSeek 量子计算网络运维 ai
芒格的"清晰思考"方法在量子计算商业模式设计中的应用关键词：芒格、清晰思考方法、量子计算、商业模式设计、应用策略摘要：本文聚焦于将芒格的“清晰思考”方法应用于量子计算商业模式设计。首先介绍了背景信息，包括目的范围、预期读者等。接着阐述了核心概念，如“清晰思考”方法和量子计算商业模式的原理及联系，并给出相应示意图和流程图。详细讲解了核心算法原理及操作步骤，结合数学模型和公式进行说明。通过项目实战案例
【数据结构之树】武帝为此数据结构数据结构
文章目录一、前言二、树的基本概念1.什么是树？2.树的常见分类（1）普通树（2）二叉树（BinaryTree）（3）满二叉树（FullBinaryTree）（4）完全二叉树（CompleteBinaryTree）（5）二叉搜索树（BinarySearchTree,BST）（6）平衡二叉树（AVL树）（7）红黑树（Red-BlackTree）三、树的基本操作及代码示例1.二叉树的基本实现（C++）运
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
C语言：哈希表 %KT% C/C++算法数据结构 c语言散列表开发语言
1、文章声明：本文是基于链地址法建立的哈希表。文章中若存在错误，欢迎各路大佬指正。本文涉及二级指针，链表等内容。该方面的知识点，可以参考文章：数据结构：单链表的相关操作-CSDN博客C语言：利用二级指针动态创建二维矩阵-CSDN博客2、哈希表的介绍：哈希表其实可以理解成一种映射，通过映射关系来存储数据，有点类似于Python中的字典。常见的如数组，链表等存储结构，他们查询数据都有一个特点，往往需要
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
通俗的方式解释“零钱兑换”问题程序员龙一 C++C/C++每日一问 leetcode c++零钱兑换
“零钱兑换”是一道经典的算法题目，其主要问题是：给定不同面额的硬币和一个总金额，求出凑成总金额所需的最少硬币个数。如果没有任何一种硬币组合能组成总金额，返回-1。解题思路动态规划：使用动态规划是解决零钱兑换问题的常用方法。定义一个数组dp，其中dp[i]表示凑成金额i所需的最少硬币个数。状态转移方程：对于每个金额i，遍历所有硬币面额coin，如果i>=coin，则dp[i]=min(dp[i],d
【加密】常用加密算法 llzcxdb java 开发语言
非对称加密非对称加密是一种加密技术，也称为公钥加密。它使用一对密钥：公钥和私钥。公钥可以向任何人公开，用于加密信息，而私钥则是保密的，用于解密信息。这种加密方法确保了数据的安全传输，因为只有拥有对应私钥的人才能解密通过公钥加密的信息。非对称加密的一个主要特点是，即使公钥被他人获取，他们也无法解密密文，因为缺乏与之配对的私钥。常见的非对称加密算法包括RSA、椭圆曲线加密（ECC）和数字签名算法（DS
（PTA）数据结构（作业）6、队列 MapleInori 数据结构数据结构算法 c++
栈是后进先出的线性表（LastInFirstOut，LIFO），插入和删除的操作都在栈顶进行。队列是先进先出的线性表（FirstInFirstOut，FIFO），插入在队尾进行，删除在队头进行。循环队列的两种区别队满和队空的方式，1）少用一个元素，即当队列空间大小为m时，有m-1个元素就默认时队满。队空的条件：Q.front==Q.rear队满的条件：(Q.rear+1)%m==Q.front2）
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【数据结构-合法括号字符串】力扣1963. 使字符串平衡的最小交换次数 hlc@ 数据结构数据结构 leetcode 算法
给你一个字符串s，下标从0开始，且长度为偶数n。字符串恰好由n/2个开括号‘[’和n/2个闭括号‘]’组成。只有能满足下述所有条件的字符串才能称为平衡字符串：字符串是一个空字符串，或者字符串可以记作AB，其中A和B都是平衡字符串，或者字符串可以写成[C]，其中C是一个平衡字符串。你可以交换任意两个下标所对应的括号任意次数。返回使s变成平衡字符串所需要的最小交换次数。示例1：输入：s=“][][”输
JavaScript 性能优化实战：数据结构选择对性能的影响 deying0865423 开发语言 javascript
目录数组（Array）特点与适用场景性能短板链表（LinkedList）特点与适用场景性能短板集合（Set）特点与适用场景性能短板映射（Map）特点与适用场景性能短板栈（Stack）与队列（Queue）特点与适用场景性能短板在JavaScript开发中，数据结构的选择如同搭建房屋时选择合适的建筑材料，对程序性能起着决定性作用。合理的数据结构能显著提升代码执行效率，减少资源消耗，反之则可能导致性能瓶
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
动态规划-第4篇藤椒味的火腿肠真不错动态规划算法
19.最⼤⼦数组和（medium）1.题⽬链接：53.最大子数组和-力扣（LeetCode）2..解法（动态规划）：算法思路：1.状态表⽰：对于线性dp，我们可以⽤「经验+题⽬要求」来定义状态表⽰：i.以某个位置为结尾，巴拉巴拉；ii.以某个位置为起点，巴拉巴拉。这⾥我们选择⽐较常⽤的⽅式，以「某个位置为结尾」，结合「题⽬要求」，定义⼀个状态表⽰：dp[i]表⽰：以i位置元素为结尾的「所有⼦数组」
机器学习Pandas_learn4 XW-ABAP 机器学习机器学习 pandas 人工智能
importpandasaspddefcalculate_goods_covariance():#定义商品销售数据字典goods_sales_data={"时期":["一期","二期","三期","四期"],"苹果":[15,16,3,2],"橘子":[12,14,16,18],"石榴":[11,8,7,1]}#将字典转换为DataFrame对象goods_dataframe=pd.DataFra
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
光学工程师中年危机光学设计培训激光雷达光学设计 zemax 光学光学工程
一、技术能力突围：向高价值领域迁移‌‌瞄准增量市场‌‌激光雷达与自动驾驶‌：将光学设计经验迁移至激光雷达光路优化（如VCSEL阵列准直算法）、热稳定性补偿算法（解决车载环境温度漂移问题）‌15。‌AR/VR光学模组‌：参与超表面透镜（Metasurface）设计，结合波导与全息技术提升显示效率，掌握LightTools或LucidShape光场仿真‌37。‌强化算法能力‌‌光学-算法交叉技能‌：从
P11451 [USACO24DEC] It‘s Mooin‘ Time B（枚举算法）爱干饭的boy 算法竞赛题目超详细解析算法 c语言 c++青少年编程贪心算法推荐算法
题目描述FarmerJohn正在试图向Elsie描述他最喜欢的USACO竞赛，但她很难理解为什么他这么喜欢它。他说「竞赛中我最喜欢的部分是Bessie说『现在是哞哞时间』并在整个竞赛中一直哞哞叫」。Elsie仍然不理解，所以FarmerJohn将竞赛以文本文件形式下载，并试图解释他的意思。竞赛被定义为一个长度为$N$（$3≤N≤20000$）的小写字母字符串。一种哞叫一般地定义为子串$c_ic_j
高亮动态物体——前景提取与动态物体检测器（opencv实现） WenJGo AI学习之路 Python之路 opencv 计算机视觉人工智能深度学习神经网络
目录代码说明1.导入库2.创建背景建模对象3.打开视频源4.逐帧处理视频5.应用背景建模获得前景掩码6.形态学操作去除噪声6.1定义形态学核6.2开运算去除噪点6.3膨胀操作填补前景区域空洞7.轮廓检测识别动态物体8.绘制轮廓和边界框9.显示处理结果10.退出控制与资源释放整体代码效果展示代码说明主要功能是通过背景建模检测视频中的运动目标。其工作流程如下：读取视频帧；利用MOG2算法生成前景掩码；
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

数据结构-集成算法-随机森林

数据结构-集成算法-随机森林 [内附spark-ml代码]

随机森林

集成算法

随机森林的相关基础知识

随机森林

梯度提升树

多层感知分类器

你可能感兴趣的:(机器学习,spark,数据结构,算法,随机森林,机器学习)