AiBigData

决策树算法，ID3,C4.5,CART原理，SparkMllib的鸢尾花实战

决策树算法原理

什么是决策树
- 现实生活中的树
  - 树根->树干->树枝->树叶
- 数据结构中的树
  - 树根结点
  - 分支结点
  - 叶子结点
- 机器学习中的树
  - 分支结点
  - 叶子结点
  - 数据集中的特征是分支节点、数据集中的类别标签列是叶子节点。
- 决策树的关键步骤是分裂属性。
  
  所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。
  
  而判断“纯”的方法不同引出了我们的ID3算法，C4.5算法以及CART算法
  - 参考资料
    - 深入浅出理解决策树算法（一）-核心思想
基于规则建树
- 规则是什么？
  - 业务专家给出的规则，这些规则当成是训练算法所需要的特征。
- 定性简历决策树和定量的简历决策树
  - 为什么需要从定量角度来分析呢？
    - 答：这样会更精确的分析用户的特征信息，给出销售人员更准确的数据信息。
基于模型的建树
- 总结构建决策树的三要素
  - 特征的选择：信息熵、信息增益、信息增益率、基尼系数
  - 决策树的生成：ID3,C4.5,Cart树
  - 决策树的剪枝：先剪枝、后剪枝
- 特征选择
  - 熵：物理学上度量能量分布不确定性的量。
  - 信息熵、香农熵：为了消除信息不确定性，代表随机变量的复杂度
    - 信息熵越大、信息的不确定性越大，信息的确定性越小，信息的纯度越低。
    - 信息熵越小、信息的不确定性越小，信息的确定性越大，信息的纯度越大。
    $HX=-\sum_{i=1}^{n}P_{(x_i)}log^{P_{(x_i)}}$
  - 条件熵
    - 在某一个条件下，随机变量的复杂度
    $H(Y|X)=\sum_{x \in X}P(x)log^{P(Y|X=x)}$
  - 信息增益
    - 信息增益=信息熵-条件熵
    - 信息增益代表了在一个条件下，信息复杂度（不确定性）减少的程度
  - 信息增益率
    - 用信息增益率来选择属性，克服用信息增益选择时候偏向选择取值多属性不足。
      $=\frac {Gain(D,A)} {H(A)}\\$
    - D为数据集、A为一个特征、其中H(A)为A的熵
  - 参考资料
    - 信息熵
    - 条件熵
    - 信息增益
    - 信息增益率
ID3算法、C4.5算法
- ID3
  - 在我们的ID3算法中，我们采取信息增益这个量来作为纯度的度量。我们选取使得信息增益最大的特征进行分裂！
  - 我们从上面求解信息增益的公式中，其实可以看出，信息增益准则其实是对可取值数目较多的属性有所偏好！
  - **因为每一个样本的编号都是不同的（由于编号独特唯一，条件熵为0了，每一个结点中只有一类，纯度非常高啊），也就是说，来了一个预测样本，你只要告诉我编号，其它特征就没有用了，**这样生成的决策树显然不具有泛化能力。
- C4.5
  - 使用了信息增益率这个量来作为纯度的度量。我们选取使得信息增益率最大的特征进行分裂！
  - **我们一开始分析到，**信息增益准则其实是对可取值数目较多的属性有所偏好！（比如上面提到的编号，可能取值是实例个数，最多了，分的类别越多，分到每一个子结点，子结点的纯度也就越可能大，因为数量少了嘛，可能在一个类的可能性就最大）。
  - 但是在前面分析了，并不是很好，所以我们需要除以一个属性的固定值（这个属性的熵），这个值要求随着分成的类别数越大而越小。于是让它做了分母。这样可以避免信息增益的缺点。
  - 那么信息增益率就是完美无瑕的吗？
    
    当然不是，有了这个分母之后，我们可以看到增益率准则其实对可取类别数目较少的特征有所偏好！毕竟分母越小，整体越大。
  - 于是C4.5算法不直接选择增益率最大的候选划分属性，候选划分属性中找出信息增益高于平均水平的属性（这样保证了大部分好的的特征），再从中选择增益率最高的（又保证了不会出现编号特征这种极端的情况）
- 深入浅出理解决策树算法（二）-ID3算法与C4.5算法
Cart树算法
- 简称：分类和回归树—和ID3、C4.5区别
  - 区别和联系：Cart树是二叉树，ID3和C4.5多棵决策树
  - Cart树在分类上使用的是集合Gini系数
    - 基尼系数如下：
    $Gini=\sum_{i=1}^{m}P_i(1-P_i)=1-\sum_{i=1}^{m}P_i^2$
    - GINI指数
    - 对每个特征 A，对它的所有可能取值 a，将数据集分为 A＝a D1，和 A!＝a D2 两个子集，计算集合 D 的基尼指数：
    $GINI(D,A)=\frac {|D_1|}{|D|}Gini(D_1)+\frac {|D_2|}{|D|}Gini(D_2)$
  - 回归问题上MSE(mean square error-sum)
    $\frac 1 m \sum_{i=1}^{m}(y_i-\overline{y_i})^2$
- 回归树
  - 选择最优的切分点和切分变量
  - 用选定的切分点和切分变量对原来的数据区域进行划分
  - 递归调用算法生成多区域的二叉回归树
- 是GBDT、XGBOOST算法的基础
- 分类树
  - 1对每个特征 A，对它的所有可能取值 a，将数据集分为 A＝a，和 A!＝a 两个子集，计算集合 D 的基尼指数.
  $GINI(D,A)=\frac {|D_1|}{|D|}Gini(D_1)+\frac {|D_2|}{|D|}Gini(D_2)$
  - 2遍历所有的特征 A，计算其所有可能取值 a 的基尼指数，选择 D 的基尼指数最小值对应的特征及切分点作为最优的划分，将数据分为两个子集。
  - 3对上述两个子节点递归调用步骤(1)(2), 直到满足停止条件。
  - 4生成 CART 决策树。
决策树、ID3、C4.5、Cart回归树、Cart分类树的剪枝问题还没有分析，每天分析下。

SparkMllib完成建模分析实践

鸢尾花iris实战，使用rdd方式

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.tree.DecisionTree
import org.apache.spark.mllib.tree.model.DecisionTreeModel
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object SparkMllibIris1 {
  def main(args: Array[String]): Unit = {
    // 1.准本环境
    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkMllibIris1Rdd")
    val sc = new SparkContext(conf)
    // 2.读取数据
    val path = "iris.csv"
    val rdd: RDD[String] = sc.textFile(path)
    //    rdd.foreach(println)
    //    6.2,3.4,5.4,2.3,Iris-virginica
    //    5.9,3.0,5.1,1.8,Iris-virginica
    // 3，特征工程
    // 3-1得到LabelPoint rdd中很多好用的API都没有，需要使用传统的方式进行特征提取，转换，选择
    var rddLp: RDD[LabeledPoint] = rdd.map(
      x => {
        val strings: Array[String] = x.split(",")
        regression.LabeledPoint(
          strings(4) match {
            case "Iris-setosa" => 0.0
            case "Iris-versicolor" => 1.0
            case "Iris-virginica" => 2.0
          }
        ,
          Vectors.dense(
            strings(0).toDouble,
            strings(1).toDouble,
            strings(2).toDouble,
            strings(3).toDouble))
      }
    )
//    rddLp.foreach(println)
//    (1.0,[6.0,2.9,4.5,1.5])
//    (0.0,[5.1,3.5,1.4,0.2])
    // 4. 分割数据集为训练集和测试集
    val Array(trainData,testData): Array[RDD[LabeledPoint]] = rddLp.randomSplit(Array(0.8,0.2))
    // 5. 构建模型
    val decisonModel: DecisionTreeModel = DecisionTree.trainClassifier(trainData,3, Map[Int, Int](),"gini",8,16)
    // 6. 得到测试集预测的结果，跟原有的标签共同构成一个元组，方便后面进行相应的计算
    // 而DataFrame中有相应的函数，可以帮助我们进行校验，RDD没有这方面的待遇，需要自己写相应的方法
    val result: RDD[(Double, Double)] = testData.map(
      x=> {
        val pre: Double = decisonModel.predict(x.features)
        (x.label,pre)
      }
    )
    val acc: Double = result.filter(x=>x._1==x._2).count().toDouble /result.count()
    println(acc)
    println("error", (1-acc))
//    0.9642857142857143
//    (error,0.0357142857142857)
  }
}

鸢尾花iris实战-DataFrame方式实现

import org.apache.spark.ml.classification.{DecisionTreeClassificationModel, DecisionTreeClassifier}
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
import org.apache.spark.ml.feature.{IndexToString, StringIndexer, StringIndexerModel, VectorAssembler}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object SparkMlIris2 {
  def main(args: Array[String]): Unit = {
    //    * 1-准备环境
    val sparkSession: SparkSession = SparkSession.builder().master("local[*]").appName("SparkMllibIris2").getOrCreate()
    //    * 2-准备数据
    // 2-1 通过CSV的方式来读取数据，官网有读取的方式 http://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html
    var path = "irisHeader.csv"
    // 注意要添加 .option("inferSchema", "true")，否则df schema 都是String类型的
    val df: DataFrame = sparkSession.read.format("csv").option("inferSchema", "true").option("header","true").option("sep",",").load(path)
//    df.printSchema()
//    root
//    |-- sepal_length: double (nullable = true)
//    |-- sepal_width: double (nullable = true)
//    |-- petal_length: double (nullable = true)
//    |-- petal_width: double (nullable = true)
//    |-- class: string (nullable = true)
    //df.show(false)
    //    +------------+-----------+------------+-----------+-----------+
//    |sepal_length|sepal_width|petal_length|petal_width|class      |
//    +------------+-----------+------------+-----------+-----------+
//    |5.1         |3.5        |1.4         |0.2        |Iris-setosa|
    //* 4-特征工程
    //4-1将4个特征整合为一个特征向量
    val assembler: VectorAssembler = new VectorAssembler().setInputCols(Array("sepal_length","sepal_width","petal_length","petal_width")).setOutputCol("features")
    val assmblerDf: DataFrame = assembler.transform(df)
    assmblerDf.show(false)
    //4-2将类别型class转变为数值型
    val stringIndex: StringIndexer = new StringIndexer().setInputCol("class").setOutputCol("label")
    val stingIndexModel: StringIndexerModel = stringIndex.fit(assmblerDf)
    val indexDf: DataFrame = stingIndexModel.transform(assmblerDf)
//    indexDf.show(false)
//    +------------+-----------+------------+-----------+-----------+-----------------+-----+
//    |sepal_length|sepal_width|petal_length|petal_width|class      |features         |label|
//      +------------+-----------+------------+-----------+-----------+-----------------+-----+
//    |5.1         |3.5        |1.4         |0.2        |Iris-setosa|[5.1,3.5,1.4,0.2]|0.0  |
//      |4.9         |3.0        |1.4         |0.2        |Iris-setosa|[4.9,3.0,1.4,0.2]|0.0  |
    //4-3将数据切分成两部分，分别为训练数据集和测试数据集
    val Array(trainData,testData): Array[Dataset[Row]] = indexDf.randomSplit(Array(0.8,0.2))
    //    * 5-准备计算法，设置特征列和标签列
    val classifier: DecisionTreeClassifier = new DecisionTreeClassifier().setFeaturesCol("features").setMaxBins(16).setImpurity("gini").setSeed(10)
    val dtcModel: DecisionTreeClassificationModel = classifier.fit(trainData)
    //    * 6-完成建模分析
    val trainPre: DataFrame = dtcModel.transform(trainData)
    //    * 7-预测分析
    val testPre: DataFrame = dtcModel.transform(testData)
    //    * 8-模型的校验或保存
    //val savePath = "E:\\ml\\workspace\\SparkMllibBase\\sparkmllib_part2\\DescitionTree\\model"
    //dtcModel.save(savePath)
//    trainPre.show(false)
//    +------------+-----------+------------+-----------+---------------+-----------------+-----+--------------+-------------+----------+
//    |sepal_length|sepal_width|petal_length|petal_width|class          |features         |label|rawPrediction |probability  |prediction|
//      +------------+-----------+------------+-----------+---------------+-----------------+-----+--------------+-------------+----------+
//    |4.3         |3.0        |1.1         |0.1        |Iris-setosa    |[4.3,3.0,1.1,0.1]|0.0  |[47.0,0.0,0.0]|[1.0,0.0,0.0]|0.0       |
//      |4.4         |2.9        |1.4         |0.2        |Iris-setosa    |[4.4,2.9,1.4,0.2]|0.0  |[47.0,0.0,0.0]|[1.0,0.0,0.0]|0.0       |
//    testPre.show(false)
//    +------------+-----------+------------+-----------+---------------+-----------------+-----+--------------+-------------+----------+
//    |sepal_length|sepal_width|petal_length|petal_width|class          |features         |label|rawPrediction |probability  |prediction|
//      +------------+-----------+------------+-----------+---------------+-----------------+-----+--------------+-------------+----------+
//    |4.6         |3.2        |1.4         |0.2        |Iris-setosa    |[4.6,3.2,1.4,0.2]|0.0  |[47.0,0.0,0.0]|[1.0,0.0,0.0]|0.0       |
//      |4.8         |3.4        |1.9         |0.2        |Iris-setosa    |[4.8,3.4,1.9,0.2]|0.0  |[47.0,0.0,0.0]|[1.0,0.0,0.0]|0.0       |
//      |5.0         |2.0        |3.5         |1.0        |Iris-versicolor|[5.0,2.0,3.5,1.0]|1.0  |[0.0,33.0,0.0]|[0.0,1.0,0.0]|1.0       |
    val acc: Double = new MulticlassClassificationEvaluator().setMetricName("accuracy").evaluate(testPre)
    println("acc is ", acc)
    println("err is", (1-acc))
    // 9-将测试集预测的索引类别标签转变回字符串类型的
    val indexToString: IndexToString = new IndexToString().setInputCol("prediction").setOutputCol("preStringLabel").setLabels(stingIndexModel.labels)
    val result: DataFrame = indexToString.transform(testPre)
//    result.show(false)
//    +------------+-----------+------------+-----------+---------------+-----------------+-----+--------------+-------------------------------------------+----------+---------------+
//    |sepal_length|sepal_width|petal_length|petal_width|class          |features         |label|rawPrediction |probability                                |prediction|preStringLabel |
//      +------------+-----------+------------+-----------+---------------+-----------------+-----+--------------+-------------------------------------------+----------+---------------+
//    |4.6         |3.6        |1.0         |0.2        |Iris-setosa    |[4.6,3.6,1.0,0.2]|0.0  |[38.0,0.0,0.0]|[1.0,0.0,0.0]                              |0.0       |Iris-setosa    |
//      |4.8         |3.4        |1.6         |0.2        |Iris-setosa    |[4.8,3.4,1.6,0.2]|0.0  |[38.0,0.0,0.0]|[1.0,0.0,0.0]                              |0.0       |Iris-setosa    |
  }
}

红队测试-代理和中间人攻击工具小浪崇礼
BetterCAP-Modular,portableandeasilyextensibleMITMframework.Ettercap-Comprehensive,maturesuiteformachine-in-the-middleattacks.Habu-Pythonutilityimplementingavarietyofnetworkattacks,suchasARPpoisoning,D
学习游戏制作记录（敌人的状态机，敌人和玩家的共同继承以及实现敌人的移动和待机）7.20 ★YUI★ 学习游戏 unity c#
1.敌人的状态机敌人的状态与玩家类似，同样需要敌人，敌人状态和管理状态的状态机，让我们创建三个脚本：Enemy，EnemyState，EnemyStateMachine。EnemyState脚本：publicclassEnemyState//不需要继承，因为它将作为父类{protectedEnemyStateMachineenemyStateMachine;//状态机protectedEnemye
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
ARM指令集--简介小蘑菇二号 arm 指令集
目录1ARM指令集特点2ARM指令集分类3指令格式ARM指令集是专为ARM架构处理器设计的一系列机器指令集合。ARM（AdvancedRISCMachines）以其精简指令集计算机（RISC）设计理念为基础，提供了高效、低功耗的指令系统。ARM指令集历经多个版本迭代，目前最新的主流版本包括ARMv8-A（支持AArch64和AArch32两种执行状态）。1ARM指令集特点-**精简指令集**：指令
李航老师-统计学习小三爷_df1b
三个准则1.作为入门选手，不要每章都看2.不要从零造轮子去实现算法，太浪费时间3.必须能手推公式章节目录##统计学习概论-统计学习的目的是对数据进行==预测与分析==-统计学习的前提是同类数据具有一定的统计规律性-统计学习的方法-监督学习(supervisedlearning)-非监督学习(unsupervisedlearning)-半监督学习(semi-supervisedlearning)-强
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
每日面试题11：JVM
深入理解JVM：Java的“心脏”如何驱动程序运行？为什么需要JVM？你是否想过，为什么用Java写的程序，能在Windows、Linux、macOS上“无缝运行”？为什么开发者无需为不同操作系统重写代码？这背后的核心功臣，正是Java虚拟机（JavaVirtualMachine，JVM）。JVM是Java生态的“基石”，它不仅实现了“一次编写，随处运行”的跨平台特性，还通过内存管理、垃圾回收等机
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
推荐项目： Few-Shot-Adversarial-Learning-for-face-swap 邱晋力
推荐项目：Few-Shot-Adversarial-Learning-for-face-swap去发现同类优质开源项目:https://gitcode.com/1、项目介绍Few-Shot-Adversarial-Learning-for-face-swap是一个基于PyTorch的开源实现，重演了三星AI实验室的一项前沿研究——“Few-ShotAdversarialLearningofReal
Real-World Blur Dataset for Learning and Benchmarking Deblurring Algorithms 钟屿深度学习
用于学习和评估去模糊算法的真实世界模糊数据集摘要近年来，针对相机抖动和物体运动模糊的单幅图像去模糊提出了许多基于学习的方法。为了将这些方法推广到真实世界的模糊场景，包含大量真实模糊图像及其对应的清晰真实图像（groundtruth）的数据集至关重要。然而，目前尚不存在这样的数据集，因此所有现有方法都依赖于合成数据集，这导致它们无法有效去除真实世界图像的模糊。在本工作中，我们提出了一个用于学习和评估
lanqiaoOJ 4330：欧拉函数模板 hnjzsyjyj 信息学竞赛 #算法数学基础欧拉函数
【题目来源】https://www.lanqiao.cn/problems/4330/learning/【问题描述】这是一道模板题。首先给出欧拉函数的定义：即φ(n)表示的是小于等于n的数中和n互质的数的个数。比如说φ(6)=2，当n是质数的时候，显然有φ(n)=n-1。【题目大意】给定n个正整数，请你求出每个数的欧拉函数。【输入格式】输入共两行。第一行输入一个整数表示n。第二行输入n个整数。【输
lanqiaoOJ 2122：数位排序 ← 排序（自定义比较函数）
【题目来源】https://www.lanqiao.cn/problems/2122/learning/【题目描述】小蓝对一个数的数位之和很感兴趣，今天他要按照数位之和给数排序。当两个数各个数位之和不同时，将数位和较小的排在前面，当数位之和相等时，将数值小的排在前面。例如，2022排在409前面，因为2022的数位之和是6，小于409的数位之和13。又如，6排在2022前面，因为它们的数位之和相同
lanqiaoOJ 2145：求阶乘 ← 二分法 hnjzsyjyj 信息学竞赛 #分治算法与双指针算法二分法
【题目来源】https://www.lanqiao.cn/problems/2145/learning/【题目描述】满足N！的末尾恰好有K个0的最小的N是多少？如果这样的N不存在输出-1。【输入格式】一个整数K。【输出格式】一个整数代表答案。【输入样例】2【输出样例】10【评测用例规模与约定】对于30%的数据，1≤K≤10^6.对于100%的数据，1≤K≤10^18.【算法分析】●二分法的应用条件
client-go: k8s选主
快速上手下面这个代码就是一个选主的大概逻辑packagemainimport("context""flag""fmt"_"net/http/pprof""os""path/filepath""time""golang.org/x/exp/rand"v1"k8s.io/api/core/v1"metav1"k8s.io/apimachinery/pkg/apis/meta/v1""k8s.io/ap
如何调整优化器的参数来优化神经网络性能？ Idividuals 深度学习神经网络机器学习 python scikit-learn
不同优化器有不同的可调整参数，下面以常见的优化器为例，讲解如何调整其参数来优化神经网络性能：Adam优化器Adam优化器有几个关键参数：learning_rate（学习率）、beta_1、beta_2和epsilon。1.学习率(learning_rate)-作用：控制每次参数更新的步长。学习率过大，模型可能无法收敛，在最优解附近振荡甚至发散；学习率过小，训练速度会非常缓慢。-调整方法：通常初始值
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
基于探路者算法优化的核极限学习机(KELM)分类算法智能算法研学社（Jack旭）智能优化算法应用机器学习 #核极限学习机（KELM）算法分类数据挖掘
基于探路者算法优化的核极限学习机(KELM)分类算法文章目录基于探路者算法优化的核极限学习机(KELM)分类算法1.KELM理论基础2.分类问题3.基于探路者算法优化的KELM4.测试结果5.Matlab代码摘要：本文利用探路者算法对核极限学习机(KELM)进行优化，并用于分类1.KELM理论基础核极限学习机（KernelBasedExtremeLearningMachine，KELM）是基于极限
【转】【译】How to Handle Very Long Sequences with LSTM（LSTM RNN 超长序列处理）开始奋斗的胖子机器学习 RNN LSTM 序列深度学习
原文地址http://machinelearningmastery.com/handle-long-sequences-long-short-term-memory-recurrent-neural-networks/一个长的输入序列却只对应一个或者一小段输出就是我们经常说的序列标注和序列分类。主要包括下面一些例子：包含上千个词的文件情感分类（NLP）包含上千个时间状态的脑电痕迹分类（Medici
KAIST：LLM混合递归推理大模型任我行大模型-推理优化人工智能自然语言处理语言模型论文笔记
标题：Mixture-of-Recursions:LearningDynamicRecursiveDepthsforAdaptiveToken-LevelComputation来源：arXiv,2507.10524摘要缩放语言模型解锁了令人印象深刻的能力，但伴随的计算和内存需求使训练和部署都很昂贵。现有的效率工作通常针对参数共享或自适应计算，留下了如何同时实现两者的问题。我们引入了混合递归(MoR
【HDLBits习题详解 2】Circuit - Sequential Logic（5）Finite State Machines 【更新中...】薄荷雪 fpga开发
1.Fsm1（SimpleFSM1-asynchronousreset）moduletop_module#(parameterA=0;parameterB=1;),(outputregout,inputclk,inputareset,inputin);regstate,next_state;//Outputlogic//assignout=(state==...);assignout=;alway
How to SSH into your Ubuntu machine from macOS as superuser captainOO7 Networking ssh ubuntu macos
ToSSHintoyourUbuntumachinefrommacOSassuperuser,you’llfirstconnectasaregularuser,thenelevateprivilegesonceloggedin.Here'showtodoitstepbystep:Step1:EnableSSHonUbuntuMakesuretheSSHserverisinstalledandrun
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
Python机器学习教程
Python机器学习教程(MachineLearningwithPythonTutorial)PDFVersionQuickGuideResourcesJobSearchDiscussionPDF版本快速指南资源资源求职讨论区MachineLearning(ML)isbasicallythatfieldofcomputersciencewiththehelpofwhichcomputersyste
【DW11月-深度学习】Task03前馈神经网络沫2021
参考链接：https://datawhalechina.github.io/unusual-deep-learning/#/4.%E5%89%8D%E9%A6%88%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C一、神经元模型2.1神经元1943年，美国神经生理学家沃伦·麦卡洛克(WarrenMcCulloch)和数学家沃尔特·皮茨(WalterPitts)对生物神经元进行
边缘智能革命：嵌入式机器学习如何让万物“思考” 万能小贤哥机器学习人工智能
当智能手表精准识别你的健身动作，工业传感器预测设备故障于毫秒之间，农业传感器自动调节灌溉水量——这些并非科幻场景，而是嵌入式机器学习（EmbeddedMachineLearning,或TinyML）正在悄然重塑的现实。这场发生在设备边缘的智能革命，正将AI从云端的数据中心拉近到我们指尖的每一台设备中。一、嵌入式机器学习：定义与核心价值嵌入式机器学习是指在资源极端受限的微控制器（MCU）、微处理器（
预测导管原位癌浸润性复发的深度学习：利用组织病理学图像和临床特征浪漫的诗人论文深度学习人工智能
文章目录研究内容目的方法数据集模型开发模型训练与评估外部验证统计分析研究结果模型性能风险分层外部验证特征重要性原文链接原文献：Deeplearningforpredictinginvasiverecurrenceofductalcarcinomainsitu:leveraginghistopathologyimagesandclinicalfeatures研究背景【DCIS与IBC的关联】乳腺导管
《How to Take Smart Notes》读书笔记1 LY320
最近在读一本书，题为《HowtoTakeSmartNotes:OneSimpleTechniquetoBoostWriting,LearningandThinking–forStudents,AcademicsandNonfictionBookWriters》1。尚未读完，分享一些读这本书的感想，我的一些心得，和不解。这本书让我觉得最有收获的点是更新了我对记录和整理笔记的认识。通常我们在记录笔记时
2021-03-22 每日打卡来多喜
昨日完成情况：1.完成了3k跑，太久没锻炼体力跟不上，没力气做帕梅拉了。2.MathematicsforMachineLearning:LinearAlgebra学完了week3和week4，week5还剩大概一个小时学完，没有开始做思维导图。早上跑步回来后看《你是我的城池堡垒》看了两个小时，虽然一边看一边洗碗，洗完碗一边看一边吃饭，但是从三点多才开始学习。重要的事情要先做！3.没有时间做Pyth
Opencv学习_2 （opencv结构&显示图像）
opencv结构：1：主要包含：cxcorecvmachinelearninghighguicvcamcvaux2：cxcore:基础结构:CvPoint,CvSize,CvScalar等数组结构:cvCreateImage,cvCreateMat等动态结构:CvMemStorage,CvMemBlock等绘图函数:cvLine,cvRectangle等数据保存和运行时类型信息：CvFileSto
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

决策树算法，ID3,C4.5,CART原理，SparkMllib的鸢尾花实战

决策树算法原理

你可能感兴趣的:(Machine,Learning)