阿雅Yage

k-means/k-means++算法的笔记及scala实现

前言

自己看博客也有很长一段时间了，突然想尝试着自己写一写，这段时间一直在入门机器学习的算法同时也参考了一些书籍，博客文章（无奈小白一枚，这些内容我会列在最后），现在做一个学习的总结，算是笔记吧，与君共勉~

一、小谈聚类与分类

聚类分类不同，简单来说，分类是在已知类别（事先定义好类别）的情况下，从一堆带有标签的数据集中训练出一个分类器，预测未知标签数据的所属类别；而聚类是在未知类别（事先没有定义类别，类别数不确定）的情况下，将不带标签的数据集划分为几类（簇）的过程。聚类的目的就是把不同的数据点按照它们的相似与相异度分割成不同的簇（注意：簇就是把数据划分后的子集），确保每个簇中的数据都是尽可能相似，而不同的簇里的数据尽可能的相异。。

二、基本k-means算法

2.1 概述

k-means算法的基本思想是随机初始化k个簇中心，k需要事先人为指定即所期望的簇的个数，将每个样本点指派到离自己最近的簇中心，指派到同一个簇中心的所有点集形成一个簇，然后更新每个簇的中心，重复指派和更新两个步骤，直到簇中心不再有大的变化。

2.2 代价函数

在程序中，我指定所有点到其所属簇中心的距离的平方和即误差的平方和（sum of the squared error，SSE）作为代价函数，我们的目标是通过迭代更新簇中心来最小化这个代价函数。

SSE = $\displaystyle\sum_{i=1}^{K}\sum_{x\epsilon C_i} ||x,c_i||^2$

符号	描写
x	样本点
$C_i$	第i个簇
$c_i$	簇 $c_i$ 的中心
m	数据集中样本点的个数
K	簇的个数

2.3 算法主要步骤

k-means算法主要步骤如下：
1: 随机选取k个点作为簇中心
2: repeat
3: 　　计算每个样本点到各簇中心的距离，并聚类到离自己最近的簇中心
4: 　　对每个簇类中的点计算平均值，将均值作为新的簇中心
5: until 代价函数不发生大的变化

Tips:
随机初始化k个点时一定要保证k个点互异，程序中我随机生成k个整数（代表样本集数组中的下标），并判断其是否重复，若不加控制会生成重复的随机数即实际上初始化的中心点个数

上述的步骤3和4试图直接最小化代价函数SSE，步骤3通过将点指派到最近的簇中心形成聚类，固定簇心集的情况下最小化SSE，步骤4重新选择簇心，进一步最小化SSE，每一次的迭代都在减小SSE。然而只能确保找到关于SSE的局部最优解，因为每次迭代都针对选定的簇心和簇，而不是对所有可能的选择来最小化。

2.4 选择初始簇心

在运行k-means算法前，我们首先要选择适当的初始簇心点，这是算法过程的关键步骤，常见的方法是按以下原则随机地初始化簇心点：

我们应该选择K
随机选择K个样本点作为初始簇中心点

但是这样的随机初始化簇心可能会使聚类效果不好，即让SSE停留在一个局部最小值处，这里我用《数据挖掘导论》中的例图来说明（自己实在是难以画图…）

图1中有四类点集，分别以不同形状表示，第一次迭代时，随机初始四个点作为簇中心，最后得到比较好的聚类效果，四类不同形状的点集都单独作为一类。

　　
图2中相同的四类点集，第一次迭代时随机选择四个簇中心，可以看到此时四个中心点在分布上较图1中有所不同，迭代数次后，最后得到的聚类效果较差，把本该是两类的点集合并为一个类，本该是一类的点集分裂成了两类。

2.5 聚类数的选择

对于聚类数Ｋ值的选取，并没有所谓最好的方法，通常是需要根据不同的问题，人工进行选择，我们会用一个所谓的“肘部法则”来帮助选择Ｋ值的大小，这里我借用一下Ng公开课的PPT。

　　
横坐标是不同的Ｋ值，纵坐标则是我们的代价函数即SSE，每选取一个K值，运行一次k-means算法，得到SSE的收敛值，可以看出K等于某一个值时，图中出现一个明显的拐点，在这个拐点之前，代价函数值下降得很快，在该点之后，代价函数值下降得很慢，则选取这个拐点作为K的大小，这是一种合理的方法，然而并非总是有效的。

2.6 代码实现

package KMeans
import scala.collection.mutable
import scala.io.Source
import scala.util.Random
object Kmeans {
  val k = 2 //类个数
  val dim = 3 //数据集维度
  val shold = 0.0000000001 //阈值，用于判断聚类中心偏移量
  val centers = new Array[Vector[Double]](k) //聚类中心点（迭代更新）
  def main(args: Array[String]): Unit = {
  //处理输入数据
    val fileName = "D:\\kmeans_data.txt"
    val lines = Source.fromFile(fileName).getLines()
    val points = lines.map(line => {//数据预处理
       val parts = line.split(" ").map(_.toDouble)
       var vector = Vector[Double]()
       for(i <- 0 to dim - 1)
         vector ++= Vector(parts(i))
       vector
    }).toArray
    initialCenters(points)
    kmeans(points,centers)
    printResult(points,centers)
  }
  //-------------------------------------随机初始化聚类中心---------------------------------------------------
  def initialCenters(points:Array[Vector[Double]]) = {
    val pointsNum = points.length//数据集个数
  //寻找k个随机数(作为数据集的下标)
    val random  = new Random()
    var index = 0
    var flag = true
    var temp = 0
    var array = new mutable.LinkedList[Int]()//保存随机下标号
    while(index < k ){
      temp = new Random().nextInt(pointsNum)
      flag = true
      if (array.contains(temp)){//在数组中存在
        flag = false
      }
      else {
        if (flag){
          array = array :+ temp
          index+=1
        }
      }//else-end
    }//while-end
    for(i <- 0 to centers.length - 1){
      centers(i) = points(array(i))
      println("初始化中心点如下：")
      println(array(i))
      println(centers(i))
    }
  }
  //---------------------------迭代做聚类-------------------------------------
  def kmeans(points:Array[Vector[Double]],centers:Array[Vector[Double]]) = {
    var bool = true
    var newCenters = Array[Vector[Double]]()
    var move = 0.0
    var currentCost = 0.0 //当前的代价函数值
    var newCost = 0.0
    //根据每个样本点最近的聚类中心进行groupBy分组，最后得到的cluster是Map[Vector[Double],Array[Vector[Double]]]
    //Map中的key就是聚类中心，value就是依赖于该聚类中心的点集
    while(bool){//迭代更新聚类中心，直到最优
      move = 0.0
      currentCost = computeCost(points,centers)
      val cluster = points.groupBy(v => closestCenter(centers,v))
      newCenters =
        centers.map(oldCenter => {
          cluster.get(oldCenter) match {//找到该聚类中心所拥有的点集
          case Some(pointsInThisCluster) =>
            //均值作为新的聚类中心
             vectorDivide(pointsInThisCluster.reduceLeft((v1,v2) => vectorAdd(v1,v2)),pointsInThisCluster.length)
          case None => oldCenter
          }
        })
      for(i <- 0 to centers.length - 1){
        //move += math.sqrt(vectorDis(newCenters(i),centers(i)))
        centers(i) = newCenters(i)
      }
     /* if(move <= shold){
        bool = false
      }*/
      newCost = computeCost(points,centers)//新的代价函数值
      println("当前代价函数值：" + currentCost)
      println("新的代价函数值：" + newCost)
      if(math.sqrt(vectorDis(Vector(currentCost),Vector(newCost))) < shold)
        bool = false
    }//while-end
    println("寻找到的最优中心点如下：")
    for(i <- 0 to centers.length - 1){
      println(centers(i))
    }
  }
  //--------------------------输出聚类结果-----------------------------
  def printResult(points:Array[Vector[Double]],centers:Array[Vector[Double]]) = {
  //将每个点的聚类中心用centers中的下标表示，属于同一类的点拥有相同的下标
    val pointsNum = points.length
    val pointsLabel = new Array[Int](pointsNum)
    var closetCenter = Vector[Double]()
    println("聚类结果如下：")
    for(i <- 0 to pointsNum - 1){
      closetCenter = centers.reduceLeft((c1,c2) => if (vectorDis(c1,points(i)) < vectorDis(c2,points(i))) c1 else c2)
      pointsLabel(i) = centers.indexOf(closetCenter)
      println(points(i) + "-----------" + pointsLabel(i))
    }

  }
  //--------------------------找到某样本点所属的聚类中心-----------------------------
  def closestCenter(centers:Array[Vector[Double]],v:Vector[Double]):Vector[Double] = {
    centers.reduceLeft((c1,c2) =>
      if(vectorDis(c1,v) < vectorDis(c2,v)) c1 else c2
    )
  }
  //--------------------------计算代价函数（每个样本点到聚类中心的距离之和不再有很大变化）-----------------------------
  def computeCost(points:Array[Vector[Double]],centers:Array[Vector[Double]]):Double = {
    //cluster:Map[Vector[Double],Array[Vector[Double]]
    val cluster = points.groupBy(v => closestCenter(centers,v))
    var costSum = 0.0
    //var subSets = Array[Vector[Double]]()
    for(i <- 0 to centers.length - 1){
      cluster.get(centers(i)) match{
        case Some(subSets) =>
          for(j <- 0 to subSets.length - 1){
            costSum += (vectorDis(centers(i),subSets(j)) * vectorDis(centers(i),subSets(j)))
          }
        case None => costSum = costSum
      }
    }
    costSum
  }
  //--------------------------自定义向量间的运算-----------------------------
  //--------------------------向量间的欧式距离-----------------------------
  def vectorDis(v1: Vector[Double], v2: Vector[Double]):Double = {
    var distance = 0.0
    for(i <- 0 to v1.length - 1){
      distance += (v1(i) - v2(i)) * (v1(i) - v2(i))
    }
    distance = math.sqrt(distance)
    distance
  }
  //--------------------------向量加法-----------------------------
  def vectorAdd(v1:Vector[Double],v2:Vector[Double]):Vector[Double] = {
    var v3 = v1
    for(i <- 0 to v1.length - 1){
     v3 = v3.updated(i,v1(i) + v2(i))
    }
    v3
  }
  //--------------------------向量除法-----------------------------
  def vectorDivide(v:Vector[Double],num:Int):Vector[Double] = {
    var r = v
    for(i <- 0 to v.length - 1){
      r = r.updated(i,r(i) / num)
    }
    r
  }
}

所用的数据集如下（简单的不能再简单的数据集了-_-）：
　　0.0 0.0 0.0
　　0.1 0.1 0.1
　　0.2 0.2 0.2
　　…省略…
　　9.0 9.0 9.0
　　9.1 9.1 9.1
　　9.2 9.2 9.2
　　运行结果如下：

随机初始化中心点如下：
12
Vector(4.0, 4.0, 4.0)
26
Vector(8.2, 8.2, 8.2)
18
Vector(6.0, 6.0, 6.0)
当前代价函数值：277.38
新的代价函数值：108.55218750000003
当前代价函数值：108.55218750000003
新的代价函数值：92.00698224852073
当前代价函数值：92.00698224852073
新的代价函数值：83.08516875
当前代价函数值：83.08516875
新的代价函数值：81.60000000000001
当前代价函数值：81.60000000000001
新的代价函数值：81.60000000000001
寻找到的最优中心点如下：
Vector(1.6000000000000003, 1.6000000000000003, 1.6000000000000003)
Vector(8.1, 8.1, 8.1)
Vector(5.1, 5.1, 5.1)
聚类结果如下：
Vector(0.0, 0.0, 0.0)-----------0
Vector(0.1, 0.1, 0.1)-----------0
Vector(0.2, 0.2, 0.2)-----------0
Vector(1.0, 1.0, 1.0)-----------0
Vector(1.1, 1.1, 1.1)-----------0
Vector(1.2, 1.2, 1.2)-----------0
Vector(2.0, 2.0, 2.0)-----------0
Vector(2.1, 2.1, 2.1)-----------0
Vector(2.2, 2.2, 2.2)-----------0
Vector(3.0, 3.0, 3.0)-----------0
Vector(3.1, 3.1, 3.1)-----------0
Vector(3.2, 3.2, 3.2)-----------0
Vector(4.0, 4.0, 4.0)-----------2
Vector(4.1, 4.1, 4.1)-----------2
Vector(4.2, 4.2, 4.2)-----------2
Vector(5.0, 5.0, 5.0)-----------2
Vector(5.1, 5.1, 5.1)-----------2
Vector(5.2, 5.2, 5.2)-----------2
Vector(6.0, 6.0, 6.0)-----------2
Vector(6.1, 6.1, 6.1)-----------2
Vector(6.2, 6.2, 6.2)-----------2
Vector(7.0, 7.0, 7.0)-----------1
Vector(7.1, 7.1, 7.1)-----------1
Vector(7.2, 7.2, 7.2)-----------1
Vector(8.0, 8.0, 8.0)-----------1
Vector(8.1, 8.1, 8.1)-----------1
Vector(8.2, 8.2, 8.2)-----------1
Vector(9.0, 9.0, 9.0)-----------1
Vector(9.1, 9.1, 9.1)-----------1
Vector(9.2, 9.2, 9.2)-----------1

三、k-means++算法

3.1 概述

对于初始化簇中心点，我们可以在输入的数据集中随机地选择k个点作为中心点，但是随机选择初始中心点可能会造成聚类的结果和数据的实际分布相差很大。k-means++就是选择初始中心点的一种算法，其基本思想就是：初始的聚类中心之间的相互距离要尽可能远。

3.2 算法主要步骤

1）从输入的数据点集合中随机选择一个点作为第一个聚类中心
2）repeat
3）　　对于数据集中的每一个样本点x，计算它与最近聚类中心（指已选择的聚类中心）的距离D(x)
4）　　选择一个新的数据点作为下一个聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大　　
5）until k个聚类中心被选出来
6）利用这k个初始的聚类中心来运行标准的k-means算法

从上面的算法描述可以看到，算法的关键是第4步，如何将D(x)反映到点被选择的概率上。一种算法如下：

1）随机从点集中选择一个点作为初始中心点
2）repeat
3）　　计算每一个点到最近中心点的距离 $S_i$ ，对所有 $S_i$ 求和得到sum
4）　　然后再取一个随机值，用权重的方式计算下一个“种子点”。取随机值random（0 $S_i$

Tips:
执行步骤4的过程中，我添加了i是否重复的判断，保证取到的中心点互异，否则循环再生成一个随机值，计算判断，直到i不同
　　
这里的random可以这么取：random = sum * r，r $\epsilon$ (0,1)，程序中一定要保证r的范围是大于0且小于1，否则r有可能取0，影响下一个中心点的选取（自己当时也没有注意这个小细节，以致于运行程序时发现选择的初始中心点相互之间距离非常近）

关于D(x)较大的点，被选为下一个中心点的概率较大，可以用如下图解释（借用七月课程PPT）

上图中，有5个样本点，Dc1和Dc2为已知的两个聚类中心点，计算出各点到最近的中心点的距离后，可以看到 $x_2$ 对应的距离最大，其相应的权重最大，被选到的作为下一个中心点的概率也最大，更直观点的话如下图

　　
random=11，循环到i=2时，random=-2<0,则 $x_2$ 为下一个中心点

3.3 代码实现

//---------------------------k-means++初始化聚类中心-------------------------------------
  def kmeansppInitial(points:Array[Vector[Double]]) = {
    val pointsNum = points.length//数据集个数
    val random  = new Random()
    var kSum = 1
    var flag = true
    var temp = random.nextInt(pointsNum)//选择第一个随机数（下标）
    var array = new mutable.LinkedList[Int]()//保存随机下标号
    var updatedCenters = new mutable.LinkedList[Vector[Double]]()//迭代添加元素的聚类中心数组
    var sum = 0.0
    var randomSeed = 0.0
    var pointsAndDist = Array[Double]()//保存每个样本点对应到各自聚类中心的距离
    var j = 0
    array = array :+ temp
    updatedCenters = updatedCenters :+ points(temp)//将随机选择的点作为第一个聚类中心
    while(kSum < k ){
      pointsAndDist = points.map(v => //计算每个样本点与它所属的聚类中心的距离
        vectorDis(v,closestCenter(updatedCenters.toArray,v))
      )
      sum = pointsAndDist.reduceLeft((a,b) => a + b)
      println("sum=="+ sum)
      flag = true
      while(flag){
        randomSeed = sum * (random.nextInt(100) + 1) / 100
        breakable{
          for(i <- 0 to pointsAndDist.length - 1){
            randomSeed -= pointsAndDist(i)
            if(randomSeed < 0){
              j = i
              break
            }
          }
        }
        if(array.contains(j)){//求得的新中心点的下标在数组中存在
          flag= true
        }else{
          array = array :+ j
          updatedCenters = updatedCenters :+ points(j)
          flag = false
          kSum += 1
        }
      }

    }//while-end
    println("kmean++初始化中心点如下：")
    for(i <- 0 to updatedCenters.length - 1){
      centers(i) = updatedCenters(i)
      println(array(i))
      println(centers(i))
    }
  }

运行结果如下：

kmean++初始化中心点如下：
0
Vector(0.0, 0.0, 0.0)
16
Vector(5.1, 5.1, 5.1)
27
Vector(9.0, 9.0, 9.0)
当前代价函数值：143.97000000000006
新的代价函数值：83.33745099852068
当前代价函数值：83.33745099852068
新的代价函数值：81.59999999999998
当前代价函数值：81.59999999999998
新的代价函数值：81.59999999999998
寻找到的最优中心点如下：
Vector(1.1000000000000003, 1.1000000000000003, 1.1000000000000003)
Vector(4.6000000000000005, 4.6000000000000005, 4.6000000000000005)
Vector(8.1, 8.1, 8.1)
聚类结果如下：
Vector(0.0, 0.0, 0.0)-----------0
Vector(0.1, 0.1, 0.1)-----------0
Vector(0.2, 0.2, 0.2)-----------0
Vector(1.0, 1.0, 1.0)-----------0
Vector(1.1, 1.1, 1.1)-----------0
Vector(1.2, 1.2, 1.2)-----------0
Vector(2.0, 2.0, 2.0)-----------0
Vector(2.1, 2.1, 2.1)-----------0
Vector(2.2, 2.2, 2.2)-----------0
Vector(3.0, 3.0, 3.0)-----------1
Vector(3.1, 3.1, 3.1)-----------1
Vector(3.2, 3.2, 3.2)-----------1
Vector(4.0, 4.0, 4.0)-----------1
Vector(4.1, 4.1, 4.1)-----------1
Vector(4.2, 4.2, 4.2)-----------1
Vector(5.0, 5.0, 5.0)-----------1
Vector(5.1, 5.1, 5.1)-----------1
Vector(5.2, 5.2, 5.2)-----------1
Vector(6.0, 6.0, 6.0)-----------1
Vector(6.1, 6.1, 6.1)-----------1
Vector(6.2, 6.2, 6.2)-----------1
Vector(7.0, 7.0, 7.0)-----------2
Vector(7.1, 7.1, 7.1)-----------2
Vector(7.2, 7.2, 7.2)-----------2
Vector(8.0, 8.0, 8.0)-----------2
Vector(8.1, 8.1, 8.1)-----------2
Vector(8.2, 8.2, 8.2)-----------2
Vector(9.0, 9.0, 9.0)-----------2
Vector(9.1, 9.1, 9.1)-----------2
Vector(9.2, 9.2, 9.2)-----------2

----参考文献-----

1: 《数据挖掘导论》
2: 《Spark MLlib机器学习》
3: http://blog.csdn.net/u014512572/article/details/53096465
4: https://www.cnblogs.com/nocml/p/5150756.html

量化投资策略的生命周期：从设计到淘汰云策量化量化投资自动化交易程序化炒股量化炒股 miniQMT 量化交易 QMT 量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？散户可以申请吗？》量化投资策略的生命周期：从设计到淘汰量化投资，这个听起来既神秘又充满科技感的领域，其实离我们并不遥远。它就像是金融市场中的“算法猎人”，通过数学模型和计算机程序来寻找投资机会。那么，一个量化投资策略是如何从无到有，再到最终被淘汰的呢？让我们一起探索这个策略的生命周期。1.策略的诞生：设计阶段1.1灵感的火花量化投资策略的诞生往往始
微软正则表达式库的实现与应用江卓尔
本文还有配套的精品资源，点击获取简介：正则表达式是一种用于文本处理的强大工具，在Windows环境下微软提供了相应的支持。本项目涉及的微软正则表达式库可能是一个内部或第三方开发的框架，以C++实现。regexpr2.cpp和syntax2.cpp文件可能包含核心匹配算法和语法解析处理，而reimpl2.h、regexpr2.h和syntax2.h可能定义了实现细节、API接口和语法定义。resta
算法与数据结构（二叉树中的最大路径和） a_j58 数据结构
题目思路这道题我们可以考虑用递归来解决。首先设计一个maxPath函数用来递归计算二叉树中一个节点的最大贡献值，具体来说，就是以该节点为根节点的子树中寻找以该节点为起点的一条路径，使得该路径上的节点值之和最大。如果该节点为空，则最大贡献值为0。如果非空，最大贡献值就等于节点值与其子节点中的最大贡献值之和过程分析假设二叉树如下递归步骤：1.节点20：左子树：空，leftGain=0。右子树：空，ri
常见排序算法陆鳐LuLu 排序算法算法数据结构
常见的排序算法可以分为以下几类：1.比较排序冒泡排序（BubbleSort）时间复杂度：O(n²)空间复杂度：O(1)原理：重复遍历数组，比较相邻元素并交换，直到没有需要交换的元素为止。选择排序（SelectionSort）时间复杂度：O(n²)空间复杂度：O(1)原理：每次从未排序部分选择最小（或最大）的元素，放到已排序部分的末尾。插入排序（InsertionSort）时间复杂度：O(n²)空间
C语言排序算法只有月亮知道排序算法 c语言算法
这篇文章总结一下C语言数据结构中常见的几种排序算法。1.直接插入排序直接插入排序的算法思想是，从第二个元素开始，逐个将元素插入到已排序部分。对于每个待插入元素，从后向前扫描已排序部分，找到合适的位置并插入voidInsertSort(int*a,intn){for(inti=1;i=0)//挨个遍历判断大小{if(temp1){gap/=2;//当gap为1时，就为直接插入排序for(inti=0
因果推断在智能广告中的实践 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
非常感谢您提出这个有趣的话题。让我们一步步设计一个关于"因果推断在智能广告中的实践"的系统架构。这个项目将涉及复杂的数据分析、机器学习和广告投放系统，我们需要仔细考虑各个方面以确保系统的有效性和可扩展性。文章目录因果推断在智能广告中的实践-系统架构设计1.需求分析1.1功能需求1.2非功能性需求2.系统概述2.1高层次系统描述2.2主要组件及关系2.3系统核心流程3.详细架构设计3.1数据收集模块
周志华机器学习西瓜书第五章神经网络-学习笔记(超详细) Sodas（填坑中....）周志华西瓜书——详细笔记附例题图解机器学习神经网络学习人工智能数据挖掘算法
在机器学习中，神经网络一般指的是"神经网络学习"，是机器学习与神经网络两个学科的交叉部分。所谓神经网络，目前用的最广泛的一个定义是"神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体做出交互反应"。神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法，同时也可以更好地帮助
编程小白冲Kaggle每日打卡（17）--kaggle学堂：＜机器学习简介＞随机森林 AZmax01 编程小白冲Kaggle每日打卡机器学习随机森林人工智能
Kaggle官方课程链接：RandomForests本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。RandomForests使用更复杂的机器学习算法。介绍决策树给你留下了一个艰难的决定。一棵有很多叶子的深树会被过度拟合，因为每一个预测都来自它叶子上少数房子的历史数据。但是，叶子很少的浅树表现不佳，因为它无法在原始数据中捕捉到尽可能多的区别。即使是当今最复杂的建模技术也面临着欠拟合和过拟
JWT token工具类 HPF_99 springboot jwt tokenization spring boot
头部（header，一般使用base64加密）JWT的头部有两部分信息：声明类型，这里是JWT声明加密的算法，通常直接使用HMACSHA256载荷（payload）该部分一般存放一些有效的信息（如用户名）。iss：JWT的签发者sub:JWT所面向的用户aud:接收该JWT的一方exp(expires):什么时候过期，时间戳iat(issuedat):在什么时候签发的签名（signature）前面
Matlab 大量接单 matlabgoodboy matlab 开发语言
分享一个matlab接私活、兼职的平台1、技术方向满足任一即可2、技术要求3、最后技术方向满足即可MATLAB：熟练掌握MATLAB编程语言，能够使用MATLAB进行数据处理、机器学习和深度学习等相关工作。机器学习、深度学习、强化学习、仿真、复现、算法、神经网络、建模、图像识别、数据挖掘、数据获取、爬虫、数据分析、目标检测、算法创新、因子分析、相关分析、方差分析、判别分析、方程分析、线性回归、中介
一篇文章搞懂C#中的泛型类/泛型方法/泛型接口方程式sunny C#c#
一篇文章搞懂C#中的泛型类/泛型方法/泛型接口链接:源码提起泛型类，很多人就头疼，我也头疼。在C#中这个概念很重要，重要的向定义一个int数值类型一样，但是这个内容又不像if···else那样容易理解。我花费了两天的时间，把整个知识点梳理了一遍，希望讲清楚，也当给自己做个笔记。泛型类（GenericClasses）泛型类是一种可以处理多种数据类型的数据结构或算法模板。它允许在定义类时使用一个或多个
【登月计划】DAY 4 中期 --《排产“阿尔法狗”大揭秘！美的如何用APS算法碾压对手》泛泛不谈 0-2岁智能制造工程师启蒙制造经验分享需求分析
目录四、乐高教学：APS系统核心模块与排产算法1.APS系统定位与价值2.APS核心模块拆解模块1：产能建模引擎（排产的“地基”）模块2：排产算法库（排产的“大脑”）模块3：动态响应模块（排产的“应急部队”）3.家电行业典型排产规则规则1：交货期优先（DueDateFirst）规则2：最小化换型时间（SMED优化）规则3：瓶颈资源最大化利用4.APS系统数据流（家电行业协同网络）5.APS实施避坑
fp8、fp16和bp16的区别 SmallerFL NLP&机器学习 fp8 fp16 bp16 深度学习
文章目录1.FP8(8-bitFloatingPoint)2.FP16(16-bitFloatingPoint)3.BP16(BrainFloatingPoint)4.总结FP8、FP16和BP16是指不同精度的浮点数格式，主要用于计算机图形学和机器学习等领域。它们的区别在于表示数字的位数、精度和范围。1.FP8(8-bitFloatingPoint)位数：FP8使用8位来表示浮点数。精度和范围：
【LeetCode:132. 分割回文串 II + 动态规划】硕风和炜 #递归/回溯系列 #动态规划系列 LeetCode每日一题打卡 leetcode 动态规划算法 java 递归记忆化搜索 dp
在这里插入代码片算法题算法刷题专栏|面试必备算法|面试高频算法越难的东西,越要努力坚持，因为它具有很高的价值，算法就是这样✨作者简介：硕风和炜，CSDN-Java领域优质创作者，保研|国家奖学金|高中学习JAVA|大学完善JAVA开发技术栈|面试刷题|面经八股文|经验分享|好用的网站工具分享恭喜你发现一枚宝藏博主,赶快收入囊中吧人生如棋，我愿为卒，行动虽慢，可谁曾见我后退一步？算法题目录题目链接⛲
数据挖掘实习面经一 Y1nhl 搜广推面经数据挖掘人工智能机器学习推荐算法 python 风控算法搜索引擎
写在前面：其实数据挖掘、风控、机器学习算法与搜广推的八股还是有重合的部分，毕竟都是面对结构化数据。特别是我自己是做竞赛的，平时LGBM、CatBoost用的挺多的，所以感觉这些八股还是有必要看看，建议大家也可以看一下。京东数据挖掘算法一、介绍贝叶斯优化的原理贝叶斯优化（BayesianOptimization）是一种用于优化黑盒函数的有效方法，特别适用于目标函数评估成本较高、不可导或难以解析表达的
【SpringBoot】MyBatis-plus 报错 Property ‘sqlSessionFactory‘ or ‘sqlSessionTemplate‘ are required m0_74825223 面试学习路线阿里巴巴 mybatis spring boot java
??欢迎来到@的csdn博文????本文主要梳理本文针对MyBatis-plus，对于MyBatis报相同的错误，可以看这个大佬的文章：SpringBoot3整合MyBatis报错：Property‘sqlSessionFactory‘or‘sqlSessionTemplate‘arerequired????我是，一个正在为秋招和算法竞赛做准备的学生????喜欢的朋友可以关注一下???，下次更新不
蓝桥杯备考冲刺必刷题（C++） | 蓝桥云课 760 数的计算热爱编程的通信人蓝桥杯 c++职场和发展
本文为付费文章，相较于个人免费文章，将提供更完整的解题思路、详细的代码注释。通过付费支持，您将获得更优质的学习体验和更高效的提升路径。专栏特色1.真题解析：精选蓝桥杯青少组竞赛真题，逐题详细讲解，帮助您掌握解题技巧。2.经典算法练习：根据蓝桥杯青少组竞赛大纲，挑选经典算法题目，提供代码实现与指导，助您夯实算法基础。3.系统化学习：从基础到进阶，循序渐进，帮助您全面提升编程能力。附上汇总贴：蓝桥杯备
Kubernetes 调度器深度优化指南：原理、策略与生产环境实战挣扎与觉醒中的技术人 java 开发语言 kubernetes docker 容器云原生学习
Kubernetes调度器是集群资源的“智能调度大脑”，其决策效率直接影响集群稳定性和资源利用率。本文将深入剖析调度器核心原理，结合大规模集群实战经验，从调度算法优化、性能调优、自定义扩展三个维度，揭秘生产级调度器优化方案与高频问题解决之道。一、Kubernetes调度器核心原理1.调度流程全解析调度器通过**过滤（Filtering）和打分（Scoring）**两阶段决策Pod的最佳运行节点：过
Linux进程间的关系油菜花的菜 Linux系统编程和网络编程 linux 运维 vim
Linux进程间的关系Linux下每个进程都隶属于一个进程组，每个进程都包含PID、PGID、SID。文章目录Linux进程间的关系前言一、进程组二、会话三、ps命令查看进程间的关系四、系统资源限制五、改变工作目录和根目录六、服务器程序后台化前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础
Spring学习01 nightelves11 spring Java spring java 后端
spring学习011.微服务*2.反应式框架3.云原生开发*4.web应用5.无服务器技术6.事件驱动7.批处理project（Java开发各个方面）frameworkbootdata处理数据cloud云原生security安全管理session共享会话integration集成Hateoas媒体服务restdocs文档Batch批处理CredHubStatemachine状态机-…IOC控制反
Transformer预测 | 基于TCN-Transformer的股票价格预测（Pytorch）机器学习之心 #Transformer模型 transformer pytorch 深度学习 TCN-Transformer 股票价格预测
文章目录预测效果文章概述程序设计参考资料预测效果文章概述Transformer预测|基于TCN-Transformer的股票价格预测（Python）Transformer模型本质上都是预训练语言模型，大都采用自监督学习(Self-supervisedlearning)的方式在大量生语料上进行训练，也就是说，训练这些Transformer模型完全不需要人工标注数据。Transformer模型的标志就
零基础程序员如何快速学会python Java进阶营菌程序员职场 Python python 开发语言后端 pycharm 程序人生
学会Python能做的事情也很多，常见的就有网络爬虫，数据分析，前端开发，机器学习，都能很好地提高工作效率，往任何一个领域发展，工作前景是非常不错的。接下来我从基本的软件安装开始，仔细的给大家分析新手入门应该怎样学习Python吧，如果有讲得不到位的地方也欢迎大家指正，我会及时进行修改。一、软件的安装和选择1、配置环境关系到实操，所以在选择资料的同时，你还需要安装好Python需要的软件，软件版本
Python实现三维空间中的RRT避障路径规划算法 C_mony 机械臂 python 算法机器人
文章目录前言一、算法原理二、代码实现1.定义节点2.碰撞检测3.RRT算法4.完整代码运行结果前言基于快速随机搜索树（Rapidly-exploringRandomTree,RRT）的优化算法，通过对状态空间中的采样点进行碰撞检测，避免了对空间的建模，能够有效地解决高维空间和复杂约束的路径规划问题，在机械臂路径规划与避障中扮演着关键角色。RRT算法通过随机生成的树状结构来探索高维空间，尤其适合于解
Java 国密算法 SM2 加密加签，SM3 摘要加密，SM4 加密解密工具类（附完整代码）程序员白羊 java java 算法密码学安全
目录介绍开始引入BouncyCastle依赖SM2算法完整代码(SM2Util.java)测试调用1.生成公钥私钥2.加密解密3.加签验签SM3算法1.摘要加密完整代码（SM3Util.java）SM4算法1.生成随机密钥2.加密解密完整代码（SM4Util.java）下载代码（Gitee代码参考）介绍针对BouncyCastle做了封装工具类，用于实现国密算法中的SM2、SM3、SM4。国密算法
[密码学实战]Java实现国密（SM2）密钥协商详解：原理、代码与实践曼岛_ 国密实战密码学 java 开发语言
一、代码运行结果二、国密算法与密钥协商背景2.1什么是国密算法？国密算法是由中国国家密码管理局制定的商用密码标准，包括：SM2：椭圆曲线公钥密码算法（非对称加密/签名/密钥协商）SM3：密码杂凑算法（哈希）SM4：分组密码算法（对称加密）2.2密钥协商的意义在安全通信中，双方需要在不安全的信道上协商出相同的会话密钥，用于后续对称加密。SM2密钥协商协议解决了以下问题：避免预先共享密钥抵抗中间人攻击
《国密算法开发实战：从合规落地到性能优化》曼岛_ 《密码学实战》密码学 java
前言随着信息技术的飞速发展，信息安全已成为全球关注的焦点。在数字化时代，数据的保密性、完整性和可用性直接关系到国家、企业和个人的利益。为了保障信息安全，密码技术作为核心支撑，发挥着至关重要的作用。国密算法，即国家密码算法，是我国自主设计和推广的一系列密码算法，旨在满足国内信息安全需求，提升我国信息安全的自主可控能力。国密算法的背景国密算法的研发与推广是我国信息安全战略的重要组成部分。长期以来，国际
大白话解释认证JWT是什么有什么用怎么用心心祥蓉 JWT
JWT是什么？JWT（JSONWebToken）就像一张“加密的电子通行证”，用来证明你是谁、能干什么。它由三段字符串拼接而成（比如xxx.yyy.zzz），每段对应不同的信息：头（Header）：说明加密算法类型，比如“用HS256算法签名”。身体（Payload）：存用户身份信息（如用户ID、角色）、有效期等，类似快递单上的收件人和地址。签名（Signature）：用密钥对前两段内容加密生成的
支付系统设计模式总结：策略模式与工厂模式的结合 I~Lucky spring boot 后端策略模式设计模式
在支付系统中，为了支持多种支付方式（如支付宝、微信支付等），并保证代码的可扩展性和维护性，通常会使用策略模式和工厂模式。这两种设计模式可以很好地结合起来，以实现灵活的支付处理逻辑。设计模式简介策略模式（StrategyPattern）：定义一系列算法，并将每个算法封装起来，使它们可以互换。策略模式让算法独立于使用它的客户端而变化。工厂模式（FactoryPattern）：提供一个创建对象的接口，由
基数排序详解醉心编码 c/c++算法数据结构排序算法 c语言开发语言
基数排序详解一、基数排序的基本概念二、基数排序的特点二、基数排序的工作过程三、基数排序的伪代码四、基数排序的C语言代码示例五、基数排序的稳定性六、基数排序的优化与变体七、基数排序的应用场景八、结论在计算机科学中，排序算法是一种非常基础和重要的算法类型，用于对一系列数据进行有序的排列。在众多排序算法中，基数排序以其独特的工作机制和优秀的性能，得到了广泛的关注和应用。本文将详细介绍基数排序的相关知识，
分布式系统中的关键技术解析：幂等性、负载均衡、限流算法及其实现 guihong004 java面试题负载均衡算法运维
在构建高效、可靠的分布式系统时，确保系统的各个组件能够正确处理重复请求（即实现幂等性）、合理分配工作负载（负载均衡）、以及有效控制访问速率以防止过载（限流），是至关重要的。这些技术不仅影响着用户体验，还直接关系到系统的稳定性和安全性。本文将深入探讨几种关键技术及其具体实现方法，包括如何保证操作的幂等性，常见的负载均衡算法有哪些，限流策略中常用的算法介绍，特别是详细解释了计数器（固定窗口）算法和滑动
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在