Mahout之Canopy Clustering深入理解

转自：http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html

Mahout学习——Canopy Clustering

聚类是机器学习里很重要的一类方法，基本原则是将“性质相似”(这里就有相似的标准问题，比如是基于概率分布模型的相似性又或是基于距离的相似性)的对象尽可能的放在一个Cluster中而不同Cluster中对象尽可能不相似。对聚类算法而言，有三座大山需要爬过去：（1）、a large number of clusters，(2)、a high feature dimensionality，（3）、a large number of data points。在这三种情况下，尤其是三种情况都存在时，聚类的计算代价是非常高的，有时候聚类都无法进行下去，于是出现一种简单而又有效地方法：Canopy Method，说简单是因为它不用什么高深的理论或推导就可以理解，说有效是因为它的实际表现确实可圈可点。

一、基本思想

1、基于Canopy Method的聚类算法将聚类过程分为两个阶段

Stage1、聚类最耗费计算的地方是计算对象相似性的时候，Canopy Method在第一阶段选择简单、计算代价较低的方法计算对象相似性，将相似的对象放在一个子集中，这个子集被叫做Canopy ，通过一系列计算得到若干Canopy，Canopy之间可以是重叠的，但不会存在某个对象不属于任何Canopy的情况，可以把这一阶段看做数据预处理；

Stage2、在各个Canopy 内使用传统的聚类方法(如K-means)，不属于同一Canopy 的对象之间不进行相似性计算。

从这个方法起码可以看出两点好处：首先，Canopy 不要太大且Canopy 之间重叠的不要太多的话会大大减少后续需要计算相似性的对象的个数；其次，类似于K-means这样的聚类方法是需要人为指出K的值的，通过Stage1 得到的Canopy 个数完全可以作为这个K值，一定程度上减少了选择K的盲目性，其中T1，T2的选择可通过交叉验证获取。

2、聚类精度

对传统聚类来说，例如K-means、Expectation-Maximization、Greedy Agglomerative Clustering，某个对象与Cluster的相似性是该点到Cluster中心的距离，那么聚类精度能够被很好保证的条件是：

对于每个Cluster都存在一个Canopy，它包含所有属于这个Cluster的元素。

如果这种相似性的度量为当前点与某个Cluster中离的最近的点的距离，那么聚类精度能够被很好保证的条件是：

对于每个Cluster都存在若干个Canopy，这些Canopy之间由Cluster中的元素连接（重叠的部分包含Cluster中的元素）。

数据集的Canopy划分完成后，类似于下图：

二、单机生成Canopy的算法

（1）、将数据集向量化得到一个list后放入内存，选择两个距离阈值：T1和T2，其中T1 > T2，对应上图，实线圈为T1，虚线圈为T2，T1和T2的值可以用交叉校验来确定；

（2）、从list中任取一点P，用低计算成本方法快速计算点P与所有Canopy之间的距离（如果当前不存在Canopy，则把点P作为一个Canopy），如果点P与某个Canopy距离在T1以内，则将点P加入到这个Canopy；

（3）、如果点P曾经与某个Canopy的距离在T2以内，则需要把点P从list中删除，这一步是认为点P此时与这个Canopy已经够近了，因此它不可以再做其它Canopy的中心了；

（4）、重复步骤2、3，直到list为空结束。

三、并行策略

并行点是比较明显的，就是生成Canopy的过程可以并行，第一阶段，各个slave可以依据存储在本地的数据，各自在本地用上述算法生成若干 Canopy，最后在master机器将这些Canopy用相同算法汇总后得到最终的Canopy集合，第二阶段聚类操作就利用最终的Canopy集合进行。

用map-reduce描述就是：datanode在map阶段，利用上述算法在本地生成若干Canopy，之后通过reduce操作得到最终的Canopy集合。

四、Mahout源码安装

正式使用Mahout之前需要做以下准备工作：

1、在http://mahout.apache.org/下载最新的Mahout 0.5源码包；

2、安装mvn，可以在终端输入：sudo apt-get install maven2具体方法可以参照：http://www.mkyong.com/maven/how-to-install-maven-in-ubuntu/；

3、安装Mahout源码，可以参照这里的方法进行：https://cwiki.apache.org/confluence/display/MAHOUT/BuildingMahout；

4、打开eclipse，在“Help”菜单下单击“Install New Software...”，在地址栏添加：http://m2eclipse.sonatype.org/sites/m2e，之后把复选框勾上，然后一路Next即可。

5、最后在eclipse的“File”菜单单击“Import...”，选择“Existing Maven Projects”，Next后选择Mahout源码所在目录，将感兴趣的项目勾上，最后完成步骤即可。mahout-core、mahout- examples和mahout-math是下一步我们需要的。

五、Mahout的Canopy Clustering

mahout实现了一个Canopy Clustering，大致思路与前两节用的方法一样，用了两个map操作和一个reduce操作，首先用一个map和一个reduce生成全局 Canopy集合，最后用一个map操作进行聚类。可以在mahout-core下的src/main/java中的 package：org.apache.mahout.clustering.canopy中找到相关代码：

1、数据模型

Mahout聚类算法将对象以Vector的方式表示，它同时支持dense vector和sparse vector，一共有三种表示方式（它们拥有共同的基类AbstractVector，里面实现了有关Vector的很多操作）：

(1)、DenseVector

位于mahout-math文件夹下的src/main/java中的 package：org.apache.mahout.clustering.math中，它实现的时候用一个double数组表示 Vector（private double[] values），对于dense data可以使用它；

(2)、RandomAccessSparseVector

位于mahout-math文件夹下的src/main/java中的 package：org.apache.mahout.clustering.math中，它用来表示一个可以随机访问的sparse vector，只存储非零元素，数据的存储采用hash映射：OpenIntDoubleHashMap;

关于OpenIntDoubleHashMap，其key为int类型，value为double类型，解决冲突的方法是double hashing，可能是我获取的源码问题，没有在0.5中找到它的source code，可以从http://grepcode.com/file/repo1.maven.org/maven2/org.apache.mahout/mahout-collections/0.3/org/apache/mahout/math/map/OpenIntDoubleHashMap.java#OpenIntDoubleHashMap.indexOfInsertion%28int%29中查看0.3中代码和较详细注释；

(3)、SequentialAccessSparseVector

位于mahout-math文件夹下的src/main/java中的 package：org.apache.mahout.clustering.math中，它用来表示一个顺序访问的sparse vector，同样只存储非零元素，数据的存储采用顺序映射：OrderedIntDoubleMapping;

关于OrderedIntDoubleMapping，其key为int类型，value为double类型，存储的方式让我想起了Libsvm数据表示的形式：非零元素索引:非零元素的值，这里用一个int数组存储indices，用double数组存储非零元素，要想读写某个元素，需要在indices中查找offset，由于indices应该是有序的，所以查找操作用的是二分法。

2、如何抽象Canopy？

可以从Canopy.java文件及其父类中找到答案，Mahout在实现时候还是很巧妙的，一个Canopy包含的字段信息主要有：

1）、private int id; #Canopy的id

2）、private long numPoints; #Canopy中包含点的个数，这里的点都是Vector

3）、private Vector center; #Canopy的重心

4）、private Vector Radius; #Canopy的半径，这个半径是各个点的标准差，反映组内个体间的离散程度，它的计算依赖下面要说的s0、s1和s2。

它并不会真的去用一个list去存储其包含的点，因为将来的计算并不关心这些点是什么，而是与由这些点得到的三个值有关，这里用三个变量来表示：

5）、private double s0; #表示Canopy包含点的权重之和，

6）、private Vector s1; #表示各点的加权和，

7）、private Vector s2; #表示各点平方的加权和，

以下是它的核心操作：

8）、public void computeParameters(); #根据s0、s1、s2计算numPoints、center和Radius，其中numPoints=（int）s0，center=s1/s0，Radius=sqrt(s2*s0-s1*s1)/s0，简单点来，假设所有点权重都是1，那么：

，其中

9）、public void observe(VectorWritable x, double weight); #每当有一个新的点加入当前Canopy时都需要更新s0、s1、s2的值，这个比较简单。

3、Canopy Clustering的Map-Reduce实现

Canopy Clustering的实现包含单机版和MR两个版本，单机版就不多说了，MR版用了两个map操作和一个reduce操作，当然是通过两个不同的job 实现的，map和reduce阶段执行顺序是：CanopyMapper –> CanopyReducer –> ClusterMapper，我想对照下面这幅图来理解：

(1)、首先是InputFormat，这是从HDFS读取文件后第一个要考虑的问题，mahout中提供了三种方式，都继承于FileInputFormat<K,V>：

Format	Description	Key	Value
TextInputFormat	Default format; reads lines of text files (默认格式，按行读取文件且不进行解析操作，基于行的文件比较有效)	The byte offset of the line(行的字节偏移量)	The line contents (整个行的内容)
KeyValueInputFormat	Parses lines into key, val pairs (同样是按照行读取，但会搜寻第一个tab字符，把行拆分为(Key，Value) pair)	Everything up to the first tab character(第一个tab字符前的所有字符)	The remainder of the line (该行剩下的内容)
SequenceFileInputFormat	A Hadoop-specific high-performance binary format (Hadoop定义的高性能二进制格式)	user-defined (用户自定义)	user-defined (用户自定义)

在这里，由于使用了很多自定义的类型，如：表示vector的VectorWritable类型，表示canopy的canopy类型，且需要进行高效的数据处理，所以输入输出文件选择SequenceFileInputFormat格式。由job对象的setInputFormatClass方法来设置，如:job.setInputFormatClass(SequenceFileInputFormat.class)，一般在执行聚类算法前需要调用一个job专门处理原始文件为合适的格式，比如用InputDriver，这点后面再说。

(2)、Split

一个Split块为一个map任务提供输入数据，它是InputSplit类型的，默认情况下hadoop会把文件以64MB为基数拆分为若干 Block，这些Block分散在各个节点上，于是一个文件就可以被多个map并行的处理，也就是说InputSplit定义了文件是被如何切分的。

(3)、RR

RecordReader类把由Split传来的数据加载后转换为适合mapper读取的(Key,Value) pair，RecordReader实例是由InputFormat决定，RR被反复调用直到Split数据处理完，RR被调用后接着就会调用 Mapper的map()方法。

“RecordReader实例是由InputFormat决定” 这句话怎么理解呢？比如，在Canopy Clustering中，使用的是SequenceFileInputFormat，它会提供一个 SequenceFileRecordReader类型，利用SequenceFile.Reader将Key和Value读取出来，这里Key和 Value的类型对应Mapper的map函数的Key和Value的类型，Sequence File的存储根据不同压缩策略分为：NONE：不压缩、RECORD：仅压缩每一个record中的value值、BLOCK：将一个block中的所有records压缩在一起，有以下存储格式：

Uncompressed SequenceFile
Header
Record

Record length
Key length
Key
Value
A sync-marker every few 100 bytes or so.

Record-Compressed SequenceFile
Header
Record

Record length
Key length
Key
Compressed Value
A sync-marker every few 100 bytes or so.

Block-Compressed SequenceFile Format
Header
Record Block

Compressed key-lengths block-size
Compressed key-lengths block
Compressed keys block-size
Compressed keys block
Compressed value-lengths block-size
Compressed value-lengths block
Compressed values block-size
Compressed values block
A sync-marker every few 100 bytes or so.

具体可参见：http://www.189works.com/article-18673-1.html

(4)、CanopyMapper

 
class CanopyMapper extends Mapper<WritableComparable<?>, VectorWritable, Text, VectorWritable> { 
   
  private final Collection<Canopy> canopies = new ArrayList<Canopy>(); 
   
  private CanopyClusterer canopyClusterer; 
   
  @Override 
  protected void map(WritableComparable<?> key, VectorWritable point, Context context) 
    throws IOException, InterruptedException { 
    canopyClusterer.addPointToCanopies(point.get(), canopies); 
  } 
   
  @Override 
  protected void setup(Context context) throws IOException, InterruptedException { 
    super.setup(context); 
    canopyClusterer = new CanopyClusterer(context.getConfiguration()); 
  } 
   
  @Override 
  protected void cleanup(Context context) throws IOException, InterruptedException { 
    for (Canopy canopy : canopies) { 
      context.write(new Text("centroid"), new VectorWritable(canopy.computeCentroid())); 
    } 
    super.cleanup(context); 
  } 
} 
  

CanopyMapper类里面定义了一个Canopy集合，用来存储通过map操作得到的本地Canopy。

setup方法在map操作执行前进行必要的初始化工作；

它的map操作很直白，就是将传来的(Key,Value) pair(以后就叫“点”吧，少写几个字)按照某种策略加入到某个Canopy中，这个策略在CanopyClusterer类里说明；

在map操作执行完后，调用cleanup操作，将中间结果写入上下文，注意这里的Key是一个固定的字符串“centroid”，将来reduce操作接收到的数据就只有这个Key，写入的value是所有Canopy的中心点(是个Vector哦)。

(5)、Combiner

可以看做是一个local的reduce操作，接受前面map的结果，处理完后发出结果，可以使用reduce类或者自己定义新类，这里的汇总操作有时候是很有意义的，因为它们都是在本地执行，最后发送出得数据量比直接发出map结果的要小，减少网络带宽的占用，对将来shuffle操作也有益。在 Canopy Clustering中不需要这个操作。

(6)、Partitioner & Shuffle

当有多个reducer的时候，partitioner决定由mapper或combiner传来的(Key,Value) Pair会被发送给哪个reducer，接着Shuffle操作会把所有从相同或不同mapper或combiner传来的(Key,Value) Pair按照Key进行分组，相同Key值的点会被放在同一个reducer中，我觉得如何提高Shuffle的效率是hadoop可以改进的地方。在 Canopy Clustering中，因为map后的数据只有一个Key值，也就没必要有多个reducer了，也就不用partition了。关于 Partitioner可以参考：http://blog.oddfoo.net/2011/04/17/mapreduce-partition分析-2/

(7)、CanopyReducer

 
public class CanopyReducer extends Reducer<Text, VectorWritable, Text, Canopy> { 
   
  private final Collection<Canopy> canopies = new ArrayList<Canopy>(); 
   
  private CanopyClusterer canopyClusterer; 
   
  CanopyClusterer getCanopyClusterer() { 
    return canopyClusterer; 
  } 
   
  @Override 
  protected void reduce(Text arg0, Iterable<VectorWritable> values, 
      Context context) throws IOException, InterruptedException { 
    for (VectorWritable value : values) { 
      Vector point = value.get(); 
      canopyClusterer.addPointToCanopies(point, canopies); 
    } 
    for (Canopy canopy : canopies) { 
      canopy.computeParameters(); 
      context.write(new Text(canopy.getIdentifier()), canopy); 
    } 
  } 
   
  @Override 
  protected void setup(Context context) throws IOException, 
      InterruptedException { 
    super.setup(context); 
    canopyClusterer = new CanopyClusterer(context.getConfiguration()); 
    canopyClusterer.useT3T4(); 
  } 
   
} 
  

CanopyReducer 类里面同样定义了一个Canopy集合，用来存储全局Canopy。

setup方法在reduce操作执行前进行必要的初始化工作，这里与mapper不同的地方是可以对阈值T1、T2(T1>T2)重新设置(这里用T3、T4表示)，也就是说map阶段的阈值可以与reduce阶段的不同；

reduce操作用于map操作一样的策略将局部Canopy的中心点做重新划分，最后更新各个全局Canopy的numPoints、center、radius的信息，将(Canopy标示符，Canopy对象) Pair写入上下文中。

(8)、OutputFormat

它与InputFormat类似，Hadoop会利用OutputFormat的实例把文件写在本地磁盘或HDFS上，它们都是继承自 FileOutputFormat类。各个reducer会把结果写在HDFS某个目录下的单独的文件内，命名规则是part-r-xxxxx，这个是依据hadoop自动命名的，此外还会在同一目录下生成一个_SUCCESS文件，输出文件夹用 FileOutputFormat.setOutputPath() 设置。

到此为止构建Canopy的job结束。即CanopyMapper –> CanopyReducer 阶段结束。

(9)、ClusterMapper

最后聚类阶段比较简单，只有一个map操作，以上一阶段输出的Sequence File为输入，setup方法做一些初始化工作并从上一阶段输出目录读取文件，重建Canopy集合信息并存储在一个Canopy集合中，map操作就调用CanopyClusterer的emitPointToClosestCanopy方法实现聚类，将最终结果输出到一个Sequence File中。

(10)、CanopyClusterer

这个类是实现Canopy算法的核心，其中：

1)、addPointToCanopies方法用来决定当前点应该加入到哪个Canopy中，在CanopyMapper和CanopyReducer 中用到，流程如下：

2)、emitPointToClosestCanopy方法查找与当前点距离最近的Canopy，并将(Canopy的标示符，当前点Vector表示)输出，这个方法在聚类阶段ClusterMapper中用到。

3)、createCanopies方法用于单机生成Canopy，算法一样，实现也较简单，就不多说了。

(11)、CanopyDriver

一般都会定义这么一个driver，用来定义和配置job，组织job执行，同时提供单机版和MR版。job执行顺序是:buildClusters –> clusterData。

4、其它

CanopyMapper的输入需要是(WritableComparable<?>, VectorWritable) Pair，因此，一般情况下，需要对数据集进行处理以得到相应的格式，比如，在源码的/mahout-examples目录下的package org.apache.mahout.clustering.syntheticcontrol.canopy中有个Job.java文件提供了对 Canopy Clustering的一个版本：

 
private static void run(Path input, Path output, DistanceMeasure measure, 
      double t1, double t2) throws IOException, InterruptedException, 
      ClassNotFoundException, InstantiationException, IllegalAccessException { 
    Path directoryContainingConvertedInput = new Path(output, 
        DIRECTORY_CONTAINING_CONVERTED_INPUT); 
    InputDriver.runJob(input, directoryContainingConvertedInput, 
        "org.apache.mahout.math.RandomAccessSparseVector"); 
    CanopyDriver.run(new Configuration(), directoryContainingConvertedInput, 
        output, measure, t1, t2, true, false); 
    // run ClusterDumper 
    ClusterDumper clusterDumper = new ClusterDumper(new Path(output, 
        "clusters-0"), new Path(output, "clusteredPoints")); 
    clusterDumper.printClusters(null); 
  } 
  

利用InputDriver对数据集进行处理，将(Text, VectorWritable) Pair 以sequence file形式存储，供CanopyDriver使用。InputDriver中的作业配置如下：

 
public static void runJob(Path input, Path output, String vectorClassName) 
     throws IOException, InterruptedException, ClassNotFoundException { 
     Configuration conf = new Configuration(); 
     conf.set("vector.implementation.class.name", vectorClassName); 
     Job job = new Job(conf, "Input Driver running over input: " + input); 
  
     job.setOutputKeyClass(Text.class); 
     job.setOutputValueClass(VectorWritable.class); 
     job.setOutputFormatClass(SequenceFileOutputFormat.class); 
     job.setMapperClass(InputMapper.class);    
     job.setNumReduceTasks(0); 
     job.setJarByClass(InputDriver.class); 
     
     FileInputFormat.addInputPath(job, input); 
     FileOutputFormat.setOutputPath(job, output); 
     
     job.waitForCompletion(true); 
  } 
  

5、实例说明

可以用源码生成相关Jar文件，例如：

(1)、准备若干数据集data，要求不同feature之间用空格隔开；

(2)、在master的终端敲入命令：hadoop namenode –format;start-all.sh;用于初始化namenode和启动hadoop；

(3)、在HDFS上建立testdata文件夹，聚类算法会去这个文件夹加载数据集，在终端输入：hadoop dfs –mkdir testdata；

(4)、然后将各个datanode上的数据集data上传到HDFS，在终端输入hadoop dfs –put data testdata/

(5)、进入mahout的那些Jar文件所在路径，在终端敲入：hadoop jar mahout-examples-0.5-job.jar org.apache.mahout.clustering.syntheticcontrol.canopy.Job;

(6)、在localhost:50030查看作业执行情况，例如：

可以看到，第一个作业由InputDriver发起，输入目录是testdata，一共做了一个map操作但没有做reduce操作，第二个作业由 CanopyDriver发起，做了一对mapreduce操作，这里对应Canopy生成过程，最后一个作业也由CanopyDriver发起，做了一个map操作，对应Canopy Clustering过程。

(7)、将执行结果抓到本地文件夹，在终端执行：hadoop dfs –get output output，得到目录如下：

其中聚类结果保存在第一个文件夹中，当然，结果是Sequence File，不能直接双击打开来看。

6、总结

Mahout中对Canopy Clustering的实现是比较巧妙的，整个聚类过程用2个map操作和1个reduce操作就完成了，Canopy构建的过程可以概括为：遍历给定的点集S，设置两个阈值：T1、T2且T1>T2，选择一个点，用低成本算法计算它与其它Canpoy中心的距离，如果距离小于T1则将该点加入那个 Canopy，如果距离小于T2则该点不会成为某个Canopy的中心，重复整个过程，直到S为空。

六、参考资料

1、http://mahout.apache.org/

2、https://cwiki.apache.org/MAHOUT/canopy-clustering.html

3、http://developer.yahoo.com/hadoop/tutorial/

4、http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/

5、http://grepcode.com/file/repo1.maven.org/maven2/org.apache.mahout/mahout-utils/0.5/org/apache/mahout/clustering/conversion/InputDriver.java#InputDriver

你可能感兴趣的:(cluster)

Redis 集群架构妖怪兮诺‍ 数据库 redis 架构数据库
Redis集群是什么Redis集群是一种通过将多个Redis节点连接在一起以实现高可用性、数据分片和负载均衡的技术。它允许Redis在不同节点上同时提供服务，提高整体性能和可靠性。根据搭建的方式和集群的特点，Redis集群主要有三种模式：主从复制模式（Master-Slave）、哨兵模式（Sentinel）和Cluster模式Redis集群的作用和优势高可用性负载均衡容灾恢复数据分片易于拓展Mas
高可用系统：让服务永不中断的秘密爱吃青菜的大力水手 linux 运维服务器
高可用系统：让服务永不中断的秘密在数字化时代，系统的高可用性（HighAvailability,HA）至关重要。无论是电商平台还是金融服务，系统宕机都可能带来巨大损失。那么，什么是高可用系统？它又是如何实现的呢？本文将为您揭开高可用系统的神秘面纱，带您了解集群、节点、脑裂等核心概念，并推荐最经济实用的集群架构。什么是集群与节点？集群（Cluster）集群是一组协同工作的服务器，共同完成任务。它们就
Mysql回表查询：深入解析与实战应用需要重新演唱 mysql mysql 数据库
Mysql回表查询：深入解析与实战应用今天，我们将深入探讨Mysql中的回表查询。回表查询是Mysql索引机制中的一个重要概念，理解它的工作原理和优化方法，对于提升数据库查询性能至关重要。让我们一起揭开回表查询的神秘面纱。1.什么是回表查询？回表查询（LookupQuery）是指在使用非聚集索引（Non-ClusteredIndex）进行查询时，如果需要获取的数据不在索引页中，就需要根据索引页中的
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
docker启动的rabbitmq搭建并集群和高可用黑皮爱学习 mq docker rabbitmq ruby
Docker搭建RabbitMQ集群步骤以下是使用Docker快速搭建RabbitMQ集群的详细步骤，包含配置文件、网络设置和集群组建过程。1.创建自定义网络首先创建一个Docker网络，使容器间可以通过名称互相访问：dockernetworkcreaterabbitmq-cluster2.准备配置文件创建一个配置目录（例如~/rabbitmq-config），并在其中创建以下文件：rabbitm
MySQL索引分类有哪些？ java1234_小锋 mysql mysql
大家好，我是锋哥。今天分享关于【MySQL索引分类有哪些？】面试题。希望对大家有帮助；MySQL索引分类有哪些？超硬核AI学习资料，现在永久免费了！MySQL中的索引可以根据不同的分类标准分为以下几种类型：1.根据存储方式分类聚集索引（ClusteredIndex）：表中的数据行会按照索引顺序存储，即数据的物理顺序和索引顺序一致。每个表最多只能有一个聚集索引。在InnoDB存储引擎中，主键就是聚集
《Redis高并发架构设计：从单机到Cluster的最佳实践》猕员桃 bootstrap 前端 html
Redis高并发架构设计：从单机到Cluster的最佳实践在互联网应用快速发展的当下，高并发场景日益普遍，数据的高效存储与读取成为系统性能的关键。Redis作为高性能的内存数据库，其架构设计对系统的可用性、扩展性和性能有着决定性影响。从单机模式到RedisCluster，不同的部署模型适用于不同阶段与需求。本文将系统地介绍Redis基础部署模型，深入剖析Cluster架构核心原理，探讨典型架构痛点
详解Redission分布式锁脑裂问题码上库利南 redis 分布式
Redisson在RedisCluster模式下实现的分布式锁（基于RedLock思想），理论上仍然存在脑裂（NetworkPartition）导致锁失效的风险。这是由其依赖的“多数派”（Quorum）机制和分布式系统的不可能三角（CAP）决定的。一、脑裂发生的核心场景：假设一个拥有5个主节点(A,B,C,D,E)的RedisCluster：网络分区发生：集群被分裂成两个独立且无法通信的子集：分区
Kafka 核心术语详解 showyoui Kafka kafka 分布式
文章目录1.集群架构层Cluster（集群）Broker（代理服务器）2.存储架构层Topic（主题）Partition（分区）Message（消息）3.副本机制Leader/FollowerISR(In-SyncReplicas)副本加入ISR的条件副本被移出ISR的条件Leader选举机制ISR维护机制4.客户端Producer（生产者）Consumer（消费者）ConsumerGroup（消
order、sort、distribute和cluster by（Spark/Hive）有数的编程笔记 Spark/Hive spark hive 大数据
1.abstractORDERBY：完整查询结果的全局行排序。与SORTBY、CLUSTERBY、DISTRIBUTEBY互斥，不能同时使用。示例SELECT*FROMtable_nameORDERBYcolumn_name;SORTBY：只在每个分区内排序，局部排序结果不是全局有序。与ORDERBY、CLUSTERBY互斥，不能同时指定。示例SELECT*FROMtable_nameSORTBY
mysql innodb和ndb的区别_InnoDB和NDB，MySQL群集和InnoDB群集之间有什么区别？ addytan mysql innodb和ndb的区别
像任何不断发展的成熟技术一样，MySQL积累了自己的术语。某些术语有时会引起混淆，尤其是当两个术语相似但实际上是指两个完全不同的事物时。对于两个存储引擎InnoDB和NDB(读音听起来很相似)，以及两个“群集”技术：InnoDBCluster和MySQLCluster尤其如此。让我们看看是否可以消除这种混乱。InnoDB是一种存储引擎-数据库用来读取，写入，更新和删除数据以及执行其他基本操作的软件
mysql引擎innodb与ndb比较_mysql存储引擎memory，ndb，innodb之选择甜品专家
mysql的innodb和cluster的NDB引擎都支持事务，在有共同的特性外，也有不同之处：以mysqlclusterNDB7.3和MySQL5.6之InnoDB为例：ndb7.3基于mysql5.6，包括支持innodb1.1，因此可以在cluster里使用innodb表，但这些表不是集群的。MySQLClusterNDB存储引擎用分布式,shared-nothing的架构实现，这使其和in
InnoDB Cluster 与 NDB Cluster 对比及部署指南中国lanwp mysql
InnoDBCluster与NDBCluster对比及部署指南一、核心区别对比特性InnoDBClusterNDBCluster存储引擎InnoDBNDB(内存优先)架构设计基于GroupReplication分布式架构(数据节点+管理节点+SQL节点)一致性模型最终一致性/强一致性强一致性数据持久化磁盘存储为主内存存储为主，定期快照适用场景通用OLTP高吞吐实时处理扩展性垂直扩展为主水平线性扩展
mysql innodb cluster集群部署教程火烧风 mysql adb 数据库
shell相关视频讲解：Linuxshell脚本编程入门详细讲解MySQLInnoDBCluster集群部署教程整体流程下面是部署MySQLInnoDBCluster集群的整个流程：步骤描述1.安装MySQLShell安装MySQLShell是连接MySQL数据库的客户端工具，可以用于执行各种管理任务。2.创建InnoDBCluster使用MySQLShell创建InnoDBCluster，将多个
MySQL 复制（Replication）、组复制（MGR）、InnoDB ReplicaSet、InnoDB Cluster与NDB Cluster的区别与联系 HD243608836 HA mysql tomcat mysql 高可用 cluster innodb 组复制
复制（Replication）是本文中所有MySQL技术的基础。包括：异步复制、半同步复制，增强半同步复制。InnoDB副本集（MySQLInnoDBReplicaSet）无缝衔接其他MySQL官方提供的应用程序（MySQLShell、MySQLRouter），提供了另一种易于使用的编程方式来处理复制，属于复制（Replication）的简易增强版。组复制（MySQLGroupReplicatio
【Kubernetes】CKA Simulator Kubernetes 1.31 陈陈CHENCHEN Kubernetes kubernetes 容器
最近为了准备CKA认证，整理了模拟题，期望能帮助到需要的小伙伴们！Question1|ContextsYouhaveaccesstomultipleclustersfromyourmainterminalthroughkubectlcontexts.Writeallthosecontextnamesinto/opt/course/1/contexts.Nextwriteacommandtodisp
MySQL 事务实现机制详解亲爱的非洲野猪 mysql 数据库
MySQL事务实现机制详解MySQL通过多种技术协同工作来实现事务的ACID特性（原子性、一致性、隔离性和持久性），以下是其核心实现机制：一、事务基础架构1.事务支持引擎InnoDB：MySQL默认支持事务的存储引擎NDBCluster：集群环境的事务支持其他引擎：如MyISAM不支持事务2.事务基本操作STARTTRANSACTION;--或BEGIN--执行SQL语句INSERTINTOacc
Redis面试题三（集群） os-lee go高级 redis 数据库缓存
目录1.Redis集群搭建有几种模式2.Redis主从复制的实现全量同步增量同步3.Redis的主从同步策略1.全量同步（FullResynchronization）2.增量同步（IncrementalReplication）4.Redis一致性hash基本原理节点动态管理虚拟节点客户端支持总结5.Cluster模式的原理6.Cluster的分片机制7.客户端如何路由8.Redis为什么是1638
十、HQL：排序、联合与 CTE 高级查询 IvanCodes Hive教程 hive 大数据
作者：IvanCodes日期：2025年5月15日专栏：Hive教程ApacheHive作为大数据领域主流的数据仓库解决方案，其查询语言HQL(HiveQueryLanguage)是数据分析师和工程师日常工作的核心。除了基础的SELECT-FROM-WHERE，HQL还提供了强大的排序、数据合并以及组织复杂查询的机制。本文将深入探讨HQL中的排序操作(SORTBY,ORDERBY,CLUSTERB
redis构建集群时出现[ERR] Node 127.0.0.1:7000 is not empty. Either the node already knows other nodes (check qqqweiweiqq redis redis 数据库 linux
直接把rm/opt/homebrew/var/db/redis/nodes-7003.conf7001.conf7002.conf7004.conf直接删除了还要删除这个rm./opt/homebrew/var/db/redis/dump.rdb但是删除之后还是报错了（可能是每删除干净）redis-cli--clustercreate127.0.0.1:7000127.0.0.1:7001127.
redis的部署方式详解 p-knowledge redis 数据库缓存
Redis是一个高性能的键值存储系统，广泛应用于缓存、消息队列、实时分析等场景。为了满足不同的业务需求，Redis提供了多种部署架构，包括主从（Master-Slave）、哨兵（Sentinel）和集群（Cluster）。以下是对这三种部署架构的原理、优缺点的详解。1.主从（Master-Slave）部署原理主从架构是Redis最基础的高可用性解决方案。该架构包括一个主节点（Master）和一个或
Task01. 时序数据与 PyPOTS 介绍三分梦~ python 机器学习时序数据库数据挖掘
Task01.时序数据与PyPOTS介绍Task01.时序数据与PyPOTS介绍1.时间序列数据介绍️举例：与i.i.d数据的区别示例：1.1时间序列数据的类型1.2常见时间序列数据示例1.3时间序列研究与应用方向主要任务：1.预测（Forecasting）2.分类（Classification）3.聚类（Clustering）4.异常检测（AnomalyDetection）5.时间序列生成（Ge
python scipy简介凤枭香 Python 图像处理 python scipy 开发语言图像处理
scipyscipy是一个python开源的数学计算库，可以应用于数学、科学以及工程领域，它是基于numpy的科学计算库。主要包含了统计学、最优化、线性代数、积分、傅里叶变换、信号处理和图像处理以及常微分方程的求解以及其他科学工程中所用到的计算。scipy模块介绍scipy主要通过下面这些包来实现数学算法和科学计算，后面对于scipy的讲解主要也是基于这些包来实现的cluster：包含聚类算法co
探秘kube-deploy：一键部署Kubernetes的社区宝典韦元歌Fedora
探秘kube-deploy：一键部署Kubernetes的社区宝典kube-deploy[EOL]Aplaceforclusterdeploymentautomation项目地址:https://gitcode.com/gh_mirrors/ku/kube-deploy在浩瀚的云原生世界中，kube-deploy犹如一位技艺高超的导航者，引领我们轻松穿越复杂的Kubernetes部署迷宫。它不仅是
redis cluster是AP还是CP 竹画雨 redis 数据库缓存
理解RedisCluster是AP还是CP在分布式系统中，我们常常面临CAP理论的挑战。CAP理论指出，在分布式系统中，无法同时满足一致性（Consistency）、可用性（Availability）和分区容错性（PartitionTolerance）这三者。在选择RedisCluster时，了解它的特性非常重要。RedisCluster设计上的目标是提供高可用性和分区容错性，因此在CAP理论中它
Eureka、Nacos、Zookeeper、Redis等应用是AP还是CP？全球潮人 eureka zookeeper redis
理解CAP是什么？CConsistency一致性有集群cluster，如果有客户端对cluster进行了写操作，改变了cluster中的数据，则后面的客户端请求再次访问请求时，cluster返回给客户端的是最新的数据。也可以理解为cluster中，每个节点都保存了一份数据副本，当有客户端对集群进行了写操作，或者因为其他原因，集群的状态改变了，这些写操作或者状态的改变，必须同步到cluster中的每
【K8S】详解NodePort 和 ClusterIP 量化投资和人工智能 kubernetes 人工智能开发语言 go kubernetes docker 云原生
NodePort和ClusterIP是Kubernetes中两种核心服务（Service）类型，它们在访问范围、实现机制和使用场景上有显著区别，但也存在紧密联系。以下是详细对比分析：一、核心区别特性ClusterIPNodePort访问范围仅限集群内部访问（通过虚拟IP）支持集群外部访问（通过节点IP+端口）暴露方式分配虚拟IP（ClusterIP），无节点端口暴露在每个节点开放固定端口（默认30
Datawhale组队学习 - 202505 - PyPOTS - Task01时序数据与PyPOTS 来两个炸鸡腿学习 python 人工智能
系列文章目录Task01-时序数据与PyPOTS文章目录系列文章目录前言1时间序列数据1.1时间序列数据的类型1.2时间序列数据示例1.3时间序列的研究与应用方向1.3.1预测Forecasting1.3.2分类Classification1.3.3聚类Clustering1.3.4异常监测AnomalyDetection1.3.5时间序列生成Generation1.3.6插补Imputation
kubesphere 单节点启动 etcd 报错 gs80140 各种问题 etcd kubesphere k8s
kubekey安装./kkcreatecluster-fconfig-sample.yaml--with-local-storage时报错etcdhealthcheckfailed:Failedtoexeccommand:sudo-E/bin/bash-c"exportETCDCTL_API=2;exportETCDCTL_CERT_FILE='/etc/ssl/etcd/ssl/admin-no
MySQL 8.0 OCP 英文题库解析（二十）进击的CJR mysql 开闭原则数据库
Oracle为庆祝MySQL30周年，截止到2025.07.31之前。所有人均可以免费考取原价245美元的MySQLOCP认证。从今天开始，将英文题库免费公布出来，并进行解析，帮助大家在一个月之内轻松通过OCP认证。本期公布试题181~190试题181:Choosethebestanswer.YouhaveconfiguredaworkingMySQLInnoDBClusterinsingle-p
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http