wzy0623

MADlib——基于SQL的数据挖掘解决方案（26）——聚类之k-means方法

“物以类聚，人以群分”，其核心思想就是聚类。所谓聚类，就是将相似的事物聚集在一起，而将不相似的事物划分到不同的类别的过程，是数据分析中十分重要的一种手段。比如古典生物学中，人们通过物种的形貌特征将其分门别类，可以说就是一种朴素的人工聚类。如此，我们就可以将世界上纷繁复杂的信息，简化为少数方便人们理解的类别，因此聚类可以说是人类认知这个世界的最基本方式之一。通过聚类，人们能意识到密集和稀疏的区域，发现全局的分布模式，以及数据属性之间有趣的相互关系。

聚类起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具定量分类。随着科学技术的发展，对分类的要求越来越高，以至有时仅凭经验难以确切地分类，于是人们逐渐把数学工具引用到了分类学中，形成了数值分析学，之后又将多元分析技术引入进数值分类学，从而形成了聚类。在实践中，聚类往往为分类服务，即先通过聚类来判断事物的合适类别，然后在利用分类技术对新的样本进行分类。

聚类算法大都是几种最基本的方法，如k-means、层次聚类、SOM等，以及它们的许多改进变种。MADlib提供了一种k-means算法的实现。本篇主要介绍MADlib的k-means算法相关函数和应用案例。

一、聚类方法简介

1. 聚类的概念

将物理或抽象对象的集合分成由类似的对象组成的多个类或簇（Cluster）的过程被称为聚类（Clustering）。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象相似度较高，与其它簇中的对象相似度较低。相似度是根据描述对象的属性值来度量的，距离是经常采用的度量方式。分析事物聚类的过程称为聚类分析或群分析，是研究样品或指标分类问题的一种统计分析方法。

在数据分析的术语中，聚类和分类是两种技术。分类是指已经知道了事物的类别，需要从样品中学习分类规则，对新的、无标记的对象赋予类别，是一种有监督学习。而聚类则没有事先预定的类别，而是依据人为给定的规则进行训练，类别在聚类过程中自动生成，从而得到分类，是一种无监督学习。作为一个数据挖掘的功能，聚类可当做独立的工具来获得数据分布情况，观察每个簇的特点，集中对特定簇做进一步的分析。此外，聚类分析还可以作为其它算法的预处理步骤，简少计算量，提高分析效率。

2. 类的度量方法

虽然类的形式各有不同，但总的来说，一般用距离作为类的度量方法。设x、y是两个向量和，聚类分析中常用的距离有以下几种：

(1) 曼哈顿距离

x、y的曼哈顿距离定义为：

(2) 欧氏距离

x、y的欧氏距离定义为：

(3) 欧氏平方距离

x、y的欧氏平方距离定义为：

(4) 角距离

x、y的角距离定义为：，分母是x、y两个向量的2范数乘积。

(5) 谷本距离

x、y的谷本距离定义为：

二、k-means方法

在数据挖掘中，k-means算法是一种广泛使用的聚类分析算法，也是MADlib 1.10.0官方文档中唯一提及的聚类算法。

1. 基本思想

k-means聚类划分方法的基本思想是：将一个给定的有N个数据记录的集合，划分到K个分组中，每一个分组就代表一个簇，K

每一个分组至少包含一个数据记录。
每一个数据记录属于且仅属于一个分组。

算法首先给出一个初始的分组，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中对象的距离越近越好（已经收敛，反复迭代至组内数据几乎无差异），而不同分组中对象的距离越远越好。

2. 原理与步骤

k-means算法的工作原理是：首先随机从数据集中选取K个点，每个点初始地代表每个簇的中心，然后计算剩余各个样本到中心点的距离，将它赋给最近的簇，接着重新计算每一簇的平均值作为新的中心点，整个过程不断重复，如果相邻两次调整没有明显变化，说明数据聚类形成的簇已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确，就要调整，在全部样本调整完后，再修改中心点，进入下一次迭代。这个过程将不断重复直到满足某个终止条件，终止条件可以是以下任何一个：

没有对象被重新分配给不同的聚类。
聚类中心不再发生变化。
误差平方和局部最小。

k-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成，因此把得到紧凑且独立的簇作为最终目标。

k-means算法的输入是聚类个数k，以及n个数据对象，输出是满足误差最小标准的k个聚簇。其处理流程为：

从n个数据对象中任意选择k个对象作为初始中心。
计算每个对象与这些中心对象的距离，并根据最小距离对相应的对象进行划分。
重新计算每个有变化聚类的均值作为新的中心。
循环2、3直到每个聚类不再发生变化为止。终止条件一般为最小化对象到其聚类中心的距离的平方和：

3. k-means算法

k-means算法接受输入量k，然后将n个数据对象划分为k个簇以便使得所获得的簇满足：同一簇中的对象相似度较高，而不同簇中的对象相似度较低。簇相似度是利用各簇中对象的均值所获得的中心对象来进行计算的。为了便于理解k-means算法，可以参考图1所示的二维向量的例子。

图1 k-means聚类算法

从图中我们可以看到A、B、C、D、E五个点。而灰色的点是初始中心点，也就是用来找簇的点。有两个中心点，所以K=2。

k-means的算法如下：

随机在图中取K（这里K=2）个初始中心点。
对图中的所有点求到这K个中心点的距离，假如点Pi离种子点Si最近，那么Pi属于Si聚类。图1中，我们可以看到A、B属于上面的中心点，C、D、E属于下面中部的中心点。
移动中心点到属于它的簇的中心，作为新的中心点，见图1上的第三步。
重复第2和第3步，直到中心点没有移动，可以看到图1中的第四步上面的中心点聚合了A、B、C，下面的中心点聚合了D、E。

二维坐标中两点之间距离公式如下：

公式中(x1，y1)，(x2，y2)分别为A、B两个点的坐标。求聚类中心点的算法可以简单使用各个点的X/Y坐标的平均值。

k-means主要有两个重大缺陷，并且都和初始值有关：

K是事先给定的，这个K值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。（ISODATA算法通过类的自动合并和分裂，得到较为合理的类型数目K）
k-means算法以初始随机中心点为基础，这个随机中心点非常重要，不同的随机中心点会有得到完全不同的结果。k-means++算法就是用来解决这个问题，它可以有效地选择初始点。

k-means++算法步骤：

先从输入数据对象中随机挑一个作为中心点。
对于每个数据对象x，计算其和最近的一个中心点的距离D(x)并保存在一个数组里，然后把这些距离加起来得到Sum(D(x))。
再取一个随机值，用取权重的方式来计算下一个中心点。这个算法的实现是，先取一个能落在Sum(D(x))中的随机值Random，然后用Random -= D(x)，直到其<=0，此时的x就是下一个中心点。
重复第2和第3步直到所有的K个中心点都被选出来。
进行k-means算法。

三、MADlib的k-means相关函数

形式上，我们希望最小化以下目标函数：

其中是n个数据对象，是k个中心点，常见的情况下，距离使用欧氏平方距离。这个问题在计算上很困难（NP-hard问题），但由于局部启发式搜索算法在实践中表现的相当好，如今被普遍采用，其中之一就是前面讨论的k-means算法。MADlib提供了三组k-means算法相关函数，分别是训练函数、簇分配函数和轮廓系数函数。

1. 训练函数

（1）语法

MADlib提供了以下四个k-means算法训练函数。使用随机中心点方法，语法如下：

kmeans_random (rel_source,  
               expr_point,  
               k,  
               fn_dist,  
               agg_centroid,  
               max_num_iterations,  
               min_frac_reassigned
 )

使用kmeans++中心点方法，语法如下：

kmeanspp( rel_source,  
          expr_point,  
          k,  
          fn_dist,  
          agg_centroid,  
          max_num_iterations,  
          min_frac_reassigned,  
          seeding_sample_ratio  
        )

由rel_initial_centroids参数提供一个包含初始中心点的表名，语法如下：

kmeans( rel_source,  
        expr_point,  
        rel_initial_centroids,  
        expr_centroid,  
        fn_dist,  
        agg_centroid,  
        max_num_iterations,  
        min_frac_reassigned  
      )

由initial_centroids参数提供的数组表达式，指定一个初始中心点集合，语法如下：

kmeans( rel_source,  
        expr_point,  
        initial_centroids,  
        fn_dist,  
        agg_centroid,  
        max_num_iterations,  
        min_frac_reassigned  
      )

（2）参数

参数名称	数据类型	描述
rel_source	TEXT	含有输入数据对象的表名。数据对象和预定义中心点（如果使用的话）应该使用一个数组类型的列存储，如FLOAT[]或INTEGER[]。调用任何以上四种函数进行数据分析时，都会跳过具有non-finite值的数据对象，non-finite值包括NULL、NaN、infinity等。
expr_point	TEXT	包含数据对象的列名。
k	INTEGER	指定要计算的中心点的个数。
fn_dist（可选）	TEXT	缺省值为‘squared_dist_norm2’，指定计算数据对象与中心点距离的函数名称。可以使用以下距离函数，括号内为均值计算方法： dist_norm1：1范数/曼哈顿距离（元素中位数）。 dist_norm2: 2范式/欧氏距离（元素平均数）。 squared_dist_norm2：欧氏平方距离（元素平均数）。 dist_angle：角距离（归一化数据的元素平均数）。 dist_tanimoto：谷本距离（归一化数据的元素平均数）。具有DOUBLE PRECISION[] x, DOUBLE PRECISION[] y -> DOUBLE PRECISION参数形式的用户自定义函数。
agg_centroid（可选）	TEXT	缺省值为‘avg’。确定中心点使用的聚合函数名，可以使用以下聚合函数： avg：平均值（缺省）。 normalized_avg：归一化平均值。
max_num_iterations（可选）	INTEGER	缺省值为20，指定执行的最大迭代次数。
min_frac_reassigned（可选）	DOUBLE PRECISION	缺省值为0.001。相邻两次迭代所有中心点相差小于该值时计算完成。
seeding_sample_ratio（可选）	DOUBLE PRECISION	缺省值为1.0。kmeans++将扫描数据‘k’次，对大数据集会很慢。此参数指定用于确定初始中心点所使用的原始数据集样本比例。当此参数大于0时（最大值为1.0），初始中心点在数据均匀分布的随机样本上。注意，k-means算法最终会在全部数据集上执行。此参数只是为确定初始中心点建立一个子样本，并且只对kmeans++有效。
rel_initial_centroids	TEXT	包含初始中心点的表名。
expr_centroid	TEXT	rel_initial_centroids指定的表中包含中心点的列名。
initial_centroids	TEXT	包含初始中心点的DOUBLE PRECISION数组表达式的字符串。

表1 kmeans相关函数参数说明

（3）输出格式

k-means模型的输出具有表2所示列的复合数据类型。

列名	数据类型	描述
centroids	DOUBLE PRECISION[][]	最终的中心点。
cluster_variance	DOUBLE PRECISION[]	每个簇的方差。
objective_fn	DOUBLE PRECISION	方差合计。
frac_reassigned	DOUBLE PRECISION	最后一次迭代的误差。
num_iterations	INTEGER	迭代执行的次数。

表2 k-means模型输出列说明

2. 簇分配函数

（1）语法

得到中心点后，可以调用以下函数为每个数据对象进行簇分配：

closest_column( m, x )

（2）参数

m：DOUBLEPRECISION[][]类型，训练函数返回的中心点。

x：DOUBLEPRECISION[]类型，输入数据。

（3）输出格式

column_id：INTEGER类型，簇ID，从0开始。

distance：DOUBLEPRECISION类型，数据对象与簇中心点的距离。

3. 轮廓系数函数

轮廓系数（Silhouette Coefficient），是聚类效果好坏的一种评价方法。作为 k-means模型的一部分，MADlib提供了一个轮廓系数方法的简化版本函数，该函数结果值处于-1~1之间,值越大，表示聚类效果越好。注意，对于大数据集，该函数的计算代价很高。

（1）语法

simple_silhouette( rel_source,  
                   expr_point,  
                   centroids,  
                   fn_dist  
                 )

（2）参数

参数名称	数据类型	描述
rel_source	TEXT	含有输入数据对象的表名。
expr_point	TEXT	数据对象列名。
centroids	TEXT	中心点表达式。
fn_dist（可选）	TEXT	计算数据点到中心点距离的函数名，缺省值为‘dist_norm2’。

表3 simple_silhouette函数参数说明

四、k-means应用示例

1. 问题提出

RFM模型是在做用户价值细分时常用的方法，主要涵盖的指标有最近一次消费时间R（Recency）、消费频率（Frequency），消费金额(Monetary)。我们用R、F、M三个指标作为数据对象属性，应用MADlib的k-means模型相关函数对用户进行聚类分析，并得出具有实用性和解释性的结论。

2. 建立测试数据表并装载原始数据

-- 创建原始数据表  
drop table if exists t_source;  
create table t_source  
(cust_id int,  
 amount decimal(10 , 2 ),  
 quantity int,  
 dt date);  
  
-- 添加100条数据  
insert into t_source (cust_id,amount,quantity,dt) values   
(567,1100.51,2,'2017-07-20'),(568,2003.47,2,'2017-07-20'),
(569,297.91,2,'2017-07-14'),(570,300.02,2,'2017-07-12'),
…
(663,954.77,2,'2017-06-27'),(664,6006.78,3,'2017-06-22'),
(665,25755.7,2,'2017-06-06'),(666,60201.48,2,'2017-07-11');

3. 数据预处理

（1）将最近一次访问日期处理成最近一次访问日期到当前日期的间隔天数，代表该用户是否最近有购买记录（即目前是否活跃）。

（2）因为k-means受异常值影响很大，并且金额变异比较大，所以去除该维度的异常值。

（3）使用PCA方法消除维度之间的相关性。

（4）0-1归一化处理。

-- 去掉异常值  
drop table if exists t_source_change;  
create table t_source_change   
(row_id serial,  
 cust_id int,  
 amount decimal(10 , 2 ),  
 quantity int,  
 dt int);  
  
insert into t_source_change (cust_id,amount,quantity,dt)   
select cust_id,   
       amount,  
       quantity,  
       current_date-dt dt   
  from t_source   
 where amount < (select percentile_cont (0.99) within group (order by amount)  
                   from t_source);  
  
select * from t_source_change order by cust_id;

查询结果为：

     …  
     94 |     660 | 11594.24 |       10 |  2  
     95 |     661 | 12039.49 |        2 | 30  
     96 |     662 |  1494.97 |        2 | 39  
     97 |     663 |   954.77 |        2 | 25  
     98 |     664 |  6006.78 |        3 | 30  
     99 |     665 | 25755.70 |        2 | 46  
(99 rows)

可以看到，因为cust_id=666用户的金额不在99%的范围内，所以t_source_change表中去掉了该条记录。在此去除异常并非这个用户异常，而是为了改善聚类结果。最后需要给这些“异常用户”做业务解释。

-- PCA去掉相关性  
drop table if exists mat;    
create table mat (id integer,    
                  row_vec double precision[] );
    
insert into mat  
select row_id,  
       string_to_array(amount||','||quantity||','||dt,',')::double precision[] row_vec  
  from t_source_change;  

-- PCA培训  
drop table if exists result_table, result_table_mean;    
select madlib.pca_train('mat',              -- source table    
                        'result_table',     -- output table    
                        'id',               -- row id of source table    
                        3                   -- number of principal components    
                       );    

-- PCA投影  
drop table if exists residual_table, result_summary_table, out_table;    
select madlib.pca_project( 'mat',    
                           'result_table',    
                           'out_table',    
                           'id',    
                           'residual_table',    
                           'result_summary_table'    
                           );  
-- 0-1归一化  
drop table if exists t_source_change_nor;  
create table t_source_change_nor  
as   
select row_id,  
       string_to_array(amount_nor||','||quantity_nor||','||dt_nor,',')::double precision[] row_vec  
  from  
(  
select row_id,   
       (row_vec[1] - min_amount)/(max_amount - min_amount) amount_nor,  
       (row_vec[2] - min_quantity)/(max_quantity - min_quantity) quantity_nor,  
       (max_dt - row_vec[3])/(max_dt - min_dt) dt_nor  
  from out_table,  
       (select max(row_vec[1]) max_amount,  
               min(row_vec[1]) min_amount,  
               max(row_vec[2]) max_quantity,  
               min(row_vec[2]) min_quantity,  
               max(row_vec[3]) max_dt,  
               min(row_vec[3]) min_dt  
          from out_table) t) t;  
  
select * from t_source_change_nor order by row_id;

查询结果为：

     …  
     94 | {0.558470357737996,0.954872666162949,0.296935710714377}  
     95 | {0.54122257689463,0.482977156688704,0.81244230552888}  
     96 | {0.949697477408967,0.385844448834949,0.65901807391295}  
     97 | {0.970623648952883,0.62014760223173,0.704941708880569}  
     98 | {0.774918367989914,0.513405499602443,0.666993533505089}  
     99 | {0.00988267286683593,0.150872332720288,0.908966781310526}  
(99 rows)

4. k-means聚类

（1）调用kmeanspp函数执行聚类

drop table if exists km_result;  
create table km_result as  
select * from madlib.kmeanspp
( 't_source_change_nor',         -- 源数据表名  
  'row_vec',                     -- 包含数据点的列名   
  3,                             -- 中心点个数  
  'madlib.squared_dist_norm2',   -- 距离函数  
  'madlib.avg',                  -- 聚合函数  
  20,                            -- 迭代次数  
0.001                          -- 停止迭代条件 );  

\x on;  
select centroids[1][1]||', '||centroids[1][2]||', '||centroids[1][3] cent1,
       centroids[2][1]||', '||centroids[2][2]||', '||centroids[2][3] cent2,           
       centroids[3][1]||', '||centroids[3][2]||', '||centroids[3][3] cent3,
       cluster_variance,
       objective_fn,
       frac_reassigned,
       num_iterations	   
  from km_result;

查询结果如下：

-[ RECORD 1 ]----+------------------------------------------------
cent1            | 0.872433445942, 0.0724942318135, 0.318094096598
cent2            | 0.890144445443, 0.546835465582, 0.333554735766
cent3            | 0.238390106949, 0.449997152636, 0.267439867941
cluster_variance | {1.33448519773,2.05461238207,1.83212942768}
objective_fn     | 5.22122700748
frac_reassigned  | 0
num_iterations   | 8

（2）调用simple_silhouette函数评价聚类质量

select * from madlib.simple_silhouette
( 't_source_change_nor',  
  'row_vec',  
  (select centroids 
     from madlib.kmeanspp('t_source_change_nor',  
                          'row_vec',  
                          3,  
                          'madlib.squared_dist_norm2',  
                          'madlib.avg',  
                          20,  
                          0.001)),  
                          
  'madlib.dist_norm2' );

结果如下：

-[ RECORD 1 ]-----+------------------  
simple_silhouette | 0.640471849127657

（3）调用closest_column函数执行簇分配

\x off;  
  
select cluster_id,  
       round(count(cust_id)/99.0,4) pct,  
       round(avg(amount),4) avg_amount,    
       round(avg(quantity),4) avg_quantity,   
       round(avg(dt),2) avg_dt  
  from   
(  
select t2.*,      
    (madlib.closest_column(centroids, row_vec)).column_id as cluster_id  
  from t_source_change_nor as t1, km_result, t_source_change t2  
 where t1.row_id = t2.row_id) t  
 group by cluster_id;

查询结果为：

 cluster_id |  pct   | avg_amount | avg_quantity | avg_dt   
------------+--------+------------+--------------+--------  
          2 | 0.1919 |  5439.9795 |       2.0526 |  48.79  
          1 | 0.4848 |  3447.5631 |       2.4375 |  29.56  
          0 | 0.3232 |  5586.0203 |       4.0313 |   5.56  
(3 rows)

5. 解释聚类结果

表4对聚类结果分成的三类用户进行了说明。

类别	占比	描述
第一类：高价值用户	32.3%	购买频率高（平均4次）；消费金额较高（平均5586元）；最近一周有过购买行为，这部分用户需要大力发展。
第二类：中价值用户	48.5%	购买频率中等（平均2.4次）；消费金额不高（平均3447）；最近一个月有个购买行为，这部分用户可以适当诱导购买。
第三类：高价值挽留用户	19.2	购买频率一般（平均2次）；消费金额较高（平均5439元）；较长时间没有购买行为，这部分客户需要尽量挽留。

表4 聚类形成的三类用户

五、小节

聚类方法是根据给定的规则进行训练，自动生成类别的数据挖掘方法，属于无监督学习范畴。聚类已经被应用在模式识别、数据分析、图像处理、市场研究等多个领域。虽然类的形式各不相同，但一般都用距离作为类的度量方法。聚类算法有很多种，其中k-means是应用最广泛、适应性最强的聚类算法，也是MADlib唯一支持的聚类算法。MADlib提供了4个k-means训练函数、一个簇分配函数、一个轮廓系数函数。我们利用MADlib提供的这些函数，实现了一个按照RFM模型对用户进行细分的示例需求。

你可能感兴趣的:(BI)

消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
CX8903：Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片诚芯微科技社交电子
CX8903：电动Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片推荐。电动助力自行车EBIKE凭借其环保、健康、低噪、和便捷等特点，成为了越来越受欢迎的骑行便利交通工具。提供电动Ebike自行车仪表电源方案开发、E-BIKE电动助力自行车仪表供电电源解决方案。CX8903采用100V高压制造工艺（芯片最高耐压可到100V以上），SOP-8L贴片封装，CX8903内置100V/90mΩ
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
Xinference如何注册自定义模型玩人工智能的辣条哥人工智能 AI 大模型 Xinference
环境：Xinference问题描述：Xinference如何注册自定义模型解决方案：1.写个model_config.json，内容如下{"version":1,"context_length":2048,"model_name":"custom-llama-3","model_lang":["en","ch"],"model_ability":["generate","chat"],"model
CentOS的根目录下，/bin 和 /sbin 用途和权限 Energet!c Linux日常 centos linux 运维
CentOS的根目录下，/bin和/sbin用途和权限一、/bin(Binary)二、/sbin(SystemBinary)三、总结在CentOS的根目录下，/bin和/sbin目录有不同的用途和权限一、/bin(Binary)用途:存放系统的基本命令，这些命令对所有用户都是可用的。例如：ls、cp、mv、rm等。权限:普通用户和系统管理员都可以使用这些命令。二、/sbin(SystemBinar
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
在RabbitMQ中四种常见的消息路由模式 Xwzzz_ rabbitmq 分布式
1.Fanout模式Fanout模式的交换机是扇出交换机（FanoutExchange），它会将消息广播给所有绑定到它的队列，而不考虑消息的内容或路由键。工作原理：生产者发送消息到FanoutExchange。FanoutExchange会将消息广播给所有绑定到它的队列，所有绑定的队列都会收到这条消息。消费者监听绑定的队列，处理收到的消息。特点：没有路由键：消息不需要路由键，所有绑定的队列都会接收
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
Spring Boot中实现跨域请求 BABA8891 spring boot 后端 java
在SpringBoot中实现跨域请求（CORS，Cross-OriginResourceSharing）可以通过多种方式，以下是几种常见的方法：1.使用@CrossOrigin注解在SpringBoot中，你可以在控制器或者具体的请求处理方法上使用@CrossOrigin注解来允许跨域请求。在控制器上应用：importorg.springframework.web.bind.annotation.
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
RabbitMQ生产者重复机制与确认机制 java炒饭小能手 java-rabbitmq rabbitmq java
重复机制生产者发送消息时，出现了网络故障，导致与MQ的连接中断。为了解决这个问题，SpringAMQP提供的消息发送时的重试机制。即：当RabbitTemplate与MQ连接超时后，多次重试。需要修该发送端模块的application.yaml文件，添加下面的内容：spring:rabbitmq:connection-timeout:1s#设置MQ的连接超时时间template:retry:ena
代码随想录Day 41|动态规划之买卖股票问题，leetcode题目121. 买卖股票的最佳时机、122. 买卖股票的最佳时机Ⅱ、123. 买卖股票的最佳时机Ⅲ LluckyYH 动态规划 leetcode 算法数据结构
提示：DDU，供自己复习使用。欢迎大家前来讨论~文章目录买卖股票的最佳时机相关题目题目一：121.买卖股票的最佳时机解题思路：题目二：122.买卖股票的最佳时机II解题思路：题目三：123.买卖股票的最佳时机III解题思路总结买卖股票的最佳时机相关题目题目一：121.买卖股票的最佳时机[[121.买卖股票的最佳时机](https://leetcode.cn/problems/combination
leetcode-124 Binary Tree Maximum Path Sum 乐观的大鹏 LeetCode
Givenanon-emptybinarytree,findthemaximumpathsum.Forthisproblem,apathisdefinedasanysequenceofnodesfromsomestartingnodetoanynodeinthetreealongtheparent-childconnections.Thepathmustcontainatleastonenodea
《Veronika decides to die》 Ooutstanding
Whatismadness？——Madnessistheinabilitytocommunicate.Betweennormalityandmadness,whicharebasicallythesamething,thereexistsanintermediarystage：itiscalled"beingdifferent."Andpeoplewerebecomingmoreandmoreaf
HarmonyOS Next鸿蒙扫一扫功能实现 JohnLiu_ HarmonyOS Next harmonyos 华为扫一扫鸿蒙
直接使用的是华为官方提供的api，封装成一个工具类方便调用。import{common}from'@kit.AbilityKit';import{scanBarcode,scanCore}from'@kit.ScanKit';exportnamespaceScanUtil{exportasyncfunctionstartScan(context:common.Context):Promise{if
sublime个人设置 bawangtianzun sublime text 编辑器
如何拥有jiangly蒋老师同款编译器(sublimec++配置竞赛向）_哔哩哔哩_bilibiliSublimeText4的安装教程（新手竞赛向）-知乎(zhihu.com)创建文件自动保存为c++打开SublimeText软件。转到"Tools"（工具）>"Developer"（开发者）>"NewPlugin"（新建插件）。在打开的新文件中，粘贴以下代码：importsublimeimport
Nginx之ngx_http_proxy_connect_module模块小米bb Nginx nginx http 运维
近期由于项目需要使用到https正向代理，而nginx官方模块仅支持做http正向代理，一番百度学习后发现了该模块，故今日记录下此笔记供大家一起学习交流ngx_http_proxy_connect_module模块主要用于隧道SSL请求的代理服务器GitHub地址：http://www.github.com/chobits/ngx_http_proxy_connect_modulenginx配置：
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
开发游戏的学习规划杰克逊的日记游戏学习
第一阶段：●C#语言快速系统地学习一遍（基础的语法、面向对象、基础的数据结构、基础的设计模式）●Unity的2D和3D部分及UI、动画、物理系统●阶段性测验：需要去用前面所学的这些基础知识来完成一个简单的2d或者3d的案例，将通过一个自制的《Flappybird》游戏案例讲解游戏开发的思想及方法，并将《Flappybird》这个游戏进一步改造成一个横版射击类游戏《Crazybird》以巩固并且升华
python编写直方图和饼图 2301_80421078 python 开发语言
1.直方图#直方图的绘制#语法格式：plt.hist(x,bins),其中x:数据集；bins:统计数据的分布区间importmatplotlib.pyplotaspltimportpandasaspd#导入文件excel=pd.read_excel('成绩.xlsx')#print(excel)#避免乱码plt.rcParams['font.sans-serif']=['SimHei']x=ex
[移动端自动化] AppAgent介绍大卫软件测试自动化
AUITestAgentAUITestAgent/README_zh.mdatmain·bz-lab/AUITestAgent(github.com)1/MobileAgentX-PLUG/MobileAgent:Mobile-Agent:ThePowerfulMobileDeviceOperationAssistantFamily(github.com)2/AppAgentAppAgent/RE
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多