wzy0623

HAWQ + MADlib 玩转数据挖掘之（八）——聚类方法之k-means

一、聚类方法简介

所谓“物以类聚，人以群分”，其核心思想就是聚类。通过聚类，人们能意识到密集和稀疏的区域，发现全局的分布模式，以及数据属性之间有趣的相互关系。
在实践中，聚类往往为分类服务，即先通过聚类来判断事务的合适类别，然后再利用分类技术对新的样本进行分类。分类与聚类的区别是：分类是事先定义好类别，类别数不变，分类需要由人工标注训练得到，属于监督学习范畴。聚类则没有事先预定的类别，类别数不确定。聚类不需要人工标注的预先训练，类别在聚类过程中自动生成，是一种非监督学习。

1. 聚类的概念

将物理或抽象对象的集合分成由类似的对象组成的多个类或簇（Cluster）的过程被称为聚类（Clustering）。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象相似度较高，与其它簇中的对象相似度较低。相似度是根据描述对象的属性值来度量的，距离是经常采用的度量方式。分析事物聚类的过程称为聚类分析或群分析，是研究样品或指标分类问题的一种统计分析方法。
作为一个数据挖掘的功能，聚类能作为独立的工具来获得数据分布情况，观察每个簇的特点，集中对特定簇做进一步的分析。此外，聚类分析还可以作为其它算法的预处理步骤，简少计算量，提高分析效率。

2. 类的度量方法

虽然类的形式各有不同，但总的来说，一般用距离作为类的度量方法。
设x、y是两个向量

和

，聚类分析中常用的距离有以下几种：
（1）曼哈顿距离
x、y的曼哈顿距离定义为：

（2）欧氏距离
x、y的欧氏距离定义为：

（3）欧氏平方距离
x、y的欧氏平方距离定义为：

（4）角距离
x、y的角距离定义为：

，分母是x、y两个向量的2范数乘积。

（5）谷本距离
x、y的谷本距离定义为：

二、k-means方法

在数据挖掘中，k-means算法是一种广泛使用的聚类分析算法，也是Madlib 1.10.0官方文档中唯一提及的聚类算法。

1. 基本思想

k-means聚类划分方法的基本思想是：将一个给定的有N个数据记录的集合，划分到K个分组中，每一个分组就代表一个簇，K （1）每一个分组至少包含一个数据记录。
（2）每一个数据记录属于且仅属于一个分组。
算法首先给出一个初始的分组，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中对象的距离越近越好（已经收敛，反复迭代至组内数据几乎无差异），而不同分组中对象的距离越远越好。

2. 原理与步骤

k-means算法的工作原理是：首先随机从数据集中选取K个点，每个点初始地代表每个簇的中心，然后计算剩余各个样本到中心点的距离，将它赋给最近的簇，接着重新计算每一簇的平均值作为新的中心点，整个过程不断重复，如果相邻两次调整没有明显变化，说明数据聚类形成的簇已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确，就要调整，在全部样本调整完后，再修改中心点，进入下一次迭代。这个过程将不断重复直到满足某个终止条件，终止条件可以是以下任何一个：

没有对象被重新分配给不同的聚类。
聚类中心不再发生变化。
误差平方和局部最小。

k-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成，因此把得到紧凑且独立的簇作为最终目标。

k-means算法：
输入：聚类个数k，以及n个数据对象。
输出：满足误差最小标准的k个聚簇。
处理流程：

从n个数据对象中任意选择k个对象作为初始中心。
计算每个对象与这些中心对象的距离，并根据最小距离对相应的对象进行划分。
重新计算每个有变化聚类的均值作为新的中心。
循环2、3直到每个聚类不再发生变化为止。终止条件一般为最小化对象到其聚类中心的距离的平方和，如下：

k-means算法接受输入量k，然后将n个数据对象划分为k个簇以便使得所获得的簇满足：同一簇中的对象相似度较高，而不同簇中的对象相似度较低。簇相似度是利用各簇中对象的均值所获得的中心对象来进行计算的。为了便于理解k-means算法，可以参考图1所示的二维向量的例子。

HAWQ + MADlib 玩转数据挖掘之（八）——聚类方法之k-means_第1张图片

图1

从图中我们可以看到A、B、C、D、E五个点。而灰色的点是初始中心点，也就是用来找簇的点。有两个中心点，所以K=2。
k-means的算法如下：

随机在图中取K（这里K=2）个初始中心点。
对图中的所有点求到这K个中心点的距离，假如点Pi离种子点Si最近，那么Pi属于Si聚类。图1中，我们可以看到A、B属于上面的中心点，C、D、E属于下面中部的中心点。
移动中心点到属于它的簇的中心，作为新的中心点，见图1上的第三步
重复第2和第3步，直到中心点没有移动，可以看到图1中的第四步上面的中心点聚合了A、B、C，下面的中心点聚合了D、E。

二维坐标中两点之间距离公式如下：

公式中(x1，y1)，(x2，y2)分别为A、B两个点的坐标。求聚类中心点的算法可以简单使用各个点的X/Y坐标的平均值。

3. k-means++算法

k-means主要有两个最重大的缺陷，并且都和初始值有关：

K是事先给定的，这个K值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适。（ISODATA算法通过类的自动合并和分裂，得到较为合理的类型数目K）
k-means算法以初始随机中心点为基础，这个随机中心点太重要，不同的随机中心点会有得到完全不同的结果。k-means++算法就是用来解决这个问题，其可以有效地选择初始点。

k-means++算法步骤：

先从输入数据对象中随机挑一个作为中心点。
对于每个数据对象x，计算其和最近的一个中心点的距离D(x)并保存在一个数组里，然后把这些距离加起来得到Sum(D(x))。
再取一个随机值，用权重的方式来取计算下一个中心点。这个算法的实现是，先取一个能落在Sum(D(x))中的随机值Random，然后用Random -= D(x)，直到其<=0，此时的x就是下一个中心点。
重复第2和第3步直到所有的K个中心点都被选出来。
进行k-means算法。

三、Madlib中的k-means方法相关函数

1. 技术背景

形式上，我们希望最小化以下目标函数：

其中x1，...，xn是n个数据对象，c1，...，ck是k个中心点，常见的情况下，距离使用欧氏平方距离。这个问题在计算上很困难（NP-hard问题），但由于局部启发式搜索算法在实践中表现的相当好，如今被普遍采用，其中之一前面所讨论的k-means算法。

2. 训练函数

（1）语法
Madlib提供了以下四个k-means算法的训练函数。

使用随机中心点方法，语法如下：

kmeans_random( rel_source,
               expr_point,
               k,
               fn_dist,
               agg_centroid,
               max_num_iterations,
               min_frac_reassigned
             )

使用kmeans++中心点方法，语法如下：

kmeanspp( rel_source,
          expr_point,
          k,
          fn_dist,
          agg_centroid,
          max_num_iterations,
          min_frac_reassigned,
          seeding_sample_ratio
        )

由rel_initial_centroids参数提供一个包含初始中心点的表名，语法如下：

kmeans( rel_source,
        expr_point,
        rel_initial_centroids,
        expr_centroid,
        fn_dist,
        agg_centroid,
        max_num_iterations,
        min_frac_reassigned
      )

由initial_centroids参数提供的数组表达式，指定一个初始中心点集合，语法如下：

kmeans( rel_source,
        expr_point,
        initial_centroids,
        fn_dist,
        agg_centroid,
        max_num_iterations,
        min_frac_reassigned
      )

（2）参数
rel_source：TEXT类型，含有输入数据对象的表名。数据对象和预定义中心点（如果使用的话）应该使用一个数组类型的列存储，如FLOAT[]或INTEGER[]。调用任何以上四种函数进行数据分析时，都会跳过具有non-finite值的数据对象，non-finite值包括NULL、NaN、infinity等。
expr_point：TEXT类型，包含数据对象的列名。
k：INTEGER类型，指定要计算的中心点的个数。
fn_dist（可选）：TEXT类型，缺省值为‘squared_dist_norm2’，指定计算数据对象与中心点距离的函数名称。可以使用以下距离函数，括号内为均值计算方法：

dist_norm1：1范数/曼哈顿距离（元素中位数）。
dist_norm2: 2范式/欧氏距离（元素平均数）。
squared_dist_norm2：欧氏平方距离（元素平均数）。
dist_angle：角距离（归一化数据的元素平均数）。
dist_tanimoto：谷本距离（归一化数据的元素平均数）。
具有DOUBLE PRECISION[] x, DOUBLE PRECISION[] y -> DOUBLE PRECISION参数形式的用户自定义函数。

agg_centroid（可选）：TEXT类型，缺省值为‘avg’。确定中心点使用的聚合函数名，可以使用以下聚合函数：

avg：平均值（缺省）。
normalized_avg：归一化平均值。

max_num_iterations（可选）：INTEGER类型，缺省值为20，指定执行的最大迭代数。
min_frac_reassigned（可选）：DOUBLE PRECISION类型，缺省值为0.001。相邻两次迭代所有中心点相差小于该值时计算完成。
seeding_sample_ratio（可选）：DOUBLE PRECISION，缺省值为1.0。kmeans++将扫描数据‘k’次，对大数据集会很慢。此参数指定用于确定初始中心点所使用的原始数据集样本比例。当此参数大于0时（最大值为1.0），初始中心点在数据均匀分布的随机样本上。注意，k-means算法最终会在全部数据集上执行。此参数只是为确定初始中心点建立一个子样本，并且只对kmeans++有效。
rel_initial_centroids：TEXT类型，包含初始中心点的表名。
expr_centroid：TEXT类型，rel_initial_centroids指定的表中包含中心点的列名。
initial_centroids：TEXT类型，包含初始中心点的DOUBLE PRECISION数组表达式的字符串。

（3）输出格式
k-means模型的输出具有以下列的复合数据类型：
centroids DOUBLE PRECISION[][]类型，最终的中心点。
cluster_variance DOUBLE PRECISION[]类型，每个簇的方差。
objective_fn DOUBLE PRECISION类型，方差合计。
frac_reassigned DOUBLE PRECISION类型，在最后一次迭代的误差。
num_iterations INTEGER类型，迭代执行的次数。

3. 簇分配函数

（1）语法
得到中心点后，可以调用以下函数为每个数据对象进行簇分配：

closest_column( m, x )

（2）参数
m：DOUBLE PRECISION[][]类型，训练函数返回的中心点。
x：DOUBLE PRECISION[]类型，输入数据。
（3）输出格式
column_id INTEGER类型，簇ID，从0开始。
distance DOUBLE PRECISION类型，数据对象与簇中心点的距离。

4. 轮廓系数函数

轮廓系数（Silhouette Coefficient），是聚类效果好坏的一种评价方法。作为 k-means模型的一部分，Madlib提供了一个轮廓系数方法的简化版本函数，该函数结果值处于-1~1之间,值越大，表示聚类效果越好。注意，对于大数据集，该函数的计算代价很高。
（1）语法

simple_silhouette( rel_source,
                   expr_point,
                   centroids,
                   fn_dist
                 )

（2）参数
rel_source：TEXT类型，含有输入数据对象的表名。
expr_point：TEXT类型，数据对象列名。
centroids：TEXT类型。中心点表达式。
fn_dist（可选）：TEXT类型，缺省值为‘dist_norm2’，计算数据点到中心点距离的函数名。

四、k-means示例

1. 问题提出

RFM模型是在做用户价值细分时常用的方法，主要涵盖的指标有最近一次消费时间R（Recency）、消费频率（Frequency），消费金额(Monetary)。我们用R、F、M三个指标作为数据对象属性，应用Madlib的k-means模型相关函数对用户进行聚类分析，并得出具有实用性和解释性的结论。

2. 建立测试数据表并装载原始数据

-- 创建原始数据表
drop table if exists t_source;
create table t_source
(cust_id int,
 amount decimal(10 , 2 ),
 quantity int,
 dt date);

-- 添加100条数据
insert into t_source (cust_id,amount,quantity,dt) values 
(567,1100.51,2,'2017-07-20'),(568,2003.47,2,'2017-07-20'),(569,297.91,2,'2017-07-14'),
(570,300.02,2,'2017-07-12'),(571,198.48,2,'2017-07-19'),(572,4003.07,3,'2017-07-20'),
(573,4003.07,3,'2017-07-20'),(574,393.39,2,'2017-06-29'),(575,611.3,3,'2017-07-13'),
(576,597.73,2,'2017-07-13'),(577,399.32,2,'2017-06-29'),(578,20026.55,2,'2017-07-18'),
(579,1997.57,2,'2017-06-22'),(580,3202.77,3,'2017-07-13'),(581,597.72,2,'2017-06-29'),
(582,600.04,3,'2017-07-14'),(583,3995.11,2,'2017-06-22'),(584,3995.11,2,'2017-06-22'),
(585,3984.27,2,'2017-06-22'),(586,7003.05,3,'2017-06-26'),(587,2001.23,2,'2017-06-27'),
(588,2001.23,2,'2017-06-19'),(589,2094.91,3,'2017-06-19'),(590,2964.5,4,'2017-06-26'),
(591,1982.58,2,'2017-06-09'),(592,3000.62,2,'2017-06-20'),(593,4000,2,'2017-06-22'),
(594,5003.06,2,'2017-06-19'),(595,2098.71,3,'2017-06-27'),(596,196.44,2,'2017-06-20'),
(597,401.46,2,'2017-07-11'),(598,20007.34,5,'2017-07-20'),(599,2001.23,2,'2017-06-22'),
(600,2961.03,2,'2017-06-21'),(601,3997.09,2,'2017-06-20'),(602,1491.21,2,'2017-07-13'),
(603,4105.47,5,'2017-07-18'),(604,1998.17,2,'2017-06-13'),(605,497.28,2,'2017-06-09'),
(606,2306.61,2,'2017-06-27'),(607,9006.76,5,'2017-07-21'),(608,5982.51,3,'2017-06-29'),
(609,2199.46,2,'2017-07-20'),(610,1088.6,2,'2017-06-20'),(611,3991.01,3,'2017-06-20'),
(612,2000.01,2,'2017-06-08'),(613,501.79,3,'2017-07-17'),(614,15002.45,5,'2017-07-13'),
(615,601.1,2,'2017-07-11'),(616,2986.69,2,'2017-06-19'),(617,2012.68,2,'2017-06-30'),
(618,1500.5,2,'2017-06-07'),(619,3988.51,3,'2017-06-19'),(620,20010.44,2,'2017-06-05'),
(621,20002.57,2,'2017-06-02'),(622,5266.72,4,'2017-07-17'),(623,5266.72,4,'2017-07-17'),
(624,7801.58,2,'2017-07-11'),(625,294.18,2,'2017-05-29'),(626,972.54,2,'2017-05-24'),
(627,1978.62,2,'2017-06-08'),(628,694.73,2,'2017-06-05'),(629,1196.04,2,'2017-06-08'),
(630,4451.68,4,'2017-06-20'),(631,2010.49,2,'2017-06-19'),(632,2994.46,2,'2017-06-30'),
(633,1000.37,2,'2017-05-29'),(634,3199.49,3,'2017-06-22'),(635,6023.75,3,'2017-06-08'),
(636,1296.24,12,'2017-07-19'),(637,4003.67,3,'2017-06-26'),(638,4001.54,2,'2017-06-19'),
(639,4000.61,3,'2017-06-23'),(640,4001.83,3,'2017-06-19'),(641,5999.42,3,'2017-06-21'),
(642,4975.83,4,'2017-06-27'),(643,12052.96,5,'2017-07-21'),(644,5010.82,2,'2017-06-07'),
(645,3001.22,2,'2017-07-13'),(646,2992.68,3,'2017-06-23'),(647,4002.45,2,'2017-06-19'),
(648,5938.52,2,'2017-05-22'),(649,4001.83,3,'2017-06-19'),(650,7141.16,2,'2017-06-28'),
(651,26010.8,16,'2017-07-20'),(652,9102.11,7,'2017-07-19'),(653,1225.07,2,'2017-05-31'),
(654,6168.28,3,'2017-06-19'),(655,2997.94,3,'2017-07-11'),(656,2972.38,2,'2017-06-07'),
(657,4303.51,2,'2017-05-23'),(658,4100.16,4,'2017-07-18'),(659,2001.23,2,'2017-06-19'),
(660,11594.24,10,'2017-07-20'),(661,12039.49,2,'2017-06-22'),(662,1494.97,2,'2017-06-13'),
(663,954.77,2,'2017-06-27'),(664,6006.78,3,'2017-06-22'),(665,25755.7,2,'2017-06-06'),
(666,60201.48,2,'2017-07-11');

3. 数据预处理

将最近一次访问日期处理成最近一次访问日期到当前日期的间隔天数，代表该用户是否最近有购买记录（即目前是否活跃）。
因为k-means受异常值影响很大，并且金额变异比较大，所以去除该维度的异常值。
使用PCA方法消除维度之间的相关性。
0-1归一化处理。

-- 去掉异常值
drop table if exists t_source_change;
create table t_source_change 
(row_id serial,
 cust_id int,
 amount decimal(10 , 2 ),
 quantity int,
 dt int);

insert into t_source_change (cust_id,amount,quantity,dt) 
select cust_id, 
       amount,
       quantity,
       current_date-dt dt 
  from t_source 
 where amount < (select percentile_cont (0.99) within group (order by amount)
                   from t_source);

select * from t_source_change order by cust_id;

查询结果为：

...
     94 |     660 | 11594.24 |       10 |  2
     95 |     661 | 12039.49 |        2 | 30
     96 |     662 |  1494.97 |        2 | 39
     97 |     663 |   954.77 |        2 | 25
     98 |     664 |  6006.78 |        3 | 30
     99 |     665 | 25755.70 |        2 | 46
(99 rows)

可以看到，因为cust_id=666用户的金额不在99%的范围内，所以t_source_change表中去掉了该条记录。在此去除异常并非这个用户异常，而是为了改善聚类结果。最后需要给这些“异常用户”做业务解释。

-- PCA去掉相关性
drop table if exists mat;  
create table mat (id integer,  
                  row_vec double precision[]  
                  );  
insert into mat
select row_id,
       string_to_array(amount||','||quantity||','||dt,',')::double precision[] row_vec
  from t_source_change;

drop table if exists result_table, result_table_mean;  
select madlib.pca_train('mat',              -- source table  
                        'result_table',     -- output table  
                        'id',               -- row id of source table  
                        3                   -- number of principal components  
                       );  

drop table if exists residual_table, result_summary_table, out_table;  
select madlib.pca_project( 'mat',  
                           'result_table',  
                           'out_table',  
                           'id',  
                           'residual_table',  
                           'result_summary_table'  
                           );

-- 0-1归一化
drop table if exists t_source_change_nor;
create table t_source_change_nor
as 
select row_id,
       string_to_array(amount_nor||','||quantity_nor||','||dt_nor,',')::double precision[] row_vec
  from
(
select row_id, 
       (row_vec[1] - min_amount)/(max_amount - min_amount) amount_nor,
       (row_vec[2] - min_quantity)/(max_quantity - min_quantity) quantity_nor,
       (max_dt - row_vec[3])/(max_dt - min_dt) dt_nor
  from out_table,
       (select max(row_vec[1]) max_amount,
               min(row_vec[1]) min_amount,
               max(row_vec[2]) max_quantity,
               min(row_vec[2]) min_quantity,
               max(row_vec[3]) max_dt,
               min(row_vec[3]) min_dt
          from out_table) t) t;

select * from t_source_change_nor order by row_id;

查询结果为：

...
     94 | {0.558470357737996,0.954872666162949,0.296935710714377}
     95 | {0.54122257689463,0.482977156688704,0.81244230552888}
     96 | {0.949697477408967,0.385844448834949,0.65901807391295}
     97 | {0.970623648952883,0.62014760223173,0.704941708880569}
     98 | {0.774918367989914,0.513405499602443,0.666993533505089}
     99 | {0.00988267286683593,0.150872332720288,0.908966781310526}
(99 rows)

4. k-means聚类

（1）调用kmeanspp函数执行聚类

drop table if exists km_result;
create table km_result as
select * from madlib.kmeanspp( 't_source_change_nor',   -- table of source data
                               'row_vec',     -- column containing point co-ordinates 
                               3,             -- number of centroids to calculate
                               'madlib.squared_dist_norm2',   -- distance function
                               'madlib.avg',  -- aggregate function
                               20,            -- number of iterations
                               0.001          -- fraction of centroids reassigned to keep iterating 
                             );

\x on;
select * from km_result;

结果如下：

-[ RECORD 1 ]----+-----------------------------------------------------------------------------------------------------------------------------------------------
centroids        | {{0.791217523987,0.920651641252,0.673871940211},{0.874057597294,0.532762557118,0.682720362738},{0.796875366696,0.204531299723,0.663443078965}}
cluster_variance | {3.49163639093,0.657987496465,1.91771776225}
objective_fn     | 6.06734164965
frac_reassigned  | 0
num_iterations   | 3

（2）调用simple_silhouette函数评价聚类质量

select * from madlib.simple_silhouette( 't_source_change_nor',
                                        'row_vec',
                                        (select centroids from
                                            madlib.kmeanspp('t_source_change_nor',
                                                            'row_vec',
                                                            3,
                                                            'madlib.squared_dist_norm2',
                                                            'madlib.avg',
                                                            20,
                                                            0.001)),
                                        'madlib.dist_norm2'
                                      );

结果如下：

-[ RECORD 1 ]-----+------------------
simple_silhouette | 0.640471849127657

（3）调用closest_column函数执行簇分配

\x off;

select cluster_id,
       round(count(cust_id)/99.0,4) pct,
       round(avg(amount),4) avg_amount,  
       round(avg(quantity),4) avg_quantity, 
       round(avg(dt),2) avg_dt
  from 
(
select t2.*,    
    (madlib.closest_column(centroids, row_vec)).column_id as cluster_id
  from t_source_change_nor as t1, km_result, t_source_change t2
 where t1.row_id = t2.row_id) t
 group by cluster_id;

查询结果为：

 cluster_id |  pct   | avg_amount | avg_quantity | avg_dt 
------------+--------+------------+--------------+--------
          2 | 0.1919 |  5439.9795 |       2.0526 |  48.79
          1 | 0.4848 |  3447.5631 |       2.4375 |  29.56
          0 | 0.3232 |  5586.0203 |       4.0313 |   5.56
(3 rows)

5. 解释聚类结果

类别	占比	描述
第一类：高价值用户	32.3%	购买频率高（平均4次）；消费金额较高（平均5586元）；最近一周有过购买行为，这部分用户需要大力发展。
第二类：中价值用户	48.5%	购买频率中等（平均2.4次）；消费金额不高（平均3447）；最近一个月有个购买行为，这部分用户可以适当诱导购买。
第三类：高价值挽留用户	19.2	购买频率一般（平均2次）；消费金额较高（平均5439元）；较长时间没有购买行为，这部分客户需要尽量挽留。

参考文献：

《大数据挖掘——系统方法与实力分析》：讲述聚类方法的基本概念及k-means方法实例。
k-Means Clustering：Madlib官方文档对k-means方法的说明。
深入浅出K-Means算法：简单易懂的K-Means算法描述
kmeans聚类方法在用户价值细分上的应用：基于RFM模型的k-means聚类方法在客户细分中的应用示例。
基本Kmeans算法介绍及其实现：详细阐述k-means算法需要注意的问题。

你可能感兴趣的:(BI)

HarmonyOS 鸿蒙学习笔记3-UIAbility组件
UIAbility组件UIAbility组件是一种包含UI界面的应用组件，主要用于和用户交互。直白来说就是构建页面，可以通过多个页面来实现功能模块。创建的module默认情况下就是一个ability，除此之外还有HAR(静态资源包)和HSP(动态共享包)，主要用于module间共用资源，后续会做详细讲解。主要内容：1.`abilitymodule`目录结构及声明配置；2.生命周期；3.与UI界面数
HarmonyOS开发知识：ArkTS动静态卡片调用规范总结
卡片事件能力针对动态卡片，ArkTS卡片中提供了postCardAction接口用于卡片内部和提供方应用间的交互，当前支持router、message和call三种类型的事件，仅在卡片中可以调用。针对静态卡片，ArkTS卡片提供了FormLink用于卡片内部和提供方应用间的交互。动态卡片事件能力说明动态卡片事件的主要使用场景如下：router事件：可以使用router事件跳转到指定UIAbilit
Android及Harmonyos实现图片进度显示效果谦和的大熊 harmonyos android 华为
鸿蒙Harmonyos实现，使用ImageKnife自定义transform来实现图片进度效果import{Context}from'@ohos.abilityAccessCtrl';import{image}from'@kit.ImageKit';import{drawing}from'@kit.ArkGraphics2D';import{GrayScaleTransformation,Pixe
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
基于PHP音乐交流论坛的设计与实现(含源文件) 设计源码分享 java
欢迎添加微信互相交流学习哦！项目源码：https://gitee.com/oklongmm/biye摘要本系统采用PHP语言，在Windows平台上设计实现一个网络论坛，实现了论坛的的基本功能：账户申请、登陆、帖子分类管理、查看、发帖、回帖、送花、加好友、发短信；用户界面亲切友善，便于使用；后台管理简单。本系统之所以坚持PHP与MySQL数据组合，因为在众多的数据库中，MySQL数据库有着特殊的魅
jQuery Mobile 事件
jQueryMobile事件概述jQueryMobile是一个基于jQuery的开源移动设备Web框架，它通过简单的代码和丰富的API，为开发者提供了创建适应各种移动设备的响应式Web应用的解决方案。jQueryMobile事件是其核心功能之一，本文将详细介绍jQueryMobile中常见的事件及其使用方法。常见事件1.点击事件（click）点击事件是jQueryMobile中最常用的交互事件之一
【机器学习|学习笔记】组合特征（Feature Combinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记人工智能神经网络深度学习
【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。文章目录【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达
YOLO融合synergisticNet中的模块今天炼丹了吗 YOLOv11与自研模型专栏 YOLO
YOLOv11v10v8使用教程：YOLOv11入门到入土使用教程YOLOv11改进汇总贴：YOLOv11及自研模型更新汇总《HyperSINet:ASynergeticInteractionNetworkCombinedWithConvolutionandTransformerforHyperspectralImageClassification》一、模块介绍论文链接：https://ieeex
安全分析：Zabbix 路径探测请求解析 Bruce_xiaowei 总结经验笔记渗透测试安全 zabbix 网络安全
安全分析：Zabbix路径探测请求解析作为网络安全工程师，我针对提供的HTTP请求数据进行了深度分析，以下是专业评估报告：请求关键特征分析特征项观测值风险等级请求路径/zabbix/srv_status.php?ddreset=1高危User-AgentMozilla/5.0(WindowsNT10.0;Win64;x64;rv:130.0)Gecko/20100101Firefox/130.0可
ECharts 智慧医疗大屏制作实例详解
在大数据时代，数据可视化已成为信息传递和决策支持的重要手段。ECharts作为一款功能强大、易于上手的开源可视化库，凭借其丰富的图表类型、灵活的配置项和良好的跨平台兼容性，广泛应用于企业级数据大屏、BI报表、实时监控等场景。本教程以“智慧医疗大屏”为例，完整演示了从页面搭建、图表配置到动态交互与响应式适配的全过程。通过循序渐进的讲解，读者将掌握如何使用ECharts构建专业、美观、可交互的数据可视
烧录成砖分享 Mr_-G Linux 底层软件开发编程入门烧录烧录成砖
一、烧录与“成砖”的基础概念界定1.1烧录的技术本质烧录（Programming）是将固件（Firmware）、系统镜像或程序代码写入电子设备存储介质的过程，其核心是通过特定通信协议（如USB、UART、SPI、I2C等）将二进制数据固化到芯片（如Flash、EEPROM、MCU内置存储）的指定地址空间。烧录的对象涵盖智能手机、路由器、单片机、主板BIOS、智能家电等几乎所有带处理器的设备，不同设
英语学习：H开头 only-lucky 英语学习学习
habit习惯hair头发haircut理发half一半hall大厅ham火腿hamburger汉堡包hammer锤子hand手，指针handbag手提包handful少量，少数handkerchief手帕handle柄handsome英俊的handwriting书法handy便利的，顺手的hang悬挂happen偶然发生happiness幸福hard努力的hardly几乎不hardship困难的
Ubuntu18.04中默认的软件源sources.list AlwaysSimple ubuntu
文件位置：etc/apt/sources.list#debcdrom:[Ubuntu18.04.3LTS_BionicBeaver_-Releaseamd64(20190805)]/bionicmainrestricted#Seehttp://help.ubuntu.com/community/UpgradeNotesforhowtoupgradeto#newerversionsofthedist
【华为od刷题（C++）】HJ30 字符串合并处理 m0_64866459 华为od c++链表
我的代码：#include//用于输入输出流#include//用于字符串处理#include//用于动态数组的处理#include//包含排序等常见算法#include//用于字符串流的处理，可以将数据从字符串流中提取#include//提供字符处理函数，如isdigit、isalpha等#include//提供位集处理，能够将数字转换为二进制表示usingnamespacestd;charbi
debian 12 系统容器更换阿里源和用户权限
背景：镜像emqx/emqx:5.8.4用户为emqx无权限系统为debian12使用root用户创建容器登录即可发现时间不对，换阿里源之后无法更新更换上海时区echo"Asia/Shanghai">/etc/timezoneln-sf/usr/share/zoneinfo/Asia/Shanghai/etc/localtime更换阿里源该方式在阿里源只更新到debian11的文档www-data
YOLOv11 改进策略 | GFPN：超越 BiFPN，跳层与跨尺度连接重塑特征金字塔
YOLOv11改进策略|GFPN：超越BiFPN，跳层与跨尺度连接重塑特征金字塔！介绍颈部网络（Neck）在目标检测任务中扮演着至关重要的角色，它负责有效地融合来自骨干网络（Backbone）不同层级的特征图，为检测头部（Head）提供包含丰富语义和空间信息的多尺度特征。FPN、PANet和BiFPN等结构是特征金字塔融合的代表。BiFPN作为其中的佼佼者，通过双向连接和加权融合取得了优异的性能。
分区在线扩容 suijishengchengde 运维 linux
#步骤1：安装必要工具（如未安装）#CentOS/RHEL:sudoyuminstallcloud-utils-growpart#Ubuntu/Debian:sudoaptinstallcloud-guest-utils#步骤2：检查当前磁盘布局lsblksudofdisk-l/dev/sda#步骤3：在线调整分区表（ext4可行）#示例：扩展/dev/sda的第一个分区sudogrowpart/
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Linux（Debian）下部署.NET Core网站终极指南：从零到生产级服务的深度实战！墨夶 C#学习资料 linux debian .netcore
**Debian部署.NETCore的“全栈实战”**第一阶段：环境准备与依赖安装1.1系统环境要求#更新系统并安装基础工具sudoaptupdate&&sudoaptupgrade-ysudoaptinstall-ycurlnanounzipgit1.2安装.NETCore运行时代码示例（Debian11/12）：#下载并安装MicrosoftGPG密钥wgethttps://packages.
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
WSL命令走过，莫回头 Linux wsl
以下是WSL（WindowsSubsystemforLinux）的常用命令大全，涵盖安装、管理、网络、文件交互等场景，方便快速查阅和使用：1.安装与版本管理命令说明wsl--install默认安装WSL和Ubuntuwsl--install-d指定安装其他发行版（如Debian、Kali-linux）wsl--update更新WSL内核wsl--set-default-version2设置新发行版
Jenkins集成GitHub实现自动化打标签实战指南 ivwdcwso 运维与云原生 jenkins github 自动化 CI/CD devops
本文将详细介绍如何使用Jenkins与GitHubAPI集成，实现自动化打标签的完整流程。以下是完整的Python脚本和详细解析。完整Python脚本#!/root/miniconda3/bin/pythonimportjsonimportboto3importosimportpytzimportargparsefromdatetimeimportdatetimefromgithubimportG
PHP接单涨薪系列（十）之智能BI系统：PHP+AI数据决策平台（2025高溢价秘籍）攻城狮凌霄 PHP接单涨薪 AI PHP php 人工智能开发语言
案例场景某零售集团采用本方案后，决策效率提升300%，库存周转率优化40%，单季度利润增长¥2,800万。本文将彻底解密如何用PHP+AI打造高价值商业智能系统，让你成为企业数字化转型的核心供应商！一、智能BI：企业决策的新引擎1.1传统报表vs智能BI数据源传统报表智能BI静态图表历史数据人工分析交互式探索预测分析自动决策2025年BI系统价值对比：指标传统报表智能BI系统提升幅度数据准备时间3
【云原生技术】代码解析-Jenkinsfile 脚本在流水线里调用 SonarScanner CLI，把代码分析结果上传到 SonarQube 服务器阿寻寻云原生 kubernetes 容器服务器
下面这段Jenkinsfile脚本是在流水线里调用SonarScannerCLI，把代码分析结果上传到SonarQube服务器。逐行解释如下：sh"""$SCANNER_HOME/bin/sonar-scanner\#①调用SonarScanner，可执行文件放在SCANNER_HOME/bin-Dpmd.skip=true\#②跳过PMD规则集（如果只想跑Sonar内置规则）-Dmaven.te
linux安装java jdk17 ng
1、下载jdk包wget--header=“Cookie:oraclelicense=accept-securebackup-cookie”https://download.oracle.com/java/17/archive/jdk-17.0.10_linux-x64_bin.tar.gz2、解压jdk包：tar-zxvfjdk-17.0.10_linux-x64_bin.tar.gz3、编辑配
Buildroot，Debian 和 Ubuntu 有什么差别科学的发展-只不过是读大自然写的代码驱动开发 debian ubuntu 运维
Buildroot、Debian和Ubuntu都是流行的Linux发行版或构建系统，但它们在目标、使用方式和结构上有所不同。以下是它们之间的主要差别：Buildroot:Buildroot是一个为嵌入式Linux系统提供完全自动化构建的工具。它不是一个常规的Linux发行版，而是一个用于构建自定义Linux系统的工具集。使用Buildroot，你可以从零开始构建一个定制的Linux系统，包括内核、
debian杂项两斤半 Linux debian
移除非Debian软件包aptlist'?narrow(?installed,?not(?origin(Debian)))'清理配置文件残留find/etc-name'*.dpkg-*'-o-name'*.ucf-*'-o-name'*.merge-error'清理已删除的软件包#显示列表aptlist'~c'#清理aptpurge'~c'过时的软件包#显示列表aptlist'~o'#清理aptp
debian配置终端Tab自动补全
确保bash-completion软件包已安装aptupdateaptinstallbash-completion配置~/.bashrc#为root用户启用Bash补全if[-f/etc/bash_completion];then./etc/bash_completionfi重启或source~/.bashrc
Buildroot，Ubuntu，Debian，Yocto 它们分别是什么，它们之间的具体关系是什么玄奕子嵌入式学习之Linux入门篇 ubuntu debian linux Buildroot Yocto
1.Buildroot定义：Buildroot是一个简化和加速嵌入式Linux系统开发过程的工具，提供一种容易、高效的方式来生成交叉编译工具链、根文件系统、内核映像和引导加载程序。Buildroot使用makefile和kconfig（和Linux内核使用的相同系统）来配置和构建整个嵌入式系统。适用场景：对于需要轻量级或高度定制的嵌入式系统，Buildroot非常适合，尤其是那些资源受限或对启动时
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&