冲鸭，屎壳郎

DBSCAN密度聚类算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。

1. 密度聚类原理

　　　　DBSCAN是一种基于密度的聚类算法（均值漂移是基于密度上升的算法），这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。

　　　　通过将紧密相连的样本划为一类，这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别，则我们就得到了最终的所有聚类类别结果。

2. DBSCAN密度定义

　　　　在上一节我们定性描述了密度聚类的基本思想，本节我们就看看DBSCAN是如何描述密度聚类的。DBSCAN是基于一组邻域来描述样本集的紧密程度的，参数(ϵϵ, MinPts)用来描述邻域的样本分布紧密程度。其中，ϵϵ描述了某一样本的邻域距离阈值，MinPts描述了某一样本的距离为ϵϵ的邻域中样本个数的阈值。

　　　　假设我的样本集是D=(x1,x2,...,xm)(x1,x2,...,xm),则DBSCAN具体的密度描述定义如下：

　　　　1） ϵϵ-邻域：对于xj∈Dxj∈D，其ϵϵ-邻域包含样本集D中与xjxj的距离不大于ϵϵ的子样本集，即Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}, 这个子样本集的个数记为|Nϵ(xj)||Nϵ(xj)|　

　　　　2) 核心对象：对于任一样本xj∈Dxj∈D，如果其ϵϵ-邻域对应的Nϵ(xj)Nϵ(xj)至少包含MinPts个样本，即如果|Nϵ(xj)|≥MinPts|Nϵ(xj)|≥MinPts，则xjxj是核心对象。　

　　　　3）密度直达：如果xixi位于xjxj的ϵϵ-邻域中，且xjxj是核心对象，则称xixi由xjxj密度直达。注意反之不一定成立，即此时不能说xjxj由xixi密度直达, 除非且xixi也是核心对象。

　　　　4）密度可达：对于xixi和xjxj,如果存在样本样本序列p1,p2,...,pTp1,p2,...,pT,满足p1=xi,pT=xjp1=xi,pT=xj, 且pt+1pt+1由ptpt密度直达，则称xjxj由xixi密度可达。也就是说，密度可达满足传递性。此时序列中的传递样本p1,p2,...,pT−1p1,p2,...,pT−1均为核心对象，因为只有核心对象才能使其他样本密度直达。注意密度可达也不满足对称性，这个可以由密度直达的不对称性得出。

　　　　5）密度相连：对于xixi和xjxj,如果存在核心对象样本xkxk，使xixi和xjxj均由xkxk密度可达，则称xixi和xjxj密度相连。注意密度相连关系是满足对称性的。

　　　　从下图可以很容易看出理解上述定义，图中MinPts=5，红色的点都是核心对象，因为其ϵϵ-邻域至少有5个样本。黑色的样本是非核心对象。所有核心对象密度直达的样本在以红色核心对象为中心的超球体内，如果不在超球体内，则不能密度直达。图中用绿色箭头连起来的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的ϵϵ-邻域内所有的样本相互都是密度相连的。

　　　　有了上述定义，DBSCAN的聚类定义就简单了。

3. DBSCAN密度聚类思想

　　　　DBSCAN的聚类定义很简单：由密度可达关系导出的最大密度相连的样本集合，即为我们最终聚类的一个类别，或者说一个簇。

　　　　这个DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象，则簇里其他的非核心对象样本都在这个核心对象的ϵϵ-邻域里；如果有多个核心对象，则簇里的任意一个核心对象的ϵϵ-邻域中一定有一个其他的核心对象，否则这两个核心对象无法密度可达。这些核心对象的ϵϵ-邻域里所有的样本的集合组成的一个DBSCAN聚类簇。

　　　　那么怎么才能找到这样的簇样本集合呢？DBSCAN使用的方法很简单，它任意选择一个没有类别的核心对象作为种子，然后找到所有这个核心对象能够密度可达的样本集合，即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合，这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。

　　　　基本上这就是DBSCAN算法的主要内容了，是不是很简单？但是我们还是有三个问题没有考虑。

　　　　第一个是一些异常样本点或者说少量游离于簇外的样本点，这些点不在任何一个核心对象在周围，在DBSCAN中，我们一般将这些样本点标记为噪音点。

　　　　第二个是距离的度量问题，即如何计算某样本和核心对象样本的距离。在DBSCAN中，一般采用最近邻思想，采用某一种距离度量来衡量样本距离，比如欧式距离。这和KNN分类算法的最近邻思想完全相同。对应少量的样本，寻找最近邻可以直接去计算所有样本的距离，如果样本量较大，则一般采用KD树或者球树来快速的搜索最近邻。如果大家对于最近邻的思想，距离度量，KD树和球树不熟悉，建议参考之前写的另一篇文章K近邻法(KNN)原理小结。

　　　　第三种问题比较特殊，某些样本可能到两个核心对象的距离都小于ϵϵ，但是这两个核心对象由于不是密度直达，又不属于同一个聚类簇，那么如果界定这个样本的类别呢？一般来说，此时DBSCAN采用先来后到，先进行聚类的类别簇会标记这个样本为它的类别。也就是说BDSCAN的算法不是完全稳定的算法。

4. DBSCAN聚类算法

　　　　下面我们对DBSCAN聚类算法的流程做一个总结。

　　　　输入：样本集D=(x1,x2,...,xm)(x1,x2,...,xm)，邻域参数(ϵ,MinPts)(ϵ,MinPts), 样本距离度量方式

　　　　输出：簇划分C.　

　　　　1）初始化核心对象集合Ω=∅Ω=∅, 初始化聚类簇数k=0，初始化未访问样本集合ΓΓ = D, 簇划分C = ∅∅

　　　　2) 对于j=1,2,...m, 按下面的步骤找出所有的核心对象：

　　　　　　a) 通过距离度量方式，找到样本xjxj的ϵϵ-邻域子样本集Nϵ(xj)Nϵ(xj)

　　　　　　b) 如果子样本集样本个数满足|Nϵ(xj)|≥MinPts|Nϵ(xj)|≥MinPts，将样本xjxj加入核心对象样本集合：Ω=Ω∪{xj}Ω=Ω∪{xj}

　　　　3）如果核心对象集合Ω=∅Ω=∅，则算法结束，否则转入步骤4.

　　　　4）在核心对象集合ΩΩ中，随机选择一个核心对象oo，初始化当前簇核心对象队列Ωcur={o}Ωcur={o}, 初始化类别序号k=k+1，初始化当前簇样本集合Ck={o}Ck={o}, 更新未访问样本集合Γ=Γ−{o}Γ=Γ−{o}

　　　　5）如果当前簇核心对象队列Ωcur=∅Ωcur=∅，则当前聚类簇CkCk生成完毕, 更新簇划分C={C1,C2,...,Ck}{C1,C2,...,Ck}, 更新核心对象集合Ω=Ω−CkΩ=Ω−Ck，转入步骤3。

　　　　6）在当前簇核心对象队列ΩcurΩcur中取出一个核心对象o′o′,通过邻域距离阈值ϵϵ找出所有的ϵϵ-邻域子样本集Nϵ(o′)Nϵ(o′)，令Δ=Nϵ(o′)∩ΓΔ=Nϵ(o′)∩Γ, 更新当前簇样本集合Ck=Ck∪ΔCk=Ck∪Δ, 更新未访问样本集合Γ=Γ−ΔΓ=Γ−Δ, 转入步骤5.

　　　　输出结果为：簇划分C={C1,C2,...,Ck}{C1,C2,...,Ck}

5. DBSCAN小结

　　　　和传统的K-Means算法相比，DBSCAN最大的不同就是不需要输入类别数k，当然它最大的优势是可以发现任意形状的聚类簇，而不是像K-Means，一般仅仅使用于凸的样本集聚类。同时它在聚类的同时还可以找出异常点，这点和BIRCH算法类似。

　　　　那么我们什么时候需要用DBSCAN来聚类呢？一般来说，如果数据集是稠密的，并且数据集不是凸的，那么用DBSCAN会比K-Means聚类效果好很多。如果数据集不是稠密的，则不推荐用DBSCAN来聚类。

　　　　下面对DBSCAN算法的优缺点做一个总结。

　　　　DBSCAN的主要优点有：

　　　　1）可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集。

　　　　2）可以在聚类的同时发现异常点，对数据集中的异常点不敏感。

　　　　3）聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。

　　　　DBSCAN的主要缺点有：

　　　　1）如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合。

　　　　2）如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进。

　　　　3）调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值ϵϵ，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

　K近邻法(k-nearest neighbors,KNN)是一种很基本的机器学习方法了，在我们平常的生活中也会不自主的应用。比如，我们判断一个人的人品，只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类，也可以做回归，这点和决策树算法相同。

　　　　KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时，一般是选择多数表决法，即训练集里和预测的样本特征最近的K个样本，预测为里面有最多类别数的类别。而KNN做回归时，一般是选择平均法，即最近的K个样本的样本输出的平均值作为回归预测值。由于两者区别不大，虽然本文主要是讲解KNN的分类方法，但思想对KNN的回归方法也适用。由于scikit-learn里只使用了蛮力实现(brute-force)，KD树实现(KDTree)和球树(BallTree)实现，本文只讨论这几种算法的实现原理。其余的实现方法比如BBF树，MVP树等，在这里不做讨论。

1. KNN算法三要素

　　　　KNN算法我们主要要考虑三个重要的要素，对于固定的训练集，只要这三点确定了，算法的预测方式也就决定了。这三个最终的要素是k值的选取，距离度量的方式和分类决策规则。

　　　　对于分类决策规则，一般都是使用前面提到的多数表决法。所以我们重点是关注与k值的选择和距离的度量方式。

　　　　对于k值的选择，没有一个固定的经验，一般根据样本的分布，选择一个较小的值，可以通过交叉验证选择一个合适的k值。

　　　　选择较小的k值，就相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是泛化误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；
　　　　选择较大的k值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。
　　　　一个极端是k等于样本数m，则完全没有分类，此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单。

　　　　对于距离的度量，我们有很多的距离度量方式，但是最常用的是欧式距离，即对于两个n维向量x和y，两者的欧式距离定义为：

D(x,y)=(x1−y1)2+(x2−y2)2+...+(xn−yn)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=∑i=1n(xi−yi)2−−−−−−−−−−√D(x,y)=(x1−y1)2+(x2−y2)2+...+(xn−yn)2=∑i=1n(xi−yi)2

　　　　大多数情况下，欧式距离可以满足我们的需求，我们不需要再去操心距离的度量。

　　　　当然我们也可以用他的距离度量方式。比如曼哈顿距离，定义为：

D(x,y)=|x1−y1|+|x2−y2|+...+|xn−yn|=∑i=1n|xi−yi|D(x,y)=|x1−y1|+|x2−y2|+...+|xn−yn|=∑i=1n|xi−yi|

　　　　更加通用点，比如闵可夫斯基距离(Minkowski Distance)，定义为：

D(x,y)=(|x1−y1|)p+(|x2−y2|)p+...+(|xn−yn|)p−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√p=∑i=1n(|xi−yi|)p−−−−−−−−−−−√pD(x,y)=(|x1−y1|)p+(|x2−y2|)p+...+(|xn−yn|)pp=∑i=1n(|xi−yi|)pp

　　　　可以看出，欧式距离是闵可夫斯基距离距离在p=2时的特例，而曼哈顿距离是p=1时的特例。

2. KNN算法蛮力实现

　　　　从本节起，我们开始讨论KNN算法的实现方式。首先我们看看最想当然的方式。

　　　　既然我们要找到k个最近的邻居来做预测，那么我们只需要计算预测样本和所有训练集中的样本的距离，然后计算出最小的k个距离即可，接着多数表决，很容易做出预测。这个方法的确简单直接，在样本量少，样本特征少的时候有效。但是在实际运用中很多时候用不上，为什么呢？因为我们经常碰到样本的特征数有上千以上，样本量有几十万以上，如果我们这要去预测少量的测试集样本，算法的时间效率很成问题。因此，这个方法我们一般称之为蛮力实现。比较适合于少量样本的简单模型的时候用。

　　　　既然蛮力实现在特征多，样本多的时候很有局限性，那么我们有没有其他的好办法呢？有！这里我们讲解两种办法，一个是KD树实现，一个是球树实现。

3. KNN算法之KD树实现原理

　　　　KD树算法没有一开始就尝试对测试样本分类，而是先对训练集建模，建立的模型就是KD树，建好了模型再对测试集做预测。所谓的KD树就是K个特征维度的树，注意这里的K和KNN中的K的意思不同。KNN中的K代表最近的K个样本，KD树中的K代表样本特征的维数。为了防止混淆，后面我们称特征维数为n。

　　　　KD树算法包括三步，第一步是建树，第二部是搜索最近邻，最后一步是预测。

3.1 KD树的建立

　　　　我们首先来看建树的方法。KD树建树采用的是从m个样本的n维特征中，分别计算n个特征的取值的方差，用方差最大的第k维特征nknk来作为根节点。对于这个特征，我们选择特征nknk的取值的中位数nkvnkv对应的样本作为划分点，对于所有第k维特征的取值小于nkvnkv的样本，我们划入左子树，对于第k维特征的取值大于等于nkvnkv的样本，我们划入右子树，对于左子树和右子树，我们采用和刚才同样的办法来找方差最大的特征来做更节点，递归的生成KD树。

　　　　具体流程如下图：

　　　　比如我们有二维样本6个，{(2,3)，(5,4)，(9,6)，(4,7)，(8,1)，(7,2)}，构建kd树的具体步骤为：

　　　　1）找到划分的特征。6个数据点在x，y维度上的数据方差分别为6.97，5.37，所以在x轴上方差更大，用第1维特征建树。

　　　　2）确定划分点（7,2）。根据x维上的值将数据排序，6个数据的中值(所谓中值，即中间大小的值)为7，所以划分点的数据是（7,2）。这样，该节点的分割超平面就是通过（7,2）并垂直于：划分点维度的直线x=7；

　　　　3）确定左子空间和右子空间。分割超平面x=7将整个空间分为两部分：x<=7的部分为左子空间，包含3个节点={(2,3),(5,4),(4,7)}；另一部分为右子空间，包含2个节点={(9,6)，(8,1)}。

　　　　4）用同样的办法划分左子树的节点{(2,3),(5,4),(4,7)}和右子树的节点{(9,6)，(8,1)}。最终得到KD树。

　　　　最后得到的KD树如下：

3.2 KD树搜索最近邻　　

　　　　当我们生成KD树以后，就可以去预测测试集里面的样本目标点了。对于一个目标点，我们首先在KD树里面找到包含目标点的叶子节点。以目标点为圆心，以目标点到叶子节点样本实例的距离为半径，得到一个超球体，最近邻的点一定在这个超球体内部。然后返回叶子节点的父节点，检查另一个子节点包含的超矩形体是否和超球体相交，如果相交就到这个子节点寻找是否有更加近的近邻,有的话就更新最近邻。如果不相交那就简单了，我们直接返回父节点的父节点，在另一个子树继续搜索最近邻。当回溯到根节点时，算法结束，此时保存的最近邻节点就是最终的最近邻。

　　　　从上面的描述可以看出，KD树划分后可以大大减少无效的最近邻搜索，很多样本点由于所在的超矩形体和超球体不相交，根本不需要计算距离。大大节省了计算时间。

　　　　我们用3.1建立的KD树，来看对点(2,4.5)找最近邻的过程。

　　　　先进行二叉查找，先从（7,2）查找到（5,4）节点，在进行查找时是由y = 4为分割超平面的，由于查找点为y值为4.5，因此进入右子空间查找到（4,7），形成搜索路径<(7,2)，(5,4)，(4,7)>，但（4,7）与目标查找点的距离为3.202，而（5,4）与查找点之间的距离为3.041，所以（5,4）为查询点的最近点；以（2，4.5）为圆心，以3.041为半径作圆，如下图所示。可见该圆和y = 4超平面交割，所以需要进入（5,4）左子空间进行查找，也就是将（2,3）节点加入搜索路径中得<(7,2)，(2,3)>；于是接着搜索至（2,3）叶子节点，（2,3）距离（2,4.5）比（5,4）要近，所以最近邻点更新为（2，3），最近距离更新为1.5；回溯查找至（5,4），直到最后回溯到根结点（7,2）的时候，以（2,4.5）为圆心1.5为半径作圆，并不和x = 7分割超平面交割，如下图所示。至此，搜索路径回溯完，返回最近邻点（2,3），最近距离1.5。

　　　　对应的图如下：

3.3 KD树预测　

　　　　有了KD树搜索最近邻的办法，KD树的预测就很简单了，在KD树搜索最近邻的基础上，我们选择到了第一个最近邻样本，就把它置为已选。在第二轮中，我们忽略置为已选的样本，重新选择最近邻，这样跑k次，就得到了目标的K个最近邻，然后根据多数表决法，如果是KNN分类，预测为K个最近邻里面有最多类别数的类别。如果是KNN回归，用K个最近邻样本输出的平均值作为回归预测值。

4. KNN算法之球树实现原理

　　　　KD树算法虽然提高了KNN搜索的效率，但是在某些时候效率并不高，比如当处理不均匀分布的数据集时,不管是近似方形，还是矩形，甚至正方形，都不是最好的使用形状，因为他们都有角。一个例子如下图：

　　　　如果黑色的实例点离目标点星点再远一点，那么虚线圆会如红线所示那样扩大，导致与左上方矩形的右下角相交，既然相交了，那么就要检查这个左上方矩形，而实际上，最近的点离星点的距离很近，检查左上方矩形区域已是多余。于此我们看见，KD树把二维平面划分成一个一个矩形，但矩形区域的角却是个难以处理的问题。

　　　　为了优化超矩形体导致的搜索效率的问题，牛人们引入了球树，这种结构可以优化上面的这种问题。

　　　　我们现在来看看球树建树和搜索最近邻的算法。

4.1 球树的建立

　　　　球树，顾名思义，就是每个分割块都是超球体，而不是KD树里面的超矩形体。

　　　　我们看看具体的建树流程：

　　　　1) 先构建一个超球体，这个超球体是可以包含所有样本的最小球体。

　　　　2) 从球中选择一个离球的中心最远的点，然后选择第二个点离第一个点最远，将球中所有的点分配到离这两个聚类中心最近的一个上，然后计算每个聚类的中心，以及聚类能够包含它所有数据点所需的最小半径。这样我们得到了两个子超球体，和KD树里面的左右子树对应。

　　　　3)对于这两个子超球体，递归执行步骤2). 最终得到了一个球树。

　　　　可以看出KD树和球树类似，主要区别在于球树得到的是节点样本组成的最小超球体，而KD得到的是节点样本组成的超矩形体，这个超球体要与对应的KD树的超矩形体小，这样在做最近邻搜索的时候，可以避免一些无谓的搜索。

4.2 球树搜索最近邻

　　　　使用球树找出给定目标点的最近邻方法是首先自上而下贯穿整棵树找出包含目标点所在的叶子，并在这个球里找出与目标点最邻近的点，这将确定出目标点距离它的最近邻点的一个上限值，然后跟KD树查找一样，检查兄弟结点，如果目标点到兄弟结点中心的距离超过兄弟结点的半径与当前的上限值之和，那么兄弟结点里不可能存在一个更近的点；否则的话，必须进一步检查位于兄弟结点以下的子树。

　　　　检查完兄弟节点后，我们向父节点回溯，继续搜索最小邻近值。当回溯到根节点时，此时的最小邻近值就是最终的搜索结果。

　　　　从上面的描述可以看出，KD树在搜索路径优化时使用的是两点之间的距离来判断，而球树使用的是两边之和大于第三边来判断，相对来说球树的判断更加复杂，但是却避免了更多的搜索，这是一个权衡。

5. KNN算法的扩展

　　　　这里我们再讨论下KNN算法的扩展，限定半径最近邻算法。

　　　　有时候我们会遇到这样的问题，即样本中某系类别的样本非常的少，甚至少于K，这导致稀有类别样本在找K个最近邻的时候，会把距离其实较远的其他样本考虑进来，而导致预测不准确。为了解决这个问题，我们限定最近邻的一个最大距离，也就是说，我们只在一个距离范围内搜索所有的最近邻，这避免了上述问题。这个距离我们一般称为限定半径。

　　　　接着我们再讨论下另一种扩展，最近质心算法。这个算法比KNN还简单。它首先把样本按输出类别归类。对于第 L类的ClCl个样本。它会对这ClCl个样本的n维特征中每一维特征求平均值，最终该类别所有维度的n个平均值形成所谓的质心点。对于样本中的所有出现的类别，每个类别会最终得到一个质心点。当我们做预测时，仅仅需要比较预测样本和这些质心的距离，最小的距离对于的质心类别即为预测的类别。这个算法通常用在文本分类处理上。

6. KNN算法小结

　　　　KNN算法是很基本的机器学习算法了，它非常容易学习，在维度很高的时候也有很好的分类效率，因此运用也很广泛，这里总结下KNN的优缺点。

　　　　KNN的主要优点有：

　　　　1）理论成熟，思想简单，既可以用来做分类也可以用来做回归

　　　　2）可用于非线性分类

　　　　3）训练时间复杂度比支持向量机之类的算法低，仅为O(n)

　　　　4）和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感

　　　　5）由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合

　　　　6）该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分

　　　　KNN的主要缺点有：

　　　　1）计算量大，尤其是特征数非常多的时候

　　　　2）样本不平衡的时候，对稀有类别的预测准确率低

　　　　3）KD树，球树之类的模型建立需要大量的内存

　　　　4）使用懒散学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢

　　　　5）相比决策树模型，KNN模型可解释性不强

　　　　以上就是KNN算法原理的一个总结，希望可以帮到朋友们，尤其是在用scikit-learn学习KNN的朋友们。

转自：http://www.cnblogs.com/pinard/p/6061661.html

转自：https://www.cnblogs.com/zhengxingpeng/p/6670486.html

你可能感兴趣的:(DBSCAN密度聚类算法)

k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
2023-08-11 Tom梁
当下，文玩之风可谓风靡，喜欢星月菩提的玩友越来多。有许多玩友发私信来问小编“盘玩星月菩提有没有攻略？”。所以今天给大家分享实用的星月菩提盘玩攻略，希望对大家有所帮助。一、挑选方法大家都知道挑选星月菩提的唯一标准就是密度。密度越低，上色越快；密度越高，上色就越慢。但是小编觉得高密籽更适合盘玩，虽然上色慢，但耐盘，生命周期比低密度的要长很多。那么怎么去判断它的密度呢？其实很简单，看星眼的大小、疏密、颜
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
大牛：新型电动汽车电池技术问世！可将电池能量密度提高2倍成本降一半 38cc8b780dc0
据外媒报道，当地时间6月10日，电动汽车电池技术领导者OneDBatterySciences宣布推出一项可为下一代电动汽车电池提供动力的突破性技术——SINANODE。对于电动汽车行业而言，打造含有更多硅的电池一直是一个挑战，而SINANODE无缝集成至现有的生产工艺中，让硅纳米线与商用石墨粉末融合，将电池阳极的能量密度提高了两倍，但是将每kWh的成本降低了一半。能量密度更高可以让电池的续航更长，
2021年化工自动化控制仪表考试及化工自动化控制仪表考试技巧女王219 安全生产模拟考试一点通安全生产一点通题库
题库来源：安全生产模拟考试一点通公众号小程序化工自动化控制仪表考试参考答案及化工自动化控制仪表考试试题解析是安全生产模拟考试一点通题库老师及化工自动化控制仪表操作证已考过的学员汇总，相对有效帮助化工自动化控制仪表考试技巧学员顺利通过考试。1、【单选题】辐射传热()任何介质做媒介。（A）A、不需要B、需要C、有时需要2、【单选题】同一密度的液体深度越深,压强()。（B）A、越小B、越大C、基本不变3
Day9：别沦为自动化的奴隶——为自己建一座“喷泉广场” 钱塘风华
电子设备解决了小麻烦，却制造了大麻烦。【书名】：混乱——如何成为失控时代的掌控者【作者】：蒂姆哈福德【本书总页码】：288【已读页码】：220（第七章：自动化end）2009年5月31日晚，法航447号航班在电传操作系统失效的情况下，飞行员因习惯了对电传操作系统的依赖，无法对当时的情况作出正确判断，因而也无法作出对应操作——当时的情况：飞机因为急速上升后，过于稀薄的空气密度导致飞机失速，机头抬升，
Python和MATLAB及C++信噪比导图(算法模型) 亚图跨际算法交叉知识 Python 视频图像修复模数转换信号链噪音频谱计算量化周期性视觉刺激高斯噪声的矩形脉冲心率失常检测算法
要点视频图像修复模数转换中混合信号链噪音测量频谱计算和量化周期性视觉刺激脑电图高斯噪声的矩形脉冲总谐波失真周期图功率谱密度各种心率失常检测算法胶体悬浮液跟踪检测计算交通监控摄像头图像噪音计算Python信噪比信噪比是科学和工程中使用的一种测量方法，用于比较所需信号水平与背景噪声水平。信噪比定义为信号功率与噪声功率之比，通常以分贝表示。高于1:1（大于0dB）的比率表示信号大于噪声。信噪比是影响处理
VLSI 电路单元的自动布局-2024华数杯B题 2401_84314384 算法 python 数学建模
摘要超大规模集成电路设计通常采用电子设计自动化(EDA)的方式进行，布局是EDA工具的核心的核心。本文通过构建的线长评估模型及网格密度评估模型，并在此基础上对模型进行优化，最后利用模型实现VLSI电路单元的自动布局。问题一：基于结合直线型斯坦纳最小树思想的优化HPWL模型评估与电路单元连线接口坐标相关的线长。本题需要建立与电路单元连线接口坐标相关的线长评估模型，最小化每组估计线长与对应RSMT的差
月入十万第三十七天赵小虎虎
嘿嘿，今天注册了好多交易所，接下来学会搬砖，这样每天就可以不用早出晚归的去上班啦，理想很丰满，现实也不算太骨感，就看自己的行动能力了。网格交易可能是投入本金较小，网格密度不够，每天盈利1块不到[手动捂脸]，一个月下来连我买阿里云服务器的零头钱都不够[在捂一次脸]。好在对网格交易的理论摸清楚了，轻量化服务器也懂得是个啥东东了。哈哈，学习点东西总要交点学费及智商税。今天下午大盘往下走，one也不知中了
浮起来的鸡蛋灵怪水瓶
1.准备一杯清水水，里面放入一颗鸡蛋。此时鸡蛋是沉在杯底的。2.在杯子里不停的放盐。3.杯子里的盐越放越多，鸡蛋也慢慢的浮了起来。图片发自App4实验成功！后来，我才知道清水的密度要比生鸡蛋小，所以鸡蛋浮不上来，加盐后，可以让清水的密度增加，当盐水比鸡蛋密度高时，鸡蛋就自然而然浮起来了。图片发自App
检查的一天 conquer_jhf
今天小羽毛到医院复查评估，挂号是10：45的16号，我、姐姐、哥哥和小羽毛九点到医院时才该4号，半天也不动。姐姐着急，又挂了一个其他比较快的科室，想着做一下其他检查，测了身高，体重和骨密度，已经不缺钙，显示都2岁骨龄了。等到10:45，大约才到7号，等挨住16号小羽毛的时候已经11:55了，真的不能理解为什么看的这么慢。姐姐进去只需要开一个评估单，也用了十分钟。中午在医院餐厅吃饭，吃完饭就守着下午
《我们来做“热气球”》课后反思灵泽云川
科学概念目标1.学生通过放飞“热气球”活动，了解空气受热后温度升高，体积膨胀。2.学生通过放飞“热气球”活动，了解热气球能升空是由于里面的空气受热膨胀变轻，从而带动了热气球升空，空气冷却后热气球又会降下来。本课实验现象所指向的物理概念是：空气受热膨胀，密度减小，导致热空气上升冷空气下降。学生只需要通过简单的热气球模拟实验方法，知道热空气会上升，空气变冷后会下降就可以了，不需要对相关的物理原理进行深
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
聚类分析 | Python密度聚类（DBSCAN）天天酷科研聚类分析算法（CLA）python 聚类机器学习 DBSCAN
密度聚类是一种无需预先指定聚类数量的聚类方法，它依赖于数据点之间的密度关系来自动识别聚类结构。本文中，演示如何使用密度聚类算法，具体是DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）来对一个实际的数据集进行聚类分析。一、基本介绍密度聚类的核心思想是将数据点分为高密度区域和低密度区域。高密度区域内的数据点被认为属于同一簇，而低
GaN HEMT：未来功率半导体 David WangYang 硬件工程
硅基金属氧化物自1960年代以来，硅基金属氧化物半导体场效应晶体管（MOSFET）一直是电力电子应用的标准。尽管如此，各种技术的发展（尤其是在汽车和消费电子领域）给寻求以越来越小的外形尺寸提供更高效率和更大功率密度的开发人员带来了新的挑战。从大型数据中心和墙壁插座交流适配器到汽车车载充电站，各种用途的电源都需要高电压，同时尽可能少地占用宝贵的电路板空间。自动驾驶汽车还需要更高效的能量分配，以运行越
THP-1细胞电转染实验条件实验小助手
使用Entranster-E电转液与指数衰减脉冲电转仪时THP-1细胞的电转染条件是：对于0.2cm电转杯，细胞密度为10x10^6cells/ml，DNA用量为2μg，电转液体积为100μl，电压为140V，电容为950μF。对于0.4cm电转杯，细胞密度为10x10^6cells/ml，DNA用量为5μg，电转液体积为250μl，电压为250V，电容为950μF。
好产品性能马唐
0902学习思考笔记：一款好产品必须拥有卓越的性能：好用、价格实惠、方便省事、减少麻烦。但，必须强调：功能本身并不能创造出市场。探索需求是一场非常复杂的博弈，需要同时从多个层面分别下手。好的关键，就在于实现了密度密度指的是：单品有效使用频次。人们是否对任何产品，都能产生同等的情感共鸣？密切关注新出现的行业趋势，并努力赶在前面。伟大的需求创造者，能够减少或消除产品与服务中的不便、昂贵、令人不快和厌烦
PDF和CDF 薛定谔的猫_大雪概率论
在概率论和统计学中，PDF和CDF是两种描述随机变量分布的重要函数：ProbabilityDensityFunction(PDF)：概率密度函数是用来描述连续随机变量可能取值的概率分布的函数。对于一个连续型随机变量X，其PDFf(x)定义为在某个取值x处的概率密度，即X在该值附近出现的概率密度。PDF的积分可以得到概率，即在某个区间内随机变量出现的概率。CumulativeDensityFunct
几何分布的期望和方差公式推导_算法数学基础-统计学最基础之均值、方差、协方差、矩... weixin_39848097 几何分布的期望和方差公式推导均值定理六个公式概率论方差公式
我们天天都可以接触很多随机现象，比如每天的天气不一样气温是我们最直接的感受，我们很难预测明天的精确问题，但是这些随机现象又体现出了一定的规律性。比如上海7月份平均35度左右，冬天的平均温度在5度左右。所以35、5这些数字体现了某种稳定性。所以除了前面几章中讲到的分布律和概率密度函数可以表征随机变量外，还可以用一组数字来表达随机变量的一般特性。这就是我们今天要讲到的随机变量的数字特征。通过对数字特征
数据分析面试【概率论与统计学】总结之-----统计学常见面试题整理天阑的芋头 #数据分析—统计学知识数据分析统计学数据分析面试
阅读之前看这里：博主是正在学习数据分析的一员，博客记录的是在学习过程中一些总结，也希望和大家一起进步，在记录之时，未免存在很多疏漏和不全，如有问题，还请私聊博主指正。博客地址：天阑之蓝的博客，学习过程中不免有困难和迷茫，希望大家都能在这学习的过程中肯定自己，超越自己，最终创造自己。目录1.用简洁的话语阐述随机变量的含义2.划分连续型随机变量和离散型随机变量的依据3.常见的分布函数/概率密度函数，以
读书| 《城市的胜利》张小路24
第七章还有什么比柏油路更环保你有田园生活的梦想吗？如果你有，在本章中作者将用数据和案例来告诉你城市才是最好的环保方式。城市生活远比绿草如茵的生活更加有利于环境。在20世纪70年代，简·雅各布斯提出，通过集中居住在高楼里并步行上班的方式，我们可以把自己对环境造成的损害最小化。浪漫主义者对大自然的热爱传染到了更加实用的建筑艺术和城市规划领域。人口密度和到市中心的距离都与汽油的用量密切相关。聪明的环保主
TPS62140ARGTR开关稳压器中文资料PDF数据手册引脚图功能框图参数深圳市恒耀达电子有限公司 pdf
TPS62140A的说明TPS6214x是一款易于使用的同步降压直流/直流转换器，此转换器针对高功率密度应用进行了优化。该器件的开关频率典型值高达2.5MHz，允许使用小型电感，利用DCS-Control拓扑技术提供快速瞬态响应。该系列器件具有3V至17V宽运行输入电压范围，非常适用于由锂离子或其他电池以及12V中间电源轨供电的系统。其输出电压为0.9V至6V，支持高达2A的持续输出电流（使用10
数模原理精解【8】叶绿先锋基础数学与应用数学人工智能统计分析概率论数学建模
文章目录协方差概述协方差的定义协方差的计算协方差的例子协方差矩阵协方差矩阵定义协方差矩阵的性质协方差矩阵的计算协方差矩阵的例子协方差矩阵的例题多元正态分布基础多元正态分布密度函数多元正态分布密度函数Julia实现详细解释定义计算例子例题参考文献协方差概述协方差是一种统计度量，用于描述两个变量之间的线性相关程度以及它们变化的趋势是否一致。具体来说，协方差计算的是两个变量同时偏离其均值的程度。如果两个
赋能技术助锂制造|青软青之助力锂电检测行业数字化升级青软青之LIMS 制造大数据人工智能
在全球范围内，新能源转型已成为时代的必然选择。随着“双碳”目标的深入推进，这一趋势愈发明显。而作为新能源领域的一颗璀璨明珠，锂电池的研发、产业链建设和技术创新，无疑是这场能源革命的核心所在。其产业链的日趋完善、技术的不断创新，以及政策的大力扶持，都在预示着这个行业的无限潜力与光明前景。自1991年锂离子电池商业化以来，它便在市场中崭露头角，展现出锐不可当的增长势头。凭借高能量密度、长循环寿命、无记
蒙特卡罗——排队模拟python代码实现潮汐退涨月冷风霜 python 开发语言蒙特卡罗
排队问题描述数学知识：指数分布指数分布随机变量生成的数学原理指数分布的定义指数分布是连续概率分布，常用于描述某些事件发生的时间间隔。其概率密度函数（PDF）为：f(x;λ)=λe−λxf(x;\lambda)=\lambdae^{-\lambdax}f(x;λ)=λe−λx其中，λ\lambdaλ是速率参数，λ>0\lambda>0λ>0，并且x≥0x\geq0x≥0。生成指数分布随机变量的原理要
大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
Matlab 简单计算PDF和CDF 奔跑着的孩子通信概念最大似然算法
CDF（cumulativedistributionfunction）叫做累积分布函数，描述一个实数随机变量X的概率分布，是概率密度函数的积分。它的最主要作用就是观测某些数值也就是随机变量的取值在那个附近出现的概率比较大,它是一个增函数.可以有效的处理一些异常值.随机变量小于或者等于某个数值的概率P(X=b(i)&a(s)<=b(i+1)n(i)=n(i)+1;s=s+1;endendendsum
龙小灶21讲——打造环保安全家 3a08e03e222a
家应该是最有安全感的地方，你的家环保达标吗？谈谈甲醛国家规定环保家的标准是低于1mg/立方米。并且现在有很多简便的测甲醛及其他有毒气体检测机器，也有专业的第三方检测认证机构诸如SGS.甲醛主要来源是装修中的“人造板”，胶合板（多层板）、密度板、刨花板、秸秆板……大品牌还会在板材的侧面标注环保等级比如E0，E1。真正在装修的过程中严把环保关，其实真的可以装修完了入住。环保也并不是一件奢侈的事情，常常
浅议“假沸” 7416690f411c
煮豆浆不像烧开水，第一次沸腾时并不烫嘴，勺子一搅，锅心就平静了。如此重复三四次，才算真正的沸腾了。假沸的原理很简单，锅底的豆渣经不住高温而上下搅动时，也带动了豆浆。还有徒手入油锅的把戏，而且不伤手。锅中分上油下醋两层，醋不溶于油，且密度大于油，故沉于底：沸点也远比油低与体温相当，所以率先沸开，并催动油沸了而在表面的油温只是略高于体温。除了豆浆和沸油，存在假沸的还有人生，人生最忌微见能耐，薄有小成，
原子吸收四干扰遇见小me
重金属原子吸收分析主要存在4大干扰，分别是：物理干扰、化学干扰、电离干扰、光谱干扰。一般重金属原子吸收分析中的干扰与消除都可以通过以下几个方法解决：合理的利用检测夹缝的宽度、加入适量的试剂、或者直接选择物理干扰以及化学干扰等，这些方法都可以减少这些干扰。所以，在重金属原子分析中的干扰与消除的具体方法如下：1物理干扰及其物理干扰的消除重金属原子中的物理干扰是指在实验的过程中对检测样品的物理特征（密度
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数