南山牧笛

聚类算法总结

一、层次聚类

1、层次聚类的原理及分类

1）层次法（Hierarchicalmethods）先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后，再计算类与类之间的距离，将距离最近的类合并为一个大类。不停的合并，直到合成了一个类。其中类与类的距离的计算方法有：最短距离法，最长距离法，中间距离法，类平均法等。比如最短距离法，将类与类的距离定义为类与类之间样本的最短距离。

层次聚类算法根据层次分解的顺序分为：自下底向上和自上向下，即凝聚的层次聚类算法和分裂的层次聚类算法（agglomerative和divisive），也可以理解为自下而上法（bottom-up）和自上而下法（top-down）。自下而上法就是一开始每个个体（object）都是一个类，然后根据linkage寻找同类，最后形成一个“类”。自上而下法就是反过来，一开始所有个体都属于一个“类”，然后根据linkage排除异己，最后每个个体都成为一个“类”。这两种路方法没有孰优孰劣之分，只是在实际应用的时候要根据数据特点以及你想要的“类”的个数，来考虑是自上而下更快还是自下而上更快。至于根据Linkage判断“类”的方法就是最短距离法、最长距离法、中间距离法、类平均法等等（其中类平均法往往被认为是最常用也最好用的方法，一方面因为其良好的单调性，另一方面因为其空间扩张/浓缩的程度适中）。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。

2）Hierarchical methods中比较新的算法有BIRCH（Balanced Iterative Reducingand Clustering Using Hierarchies利用层次方法的平衡迭代规约和聚类）主要是在数据量很大的时候使用，而且数据类型是numerical。首先利用树的结构对对象集进行划分，然后再利用其它聚类方法对这些聚类进行优化；ROCK（A Hierarchical ClusteringAlgorithm for Categorical Attributes）主要用在categorical的数据类型上；Chameleon（A Hierarchical ClusteringAlgorithm Using Dynamic Modeling）里用到的linkage是kNN（k-nearest-neighbor）算法，并以此构建一个graph，Chameleon的聚类效果被认为非常强大，比BIRCH好用，但运算复杂度很高，O(n^2)。

2、层次聚类的流程

凝聚型层次聚类的策略是先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有对象都在一个簇中，或者某个终结条件被满足。绝大多数层次聚类属于凝聚型层次聚类，它们只是在簇间相似度的定义上有所不同。这里给出采用最小距离的凝聚层次聚类算法流程：

(1) 将每个对象看作一类，计算两两之间的最小距离；

(2) 将距离最小的两个类合并成一个新类；

(3) 重新计算新类与所有类之间的距离；

(4) 重复(2)、(3)，直到所有类最后合并成一类。

聚类的效果如下图，黑色是噪音点：

另外我们可以看出凝聚的层次聚类并没有类似基本K均值的全局目标函数，没有局部极小问题或是很难选择初始点的问题。合并的操作往往是最终的，一旦合并两个簇之后就不会撤销。当然其计算存储的代价是昂贵的。

3、层次聚类的优缺点

优点：1，距离和规则的相似度容易定义，限制少；2，不需要预先制定聚类数；3，可以发现类的层次关系；4，可以聚类成其它形状

缺点：1，计算复杂度太高；2，奇异值也能产生很大影响；3，算法很可能聚类成链状

r语言中使用hclust(d,method = "complete", members=NULL) ：进行层次聚类。d为距离矩阵；method表示类的合并方法，single最短距离法，complete最长距离法，median中间距离法，mcquitty 相似法，average 类平均法，centroid重心法，ward离差平方和法；members为NULL或d长度的矢量。

二、划分聚类法k-means

基于划分的方法（Partition-based methods）：其原理简单来说就是，想象你有一堆散点需要聚类，想要的聚类效果就是“类内的点都足够近，类间的点都足够远”。首先你要确定这堆散点最后聚成几类，然后挑选几个点作为初始中心点，再然后依据预先定好的启发式算法（heuristicalgorithms）给数据点做迭代重置（iterativerelocation），直到最后到达“类内的点都足够近，类间的点都足够远”的目标效果。

Partition-based methods聚类多适用于中等体量的数据集，但我们也不知道“中等”到底有多“中”，所以不妨理解成，数据集越大，越有可能陷入局部最小。

1、Kmeans算法的原理

k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心，即选择K个初始质心;对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛，直到质心不发生明显的变化。通常，采用平方误差准则，误差的平方和SSE作为全局的目标函数，即最小化每个点到最近质心的欧几里得距离的平方和。此时，簇的质心就是该簇内所有数据点的平均值。

选择K个点作为初始质心

repeat

将每个点指派到最近的质心，形成K个簇

重新计算每个簇的质心

until 簇不发生变化或达到最大迭代次数

时间复杂度：O(tKmn)，其中，t为迭代次数，K为簇的数目，m为记录数，n为维数

空间复杂度：O((m+K)n)，其中，K为簇的数目，m为记录数，n为维数

K-Means 算法的详细过程

从上图中，我们可以看到，A, B, C, D, E 是五个在图中点。而灰色的点是我们的种子点，也就是我们用来找点群的点。有两个种子点，所以K=2。

然后，K-Means的算法如下：

①随机在图中取K（这里K=2）个种子点。

②然后对图中的所有点求到这K个种子点的距离，假如点Pi离种子点Si最近，那么Pi属于Si点群。（我们可以看到A,B属于上面的种子点，C,D,E属于下面中部的种子点）

③接下来，我们要移动种子点到属于他的“点群”的中心。（见图上的第三步）

④然后重复第2）和第3）步，直到，种子点没有移动（我们可以看到图中的第四步上面的种子点聚合了A,B,C，下面的种子点聚合了D，E）。

聚类的效果如下图，折线是历次循环时3个簇的质心的更新轨迹，黑点是初始质心：

我们查看基本K均值算法实现步骤及上面的聚类效果可以发现，该聚类算法将所有数据点都进行了指派，不识别噪音点。另外选择适当的初试质心是基本K均值过程的关键。

2、k均值的优缺点及分类

优点：1，简单，易于理解和实现；2，时间复杂度低

缺点：

1）kmeans要手工输入类数目，对初始值的设置很敏感；所以有了k-means++、intelligent k-means、genetic k-means；

2）k-means对噪声和离群值非常敏感，所以有了k-medoids和k-medians；

3）k-means只用于numerical类型数据，不适用于categorical类型数据，所以k-modes；

4）k-means不能解决非凸（non-convex）数据，所以有了kernel k-means。

5）k-means主要发现圆形或者球形簇，不能识别非球形的簇。

3、k-means与DBSCAN的区别

k-means聚类算法的初始点选择不稳定，是随机选取的，这就引起聚类结果的不稳定。k-means属于动态聚类，往往聚出来的类有点圆形或者椭圆形。kmeans对于圆形区域聚类效果较好，dbscan基于密度，对于集中区域效果较好。对于不规则形状，kmeans完全无法用，dbscan可以起到很好的效果。

4、k-means注意问题

1）K如何确定

kmenas算法首先选择K个初始质心，其中K是用户指定的参数，即所期望的簇的个数。这样做的前提是我们已经知道数据集中包含多少个簇，但很多情况下，我们并不知道数据的分布情况，实际上聚类就是我们发现数据分布的一种手段。如何有效的确定K值，这里大致提供几种方法：

①与层次聚类结合[2]

经常会产生较好的聚类结果的一个有趣策略是，首先采用层次凝聚算法决定结果粗的数目，并找到一个初始聚类，然后用迭代重定位来改进该聚类。

②稳定性方法[3]

稳定性方法对一个数据集进行2次重采样产生2个数据子集，再用相同的聚类算法对2个数据子集进行聚类，产生2个具有k个聚类的聚类结果，计算2个聚类结果的相似度的分布情况。2个聚类结果具有高的相似度说明k个聚类反映了稳定的聚类结构，其相似度可以用来估计聚类个数。采用次方法试探多个k，找到合适的k值。

③系统演化方法[3]

系统演化方法将一个数据集视为伪热力学系统，当数据集被划分为K个聚类时称系统处于状态K。系统由初始状态K=1出发，经过分裂过程和合并过程，系统将演化到它的稳定平衡状态Ki，所对应的聚类结构决定了最优类数Ki。系统演化方法能提供关于所有聚类之间的相对边界距离或可分程度，适用于明显分离的聚类结构和轻微重叠的聚类结构。

④使用canopy算法进行初始划分[4]

基于CanopyMethod的聚类算法将聚类过程分为两个阶段

Stage1、聚类最耗费计算的地方是计算对象相似性的时候，CanopyMethod在第一阶段选择简单、计算代价较低的方法计算对象相似性，将相似的对象放在一个子集中，这个子集被叫做Canopy，通过一系列计算得到若干Canopy，Canopy之间可以是重叠的，但不会存在某个对象不属于任何Canopy的情况，可以把这一阶段看做数据预处理；

Stage2、在各个Canopy内使用传统的聚类方法(如K-means)，不属于同一Canopy 的对象之间不进行相似性计算。

从这个方法起码可以看出两点好处：首先，Canopy 不要太大且Canopy 之间重叠的不要太多的话会大大减少后续需要计算相似性的对象的个数；其次，类似于K-means这样的聚类方法是需要人为指出K的值的，通过Stage1得到的Canopy 个数完全可以作为这个K值，一定程度上减少了选择K的盲目性。

其他方法如贝叶斯信息准则方法（BIC）可参看文献[5]。

2）初始质心的选取

选择适当的初始质心是基本kmeans算法的关键步骤。常见的方法是随机的选取初始质心，但是这样簇的质量常常很差。处理选取初始质心问题的一种常用技术是：多次运行，每次使用一组不同的随机初始质心，然后选取具有最小SSE（误差的平方和）的簇集。这种策略简单，但是效果可能不好，这取决于数据集和寻找的簇的个数。

第二种有效的方法是，取一个样本，并使用层次聚类技术对它聚类。从层次聚类中提取K个簇，并用这些簇的质心作为初始质心。该方法通常很有效，但仅对下列情况有效：（1）样本相对较小，例如数百到数千（层次聚类开销较大）；（2）K相对于样本大小较小

第三种选择初始质心的方法，随机地选择第一个点，或取所有点的质心作为第一个点。然后，对于每个后继初始质心，选择离已经选取过的初始质心最远的点。使用这种方法，确保了选择的初始质心不仅是随机的，而且是散开的。但是，这种方法可能选中离群点。此外，求离当前初始质心集最远的点开销也非常大。为了克服这个问题，通常该方法用于点样本。由于离群点很少（多了就不是离群点了），它们多半不会在随机样本中出现。计算量也大幅减少。

第四种方法就是上面提到的canopy算法。

3）距离的度量

常用的距离度量方法包括：欧几里得距离和余弦相似度。两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响，所以一般需要先进行标准化，同时距离越大，个体间差异越大；空间向量余弦夹角的相似度度量不会受指标刻度的影响，余弦值落于区间[-1,1]，值越大，差异越小。但是针对具体应用，什么情况下使用欧氏距离，什么情况下使用余弦相似度？

从几何意义上来说，n维向量空间的一条线段作为底边和原点组成的三角形，其顶角大小是不确定的。也就是说对于两条空间向量，即使两点距离一定，他们的夹角余弦值也可以随意变化。感性的认识，当两用户评分趋势一致时，但是评分值差距很大，余弦相似度倾向给出更优解。举个极端的例子，两用户只对两件商品评分，向量分别为(3,3)和(5,5)，这两位用户的认知其实是一样的，但是欧式距离给出的解显然没有余弦值合理。

4）质心的计算

对于距离度量不管是采用欧式距离还是采用余弦相似度，簇的质心都是其均值，即向量各维取平均即可。

5）算法停止条件

一般是目标函数达到最优或者达到最大的迭代次数即可终止。对于不同的距离度量，目标函数往往不同。当采用欧式距离时，目标函数一般为最小化对象到其簇质心的距离的平方和。

当采用余弦相似度时，目标函数一般为最大化对象到其簇质心的余弦相似度和。

6）空聚类的处理

如果所有的点在指派步骤都未分配到某个簇，就会得到空簇。如果这种情况发生，则需要某种策略来选择一个替补质心，否则的话，平方误差将会偏大。一种方法是选择一个距离当前任何质心最远的点。这将消除当前对总平方误差影响最大的点。另一种方法是从具有最大SSE的簇中选择一个替补的质心。这将分裂簇并降低聚类的总SSE。如果有多个空簇，则该过程重复多次。另外，编程实现时，要注意空簇可能导致的程序bug。

三、基于密度的聚类

基于密度的方法（Density-based methods）：k-means解决不了不规则形状的聚类。于是就有了Density-based methods来系统解决这个问题。该方法同时也对噪声数据的处理比较好。基于密度聚类的思想：思路就是定一个距离半径，最少有多少个点，然后把可以到达的点都连起来，判定为同类。其原理简单说画圈儿，其中要定义两个参数，一个是圈儿的最大半径，一个是一个圈儿里最少应容纳几个点。最后在一个圈里的，就是一个类。DBSCAN（Density-Based Spatial Clustering ofApplications with Noise）就是其中的典型，可惜参数设置也是个问题，对这两个参数的设置非常敏感。DBSCAN的扩展叫OPTICS（OrderingPoints To Identify Clustering Structure）通过优先对高密度（high density）进行搜索，然后根据高密度的特点设置参数，改善了DBSCAN的不足。

1、DBSCAN的概念

dbscan基于密度，对于集中区域效果较好，为了发现任意形状的簇，这类方法将簇看做是数据空间中被低密度区域分割开的稠密对象区域；一种基于高密度连通区域的基于密度的聚类方法，该算法将具有足够高密度的区域划分为簇，并在具有噪声的空间数据中发现任意形状的簇。

DBSCAN中的几个定义：

Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；

核心对象：如果给定对象Ε领域内的样本点数大于等于MinPts，则称该对象为核心对象；

直接密度可达：对于样本集合D，如果样本点q在p的Ε领域内，并且p为核心对象，那么对象q从对象p直接密度可达。

密度可达：对于样本集合D，给定一串样本点p1,p2….pn，p= p1,q= pn,假如对象pi从pi-1直接密度可达，那么对象q从对象p密度可达。注意：密度可达是单向的，密度可达即可容纳同一类。

密度相连：存在样本集合D中的一点o，如果对象o到对象p和对象q都是密度可达的，那么p和q密度相联。

密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。

有了以上的概念接下来就是算法描述了：DBSCAN通过检查数据库中每点的r邻域来搜索簇。如果点p的r邻域包含的点多于MinPts个，则创建一个以p为核心对象的新簇。然后，DBSCAN迭代的聚集从这些核心对象直接密度可达的对象，这个过程可能涉及一些密度可达簇的合并。当没有新的点可以添加到任何簇时，该过程结束。

例如：Eg: 假设半径Ε=3，MinPts=3，点p的E领域中有点{m,p,p1,p2,o}, 点m的E领域中有点{m,q,p,m1,m2},点q的E领域中有点{q,m},点o的E领域中有点{o,p,s},点s的E领域中有点{o,s,s1}.

那么核心对象有p,m,o,s(q不是核心对象，因为它对应的E领域中点数量等于2，小于MinPts=3)；

点m从点p直接密度可达，因为m在p的E领域内，并且p为核心对象；

点q从点p密度可达，因为点q从点m直接密度可达，并且点m从点p直接密度可达；

点q到点s密度相连，因为点q从点p密度可达，并且s从点p密度可达。

2、簇的生成原理及过程

1）DBSCAN聚类算法原理的基本要点：确定半径eps的值

①DBSCAN算法需要选择一种距离度量，对于待聚类的数据集中，任意两个点之间的距离，反映了点之间的密度，说明了点与点是否能够聚到同一类中。由于DBSCAN算法对高维数据定义密度很困难，所以对于二维空间中的点，可以使用欧几里德距离来进行度量。

②DBSCAN算法需要用户输入2个参数：一个参数是半径（Eps），表示以给定点P为中心的圆形邻域的范围；另一个参数是以点P为中心的邻域内最少点的数量（MinPts）。如果满足：以点P为中心、半径为Eps的邻域内的点的个数不少于MinPts，则称点P为核心点。

③DBSCAN聚类使用到一个k-距离的概念，k-距离是指：给定数据集P={p(i);i=0,1,…n}，对于任意点P(i)，计算点P(i)到集合D的子集S={p(1), p(2), …, p(i-1), p(i+1), …, p(n)}中所有点之间的距离，距离按照从小到大的顺序排序，假设排序后的距离集合为D={d(1), d(2), …, d(k-1), d(k), d(k+1),…,d(n)}，则d(k)就被称为k-距离。也就是说，k-距离是点p(i)到所有点（除了p(i)点）之间距离第k近的距离。对待聚类集合中每个点p(i)都计算k-距离，最后得到所有点的k-距离集合E={e(1), e(2), …, e(n)}。

④根据经验计算半径Eps：根据得到的所有点的k-距离集合E，对集合E进行升序排序后得到k-距离集合E’，需要拟合一条排序后的E’集合中k-距离的变化曲线图，然后绘出曲线，通过观察，将急剧发生变化的位置所对应的k-距离的值，确定为半径Eps的值。

⑤根据经验计算最少点的数量MinPts：确定MinPts的大小，实际上也是确定k-距离中k的值，DBSCAN算法取k=4，则MinPts=4。

⑥另外，如果觉得经验值聚类的结果不满意，可以适当调整Eps和MinPts的值，经过多次迭代计算对比，选择最合适的参数值。可以看出，如果MinPts不变，Eps取得值过大，会导致大多数点都聚到同一个簇中，Eps过小，会导致一个簇的分裂；如果Eps不变，MinPts的值取得过大，会导致同一个簇中点被标记为噪声点，MinPts过小，会导致发现大量的核心点。

我们需要知道的是，DBSCAN算法，需要输入2个参数，这两个参数的计算都来自经验知识。半径Eps的计算依赖于计算k-距离，DBSCAN取k=4，也就是设置MinPts=4，然后需要根据k-距离曲线，根据经验观察找到合适的半径Eps的值。

2）连通核心点生成簇

核心点能够连通（有些书籍中称为：“密度可达”），它们构成的以Eps长度为半径的圆形邻域相互连接或重叠，这些连通的核心点及其所处的邻域内的全部点构成一个簇。假设MinPts=4，则连通的核心点示例，如下图所示：

计算连通的核心点的思路是，基于广度遍历与深度遍历集合的方式：从核心点集合S中取出一个点p，计算点p与S集合中每个点（除了p点）是否连通，可能会得到一个连通核心点的集合C1，然后从集合S中删除点p和C1集合中的点，得到核心点集合S1；再从S1中取出一个点p1，计算p1与核心点集合S1集中每个点（除了p1点）是否连通，可能得到一个连通核心点集合C2，再从集合S1中删除点p1和C2集合中所有点，得到核心点集合S2，……最后得到p、p1、p2、……，以及C1、C2、……就构成一个簇的核心点。最终将核心点集合S中的点都遍历完成，得到所有的簇。

参数eps的设置，如果eps设置过大，则所有的点都会归为一个簇，如果设置过小，那么簇的数目会过多。如果MinPts设置过大的话，很多点将被视为噪声点。

3、根据数据点的密度分为三类点：

(1)核心点：该点在邻域内的密度超过给定的阀值MinPs。

(2)边界点：该点不是核心点，但是其邻域内包含至少一个核心点。

(3)噪音点：不是核心点，也不是边界点。

有了以上对数据点的划分，聚合可以这样进行：各个核心点与其邻域内的所有核心点放在同一个簇中，把边界点跟其邻域内的某个核心点放在同一个簇中。

聚类的效果如下图，黑色是噪音点：初识聚类算法:

因为DBSCAN使用簇的基于密度的定义，因此它是相对抗噪音的，并且能处理任意形状和大小的簇。但是如果簇的密度变化很大，例如ABCD四个簇，AB的密度大大大于CD，而且AB附近噪音的密度与簇CD的密度相当，这是当MinPs较大时，无法识别簇CD，簇CD和AB附近的噪音都被认为是噪音；当MinPs较小时，能识别簇CD，但AB跟其周围的噪音被识别为一个簇。这个问题可以基于共享最近邻(SNN)的聚类结局。

4、DBSCAN的优缺点：

优点：

1. 与K-means方法相比，DBSCAN不需要事先知道要形成的簇类的数量。

2. 与K-means方法相比，DBSCAN可以发现任意形状的簇类。

3. 同时，DBSCAN能够识别出噪声点。

4.DBSCAN对于数据库中样本的顺序不敏感，即Pattern的输入顺序对结果的影响不大。但是，对于处于簇类之间边界样本，可能会根据哪个簇类优先被探测到而其归属有所摆动。

缺点：

1. DBScan不能很好反映高尺寸数据。

2. DBScan不能很好反映数据集变化的密度。

3.对于高维数据，点之间极为稀疏，密度就很难定义了。

作者：军军，北京数据开发工程师。

本文由作者军军授权数据人网发表，并经数据人网审核。转载此文章需经作者同意，并请附上出处（数据人网）及本页链接：http://shujuren.org/index.php/Article/update/aid/127

你可能感兴趣的:(机器学习与数据挖掘)

《机器学习与数据挖掘》学习笔记（二）-续产品扫地僧
沿着PAC学习理论，讨论有限假设空间的样本复杂度，并用Hoeffding不等式来界定概率边界。假设空间的样本复杂度PAC可学习性很大程度上由所需的训练样本数量决定。随着问题规模的增长所带来的所需训练样本的增长称为学习问题的样本复杂度（samplecomplexity）。在多数实际问题中，最限制学习器成功的因素是有限的可用的训练数据。我们通常都喜欢能与训练数据拟合程度更高的假设，当一个学习器在可能时
牛人（周志华）推荐的人工智能网站城市中迷途小书童
AIURLs(maintainedbyZhi-HuaZhou)**北京大学视觉与听觉信息处理实验室北京邮电大学模式识别与智能系统学科复旦大学智能信息处理开放实验室IEEEComputerSociety北京映象站点计算机科学论坛机器人足球赛模式识别国家重点实验室南京航空航天大学模式识别与神经计算实验室-PARNEC南京大学机器学习与数据挖掘研究所-LAMDA南京大学人工智能实验室南京大学软件新技术国
1.5 The Leaming Problem-Machine Leaming and other Fields|机器学习基石（林轩田）-学习笔记努力奋斗的durian
文章原创,最近更新：2018-06-27学习链接:1.5TheLeamingProblem-MachineLeamingandotherFields1.MachineLearningandDataMining(机器学习与数据挖掘)讲完了机器学习完整的流程,下面将一下机器学习与其他相关领域的关系第一个讲的领域就是数据挖掘,数据挖掘与机器学习有什么不一样,如下:机器学习是用资料找出一个假说g,然后跟我
毕业设计选题 - 计算机毕业设计（论文）选题合集 weixin_55149953 毕业设计人工智能毕业设计毕设目标跟踪计算机视觉大数据算法
目录前言选题背景意义毕业设计选题深度学习与神经网络计算机视觉与图像处理机器学习与数据挖掘数据分析和大数据处理选题迷茫选题的重要性更多选题指导最后前言大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。大四的同学马上要开始毕业设计,对选题有疑问可以问学长哦!以下整理了适合不同方向的计算机专业的毕业设计选题对毕设有任何疑问
DataFunSummit：2023年数据科学在线峰会-核心PPT资料下载百家峰会大数据数据治理数据科学大数据数据科学数据治理
一、峰会简介数据会说谎？如何正确的挖掘并使用数据？前沿的科学实验如何做？实验又是如何欺骗你的？数据中台如何发挥功效？用户增长有捷径吗？数据科学的最佳实践有哪些？本次峰会共包含了：机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大论坛。机器学习与数据挖掘方向的核心目标是通过机器学习的建模方式解决人与物的匹配问题，以及通过对人行为数据的建模或挖掘研究，
【机器学习】学习笔记01-概论 NRbene 机器学习机器学习学习数据挖掘
机器学习简介文章目录机器学习简介机器学习辨析深度学习与机器学习机器学习与数据挖掘机器学习与统计学习机器学习与传统编程机器学习概念适用条件挑战模型的稳定性模型的可解释性历史符号主义贝叶斯学派连接主义其他概念基本概念三要素模型策略算法归纳偏好证明机器学习的目标欠拟合和过拟合泛化误差(重点)缓解过拟合深入理解泛化误差基本概念方法总结机器学习一般流程机器学习分类按有无标签分类按输出空间分类按模型分类按算法
《机器学习与数据挖掘》学习笔记（一）产品扫地僧
从刚注册时强迫自己写文章时的拖延，到现在有了想法不自觉的想记录下来，是好的转变。最近开始对数据挖掘很感兴趣，在网易公开课上开始学加州理工的《机器学习和数据挖掘》，还可以顺便练练英语听力。第一课《学习问题》只要从问题引入，介绍什么是机器学习，以及常见的学习分类。在人类的认知中一些显而易见的结论，对机器而言是一个却是无限靠近的过程，比如婴儿可以快速识别一张脸的情绪等。课中介绍了银行信贷审批的例子。阐述
机器学习与数据挖掘第三、四周 Joy T 机器学习数据挖掘人工智能机器学习
为什么第二周没有呢……因为刚换老师，自学要适应一段时间。本课程作者之后的学习目标是：实操代码，至少要将作者参加数学建模中用到的数据处理方法都做一遍。首先，作者复习一下李宏毅老师的两节课程。机器学习概述机器学习就是让机器帮我们找一个函数！而这个函式，其实就是类神经网络！这个函式的输入可以是向量、矩阵和序列。矩阵往往用于表示图像。语音往往可以被表示为序列。输出可以是数值regression、类别cla
数分面试题1-牛客海星？海欣！面试问题 python 数据分析
1、python中你常用的包包名+作用+哪里使用过numpy:主要用来做多维数组的运算，高效的数值计算与数组操作，之前在推荐系统的项目中使用过pandas：用于数据处理与分析，提供了灵活的数据结构与数据操作功能matplotlib：数据可视化，比如想看数据的分布情况-箱线图，还有热力图、直方图、面积图、雷达图、极坐标图、等高线图等sklearn：用于机器学习与数据挖掘项目，提供多种机器学习算法与工
【AI】机器学习——绪论 AmosTian AI #机器学习人工智能机器学习 AI
文章目录1.1机器学习概念1.1.1定义统计机器学习与数据挖掘区别机器学习前提1.1.2术语1.1.3特点以数据为研究对象目标方法——基于数据构建模型SML三要素SML步骤1.2分类1.2.1参数化/非参数化方法1.2.2按算法分类1.2.3按模型分类概率模型非概率模型逻辑斯蒂回归1.2.4基本分类监督学习分类符号表示形式化特征无监督模型特征符号表示形式化强化学习半监督学习主动学习1.2.5按技巧
加州理工学院公开课：机器学习与数据挖掘_Epilogue（第十八课-终结篇）飞天狐213 机器学习机器学习 Aggregation 贝叶斯
课程简介:这是该课程的最后一课，作者首先总结了有关机器学习的理论、方法、模型、范式等。最后介绍了贝叶斯理论和Aggregation（聚合）方法在机器学习中的应用。课程提纲:1、机器学习的地图。2、贝叶斯理论。3、Aggregation（聚合）。1、机器学习的地图有关机器学习的方法、模型等非常多，简直令人目不暇接。比如下图列出来的。然而不建议一一学习这些方法、模型，否则容易迷失在这些方法里无法自拔。
大咖观点| AIGC与因果推断的双向赋能九章云极DataCanvas AIGC 人工智能大数据
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
Python机器学习及实践_从零开始通往KAGGLE竞赛之路PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书胡萝卜须_aee2
点击获取提取码：i5nwimage.pngPython机器学习及实践面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具，如Scikit-learn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书
大咖观点| AIGC与因果推断的双向赋能 aigc
近日，由DataFun主办的第三届数据科学在线峰会盛大举办。聚焦机器学习与数据挖掘、AB实验、因果推断、数据中台与数字化转型、用户增长与运营、数据科学最佳实践等6大数据科学主题，数十位国内外一线数据科学家围绕数据科学前沿技术成果和应用实践经验深入分享和交流。九章云极DataCanvas公司深度参与峰会，并分享前沿数据科学技术的最新研究进展。峰会上，九章云极DataCanvas公司AI架构师何刚发表
机器学习与数据挖掘的学习路线图 thousand_
https://my.oschina.net/siiiso/blog/810554正式学习之前，你所需要的预备知识（主要是数学）应该包括：微积分（偏导数、梯度等等）、概率论与数理统计（例如极大似然估计、中央极限定理、大数法则等等）、最优化方法（比如梯度下降、牛顿-拉普什方法、变分法（欧拉-拉格朗日方程）、凸优化等等）——如果你对其中的某些名词感到陌生，那么就说明你尚不具备深入开展数据挖掘算法学习的
通关秘籍！Pandas最新官方教程中文版 Python数据之道
大家好，感谢大家一路以来的关注和支持，今天给大家强烈推荐我的好友云朵君的公众号『数据STUDIO』，强烈推荐大家关注～‍☠️宝藏级‍☠️原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言，垂直于数据科学领域，包括可戳Python｜MySQL｜数据分析｜数据可视化｜机器学习与数据挖掘｜爬虫等，从入门到进阶！云朵君为大家整理和筛选了大量火爆全网的Python数据科学学习资料，全
机器学习（面试题）及知识点菜田的守望者机器学习机器学习面试题
文章目录文章目录文章目录1，什么是机器学习2，机器学习与数据挖掘的区别3.什么是机器学习的过度拟合现象4.过度拟合产生的原因5.如何避免过度拟合6.什么是感应式的机器学习？7.什么是机器学习的五个流行的算法？9.在机器学习中，建立假设或者模型的三个阶段指的是什么？10.什么是监督学习的标准方法？11.什么是训练数据集和测试数据集？12.机器学习的方法？13.非机器学习有哪些类型？14.什么是非监督
python语法基础知识案例_Python 语法速览与实战清单 weixin_39860064 python语法基础知识案例
本文是对于现代Python开发：语法基础与工程实践的总结，更多Python相关资料参考Python学习与实践资料索引；本文参考了PythonCrashCourse-CheatSheets，pysheeet等。本文仅包含笔者在日常工作中经常使用的，并且认为较为关键的知识点与语法，如果想要进一步学习Python相关内容或者对于机器学习与数据挖掘方向感兴趣，可以参考程序猿的数据科学与机器学习实战手册。基
if i have five million dollars 云想飘飘
假如我有五百万我首先要还清我的房贷然后买辆车然后在村里盖个舒服的房子给父母然后想不到了抽个时间去考个机器学习与数据挖掘研究生然后努力工作。。。。
python竞赛之路_Python机器学习及实践：从零开始通往Kaggle竞赛之路 PDF高清完整版... weixin_39900468 python竞赛之路
Python机器学习及实践：从零开始通往Kaggle竞赛之路PDF高清完整版作者:范淼/李超出版社:清华大学出版社副标题:从零开始通往Kaggle竞赛之路出版年:2016-10-1定价:49元装帧:平装ISBN:9787302442875内容简介······本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，
Python机器学习及实践+从零开始通往Kaggle竞赛之路喜欢安静的程序猿 python 经典书籍
内容简介本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者，从零开始，以Python编程语言为基础，在不涉及大量数学模型与复杂编程知识的前提下，逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具，如Scikitlearn、NLTK、Pandas、gensim、XGBoost、GoogleTensorflow等。全书共分4章。第1章简介篇，介绍机器学习概念与Python
机器学习与数据挖掘，机器学习算法简介明月说数据数据挖掘算法大数据
什么是数据挖掘数据挖掘就是从大量的数据中去发现有用的信息，然后根据这些信息来辅助决策。听起来是不是跟传统的数据分析很像呢？实际上，数据挖掘就是智能化的数据分析，它们的目标都是一样的。但是，又有很大的区别。传统的数据分析和数据挖掘最主要的区别就是在揭示数据之间的关系上。传统的数据分析揭示的是已知的、过去的数据关系，数据挖掘揭示的是未知的、将来的数据关系。它们采用的技术也不一样，传统的数据分析采用计算
机器学习算法之LightGBM The king always the king 机器学习
LightGBM在很多方面会比XGBoost表现的更为优秀。它有以下优势：更快的训练效率低内存使用更高的准确率支持并行化学习可处理大规模数据支持直接使用category特征从下图实验数据可以看出，LightGBM比XGBoost快将近10倍，内存占用率大约为XGBoost的1/6，并且准确率也有提升。LightGBM的应用LightGBM在机器学习与数据挖掘领域有着极为广泛的应用。据统计Light
机器学习第一章（引言）罗辑罗辑机器学习
“假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则意味着关于T和P，该程序对E进行了学习”机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，依此来对新的未知的情况进行判断。机器学习与数据挖掘的关系：图1.机器学习与数据挖掘的关系机器学习中的基本术语：数据、任务、泛化能力机器学习中的假设空间、归
python手写数字识别教学_6手写数字识别_python机器学习与数据挖掘_Python视频-51CTO学院... 职业生涯规划师 python手写数字识别教学
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
Python多元线性回归、机器学习、深度学习在近红外光谱分析中的应用 PhyliciaFelicia 深度学习遥感医学影像 python 线性回归深度学习
导师：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用第一章：Python入门基础1、Pyt
基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用 WangYan2022 机器学习/深度学习 python 近红外光谱分析
【专家】：郁磊副教授，主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。【特色】：1、原理深入浅出的讲解，强调原理的重要性；2、技巧方法讲解，提供教程配套的完整教材数据及提供长期回放
《机器学习与数据挖掘》实验八 Tony_Chen_0725 机器学习与数据挖掘实验决策树 python
实验题目：编程实现AdaBoost算法实验目的：掌握AdaBoost算法的求解过程实验环境（硬件和软件）Anaconda/Jupyternotebook/Pycharm实验内容：编码实现AdaBoost算法，以决策树为基学习器，训练一个AdaBoost集成模型，对测试样本进行判别。要求：一、已经给定部分代码，补充完整的代码，需要补充代码的地方已经用红色字体标注，包括：（1）#补充定义弱分类器的代码
【案例实践】Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用吹翻书页的风数据语言统计分析 python 深度学习近红外光谱多元线性回归
查看原文>>>基于Python多元线性回归、机器学习、深度学习在近红外光谱分析中的实践应用【专家】：郁磊副教授主要从事MATLAB编程、机器学习与数据挖掘、数据可视化和软件开发、人工智能近红外光谱分析、生物医学系统建模与仿真，具有丰富的实战应用经验，主编《MATLAB智能算法30个案例分析》、《MATLAB神经网络43个案例分析》相关著作。已发表多篇高水平的国际学术研究论文。【内容】：第一章、Py
数据挖掘入门：Python开发环境搭建（eclipse-pydev模式） Snoopy_Yuan 数据挖掘数据挖掘 python sklearn eclipse pydev
为便于使用Python进行机器学习与数据挖掘的学习，先安装sklearn等常用库。然后搭建出集成开发环境。由于之前常采用EclipseIDE来开发C/C++和Java，故先考虑搭建Eclipse-Pydev环境来学习使用Python。准备工作Ubuntu-14.04LTS(自带Python2和Python3)JDK1.7EclipseIDE配置过程1.配置系统Python环境Ubuntu-14默认
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro