yingchundexiaoxiong

聚类

聚类分析概述

1.聚类分析的定义

2.聚类分析在数据挖掘中的作用：

3.常用的聚类分析方法：

相似性计算方法

连续型属性的相似性计算方法

二值离散型属性的相似性计算方法

多值离散型属性的相似性计算方法

混合类型属性的相似性计算方法

k-means算法

k-medoids算法

AGNES (Agglomerative Nesting)算法(合并聚类)

DIANA (Divisive Analysis)算法（分类聚类法）

DBSCAN

sklearn

sklearn-dbscan

sklearn_k-means

sklearn_minibatchk-means

聚类

聚类分析概述

简单地描述，聚类(Clustering)是将数据集划分为若干相似对象组成的多个组(group)或簇(cluster)的过程，使得同一组中对象间的相似度最大化，不同组中对象间的相似度最小化。或者说一个簇(cluster)就是由彼此相似的一组对象所构成的集合，不同簇中的对象通常不相似或相似度很低。

1.聚类分析的定义

– 聚类分析(Cluster Analysis)是一个将数据集中的所有数据，按照相似性划分为多个类别
（Cluster, 簇）的过程；
• 簇是相似数据的集合。
– 聚类分析是一种无监督(Unsupervised Learning)分类方法：数据集中的数据没有预定义的类别标号（无训练集和训练的过程）。
– 要求：聚类分析之后，应尽可能保证类别相同的数据之间具有较高的相似性，而类别不同的数据之间具有较低的相似性

2.聚类分析在数据挖掘中的作用：

– 作为一个独立的工具来获得数据集中数据的分布情况；
• 首先，对数据集执行聚类，获得所有簇；
• 然后，根据每个簇中样本的数目获得数据集中每类数据的大体分布情况。
– 作为其他数据挖掘算法的预处理步骤。
• 首先，对数据进行聚类——粗分类；
• 然后，分别对每个簇进行特征提取和细分类，可以有效提高分类精度

3.常用的聚类分析方法：

– 划分法（Partitioning Methods）：以距离作为数据集中不同数据间的相似性度量，将数据集划分成多个簇。

– 划分准则：同一个簇中的样本尽可能接近或相似，不同簇中的样本尽可能远离或不相似。
– 以样本间的距离作为相似性度量
• 属于这样的聚类方法有：k-means（k-均值算法）由簇中样本的平均值来代表整个簇、k-medoids（k-中心算法）由处于簇中心区域的某个样本代表整个簇等。
– 层次法（Hierarchical Methods）：对给定的数据集进行层次分解，形成一个树形的聚类结果。
• 属于这样的聚类方法有：

自顶向下法（合并）：开始时，将每个样本作为单独的一个组；然后，依次合并相近的样本或组，直至所有样本或组被合并为一个组或者达到终止条件为止。代表算法：AGNES算法（合并聚类法）

自底向上法（分裂）：开始时，将所有样本置于一个簇中；然后，执行迭代，在迭代的每一步中，一个簇被分裂为多个更小的簇，直至每个样本分别在一个单独的簇中或者达到终止条件为止。代表算法：DIANA算法（分裂聚类法）。
– 密度法

• 基于密度的聚类： DBSCAN算法

相似性计算方法

在聚类分析中，样本之间的相似性通常采用样本之间的距离来表示。
– 两个样本之间的距离越大，表示两个样本越不相似性，差异性越大；
– 两个样本之间的距离越小，表示两个样本越相似性，差异性越小。
– 特例：当两个样本之间的距离为零时，表示两个样本完全一样，无差异。

– 样本之间的距离是在样本的描述属性（特征）上进行计算的。
– 在不同应用领域，样本的描述属性的类型可能不同，因此相似性的计算方法也不尽相同。
• 连续型属性(如：重量、高度、年龄等)
• 二值离散型属性(如：性别、考试是否通过等)
• 多值离散型属性(如：收入分为高、中、低等)
• 混合类型属性(上述类型的属性至少同时存在两种)

连续型属性的相似性计算方法

• 假设两个样本Xi和Xj分别表示成如下形式：

– 它们都是d维的特征向量，并且每维特征都是一个连续型数值。
• 对于连续型属性，样本之间的相似性通常采用如下三种距离公式进行计算。

二值离散型属性的相似性计算方法

•二值离散型属性只有0和1两个取值。
– 其中：0表示该属性为空，1表示该属性存在。
– 例如：描述病人的是否抽烟的属性(smoker)，取值为1表示病人抽烟，取值0表示病人不抽烟。
• 假设两个样本Xi和Xj分别表示成如下形式：

– 它们都是p维的特征向量，并且每维特征都是一个二值离散型数值

• 假设二值离散型属性的两个取值具有相同的权重，则可以得到一个两行两列的可能性矩阵

• 如果样本的属性都是对称的二值离散型属性，则样本间的距离可用简单匹配系数(Simple Matching Coefficients, SMC)计算：
SMC = (b + c) / (a + b + c + d)

– 其中：对称的二值离散型属性是指属性取值为1或者0同等重要。
– 例如：性别就是一个对称的二值离散型属性，即：用1表示男性，用0表示女性；或者用0表示男性，用1表示女性是等价的，属性的两个取值没有主次之分

•如果样本的属性都是不对称的二值离散型属性，则样本间的距离可用Jaccard系数计算(Jaccard Coefficients, JC)：
JC = (b + c) / (a + b + c)

– 其中：不对称的二值离散型属性是指属性取值为1或者0不是同等重要。
– 例如：血液的检查结果是不对称的二值离散型属性，阳性结果的重要程度高于阴性结果，因此通常用1来表示阳性结果，而用0来表示阴性结果。

多值离散型属性的相似性计算方法

• 多值离散型属性是指取值个数大于2的离散型属性。
– 例如：成绩可以分为优、良、中、差。
• 假设一个多值离散型属性的取值个数为N，给定数据集X={xi | i=1,2,…,total}。
– 其中：每个样本xi可用一个d维特征向量描述，并且每维特征都是一个多值离散型属性，即：

– 方法一：简单匹配方法。
• 距离计算公式如下：

• 其中： d为数据集中的属性个数，u为样本xi和xj取值相同的属性个数

– 方法二：先将多值离散型属性转换成多个二值离散型属性，然后再使用Jaccard系数计算样本之间的距离。
• 对有N个取值的多值离散型属性，可依据该属性的每种取值分别创建一个新的二值离散型属性，这样可将多值离散型属性转换成多个二值离散型属性

混合类型属性的相似性计算方法

方法：将混合类型属性放在一起处理，进行一次聚类分析。
– 在聚类之前，对样本的属性值进行预处理：
• 对连续型属性，将其各种取值进行规范化处理，使得属性值规范化到区间[0.0, 1.0]；
• 对多值离散型属性，根据属性的每种取值将其转换成多个二值离散型属性。
• 预处理之后，样本中只包含连续型属性和二值离散型属性。

k-means算法

算法思想
初始随机给定K个簇中心，按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值

import numpy as np
a = np.array([(3,4),(3,6),(7,3),(4,7),(3,8),(8,5),(4,5),(4,1),(7,4),(5,5)])
lines = ""
for i in a:
    for j in a:
        dis = np.sqrt(np.sum((i-j)**2))
        lines+="%.2f"%dis+","
    lines+="\n"
file = open("result.csv",mode="w",encoding="utf-8")
file.write(lines)
file.close()

"""
1.随机取k个中心点
2. 计算所有点到中心点的距离
    将所有点 分别放入 中心点所在的簇
        更新中心点
            如果中心点不变 结束迭代
    迭代
"""
import numpy as np
import matplotlib.pyplot as plt

#获取数据集
def loadDataSet(filename):
    return np.loadtxt(filename,delimiter=",",dtype=np.float)

#取出k个中心点
def initCenters(dataset,k):
    """
    返回的k个中心点
    :param dataset:数据集
    :param k:中心点的个数
    :return:
    """
    centersIndex =  np.random.choice(len(dataset),k,replace=False)
    return dataset[centersIndex]
#计算距离公式
def distance(x,y):
    return np.sqrt(np.sum((x-y)**2))

#kmeans的核心算法
def kmeans(dataset,k):
    """
    返回k个簇
    :param dataset:
    :param k:
    :return:
    """
    #初始化中心点
    centers = initCenters(dataset,k)
    n,m = dataset.shape
    #用于存储每个样本属于哪个簇
    clusters = np.full(n,np.nan)
    #迭代 标志
    flag = True
    while flag:
        flag = False
        #计算所有点到簇中心的距离
        for i in range(n):
            minDist,clustersIndex = 99999999,0
            for j in range(len(centers)):
                dist = distance(dataset[i],centers[j])
                if dist2:
        print("维度大于2")
        return 1
    #根据簇不同 marker不同
    colors = ["r","g","b","y"]
    for i in range(n):
        clusterIndex = clusters[i].astype(np.int)
        plt.plot(dataset[i][0],dataset[i][1],color=colors[clusterIndex],marker="o")
    for i in range(k):
        plt.scatter(centers[i][0],centers[i][1],marker="s")
    plt.show()
if __name__=="__main__":
    dataset = loadDataSet("testSet.txt")
    clusters,centers = kmeans(dataset,4)
    show(dataset,4,clusters,centers)

p是蔟Ci中的样本

mi是蔟Ci的均值

k是蔟的个数

• 优点：
– 可扩展性较好，算法复杂度为O(nkt)。
• 其中：n为样本个数，k是簇的个数，t是迭代次数。
• 缺点：
– 簇数目k需要事先给定，但非常难以选定；
– 初始聚类中心的选择对聚类结果有较大的影响；
– 不适合于发现非球状簇；
– 对噪声和离群点数据敏感

k-medoids算法

k-medoids算法基本思想：
– 选取有代表性的样本（而不是均值）来表示整个簇，即：选取最靠近中心点(medoid)的那个样本来代表整个簇。
– 以降低聚类算法对离群点的敏感度。
– PAM (Partitioning Around Medoids, 围绕中心点的划分)算法，于1987年提出

如果代表样本能被非代表样本所替代，则替代产生的总代价S是所有样本产生的代价之和。
n总代价的定义如下：

• 当非代表样本Orandom替代代表样本Oj后，对于数据集中的每一个样本p，它所属的簇的类别将有以下四种可能的变化：

k-medoids与k-means的比较
• 当存在噪声和离群点时，k-medoids算法比k-means算法更加鲁棒(稳定)。
– 这是因为中心点不像均值那样易被极端数据(噪声或者离群点)影响。
• k-medoids算法的执行代价比k-means算法要高。
– k-means算法： O(nkt)

– k-medoids算法：O(k(n-k)^2)
• 当n与k较大时， k-medoids算法的执行代价很高。
• 两种方法都需要事先指定簇的数目k。

AGNES (Agglomerative Nesting)算法(合并聚类)

– 首先，将数据集中的每个样本作为一个簇；
– 然后，根据某些准则将这些簇逐步合并；
– 合并的过程反复进行，直至不能再合并或者达到结束条件为止。
• 合并准则：每次找到距离最近的两个簇进行合并。
– 两个簇之间的距离由这两个簇中距离最近的样本点之间的距离来表示

AGNES算法（自底向上合并算法）
输入：包含n个样本的数据集，终止条件簇的数目k。
输出：k个簇，达到终止条件规定的簇的数目。
(1) 初始时，将每个样本当成一个簇；
(2) REPEAT 根据不同簇中最近样本间的距离找到最近的两个簇；合并这两个簇，生成新的簇的集合；
(3) UNTIL 达到定义的簇的数目

在这个算法中，需要使用单链接(Single- Link)方法和相异度矩阵。
– 单链接方法用于确定任意两个簇之间的距离；

– 相异度矩阵用于记录任意两个簇之间的距离（它是一个下三角矩阵，即：主对角线及其上方元素全部为零）

AGNES算法的优、缺点：
– 算法简单，但有可能遇到合并点选择困难的情况；
– 一旦不同的簇被合并，就不能被撤销；
– 算法的时间复杂度为O(n^2)
– 因此不适用处理n很大的数据集

DIANA (Divisive Analysis)算法（分类聚类法）

– 在该种层次聚类算法中，也是以希望得到的簇的数目作为聚类的结束条件。
– 同时，使用下面两种测度方法：
• 簇的直径：在一个簇中，任意两个样本间距离的最大值。
• 平均相异度（平均距离）

DIANA算法（自顶向下分裂算法）
输入：包含n个样本的数据集，终止条件簇的数目k。
输出：k个簇，达到终止条件规定的簇的数目。
（1）初始时，将所有样本当成一个簇；
（2） FOR （i=1; i≠k; i++) DO BEGIN
（3）在所有簇中挑出具有最大直径的簇C；
（4）找出C中与其它点平均相异度最大的一个点p，并把p放入splinter group，剩余的放在old party中；
（5） REPEAT
（6）在old party里找出到最近的splinter group中的点的距离不大于到old party中最近点的距离的点，并将该点加入splinter group。
（7） UNTIL 没有新的old party的点被分配给splinter group；
（8） splinter group和old party为被选中的簇分裂成的两个簇，与其它簇一起组成新的簇集合。
（9） END

DBSCAN

• DBSCAN是一个基于密度的聚类算法.(他聚类方法大都是基于对象之间的距离进行聚类，聚类结果是球状的簇)
• 基于密度的聚类是寻找被低密度区域分离的高密度区域。

传统基于中心的密度定义为：
– 数据集中特定点的密度通过该点Eps半径之内的点计数(包括本身)来估计。
– 显然，密度依赖于半径。

基于密度定义，我们将点分为：
– 稠密区域内部的点(核心点) :在半径Eps内含有超过MinPts数目的点，则该点为核心点,这些点都是在簇内的

– 稠密区域边缘上的点(边界点) :在半径Eps内点的数量小于MinPts，但是在核心点的邻居

– 稀疏区域中的点(噪声或背景点)：任何不是核心点或边界点的点.

Eps邻域：给定对象半径Eps内的邻域称为该对象的Eps邻域，我们用表示点p的Eps-半径内的点的集合，即:

核心对象：如果对象的Eps邻域至少包含最小数目MinPts的对象，则称该对象为核心对象。
边界点：边界点不是核心点，但落在某个核心点的邻域内。
噪音点：既不是核心点，也不是边界点的任何点

• DBSCAN通过检查数据集中每点的Eps邻域来搜索簇，如果点p的Eps邻域包含的点多于MinPts个，则创建一个以p为核心对象的簇。
• 然后，DBSCAN迭代地聚集从这些核心对象直接密度可达的对象，这个过程可能涉及一些密度可达簇的合并。
• 当没有新的点添加到任何簇时，该过程结束

• 时间复杂度
– DBSCAN的基本时间复杂度是 O(N*找出Eps领域中的点所需要的时间), N是点的个数。最坏情况下时间复杂度是O(N^2)
2) – 在低维空间数据中,有一些数据结构如KD树，使得可以有效的检索特定点给定距离内的所有点，时间复杂度可以降低到O(NlogN)

空间复杂度
– 低维或高维数据中，其空间都是O(N)，对于每个点它只需要维持少量数据，即簇标号和每个点的标识(核心点或边界点或噪音点)

优点
– 基于密度定义，相对抗噪音，能处理任意形状和大小的簇
• 缺点
– 当簇的密度变化太大时，会有麻烦
– 对于高维问题，密度定义是个比较麻烦的问题

sklearn

sklearn-dbscan

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import DBSCAN
from sklearn import metrics, preprocessing
data_path = 'data.csv'

# 读取数据文件
data_frame = pd.read_csv(data_path, encoding='gbk')


# DBSCAN聚类
def dbscan_cluster(x_label, y_label):

    # 生成DBSCAN模型
    clu = DBSCAN(eps=1, min_samples=5)

    X_value = data_frame[[x_label, y_label]].values

    # 开始进行DBSCAN聚类
    clu.fit(X_value)
    # 输出样本所属的簇
    print('样本所属簇编号:', clu.labels_)

    # 可视化聚类属性(散点图)

    # 参数设置
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

    # 以簇编号作为颜色区分依据
    plt.scatter(data_frame[x_label], data_frame[y_label], c=clu.labels_)

    plt.title('DBSCAN聚类结果')
    plt.xlabel(x_label)
    plt.ylabel(y_label)
    plt.show()


if __name__ == '__main__':
    dbscan_cluster('当月MOU', '当月DOU')

sklearn_k-means

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import numpy as np
from scipy.spatial.distance import pdist
from sklearn import metrics, preprocessing

data_path = 'data.csv'

# 读取数据文件
data_frame = pd.read_csv(data_path, encoding='gbk')

# 获取字段名
cols = list(data_frame.columns)


# 数据本身的散点图
def draw_scatter(x_label, y_label):
    # 绘图参数的设置
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
    plt.scatter(data_frame[x_label], data_frame[y_label])

    plt.xlabel(x_label)
    plt.ylabel(y_label)

    plt.title('{0}-{1}散点图'.format(x_label, y_label))
    plt.show()


# K-Means聚类
def k_means_cluster(x_label, y_label, k):
    # 调用sklearn库生成K-Means模型
    #n_clusters聚集几个簇 max_iter最大迭代次数
    clu = KMeans(n_clusters=k, max_iter=300)
    #获取数据集
    X_value = data_frame[[x_label, y_label]].values
    print(type(X_value))
    # 开始进行K-Means聚类
    clu.fit(X_value)

    # 输出样本所属的簇
    print('样本所属簇编号:', clu.labels_)
    print(clu.labels_[100:200])
    # 输出簇中心坐标
    print('簇中心坐标:', clu.cluster_centers_)

    # 计算V值 （V=簇内平均误差平方和/簇间平均距离）
    v_value = clu.inertia_ / (k * np.average(pdist(clu.cluster_centers_)))
    print('v值{0}'.format(v_value))

    # 可视化聚类属性(散点图)

    # 参数设置
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

    # 以簇编号作为颜色区分依据
    plt.scatter(data_frame[x_label], data_frame[y_label], c=clu.labels_)

    plt.title('K={0}聚类结果'.format(k))
    plt.xlabel(x_label)
    plt.ylabel(y_label)
    plt.show()


# 思想：手肘法
# 随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。
# 并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，
# 再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，
# 也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。当然，这也是该方法被称为手肘法的原因。

# 对比不同的K对V值的影响
def compare_k(x_label, y_label):

    k_ls = np.arange(1, 15)
    v_ls = []

    for k in k_ls:

        # 生成K-Means模型
        clu = KMeans(n_clusters=k, max_iter=300)

        X_value = data_frame[[x_label, y_label]].values
        # 开始进行K-Means聚类
        clu.fit(X_value)

        # 计算V值 （V=簇内平均误差平方和/簇间平均距离）
        v_value = clu.inertia_ / (k * np.average(pdist(clu.cluster_centers_)))

        # 添加到v_ls中
        v_ls.append(v_value)

    # 参数设置
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
    print(v_ls)
    # 画k-v折线图
    plt.plot(k_ls, v_ls)

    plt.title('聚类个数对V值的影响')
    plt.xlabel('聚类个数')
    plt.ylabel('V值')
    plt.show()


# 归一化
def normalize_data(x_label, y_label, k):

    # 生成K-Means模型
    clu = KMeans(n_clusters=k, max_iter=300)

    # 归一化
    # scale_X = data_frame[[x_label, y_label]].apply(lambda x: x/x.max()).values
    min_max_scaler = preprocessing.MinMaxScaler()
    X_train_minmax = min_max_scaler.fit_transform(data_frame[[x_label, y_label]].values)
    # X_value = data_frame[[x_label, y_label]].values
    print(X_train_minmax)
    # 开始进行K-Means聚类
    clu.fit(X_train_minmax)
    # 输出样本所属的簇
    print('样本所属簇编号:', clu.labels_)
    # 输出簇中心坐标
    print('簇中心坐标:', clu.cluster_centers_)

    # 计算V值 （V=簇内平均误差平方和/簇间平均距离）
    v_value = clu.inertia_ / (k * np.average(pdist(clu.cluster_centers_)))
    print('v值{0}'.format(v_value))

    # 可视化聚类属性(散点图)

    # 参数设置
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

    # 以簇编号作为颜色区分依据
    plt.scatter(X_train_minmax[:, 0], X_train_minmax[:, 1], c=clu.labels_)

    plt.title('K={0}聚类结果'.format(k))
    plt.xlabel(x_label)
    plt.ylabel(y_label)
    plt.show()

if __name__ == '__main__':
    pass
    # draw_scatter('当月MOU', '当月DOU')
    # k_means_cluster('当月MOU', '当月DOU', 3)
    compare_k('当月MOU', '当月DOU')
    # normalize_data('当月MOU', '当月DOU', 3)

sklearn_minibatchk-means

import time
import numpy as np
import matplotlib.pyplot as plt

from sklearn.cluster import MiniBatchKMeans, KMeans
from sklearn.metrics.pairwise import pairwise_distances_argmin
from sklearn.datasets.samples_generator import make_blobs

# #############################################################################
# 产生样本数据
np.random.seed(0)

batch_size = 45
centers = [[1, 1], [-1, -1], [1, -1]]  # 三种聚类的中心
n_clusters = len(centers)
X, labels_true = make_blobs(n_samples=30000, centers=centers, cluster_std=0.7)  # 生成样本随机数

# #############################################################################
# k均值聚类

k_means = KMeans(init='k-means++', n_clusters=3, n_init=10)
begin_time = time.time()  # 记录训练开始时间
k_means.fit(X) # 聚类模型
t_batch = time.time() - begin_time  # 记录训练用时
print('k均值聚类时长：',t_batch)
# #############################################################################
# 小批量k均值聚类
# batch_size为每次更新使用的样本数
mbk = MiniBatchKMeans(init='k-means++', n_clusters=3, batch_size=batch_size,
                      n_init=10, max_no_improvement=10, verbose=0)
begin_time = time.time()  # 记录训练开始时间
mbk.fit(X) # 聚类模型
t_mini_batch = time.time() -  begin_time  # 记录训练用时
print('小批量k均值聚类时长：',t_mini_batch)
# #############################################################################
# 结果可视化
fig = plt.figure(figsize=(16, 6))  # 窗口大小
fig.subplots_adjust(left=0.02, right=0.98, bottom=0.05, top=0.9)  # # 窗口四周留白
# colors = ['#4EACC5', '#FF9C34', '#4E9A06']  # 三种聚类的颜色
colors = ['r', 'y', 'b']  # 三种聚类的颜色
# 在两种聚类算法中，样本的所属类标号和聚类中心(返回y的索引)
k_means_cluster_centers = np.sort(k_means.cluster_centers_, axis=0)  # 三个聚类点排序
mbk_means_cluster_centers = np.sort(mbk.cluster_centers_, axis=0)  # 三个聚类点排序
k_means_labels = pairwise_distances_argmin(X, k_means_cluster_centers)  # 计算X中每个样本与k_means_cluster_centers中的哪个样本最近。也就是获取所有对象的所属的类标签
mbk_means_labels = pairwise_distances_argmin(X, mbk_means_cluster_centers)  # 计算X中每个样本与k_means_cluster_centers中的哪个样本最近。也就是获取所有对象的所属的类标签
order = pairwise_distances_argmin(k_means_cluster_centers,mbk_means_cluster_centers)  # 计算k均值聚类点相对于小批量k均值聚类点的索引。因为要比较两次聚类的结果的区别，所以类标号要对应上


# 绘制KMeans
ax = fig.add_subplot(1, 3, 1)
for k, col in zip(range(n_clusters), colors):
    my_members = k_means_labels == k  # 获取属于当前类别的样本
    cluster_center = k_means_cluster_centers[k]  # 获取当前聚类中心
    ax.plot(X[my_members, 0], X[my_members, 1], 'w',markerfacecolor=col, marker='.') # 绘制当前聚类的样本点
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,markeredgecolor='k', markersize=6) # 绘制聚类中心点
ax.set_title('KMeans')
ax.set_xticks(())
ax.set_yticks(())
plt.text(-3.5, 1.8,  'train time: %.2fs\ninertia: %f' % (t_batch, k_means.inertia_))

# 绘制MiniBatchKMeans
ax = fig.add_subplot(1, 3, 2)
for k, col in zip(range(n_clusters), colors):
    my_members = mbk_means_labels == k # 获取属于当前类别的样本
    cluster_center = mbk_means_cluster_centers[k] # 获取当前聚类中心
    ax.plot(X[my_members, 0], X[my_members, 1], 'w',markerfacecolor=col, marker='.') # 绘制当前聚类的样本点
    ax.plot(cluster_center[0], cluster_center[1], 'o', markerfacecolor=col,markeredgecolor='k', markersize=6) # 绘制聚类中心点
ax.set_title('MiniBatchKMeans')
ax.set_xticks(())
ax.set_yticks(())
plt.text(-3.5, 1.8, 'train time: %.2fs\ninertia: %f' %(t_mini_batch, mbk.inertia_))

# 初始化两次结果中
different = (mbk_means_labels == 4)
ax = fig.add_subplot(1, 3, 3)

for k in range(n_clusters):
    different += ((k_means_labels == k) != (mbk_means_labels == order[k]))  # 将两种聚类算法中聚类结果不一样的样本设置为true，聚类结果相同的样本设置为false

identic = np.logical_not(different)  # 向量取反，也就是聚类结果相同设置true，聚类结果不相同设置为false

ax.plot(X[identic, 0], X[identic, 1], 'w',markerfacecolor='#bbbbbb', marker='.') # 绘制聚类结果相同的样本点
ax.plot(X[different, 0], X[different, 1], 'w',markerfacecolor='m', marker='.') # 绘制聚类结果不同的样本点
ax.set_title('Difference')
ax.set_xticks(())
ax.set_yticks(())

plt.show()

你可能感兴趣的:(聚类)

Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
机器学习宝典——第6章爱看烟花的码农机器学习人工智能
第6章：聚类算法(Clustering)你好，同学！欢迎来到无监督学习的世界。与监督学习不同，这里的我们没有“标准答案”（标签），我们的目标是在数据中发现隐藏的、内在的结构。聚类算法就是实现这一目标的核心工具，它试图将数据集中的样本划分为若干个不相交的子集，我们称之为“簇”(cluster)。本章我们将深入探讨三种最具代表性的聚类算法：K-均值(K-Means)、层次聚类(Hierarchical
【2025CVPR】SEC-Prompt：少样本增量学习中的语义互补提示模型详解清风AI 生成对抗网络人工智能神经网络 pcm 目标跟踪深度学习计算机视觉
目录一、研究背景：少样本增量学习的挑战二、SEC-Prompt核心原理1.自适应层次化查询（AdaptiveHierarchicalQuery）2.语义互补提示机制（1）判别性提示（D-Prompt）（2）非判别性提示（ND-Prompt）3.训练策略创新（1）判别性提示聚类损失（2）ND-Prompt数据增强三、模型架构图解四、关键创新点五、实验结果对比1.ImageNet-R结果2.CUB20
Python 爬虫实战：GitHub 热门项目分析（Star 趋势 + 技术栈聚类） Python核芯 Python爬虫实战项目 python 爬虫 github
前言今天我们要一起完成一个实战项目：通过爬取GitHub热门项目，分析它们的Star趋势以及技术栈聚类。这个项目不仅能让我们熟悉GitHubAPI的使用，还能锻炼我们数据处理和可视化的能力。GitHub作为全球最大的代码托管平台，拥有海量的开源项目。通过分析这些项目的Star趋势和技术栈，我们可以了解当前热门的技术方向，这对我们的技术选型和职业发展都有很大的帮助。本文将分为以下几个部分：爬取Git
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
FAISS 简介及其与 GPT 的对接（RAG）言之。 AI faiss gpt easyui
什么是FAISS？FAISS(FacebookAISimilaritySearch)是FacebookAI团队开发的一个高效的相似性搜索和密集向量聚类的库。它主要用于：大规模向量相似性搜索高维向量最近邻检索向量聚类https://github.com/facebookresearch/faissFAISS特别适合处理高维向量数据，能够快速找到与查询向量最相似的向量，广泛应用于推荐系统、图像检索、自
AI人工智能神经网络马里亚纳海沟网人工智能神经网络深度学习笔记运维全文检索搜索引擎
**AI人工智能神经网络概述**神经网络是并行计算设备，它们试图构建大脑的计算机模型。背后的主要目标是开发一个系统来执行各种计算任务比传统系统更快。这些任务包括模式识别和分类，近似，优化和数据聚类什么是人工神经网络(ANN)人工神经网络(ANN)是一个高效的计算系统，其核心主题是借用生物神经网络的类比。人工神经网络也被称为人工神经系统，并行分布式处理系统和连接系统。ANN获取了大量以某种模式相互连
机器学习-- 聚类 SunsPlanter 机器学习机器学习聚类人工智能
什么是聚类？Clustering可以简单地说，对有标注的数据分类，就是逻辑回归（属于有监督分类），对无标注的数据分类，就是聚类（属于无监督分类）聚类是一种无监督学习技术，其目标是根据样本之间的相似性将未标记的数据分组。比如，在一个假设的患者研究中，研究人员正在评估一项新的治疗方案。在试验期间，患者每周会报告自身症状的频率以及严重程度。研究人员可以使用聚类分析将对治疗反应相似的患者归为同一类。图1展
【python数据分析】数据建模之Kmeans聚类斑点鱼 SpotFish python 数据建模聚类 python 数据分析
K-means聚类：最常用的机器学习聚类算法，且为典型的基于距离的聚类算法。K均值：基于原型的、划分的距离技术，它试图发现用户指定个数(K)的簇以欧式距离作为相似度测度Kmeans聚类案例分析：make_blobs聚类数据生成器#导入模块from sklearn.cluster import KMeansfromsklearn.datasetsimportmake_blobs#创建数据x,y_tr
【Python学习】可视化图表-使用matplotlib绘制不同种类散点图西攻城狮北 Python实用案例 python 学习 matplotlib 可视化图形
一、引言在数据可视化领域，散点图是一种极其强大的工具，它能够直观地展示变量之间的关系、数据分布的模式以及潜在的聚类情况等。通过散点图，我们可以轻松地发现数据中的异常值、相关性以及其他隐藏的特征。Python的matplotlib库提供了丰富而灵活的功能，可以帮助我们绘制出各种类型的散点图，以满足不同的数据分析和展示需求。本文将深入探讨如何使用matplotlib绘制多种类型的散点图，并提供详细的代
【Transformer论文】通过蒙面多模态聚类预测学习视听语音表示 Wwwilling 推荐系统论文阅读 Transformer系列论文 transformer 聚类多模态
文献题目：LEARNINGAUDIO-VISUALSPEECHREPRESENTATIONBYMASKEDMULTIMODALCLUSTERPREDICTION发表时间：2022发表期刊：ICLR摘要语音的视频记录包含相关的音频和视觉信息，为从说话者的嘴唇运动和产生的声音中学习语音表示提供了强大的信号。我们介绍了视听隐藏单元BERT(AV-HuBERT)，这是一种用于视听语音的自我监督表示学习框架
蜂鸟代理IP+云手机：跨境电商多账号运营的“隐形风控引擎” IP管家大数据网络网络协议 tcp/ip 安全 ip
在亚马逊、TikTokShop等平台的严苛风控下，跨境电商多账号运营长期面临“设备关联封号”“IP污染限流”“地域画像矛盾”三大痛点。传统方案账号存活率不足35%，而蜂鸟代理IP与云手机技术的协同，通过IP层隔离+设备层虚拟化+行为层仿真三重防护，将账号存活率提升至95%以上，运营成本降低80%。本文从实战角度解析其技术赋能逻辑与场景化策略。一、风控核心痛点与破局逻辑平台风控机制的本质设备指纹聚类
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
《聚类算法》入门--大白话篇：像整理房间一样给数据分类
一、什么是聚类算法？想象一下你的衣柜里堆满了衣服，但你不想一件件整理。聚类算法就像一个聪明的助手，它能自动帮你把衣服分成几堆：T恤放一堆、裤子放一堆、外套放一堆。它通过观察衣服的颜色、大小、款式这些特征，把相似的放在一起，不相似的分开。在计算机世界里，聚类算法就是帮我们把杂乱的数据分成有意义的组。它不需要提前知道答案（这就是"无监督学习"），而是像侦探一样，从数据中发现隐藏的规律。二、最常见的三种
高斯混合模型（Gaussian Mixture Model, GMM）不想秃头的程序神经网络语音识别人工智能深度学习网络
高斯混合模型（GaussianMixtureModel,GMM）是一种概率模型，用于表示数据点由多个高斯分布（GaussianDistribution）混合生成的过程。它广泛应用于聚类分析、密度估计、图像分割、语音识别等领域，尤其适合处理非球形簇或多模态数据。以下是GMM的详细介绍：一、核心思想GMM假设数据是由多个高斯分布混合生成的，每个高斯分布代表一个簇（Cluster），并引入隐变量（Lat
Python 数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙清水白石008 python Python题库 python 数据挖掘动画
Python数据挖掘实战：关联规则与聚类分析，解锁数据价值的钥匙引言在数字化浪潮席卷全球的今天，数据已成为企业和组织最重要的战略资产。海量数据蕴藏着巨大的价值，等待我们去挖掘和发现。数据挖掘(DataMining)，作为从海量数据中提取有价值知识和模式的关键技术，正日益受到各行各业的重视。它如同探矿者的火眼金睛，能够穿透数据的迷雾，发现隐藏在背后的规律和趋势，为商业决策、科学研究和社会发展提供强有
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
顺序内聚是指模块内的处理元素密切相关，并且必须按照特定的顺序执行，前一个处理元素的输出是下一个处理元素的输入 Bol5261 JVM(Java Virtual Machine)JMM(Java Memory Model)JMS(Java Message Service)服务器
该模块的内聚类型为顺序内聚。顺序内聚是指模块内的处理元素密切相关，并且必须按照特定的顺序执行，前一个处理元素的输出是下一个处理元素的输入。这种内聚类型比功能内聚稍弱，但仍然具有较高的内聚性。根据模块内聚的分类标准，当模块中各个处理元素密切相关于同一功能，且必须顺序执行，前一处理元素的输出直接作为下一处理元素的输入时，这种内聚类型属于顺序内聚（SequentialCohesion）。模块内聚类型对比
Prompt Engineering终极手册：构建高效AI提示词库的完整技术路线 LCG元大模型 prompt 人工智能
目录一、提示词库构建核心架构二、关键技术实现步骤1.数据采集与清洗2.提示词向量化编码3.聚类分析与分类存储三、API服务化部署四、性能优化方案五、监控与持续优化六、应用效果展示本文将深入探讨构建企业级AI提示词库的完整技术方案，含数据处理、模型训练、部署监控全流程代码实现在AI应用爆炸式增长的今天，提示词质量直接决定模型输出效果。本文将手把手教你构建企业级提示词库，涵盖以下核心技术环节：一、提示
【PyCharm 使用技巧】PyCharm 基本功能详解 || 【Jupyter Notebook】如何进入其它盘，如D盘？H盘？|| 【机器学习】聚类算法详解及其应用 || 道路交通流量模拟预测追光者♂ Python从入门到人工智能工具技巧解决办法百题千解计划(项目实战案例）PyCharm使用技巧 Jupyter如何进入其它盘聚类算法练习 PyCharm详解时空交通流预测模拟
作者主页：追光者♂个人简介：在读计算机专业硕士研究生、CSDN-人工智能领域新星创作者、2022年CSDN博客之星人工智能领域TOP4、阿里云社区专家博主【无限进步，一起追光！】欢迎点赞收藏⭐留言本篇的目录一，是请看目录四——PyCharm基础设置回顾的续篇，继续记录讲解PyCharm的基本功能。目录二回顾了在使用Jupyter时的问题。目录三练习了机器学习算法中的聚类算法。目录一、再次了解PyC
k近邻算法(kNearest Neighbors) 原理与代码实例讲解 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
k-近邻算法,聚类,分类,分离散数据,决策边界,邻域,机器学习,监督学习k-近邻算法(k-NearestNeighbors)-原理与代码实例讲解k-近邻算法（k-NearestNeighbors，简称kNN）是一种简单的监督学习方法，它在机器学习领域有着广泛的应用。kNN算法的核心思想是：在特征空间中，如果一个样本附近的k个最近邻样本的大多数属于某个类别，则该样本也属于这个类别。这种基于局部决策的
算法思想之广度优先搜索（BFS）及示例（亲子游戏）墨鸦_Cormorant 算法算法宽度优先游戏
广度优先搜索广度优先算法，又称广度优先搜索算法，是最简便的图的算法之一，其特点是：在扫描数据空间时，每个点以最短路径生成广度优先生成树。广度优先搜索这种算法遍历整个图的所有节点并记录，直至找到所需结果为止，是一种盲目算法，但它还有一个非常重要的特性一最佳解，即当所有的边长相等，它就是最佳解，若在距离聚类算法中，应用广度优先搜索此特性去搜寻数据对象的同类，则可以有效地提高聚类速度。此外，可以把网格单
DAY 17 常见聚类算法 yizhimie37 python训练营打卡笔记机器学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710day17笔记全流程（可点开下载）#导入必要的库importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsimportwarnings#忽略警告信息，使输出更整洁warnings.filterwarnings("ign
【人工智能-练习】三个案例搞明白机器学习中的三大任务：分类、回归、聚类若北辰人工智能分类回归
文章目录一、分类任务结果代码解释导入必要的库配置字体生成模拟数据集拆分数据集数据标准化逻辑回归分类器预测并计算准确率绘制分类效果定义决策边界绘制函数绘制训练集和测试集的分类效果二、回归结果代码解释1.导入库2.设置Matplotlib的字体3.生成模拟数据集4.将数据集划分为训练集和测试集5.数据标准化6.定义线性回归模型7.预测8.计算均方误差(MSE)9.绘制回归预测效果图训练集上的预测效果测
从0开始学习R语言--Day27--空间自相关 Chef_Chen 学习
有的时候，我们在数据进行分组时，会发现用正常的聚类分析的方法和思维，分组的情况不是很理想。其实这是因为我们常常会忽略一个问题：假设我们正在分析的数据是真实的，那么它也肯定在一定程度上符合客观规律。而如果我们正在分析的数据中，有真实的客观空间数据时，可以考虑用空间自相关的方法去分析。例如我们在分析城市犯罪率的时候，用聚类分析的思维，我们可能会思考不同城市的犯罪特征是什么，是否有相似点，亦或是试图把城
Task01. 时序数据与 PyPOTS 介绍三分梦~ python 机器学习时序数据库数据挖掘
Task01.时序数据与PyPOTS介绍Task01.时序数据与PyPOTS介绍1.时间序列数据介绍️举例：与i.i.d数据的区别示例：1.1时间序列数据的类型1.2常见时间序列数据示例1.3时间序列研究与应用方向主要任务：1.预测（Forecasting）2.分类（Classification）3.聚类（Clustering）4.异常检测（AnomalyDetection）5.时间序列生成（Ge
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟