Sarapines Programmer

Python | 机器学习之聚类算法

个人主页：Sarapines Programmer
系列专栏：《人工智能奇遇记》
少年有梦不应止于心动，更要付诸行动。

目录结构

1. 机器学习之聚类算法概念

1.1 机器学习

1.2 聚类算法

2. 聚类算法

2.1 实验目的

2.2 实验准备

2.3 实验原理

2.4 实验内容

2.4.1 K-means算法

2.4.2 K-mean++算法

2.4.3 K_medoids算法

2.4.4 DBScan算法

2.5 实验心得

致读者

1. 机器学习之聚类算法概念

1.1 机器学习

传统编程要求开发者明晰规定计算机执行任务的逻辑和条条框框的规则。然而，在机器学习的魔法领域，我们向计算机系统灌输了海量数据，让它在数据的奔流中领悟模式与法则，自主演绎未来，不再需要手把手的指点迷津。

机器学习，犹如三千世界的奇幻之旅，分为监督学习、无监督学习和强化学习等多种类型，各具神奇魅力。监督学习如大师传道授业，算法接收标签的训练数据，探索输入与输出的神秘奥秘，以精准预测未知之境。无监督学习则是数据丛林的探险者，勇闯没有标签的领域，寻找隐藏在数据深处的秘密花园。强化学习则是一场与环境的心灵对话，智能体通过交互掌握决策之术，追求最大化的累积奖赏。

机器学习，如涓涓细流，渗透各行各业。在图像和语音识别、自然语言处理、医疗诊断、金融预测等领域，它在智慧的浪潮中焕发生机，将未来的可能性绘制得更加丰富多彩。

1.2 聚类算法

聚类算法是一类无监督学习的算法，其目标是将数据集中的样本划分为若干个互不重叠的子集，每个子集被称为一个"簇"，使得同一簇内的样本相似度较高，而不同簇之间的样本相似度较低。聚类的目标是在不事先知道数据的真实类别标签的情况下，发现数据中的内在结构和模式。

以下是一些常见的聚类算法：

K均值聚类（K-Means）： 是最经典和常用的聚类算法之一。它通过将数据划分为K个簇，并使每个样本点到其所属簇的中心距离最小化来实现。K-Means算法迭代更新簇的中心，直至达到收敛条件。

层次聚类（Hierarchical Clustering）： 层次聚类通过构建一颗树状结构（聚类树或谱系树）来刻画样本之间的层次关系。可以是自底向上（凝聚性层次聚类）或自顶向下（分裂性层次聚类）的方法。

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）： 是一种基于样本密度的聚类算法。它通过寻找高密度区域，将数据划分为不同的簇，并可以识别噪声点。DBSCAN不需要预先指定簇的数量，适用于不规则形状的簇和对噪声相对鲁棒的场景。

谱聚类（Spectral Clustering）： 利用样本之间的相似度矩阵，将其转化为拉普拉斯矩阵，通过对拉普拉斯矩阵进行特征分解，得到样本的特征向量，再通过K-Means等方法对特征向量进行聚类。谱聚类通常对图结构的数据有较好的适应性。

高斯混合模型聚类（Gaussian Mixture Model, GMM）： 假设数据是由若干个高斯分布混合而成，通过迭代优化参数，最大化观测数据的似然函数，从而进行聚类。GMM对于数据分布呈现出复杂结构的情况较为有效。

这些聚类算法在不同场景和数据特性下有各自的优势和局限性，选择合适的算法取决于问题的性质和对结果的需求。聚类在图像分割、客户细分、异常检测等领域都有广泛的应用。

机器学习源文件https://download.csdn.net/download/m0_57532432/88521177?spm=1001.2014.3001.5503

2. 聚类算法

2.1 实验目的

（1）加深对非监督学习的理解和认识；

（2）掌握基于距离的和基于密度的动态聚类算法的设计方法。

2.2 实验准备

（1）安装机器学习必要库，如NumPy、Pandas、Scikit-learn等；

（2）配置环境用来运行 Python、Jupyter Notebook和相关库等内容。

2.3 实验原理

非监督学习的基础： 非监督学习是机器学习的重要分支，旨在从未标记的数据中发现模式、结构或关联关系。与监督学习不同，非监督学习通过聚类、降维或关联规则挖掘等技术学习，不依赖于预先标记的数据。其理论基础包括聚类、降维和异常检测等方法，揭示数据内在结构和规律。
动态聚类分析： 针对数据流或时序数据的聚类方法，旨在在变化的数据中发现和适应数据的演化。能够处理概念漂移、新类别出现和老类别消失等问题。基于数据序列性质，将数据划分为连续时间窗口，通过更新聚类模型适应数据变化。其理论依据包括时间窗口模型、漂移检测算法和增量聚类算法等。
聚类算法评价指标： 用于衡量聚类结果质量和性能的评价指标包括：
- 内部评价指标： 关注聚类结果的紧密性和分离性，如轮廓系数、Davies-Bouldin指数和Calinski-Harabasz指数。
- 外部评价指标： 用于将聚类结果与已知标签或真实类别进行比较，评估聚类准确性，如准确率、召回率、F1分数和调整兰德指数。
- 相似性度量： 用于比较不同聚类结果之间的相似程度，包括Jaccard系数、兰德指数和互信息等。

2.4 实验内容

1.选择一种聚类算法对鸢尾花做聚类;

2.读入要分类的数据;

3.设置初始聚类中心;

4.根据不同的聚类算法实现聚类；

5.显示聚类结果；

6.按照同样步骤实现学过的所有聚类算法。

在本次实验中，我使用了以下五种聚类方法来对数据进行分析和分类。其中，凝聚聚类算法（Agglomerative Clustering）是我自学的一种聚类方法。

1.K-means

K-means将数据分成K个簇，每个簇都以一个质心代表。该算法通过迭代的方式不断调整簇的质心位置，使得样本点到所属簇的质心的距离最小化。

2.K-means++

K-means++在选择初始质心时更加智能化。K-means++首先选择一个初始质心作为第一个簇的质心，然后根据距离选择下一个质心，直到选择完所有的质心。

3.K_medoids

K_medoids使用样本点作为簇的中心。与K-means算法不同，K_medoids选择的中心点必须是实际存在的样本点，而不仅仅是质心的位置。

4.DBScan

DBScan它将具有足够高密度的样本点划分为一个簇，并将低密度区域视为噪声。DBScan通过设置邻域半径和最小样本数来定义簇的形成条件。

5.凝聚聚类算法

凝聚聚类算法从每个样本点开始，逐步将最近的样本点聚合成簇，直到满足预设的聚类数目。凝聚聚类算法的特点是簇的形成是通过合并的方式进行的。

2.4.1 K-means算法

图2-1

运行结果

图2-2

实验代码：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 加载Iris数据集
def load_iris_data():
    data = pd.read_csv("data/iris.csv")  # 假设数据集保存在名为"iris.csv"的文件中
    data = data.drop("Species", axis=1)  # 移除类别列
    return data.values

# 计算欧氏距离
def euclidean_distance(a, b):
    return np.linalg.norm(a - b)

# 初始化聚类中心
def initialize_centers(data, k):
    np.random.shuffle(data)
    return data[:k]

# 分配样本点到最近的聚类中心
def assign_clusters(data, centers):
    distances = np.zeros((len(data), len(centers)))
    for i, sample in enumerate(data):
        for j, center in enumerate(centers):
            distances[i, j] = euclidean_distance(sample, center)
    return np.argmin(distances, axis=1)

# 更新聚类中心
def update_centers(data, clusters, k):
    centers = np.zeros((k, data.shape[1]))
    for i in range(k):
        cluster_samples = data[clusters == i]
        if len(cluster_samples) > 0:
            centers[i] = np.mean(cluster_samples, axis=0)
    return centers

# K-means聚类算法
def k_means(data, k, max_iterations=100):
    centers = initialize_centers(data, k)
    for _ in range(max_iterations):
        prev_centers = centers.copy()
        clusters = assign_clusters(data, centers)
        centers = update_centers(data, clusters, k)
        if np.all(prev_centers == centers):
            break
    return clusters, centers

# 加载数据集
data = load_iris_data()
k = 3
clusters, centers = k_means(data, k)

# 绘制聚类结果
plt.scatter(data[:, 0], data[:, 1], c=clusters, cmap="viridis")
plt.scatter(centers[:, 0], centers[:, 1], marker="^", color="red", s=100, label="Centroids")
plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.title("K-means Clustering")
plt.legend()
plt.savefig("data/k-means聚类结果.png")
plt.show()

源码分析

该代码实现了K-means聚类算法对Iris数据集进行聚类，其中：

load_iris_data()函数用于加载Iris数据集，假设数据集保存在名为"iris.csv"的文件中，并移除了类别列。

euclidean_distance()函数计算两个样本点之间的欧氏距离。

initialize_centers()函数用于初始化聚类中心，随机从数据中选择k个样本作为初始聚类中心。

assign_clusters()函数将样本点分配到最近的聚类中心，计算每个样本点与所有聚类中心的距离，返回每个样本点所属的聚类索引。

update_centers()函数更新聚类中心，计算每个聚类的样本点的均值，并将其作为新的聚类中心。

k_means()函数是K means聚类算法的实现。它接收数据集、聚类数目k和最大迭代次数作为参数，并返回聚类结果和最终的聚类中心。

在k_means()函数中，首先使用initialize_centers()函数初始化聚类中心，然后进入迭代过程。每次迭代，首先将当前的聚类中心保存为prev_centers，然后使用assign_clusters()函数将样本点分配到最近的聚类中心，得到每个样本点所属的聚类索引。接下来，使用update_centers()函数根据每个聚类的样本点计算新的聚类中心。在每次迭代之后，检查当前的聚类中心是否与上一次迭代的聚类中心相同，如果相同，则说明聚类已经收敛，可以提前结束迭代。最终，返回聚类结果和最终的聚类中心。

2.4.2 K-mean++算法

图2-3

运行结果

图2-4

实验代码：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 加载Iris数据集
def load_iris_data():
data = pd.read_csv("data/iris.csv")  
# 假设数据集保存在名为"iris.csv"的文件中
data = data.drop("Species", axis=1)  
# 移除类别列
    return data.values

# 计算欧氏距离
def euclidean_distance(a, b):
    return np.linalg.norm(a - b)

# 初始化聚类中心
def initialize_centers(data, k):
centers = np.zeros((k, data.shape[1]))  
# 创建一个k行，每行包含数据的特征数列的零数组，用于存储聚类中心
centers[0] = data[np.random.choice(range(len(data)))]  
# 随机选择一个数据点作为第一个聚类中心
    for i in range(1, k):
        # 对于每个后续聚类中心，计算它与已选定的聚类中心之间的距离，并使用距离构建一个概率分布
        distances = np.array([min([euclidean_distance(c, x) for c in centers[:i]]) for x in data])
        probabilities = distances / np.sum(distances)  
# 计算概率
        centers[i] = data[np.random.choice(range(len(data)), p=probabilities)] 
 # 根据概率选择下一个聚类中心
    return centers

# 分配样本点到最近的聚类中心
def assign_clusters(data, centers):
distances = np.zeros((len(data), len(centers)))  
# 创建一个数组，存储每个样本点到每个聚类中心的距离
    for i, sample in enumerate(data):
        for j, center in enumerate(centers):
            distances[i, j] = euclidean_distance(sample, center) 
 # 计算样本点到聚类中心的距离
return np.argmin(distances, axis=1)  
# 返回每个样本点所属的最近的聚类索引

# 更新聚类中心
def update_centers(data, clusters, k):
centers = np.zeros((k, data.shape[1]))  
# 创建一个k行，每行包含数据的特征数列的零数组，用于存储新的聚类中心

    for i in range(k):
        cluster_samples = data[clusters == i]  
# 提取属于第i个聚类的样本点
        if len(cluster_samples) > 0:
            centers[i] = np.mean(cluster_samples, axis=0)  
# 计算属于第i个聚类的样本点的均值作为新的聚类中心
    return centers

# K-means++聚类算法
def k_means(data, k, max_iterations=100):
centers = initialize_centers(data, k) 
 # 初始化聚类中心
    for _ in range(max_iterations):
        prev_centers = centers.copy() 
# 复制当前的聚类中心
        clusters = assign_clusters(data, centers)  
# 分配样本点到聚类中心
        centers = update_centers(data, clusters, k) 
# 更新聚类中心
        if np.all(prev_centers == centers):
# 如果当前的聚类中心与上一轮的聚类中心相同，则停止迭代
            break
return clusters, centers  
# 返回最终的聚类结果和聚类中心


data = load_iris_data()
k = 3
clusters, centers = k_means(data, k)

# 绘制聚类结果
plt.scatter(data[:, 0], data[:, 1], c=clusters, cmap="viridis")
plt.scatter(centers[:, 0], centers[:, 1], marker="^", color="red", s=100, label="Centroids")
plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.title("K-means++ Clustering")
plt.legend()
plt.savefig("data/k-means++聚类结果.png")
plt.show()

源码分析

导入NumPy、Pandas和Matplotlib库，用于数据处理、数值计算和可视化。

load_iris_data()函数加载"Iris.csv"中的数据集，移除"Species"列，返回NumPy数组。

euclidean_distance(a, b)函数计算a和b之间的欧氏距离，使用NumPy的linalg.norm()函数。

initialize_centers(data, k)函数初始化聚类中心，随机选择第一个中心，然后根据距离构建概率分布选择后续中心。

assign_clusters(data, centers)函数将样本点分配到最近的聚类中心，使用np.argmin()找到最近中心的索引。

update_centers(data, clusters, k)函数更新聚类中心为每个聚类的样本点均值。

k_means(data, k, max_iterations=100)函数执行K-means++聚类，通过initialize_centers()、assign_clusters()和update_centers()迭代更新聚类中心。

加载Iris数据集到变量data。

设置聚类数量k为3。

调用k_means()进行聚类，得到聚类结果clusters和聚类中心centers。

使用Matplotlib绘制散点图，表示数据点和聚类中心，设置标签、标题、图例，并保存图像。

通过实现K-means++聚类算法，并对Iris数据集进行了聚类分析，最终生成散点图展示聚类结果。

2.4.3 K_medoids算法

图2-5

运行结果

图2-6

实验代码：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 导入Iris数据集
def load_iris_data():
    data = pd.read_csv("data/iris.csv")  # 假设数据集保存在名为"iris.csv"的文件中
    data = data.drop("Species", axis=1)  # 移除类别列
    return data.values

# 曼哈顿距离
def manhattan_distance(a, b):
    return np.sum(np.abs(a - b))

# 初始化聚类中心（Medoids）
def initialize_medoids(data, k):
    medoids = np.zeros(k, dtype=int)
    n = len(data)
    indices = np.arange(n)
    np.random.shuffle(indices)
    medoids = indices[:k]
    return medoids

# 分配样本点到最近的聚类中心
def assign_clusters(data, medoids):
    clusters = np.zeros(len(data), dtype=int)
    for i, point in enumerate(data):
        distances = [manhattan_distance(point, data[m]) for m in medoids]
        clusters[i] = np.argmin(distances)
    return clusters

# 更新聚类中心（Medoids）
def update_medoids(data, clusters, medoids):
    new_medoids = np.copy(medoids)
    for i in range(len(medoids)):
        cluster_points = data[clusters == i]
        cluster_distances = np.zeros(len(cluster_points))
        for j, point in enumerate(cluster_points):
            other_distances = np.sum(manhattan_distance(point, other) for other in cluster_points)
            cluster_distances[j] = other_distances
        new_medoid_index = np.argmin(cluster_distances)
        new_medoids[i] = np.where(clusters == i)[0][new_medoid_index]
    return new_medoids

# K-medoids聚类算法
def k_medoids(data, k, max_iterations=100):
    medoids = initialize_medoids(data, k)
    clusters = assign_clusters(data, medoids)
    for _ in range(max_iterations):
        new_medoids = update_medoids(data, clusters, medoids)
        new_clusters = assign_clusters(data, new_medoids)
        if np.array_equal(clusters, new_clusters):
            break
        medoids = new_medoids
        clusters = new_clusters
    return clusters, medoids

# 加载Iris数据集
data = load_iris_data()

# 设置聚类的数量k
k = 3

# 运行K-medoids聚类算法
clusters, medoids = k_medoids(data, k)

# 绘制聚类结果
plt.scatter(data[:, 0], data[:, 1], c=clusters, cmap="viridis")  # 绘制数据点，颜色根据聚类结果clusters来区分，使用颜色映射"viridis"
plt.scatter(data[medoids, 0], data[medoids, 1], c="red", marker="^")  # 绘制聚类中心，使用红色的三角形表示
plt.xlabel("sepal length (cm)")  # 设置x轴标签
plt.ylabel("sepal width (cm)")  # 设置y轴标签
plt.title("K-medoids Clustering")  # 设置图的标题为"K-medoids Clustering"
plt.savefig("data/k-medoids聚类结果.png")  # 保存图像为文件
plt.show()

源码分析

load_iris_data()函数：从名为"iris.csv"的文件中加载Iris数据集，并移除其中的"Species"列。函数返回数据集的值部分（去除了标签列）。

manhattan_distance(a, b)函数：计算两个向量a和b之间的曼哈顿距离，通过计算两个向量对应元素差的绝对值之和来实现。

initialize_medoids(data, k)函数：根据指定的聚类数量k，从数据集中随机选择k个样本作为初始的聚类中心（medoids），并返回这些样本的索引。

assign_clusters(data, medoids)函数：将数据集中的每个样本点分配到最近的聚类中心。对于每个样本点，计算它与每个聚类中心的曼哈顿距离，然后将该样本分配给距离最近的聚类中心的索引。

update_medoids(data, clusters, medoids)函数：基于当前的聚类分配，更新聚类中心（medoids）。对于每个聚类，计算该聚类内所有样本点两两之间的距离之和，选择距离和最小的样本点作为新的聚类中心。

k_medoids(data, k, max_iterations=100)函数：实现K-medoids聚类算法。首先，初始化聚类中心，然后进行以下步骤：分配样本点到最近的聚类中心，更新聚类中心，直到达到最大迭代次数或聚类分配不再改变为止。函数返回最终的聚类结果和聚类中心。

加载Iris数据集：调用load_iris_data()函数加载Iris数据集，并将返回的数据赋值给变量data。

设置聚类的数量k：将聚类数量设置为3，赋值给变量k。

运行K-medoids聚类算法：调用k_medoids()函数，传入数据集和聚类数量k，得到最终的聚类结果和聚类中心，并分别赋值给变量clusters和medoids。

绘制聚类结果：使用Matplotlib绘制聚类结果的散点图。调用scatter()函数绘制数据点，使用聚类结果clusters来确定每个数据点的颜色，并使用"viridis"颜色映射。再调用scatter()函数绘制聚类中心。

设置x轴和y轴标签：使用xlabel()和ylabel()函数设置x轴和y轴的标签为"sepal length (cm)"和"sepal width (cm)"。

保存图像：使用savefig()函数将图像保存为文件。

2.4.4 DBScan算法

图2-7

运行结果

图2-8

实验代码：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 导入Iris数据集
def load_iris_data():
    data = pd.read_csv("data/iris.csv")  # 假设数据集保存在名为"iris.csv"的文件中
    data = data.drop("Species", axis=1)  # 移除类别列
    return data.values

# 欧氏距离
def euclidean_distance(a, b):
    return np.linalg.norm(a - b)

# 寻找在给定点半径范围内的邻域数据点
def region_query(data, point_index, epsilon):
    distances = np.linalg.norm(data - data[point_index], axis=1)
    return np.where(distances <= epsilon)[0]

# 扩展簇，将邻域内的点添加到同一簇中
def expand_cluster(data, cluster_labels, point_index, neighbors, cluster_id, epsilon, min_samples):
    cluster_labels[point_index] = cluster_id
    i = 0
    while i < len(neighbors):
        neighbor_index = neighbors[i]
        if cluster_labels[neighbor_index] == 0:  # 未分类的点
            cluster_labels[neighbor_index] = cluster_id
            new_neighbors = region_query(data, neighbor_index, epsilon)
            if len(new_neighbors) >= min_samples:
                neighbors = np.concatenate((neighbors, new_neighbors))
        i += 1

# DBSCAN聚类算法
def dbscan(data, epsilon, min_samples):
    cluster_labels = np.zeros(len(data), dtype=int)
    cluster_id = 0
    for i in range(len(data)):
        if cluster_labels[i] == 0:  # 未分类的点
            neighbors = region_query(data, i, epsilon)
            if len(neighbors) < min_samples:  # 边界点
                cluster_labels[i] = -1
            else:  # 核心点
                cluster_id += 1
                expand_cluster(data, cluster_labels, i, neighbors, cluster_id, epsilon, min_samples)
    return cluster_labels

# 加载Iris数据集
data = load_iris_data()

epsilon = 1  # 设置半径
min_samples = 1  # 设置每个类别的最小样本量
cluster_labels = dbscan(data, epsilon, min_samples)

# 绘制聚类结果
plt.scatter(data[:, 0], data[:, 1], c=cluster_labels, cmap="viridis")  # 绘制数据点，颜色根据聚类结果cluster_labels来区分，使用颜色映射"viridis"
plt.xlabel("sepal length (cm)")  # 设置x轴标签
plt.ylabel("sepal width (cm)")  # 设置y轴标签
plt.title("DBSCAN Clustering")  # 设置图的标题为"DBSCAN Clustering"
plt.savefig("data/DBScan聚类结果")  # 保存图像为文件
plt.show()  # 显示图像

源码分析

定义函数 load_iris_data() 导入Iris数据集。该函数读取名为 "iris.csv" 的文件，并移除数据集中的类别列，然后返回数据的值部分（去除了类别信息）。

定义函数 euclidean_distance(a, b) 计算两个向量 a 和 b 之间的欧氏距离。该函数使用 numpy.linalg.norm() 函数来计算向量的范数，即欧氏距离。

定义函数 region_query(data, point_index, epsilon) 寻找在给定点的半径范围内的邻域数据点。该函数计算数据集 data 中每个点与指定点之间的欧氏距离，并返回在半径 epsilon 范围内的点的索引。

定义函数 expand_cluster(data, cluster_labels, point_index, neighbors, cluster_id, epsilon, min_samples)，用于将邻域内的点添加到同一簇中。

定义函数 dbscan(data, epsilon, min_samples) 实现了DBSCAN聚类算法。该函数使用一个数组 cluster_labels 来记录每个数据点所属的簇，遍历数据集中的每个点，对未分类的点进行处理。如果一个点的邻域内的点数量小于最小样本量 min_samples，则将该点标记为边界点（簇标签为-1）。否则，将该点标记为核心点，并将其与邻域内的点扩展为同一簇。

加载Iris数据集并存储在变量 data 中。

设置参数 epsilon 和 min_samples，分别表示邻域半径和每个簇的最小样本量。

调用函数 dbscan(data, epsilon, min_samples) 执行DBSCAN聚类算法，并将聚类结果存储在变量 cluster_labels 中。

2.4.5 凝聚聚类算法

图2-9

运行结果

图2-10

实验代码：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import AgglomerativeClustering

# 导入Iris数据集
def load_iris_data():
    data = pd.read_csv("data/iris.csv")  # 假设数据集保存在名为"iris.csv"的文件中
    data = data.drop("Species", axis=1)  # 移除标签列
    return data.values

# 加载Iris数据集
data = load_iris_data()

# 执行凝聚层次聚类
clustering = AgglomerativeClustering(n_clusters=3)  # 创建AgglomerativeClustering对象并指定聚类个数为3
cluster_labels = clustering.fit_predict(data)  # 对数据进行聚类并获取聚类标签

# 绘制聚类结果
plt.scatter(data[:, 0], data[:, 1], c=cluster_labels, cmap="viridis")  # 绘制数据点，颜色根据聚类结果cluster_labels来区分，使用颜色映射"viridis"
plt.xlabel("sepal length (cm)")  # 设置x轴标签
plt.ylabel("sepal width (cm)")  # 设置y轴标签
plt.title("Agglomerative Clustering")  # 设置图的标题为"Agglomerative Clustering"
plt.savefig("data/Agglomerative聚类结果.png")  # 保存图像为文件
plt.show()  # 显示图像

源码分析

定义了一个函数 load_iris_data()，用于加载 Iris 数据集。函数通过使用 pd.read_csv() 从名为 "iris.csv" 的文件中读取数据集，然后通过 drop() 方法移除标签列 "Species"，最后返回数据的值。

调用 load_iris_data() 函数加载 Iris 数据集，并将数据赋值给变量 data。

创建AgglomerativeClustering对象，通过 AgglomerativeClustering(n_clusters=3) 指定聚类个数为 3。这里的参数 n_clusters 表示要聚类成的簇的数量。

使用 fit_predict() 方法对数据进行聚类，并将聚类标签存储在变量 cluster_labels 中。fit_predict() 方法首先拟合数据，然后根据拟合的模型对数据进行聚类并返回每个数据点的聚类标签。

绘制聚类结果图。使用 plt.scatter() 函数绘制数据点，其中 x 坐标为 data[:, 0]，y 坐标为 data[:, 1]，颜色根据聚类结果 cluster_labels 区分，使用颜色映射 "viridis"。

使用 plt.xlabel() 设置 x 轴标签为 "sepal length (cm)"。

使用 plt.ylabel() 设置 y 轴标签为 "sepal width (cm)"。

使用 plt.title() 设置图的标题为 "Agglomerative Clustering"。

使用 plt.savefig() 将绘制的聚类结果图保存为文件。文件名为 "Agglomerative聚类结果.png"，保存在名为 "data" 的文件夹中。

最后，使用 plt.show() 显示绘制的图像。这将在图形窗口中显示聚类结果图。

2.5 实验心得

这次实验如同踏足深邃的聚类算法探索之旅，涵盖了K-means、K-medoids、DBSCAN和凝聚聚类等引人瞩目的算法。

K-means通过不懈的迭代，将样本点巧妙地划分到K个簇中，并通过持续更新聚类中心的手法，不断提炼出聚类结果的精髓。虽然其简约高效，却对初始聚类中心的选择极为敏感，于是乎，K-means++以一种独特的方式改善了这一选择过程，从而显著提升了聚类的优越性。

K-medoids则以实际样本点为聚类中心，使得整个过程更为稳健，然而在处理大规模数据时，或许会面临着计算复杂度的考验。

DBSCAN以一种独特的方式通过密度可达关系扩展簇的规模，但对参数的选择显得尤为挑剔，需要谨慎斟酌，方可发挥其优势。

而凝聚聚类算法如同绘画一般，从每个样本点作为独立簇起步，逐渐融合最为相似的簇，从而呈现出层次化的聚类结果。然而，这一过程的计算复杂度较高，尤其在处理大规模数据时可能遭遇性能上的制约。

这次实验深刻地引领我步入这些算法的深邃世界，深刻理解它们的原理、特点和应用场景。在选择聚类算法时，需全面考虑数据的独特之处、规模的宏观因素、计算资源的稀缺与充足，以及对所需聚类结果形式的渴望等多重要素。同时，算法的效果不仅仅在于其自身，更在于恰如其分的参数选择，这是一个需要精心权衡的决定性因素。

致读者

风自火出，家人；君子以言有物而行有恒

你可能感兴趣的:(人工智能,机器学习,算法,python,聚类,数据结构)

【数据结构】常见七大排序总结多多钟意你吖阶段一：数据结构数据结构排序算法算法 java
目录一、插入排序：直接插入排序【稳定排序方法】二、插入排序：希尔排序【不稳定排序方法】三、选择排序：直接选择排序【不稳定排序方法】四、选择排序：堆排序【不稳定排序方法】五、交换排序：冒泡排序【稳定排序方法】六、交换排序：快速排序【不稳定排序方法】七、归并排序：归并排序【稳定排序方法】前言排序是计算机程序设计中的一种重要操作，其功能是对一个数据元素集合或序列重新排列成一个按数据元素某个相知有序的序列
算法——寻找重复的数努力撸代码的小刑 java 数据结构算法 java
案例分析：给定一个包含n+1个整数的数组nums，其数字都在1到n之间（包括1和n），可知至少存在一个重复的整数。假设只有一个重复的整数，找出这个重复的数。示例1:输入:[1,3,4,2,2]输出:2示例2:输入:[3,1,3,4,2]输出:3说明：不能更改原数组（假设数组是只读的）。
Redis学习总结（15）——Redis 基本数据类型使用场景一杯甜酒 Redis Redis基本数据类型使用场景
一、StringStrings数据结构是简单的key-value类型，value其实不仅是String，也可以是数字.常用命令:set,get,decr,incr,mget等。应用场景：String是最常用的一种数据类型，普通的key/value存储都可以归为此类.即可以完全实现目前Memcached的功能，并且效率更高。还可以享受Redis的定时持久化，操作日志及Replication等功能。除
力扣网C语言编程题：快慢指针来解决 “寻找重复数” 魏劭 C语言逻辑编程题算法 c语言 leetcode
一.简介上一篇文章解决力扣网上"查找重复数"的题目，提供了两种思路：哈希表和二分法。文章如下：力扣网C语言编程题：寻找重复数-CSDN博客本文提供另外两种解决思路：快慢指针和位运算。二.力扣网C语言编程题：快慢指针来解决“寻找重复数”解题思路三：（快慢指针）什么是快慢指针？快慢指针（FastandSlowPointers）是一种在链表或数组中高效检测环、查找中点或特定位置的算法技巧。其核心思想是使
java面试题47你工作过程用过哪些设计模式？说出“代理模式”的原理？码农颜 java 设计模式代理模式
在工作中，我虽然没有直接的“开发经历”，但处理用户请求和设计响应时，设计模式是解决问题的核心逻辑。我高频使用的模式包括：策略模式（动态切换算法/行为）观察者模式（事件通知/状态更新）责任链模式（分步处理请求）工厂模式（封装对象创建）代理模式（控制对象访问）深入解析：代理模式（ProxyPattern）核心思想：用一个代理对象作为真实对象的替身，从而控制对真实对象的访问。本质：在客户端和目标对象之间
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
AI 编程对决：Gemini CLI vs Claude Code，谁是最佳 AI 编码工具？ charieli-fh 人工智能大模型
1.引言：AI编码工具的崛起在软件开发的快节奏世界中，人工智能（AI）工具正迅速从辅助角色转变为不可或缺的伙伴。它们不再仅仅是提供代码补全，而是能够理解复杂上下文、执行多步骤任务，甚至自动化整个工作流的智能代理。这种转变正在重塑开发者的日常工作，提高生产力，并加速创新。在众多涌现的AI编码工具中，Google的GeminiCLI和Anthropic的ClaudeCode脱颖而出，各自代表了AI辅助
全平台QQ聊天数据库解密项目常见问题解决方案管旭韶
全平台QQ聊天数据库解密项目常见问题解决方案qq-win-db-keyQQNT/WindowsQQ聊天数据库解密项目地址:https://gitcode.com/gh_mirrors/qq/qq-win-db-key项目基础介绍本项目是一个开源项目，旨在为用户提供全平台QQ聊天数据库的解密方法。项目主要使用Python、JavaScript和C++等编程语言实现。新手常见问题及解决步骤问题一：如何
《二分枚举答案(配合经典算法)》题集英雄哪里出来算法数据结构英雄算法联盟二分
文章目录1、模板题集2、课内题集3、课后题集1.差分2.贪心/排序3.二维前缀和4.K大数5.BFS6.最短路7.数位DP1、模板题集分巧克力2、课内题集倒水冶炼金属连续子序列的个数3、课后题集括号内的整数代表完整代码行数。1.差分粉刷小能手小蓝(42)操作数组的最小次数(43)森林的最大美丽值(44)2.贪心/排序信号塔(33)可得到的最大团队默契(35)3.二维前缀和小秋的矩阵(48)4.K大
量子算法：微算法科技用于定位未知哈希图的量子算法，网络安全中的哈希映射突破 MicroTech2025 量子计算哈希算法
近年来，量子计算的飞速发展使其成为各个领域的变革力量。特别是在网络安全领域，量子算法展示了加速并增强威胁检测（如恶意软件识别）方法的巨大潜力。微算法科技（NASDAQ:MLGO）用于定位未知哈希图的量子算法，是针对未知哈希图定位而设计的量子算法。这项技术可能会彻底改变在数据处理中利用哈希值的方式，特别是在恶意软件模式识别中。传统网络安全框架通常依赖哈希函数来生成不同数据结构的唯一标识符，或称之为“
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
Java AI 开发智能体：从入门到实践培风图南以星河揽胜 java java 人工智能开发语言
在人工智能（AI）技术蓬勃发展的今天，智能体作为AI领域的核心概念之一，正逐渐渗透到各个行业与应用场景。而Java凭借其跨平台性、丰富的类库和强大的生态系统，成为开发智能体的热门选择。本文将深入探讨如何使用Java进行AI开发智能体，从基础概念到实践应用，解答常见问题，为你揭开JavaAI开发智能体的神秘面纱。一、Java在AI开发中的优势1.跨平台性Java的“一次编写，到处运行”特性，使得基于
ollama v0.9.4 详解：联网功能、模型目录自定义及macOS性能优化全面升级
近年来，随着人工智能技术的快速发展，模型管理与调用变得尤为重要。作为一款备受关注的本地AI模型管理工具，Ollama在最新发布的v0.9.4版本中带来了多项重磅改进和全新功能，提升了用户体验和应用场景的灵活性。本文将深入解析Ollamav0.9.4版本的功能亮点、技术改进以及实用操作指南，帮助广大开发者和AI爱好者全面掌握这款工具的最新动态。一、版本概述Ollamav0.9.4版本于2025年7月
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
LeetCode - #106 从中序与后序遍历序列构造二叉树网罗开发 Swift #LeetCode leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到105期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
LeetCode - #144 二叉树的前序遍历网罗开发 Swift leetcode 算法职场和发展
文章目录前言1.描述2.示例3.答案关于我们前言我们社区陆续会将顾毅（Netflix增长黑客，《iOS面试之道》作者，ACE职业健身教练。）的Swift算法题题解整理为文字版以方便大家学习与阅读。LeetCode算法到目前我们已经更新到143期，我们会保持更新时间和进度（周一、周三、周五早上9:00发布），每期的内容不多，我们希望大家可以在上班路上阅读，长久积累会有很大提升。不积跬步，无以至千里；
【PHP开发900个实用技巧】405.API限流技术：Redis实现令牌桶算法的高级用法精通代码大仙 PHP开发900个实用技巧 php redis 算法程序员创富
百万并发下的生存法则：用Redis+Lua构建坚不可摧的API流量防线！本文将揭示令牌桶算法在PHP高并发场景的核心实现技巧，包括Lua原子操作、动态策略配置与深度避坑指南，让你的API从此从容应对流量风暴。API限流技术：Redis实现令牌桶高级用法01.令牌桶原理解析02.Redis为何是最强拍档03.PHP实战四步曲3.1Lua脚本原子操作3.2对象封装技巧3.3动态参数配置3.4平滑突发流
国密算法如何守护金融安全？7大核心场景全解析南京首传信安科技有限公司密码应用密码应用金融安全
目录一、主要应用场景1.基础设施安全2.身份认证与访问管理3.交易安全与不可否认性4.数据安全5.支付清算与结算6.移动金融安全7.风控与反欺诈二、商用密码应用带来的核心价值三、面临的挑战与趋势四、首传信安解决方案总结金融领域的安全需求是一个极其严苛、多层次、动态演进的体系，其核心目标是构建信任基础，确保资金安全、系统稳定、隐私合规、业务连续。商用密码算法在金融领域的应用是保障金融安全的核心技术支
Python Day58 别勉. python机器学习 python 信息可视化数据分析
Task：1.时序建模的流程2.时序任务经典单变量数据集3.ARIMA（p，d，q）模型实战4.SARIMA摘要图的理解5.处理不平稳的2种差分a.n阶差分—处理趋势b.季节性差分—处理季节性建立一个ARIMA模型，通常遵循以下步骤：数据可视化：观察原始时间序列图，判断是否存在趋势或季节性。平稳性检验：对原始序列进行ADF检验。如果p值>0.05，说明序列非平稳，需要进行差分。确定差分次数d:进行
Python Day56 别勉. python机器学习 python 开发语言
Task：1.假设检验基础知识a.原假设与备择假设b.P值、统计量、显著水平、置信区间2.白噪声a.白噪声的定义b.自相关性检验：ACF检验和Ljung-Box检验c.偏自相关性检验：PACF检验3.平稳性a.平稳性的定义b.单位根检验4.季节性检验a.ACF检验b.序列分解：趋势+季节性+残差记忆口诀：p越小，落在置信区间外，越拒绝原假设。1.假设检验基础知识a.原假设与备择假设原假设(Null
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
Python Day42 别勉. python机器学习 python 开发语言
Task：Grad-CAM与Hook函数1.回调函数2.lambda函数3.hook函数的模块钩子和张量钩子4.Grad-CAM的示例1.回调函数定义：回调函数是作为参数传入到其他函数中的函数，在特定事件发生时被调用。特点：便于扩展和自定义程序行为。常用于训练过程中的监控、日志记录、模型保存等场景。示例：defcallback_function():print("Epochcompleted!")
Python-什么是集合難釋懷 python 开发语言数据库
一、前言在Python中，除了我们常用的列表（list）、元组（tuple）和字典（dict），还有一种非常实用的数据结构——集合（set）。集合是一种无序且不重复的元素集合，常用于去重、交并差运算等场景。本文将带你全面了解Python中集合的基本用法、操作方法及其适用场景，并通过大量代码示例帮助你掌握这一重要数据类型。二、什么是集合（set）？✅定义：集合是Python中的一种可变数据类型，它存
Python Day53 别勉. python机器学习 python 开发语言
Task：1.对抗生成网络的思想：关注损失从何而来2.生成器、判别器3.nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法4.leakyReLU介绍：避免relu的神经元失活现象1.对抗生成网络的思想：关注损失从何而来这是理解GANs的关键！传统的神经网络训练中，我们通常会直接定义一个损失函数（如均方误差MSE、交叉熵CE），然后通过反向传播来优化这个损失。这个损失的“来源”
〖Python零基础入门篇⑮〗- Python中的字典哈哥撩编程 #① -零基础入门篇 Python全栈白宝书 python 开发语言后端 python中的字典
>【易编橙·终身成长社群，相遇已是上上签！】-点击跳转～<作者：哈哥撩编程（视频号同名）图书作者：程序员职场效能宝典博客专家：全国博客之星第四名超级个体：COC上海社区主理人特约讲师：谷歌亚马逊分享嘉宾科技博主：极星会首批签约作者文章目录⭐️什么是字典？⭐️字典的结构与创建方法⭐️字典支持的数据类型⭐️在列表与元组中如何定义字典
python换行输出字典_Python基础入门：字符串和字典 weixin_39959236 python换行输出字典
10、字符串常用转义字符转义字符描述\\反斜杠符号\'单引号\"双引号\n换行\t横向制表符(TAB)\r回车三引号允许一个字符串跨多行，字符串中可以包含换行符、制表符以及其他特殊字符para_str="""这是一个多行字符串的实例多行字符串可以使用制表符TAB(\t)。也可以使用换行符[\n]。"""print(para_str)#这是一个多行字符串的实例#多行字符串可以使用制表符#TAB()。
Python----Python中的集合及其常用方法 redrose2100 Python python 开发语言后端
【原文链接】1集合的定义和特点（1）集合是用花括号括起来的，集合的特点是元素没有顺序，元素具有唯一性，不能重复>>>a={1,2,3,4}>>>type(a)>>>a={1,2,3,1,2,3}>>>a{1,2,3}2集合的常用运算（1）集合元素没有顺序，所以不能像列表和元组那样用下标取值>>>a={1,2,3}>>>a[0]Traceback(mostrecentcalllast):File""
算法复杂度分析每天一个秃顶小技巧算法 java 后端数据结构
算法复杂度分析前言算法（Algorithm）是指用来操作数据、解决程序问题的一组方法。对于同一个问题，使用不同的算法，也许最终得到的结果是一样的，但在过程中消耗的资源和时间却会有很大的区别。那么我们应该如何去衡量不同算法之间的优劣呢？主要还是从算法所占用的「时间」和「空间」两个维度去考量。时间维度：是指执行当前算法所消耗的时间，我们通常用时间复杂度来描述。空间维度：是指执行当前算法需要占用多少内存
数据结构—数组每天一个秃顶小技巧数据结构 golang 后端
数据结构—数组相关数据结构实现用go语言实现相关代码做题合集：https://github.com/longpi1/algorithm-pattern数组（Array）在Go中，数组是固定长度的连续内存块，长度在定义时确定且不可变。数组的使用场景较少，因为切片（slice）更加灵活，通常更常用。所以在做算法题时一般用切片进行编写定义和特点数组的长度是类型的一部分，例如[3]int和[4]int是不
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方