忍者の乱太郎

机器学习-无监督学习-聚类：聚类方法（一）--- k-Means算法，k-Means++算法【使用最大期望值算法（EM算法）来求解】

一、聚类算法

1、聚类算法概述

聚类算法：一种典型的无监督学习算法(没有目标值)，主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。

1.1 聚类的基本思想

给定一个有 N个对象的数据集，构造数据的 $k$ 个簇， $k \leq n$ 。满足条件：

每一个簇至少包含一个对象；
每一个对象属于且仅属于一个簇；
将满足上述条件的 $k$ 个簇称作一个合理划分；

基本思想：对于给定的类别数目 $k$ ，首先给出初始划分，通过迭代改变样本和簇的隶属关系，使得每一次改进之后的划分方案都较前一次好。

1.2 认识聚类算法

使用不同的聚类准则，产生的聚类结果不同。

1.3 聚类算法在现实中的应用

用户画像，广告推荐，Data Segmentation，搜索引擎的流量推荐，恶意流量识别
基于位置信息的商业推送，新闻聚类，筛选排序
图像分割，降维，识别；离群点检测；信用卡异常消费；发掘相同功能的基因片段

1.4 “聚类算法”与“分类算法”的区别与联系

聚类算法是无监督的学习算法，而分类算法属于监督的学习算法。
对于要用到分类算法的项目，如果初始时没有分类目标值，则先用聚类算法进行聚合，得出分类标签(目标值)，然后再对待分类样本集进行分类算法。
“聚类算法”是“分类算法”(如果无现成的目标值)的先导步骤；

1.5 相似度/距离计算方法总结

1.6 聚类算法有效性评估指标：轮廓系数(Silhouette Coefficient)

结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的有效性：
$\begin{aligned}SC_i=\frac{b_i-a_i}{max(b_i,a_i)}\end{aligned}$

一般 $SC_i$ 处于 0.1-0.2 就算是效果很好了，很难超过0.7。
如果 $SC_i<0$ ，说明 $a_i$ 的平均距离大于最近的其他簇。聚类效果不好
如果 $SC_i$ 越大，说明_ 的平均距离小于最近的其他簇。聚类效果好
轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优，聚类效果越好。
簇内样本的距离越近，簇间样本距离越远。

目的：内部距离最小化，外部距离最大化

计算样本i到同簇其他样本的平均距离ai，ai 越小样本i的簇内不相似度越小，说明样本i越应该被聚类到该簇。
计算样本i到最近簇Cj 的所有样本的平均距离bij，称样本i与最近簇Cj 的不相似度，定义为样本i的簇间不相似度：bi =min{bi1, bi2, …, bik}，bi越大，说明样本i越不属于其他簇。
求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。

案例：下图是500个样本含有2个feature的数据分布情况，我们对它进行SC系数效果衡量：

n_clusters = 2 The average silhouette_score is : 0.7049787496083262
n_clusters = 3 The average silhouette_score is : 0.5882004012129721
n_clusters = 4 The average silhouette_score is : 0.6505186632729437
n_clusters = 5 The average silhouette_score is : 0.56376469026194
n_clusters = 6 The average silhouette_score is : 0.4504666294372765
n_clusters 分别为 2，3，4，5，6时，SC系数如下，是介于[-1,1]之间的度量指标：

每次聚类后，每个样本都会得到一个轮廓系数，当它为1时，说明这个点与周围簇距离较远，结果非常好，当它为0，说明这个点可能处在两个簇的边界上，当值为负时，暗含该点可能被误分了。

从平均SC系数结果来看，K取3，5，6是不好的，那么2和4呢？

k=2的情况：

k=4的情况：

n_clusters = 2时，第0簇的宽度远宽于第1簇；

n_clusters = 4时，所聚的簇宽度相差不大，因此选择K=4，作为最终聚类个数。

2、k-Means算法

k-Means算法，也被称为k-平均或k-均值，是一种广泛使用的聚类算法，或者成为其他聚类算法的基础。

k-Means其实包含两层内容：

K : 初始中心点个数（计划聚类数）
means：求中心点到其他数据点距离的平均值

2.1 k-Means算法步骤

假定输入样本为 $S=x_1,x_2,...,x_m$

随机设置 $k$ 个特征空间内的点作为初始的类别中心： $μ_1，μ_2，…，μ_k$ ；
对于其他每个样本点 $x_i$ 计算到 $k$ 个类别中心的距离，并选择最近的一个类别中心点作为标记类别： $label_i=\argmin \limits_{1≤j≤k}||x_i-μ_j||$ ；
将每个类别中心更新为隶属该类别的所有样本的均值 $μ_j=\cfrac{1}{|c_j|}\sum_{i∈c_j}x_i$ ，其中 $c_j$ 表示类别 $j$ 中样本的数量；
如果计算得出的类别中心的变化小于某阈值，那么结束，否则重新进行第二步过程。
结束条件：迭代次数/簇中心变化率/最小平方误差MSE(Minimum Squared Error)。

案例解释：

1、随机设置K个特征空间内的点作为初始的聚类中心（本案例中设置p1和p2）

2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别

3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）

4、如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程【经过判断，需要重复上述步骤，开始新一轮迭代】

5、当每次迭代结果不变时，认为算法收敛，聚类完成，K-Means一定会停下，不可能陷入一直选质心的过程。

2.2 k-Means算法动态效果图

The data points

2.2.1 Starting with 4 left-most points

2.2.2 Starting with 4 right-most points

2.2.3 Starting with 4 top points

2.2.4 Starting with 4 bottom points

2.2.5 Starting with 4 random points in one cluster

2.3 k-Means算法的公式化解释

记K个簇中心为 $μ_1,μ_2,...,μ_K$ ，每个簇的样本数量为 $N_1,N_2,...,N_K$
使用平方误差作为目标函数：
$J(μ_1,μ_2,...,μ_K)=\frac12\sum^K_{j=1}\sum^{N_j}_{i=1}(x_i-μ_j)^2$
求目标函数对 $μ_1,μ_2,...,μ_K$ 的偏导，令偏导为0求驻点
$\begin{aligned} &\cfrac{\partial J(μ_1,μ_2,...,μ_K)}{\partial μ_j}=-\sum^{N_j}_{i=1}(x_i-μ_j)=0 \\ & \implies \\ &μ_j=\frac1N\sum^{N_j}_{i=1}x_i \end{aligned}$

2.4 k-Means算法Api

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)

参数：

n_clusters:开始的聚类中心数量，整型，缺省值=8，生成的聚类数，即产生的质心（centroids）数。
init:初始化方法，默认为’k-means ++’
labels_:默认标记的类型，可以和真实值比较（不是值比较）
方法：
estimator.fit(x)
estimator.predict(x)
estimator.fit_predict(x)

计算聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)

2.5 k-Means算法小结

优点：

原理简单（靠近中心点），实现容易
聚类效果中上（依赖K的选择）
空间复杂度 $O (N)$ ，时间复杂度 $O (I K N)$ ，N为样本点个数，K为中心点个数，I为迭代次数
是解决聚类问题的一种经典算法，简单、快速
对处理大数据集，该算法保持可伸缩性和高效率
当簇近似为高斯分布时，它的效果较好
可作为其他聚类方法的基础算，如谱聚类

缺点：

对离群点，噪声敏感（中心点易偏移）
很难发现大小差别很大的簇及进行增量计算
结果不一定是全局最优，只能保证局部最优（与K的个数及初值选取有关）
在簇的平均值可被定义情况下才能使用，不适用于某些应用
必须事先给出 $k$ ( 要生成的簇数目 )，而且对初值敏感，对于不同的初始值，可能会导致不同结果。
不适合于发现非凸形状的簇或者大小差别很大的簇

若簇中含有异常点，将导致均值偏离严重。以一维数据为例：

数组 1、2、3、4、100 的均值为 22 ，显然距离“大多数”数据 1、2、3、4比较远
改成求数组的中位数3，在该实例中更为稳妥。
这种聚类方式即 k-Mediods 聚类算法 (k-中值距离)

2.6 k-Means算法代码实现

import numpy as np
import matplotlib.pyplot as plt
# 引入scipy中的距离函数，默认欧式距离
from scipy.spatial.distance import cdist
# 从sklearn中直接生成聚类数据
from sklearn.datasets.samples_generator import make_blobs

# 一、数据加载
x, y = make_blobs(n_samples=100, centers=6, random_state=1234, cluster_std=0.6)
print('x.shape = {0}, y.shape = {1}'.format(x.shape, y.shape))
print('\nx[:30] = \n{0}'.format(x[:30]))
print('\ny[:30] = {0}'.format(y[:30]))

# 二、原始数据画图
plt.figure(figsize=(6, 6))
plt.scatter(x[:, 0], x[:, 1], c=y)


# 三、 K_Means算法实现
class K_Means(object):
    def __init__(self, n_clusters=5, max_iter=300, centroids=[]):  # 初始化，参数 n_clusters（K）、迭代次数max_iter、初始质心 centroids
        self.n_clusters = n_clusters
        self.max_iter = max_iter
        self.centroids = np.array(centroids, dtype=np.float)

    def fit(self, data):  # 训练模型方法，k-means聚类过程，传入原始数据
        if (self.centroids.shape == (0,)):  # 假如没有指定初始质心，就随机选取data中的点作为初始质心
            self.centroids = data[np.random.randint(0, data.shape[0], self.n_clusters), :]  # 从data中随机生成0到data行数的6个整数，作为索引值
        for i in range(self.max_iter):  # 开始迭代
            distances = cdist(data, self.centroids)  # 1. 计算距离矩阵，得到的是一个100*6的矩阵
            c_ind = np.argmin(distances, axis=1)  # 2. 对距离按有近到远排序，选取最近的质心点的类别，作为当前点的分类
            for i in range(self.n_clusters):  # 3. 对每一类数据进行均值计算，更新质心点坐标
                if i in c_ind:  # 排除掉没有出现在c_ind里的类别
                    self.centroids[i] = np.mean(data[c_ind == i], axis=0)  # 选出所有类别是i的点，取data里面坐标的均值，更新第i个质心

    def predict(self, samples):  # 预测
        distances = cdist(samples, self.centroids)  # 跟上面一样，先计算距离矩阵，然后选取距离最近的那个质心的类别
        c_ind = np.argmin(distances, axis=1)

        return c_ind


# 定义一个绘制子图函数
def plotKMeans(x, y, centroids, subplot, title):
    # 分配子图，121表示1行2列的子图中的第一个
    plt.subplot(subplot)
    plt.scatter(x[:, 0], x[:, 1], c='r')
    # 画出质心点
    plt.scatter(centroids[:, 0], centroids[:, 1], c=np.array(range(5)), s=100)
    plt.title(title)




# 四、测试
if __name__ == '__main__':
    # 实例化K_Means算法
    kmeans = K_Means(max_iter=300, centroids=np.array([[2, 1], [2, 2], [2, 3], [2, 4], [2, 5]]))
    plt.figure(figsize=(16, 6))
    # 画所有待聚类数据、初始时的质心位置
    plotKMeans(x, y, kmeans.centroids, 121, 'Initial State')
    # 开始聚类
    kmeans.fit(x)
    print('\n聚类结束后，得到的所有质心位置：kmeans.centroids = \n{0}'.format(kmeans.centroids))
    # 画所有待聚类数据、聚类之后的质心位置
    plotKMeans(x, y, kmeans.centroids, 122, 'Final State')
    # 预测新数据点的类别
    x_new = np.array([[0, 0], [10, 7]])  # 待预测数据 [[0, 0], [10, 7]]
    print('\nx_new.shape = {0}'.format(x_new.shape))
    print('x_new = \n{0}'.format(x_new))
    y_pred = kmeans.predict(x_new)
    print('y_pred = {0}'.format(y_pred))
    plt.scatter(x_new[:, 0], x_new[:, 1], s=100, c='blue')
    plt.show()

打印结果：

x.shape = (100, 2), y.shape = (100,)

x[:30] = 
[[-0.02708305  5.0215929 ]
 [-5.49252256  6.27366991]
 [-5.37691608  1.51403209]
 [-5.37872006  2.16059225]
 [ 9.58333171  8.10916554]
 [-3.76462743  5.72284189]
 [ 9.54005257  7.6305493 ]
 [-4.44247192  6.27435008]
 [ 9.24659704  7.38484131]
 [-5.76427854  1.35195908]
 [-5.92633895  2.61563059]
 [ 9.08975003  8.93811387]
 [-4.04917756  5.52723579]
 [-1.80119781  6.91187744]
 [ 8.97066474  6.96893338]
 [-4.59307462  5.9281383 ]
 [-5.66460616  3.87675173]
 [ 9.97746543  7.03575246]
 [ 9.11922209  7.18829094]
 [10.43700221  7.59201676]
 [-1.11831519  6.13000405]
 [-2.62551587  0.01105124]
 [-6.27947612  3.07755693]
 [ 9.73427408  8.11153524]
 [-0.82290828  6.02127646]
 [ 5.64742155 -4.78812664]
 [ 6.33426078 -5.31681286]
 [-3.03539144 -0.35209334]
 [ 8.87837454  7.48463526]
 [-1.57439069  5.62039997]]

y[:30] = [1 3 0 0 4 3 4 3 4 0 0 4 3 1 4 3 0 4 4 4 1 5 0 4 1 2 2 5 4 1]

聚类结束后，得到的所有质心位置：kmeans.centroids = 
[[ 5.76444812 -4.67941789]
 [-2.89174024 -0.22808556]
 [-5.89115978  2.33887408]
 [-2.8455246   5.87376915]
 [ 9.20551979  7.56124841]]

x_new.shape = (2, 2)
x_new = 
[[ 0  0]
 [10  7]]
y_pred = [1 4]

2.7 k-Means算法案例01

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score

# 1.获取数据
order_product = pd.read_csv("F:/AI_Data/instacart/order_products__prior.csv")
products = pd.read_csv("F:/AI_Data/instacart/products.csv")
orders = pd.read_csv("F:/AI_Data/instacart/orders.csv")
aisles = pd.read_csv("F:/AI_Data/instacart/aisles.csv")

# 2.数据基本处理
# 2.1 合并表格
table1 = pd.merge(order_product, products, on=["product_id", "product_id"])
table2 = pd.merge(table1, orders, on=["order_id", "order_id"])
table = pd.merge(table2, aisles, on=["aisle_id", "aisle_id"])
# 2.2 交叉表合并
data = pd.crosstab(table["user_id"], table["aisle"])
print('data.shape =', data.shape)
print('data.head() =', data.head())

# 2.3 数据截取(原始数据太大)
new_data = data[:500]

# 3.特征工程：数据降维-主成分分析(PCA)
pca = PCA(n_components=0.9)
data_pca = pca.fit_transform(new_data)
print('data_pca.shape =', data_pca.shape)

# 4.算法工程(聚类算法k-means)
estimator = KMeans(n_clusters=4)    # 超参数，如果不知道则调参，如果知道则直接用已知数。
KMeans = estimator.fit(data_pca)
print('KMeans = \n', KMeans)
y_predict = estimator.predict(data_pca)
print('y_predict =\n', y_predict)

# 5.显示聚类的结果
plt.figure(figsize=(10, 10))
colored = ['orange', 'green', 'blue', 'purple']     # 建立4个颜色的列表
colr = [colored[i] for i in y_predict]
plt.scatter(data_pca[:, 1], data_pca[:, 10], color=colr)
plt.show()

# 6.模型评估(评判聚类效果：轮廓系数)
score = silhouette_score(data_pca, y_predict)
print('轮廓系数：score = ', score)

打印结果：

data.shape = (206209, 134)
data.head() = aisle    air fresheners candles  asian foods   ...    white wines  yogurt
user_id                                        ...                       
1                             0            0   ...              0       1
2                             0            3   ...              0      42
3                             0            0   ...              0       0
4                             0            0   ...              0       0
5                             0            2   ...              0       3
[5 rows x 134 columns]
data_pca.shape = (500, 17)
KMeans = 
 KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=4, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)
y_predict =
 [1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 1 1 1 0
 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1
 0 1 1 1 1 1 1 1 1 1 1 0 1 1 0 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 0 1 1 1 0 1 1
 1 1 1 3 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 1 1 1 1 3 2 1 1 1 0 1 1 1 1 1 1 1 1
 3 1 1 1 0 1 1 1 1 0 0 0 1 0 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 3 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 1 1 1 1 1 1 2 0 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 2 1 1 1 1 1 1 1 0 1 3 1 1 1 0 1 1 1 1 1 1
 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 2 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1
 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 2
 1 1 1 0 1 1 0 0 1 0 1 1 1 1 1 1 1 3 1 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0
 1 1 1 1 0 0 1 1 1 1 1 1 1 0 0 1 1 1 1]
轮廓系数：score =  0.6377849794162626

2.8 k-Means算法案例02

k-Means算法-test.txt

# -*- coding: utf-8 -*-
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.cluster import KMeans


class KmeansClustering():
    def __init__(self, stopwords_path=None):
        self.stopwords = self.load_stopwords(stopwords_path)
        self.count_vectorizer = CountVectorizer()  # 创建词袋数据结构
        self.tfidf_transformer = TfidfTransformer()

    def load_stopwords(self, stopwords=None):
        """
        加载停用词
        :param stopwords:
        :return:
        """
        if stopwords:
            with open(stopwords, 'r', encoding='utf-8') as f:
                stopword_list = [line.strip() for line in f]
                print("len(stopword_list) = {0}----stopword_list = {1}".format(len(stopword_list), stopword_list))
                return stopword_list
        else:
            return []

    def preprocess_data(self, corpus_path):
        """
        文本预处理，每行一个文本
        :param corpus_path:
        :return:
        """
        corpus = []
        with open(corpus_path, 'r', encoding='utf-8') as f:
            for line in f:
                corpus.append(' '.join([word for word in jieba.lcut(line.strip()) if word not in self.stopwords]))
        print("\nlen(corpus) = {0}----corpus[0] = {1}".format(len(corpus), corpus[0]))
        return corpus

    def get_text_tfidf_matrix(self, corpus):
        """
        获取tfidf矩阵
        :param corpus:
        :return:
        """
        self.count_vectorizer.fit(corpus)  # CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵
        # 获取词袋中所有词语
        words = self.count_vectorizer.get_feature_names()
        print("\n词袋中所有词语：len(words) = {0}----word = {1}".format(len(words), words))
        vectorizer_result = self.count_vectorizer.transform(corpus).toarray()  # .toarray() 是将结果转化为稀疏矩阵矩阵的表示方式；【25行表示25篇文档，3863列表示构建的词典库词语；元素数值表示该词汇在该篇文章中的词频】
        print("\nvectorizer_result.shape = {0}----vectorizer_result = \n{1}".format(vectorizer_result.shape, vectorizer_result))
        tfidf_result = self.tfidf_transformer.fit_transform(vectorizer_result).toarray()  # 获取tfidf矩阵
        print("\ntfidf_result.shape = {0}----tfidf_result = \n{1}".format(tfidf_result.shape, tfidf_result))
        return tfidf_result

    def kmeans(self, corpus_path, n_clusters=5):
        """
        KMeans文本聚类
        :param corpus_path: 语料路径（每行一篇）,文章id从0开始
        :param n_clusters: ：聚类类别数目
        :return: {cluster_id1:[text_id1, text_id2]}
        """
        corpus = self.preprocess_data(corpus_path)
        tfidf_result = self.get_text_tfidf_matrix(corpus)
        clf = KMeans(n_clusters=n_clusters)
        clf.fit(tfidf_result)
        # 中心点
        centers = clf.cluster_centers_
        print("\ncenters.shape = {0}----centers = \n{1}".format(centers.shape, centers))
        # 用来评估簇的个数是否合适,距离越小说明簇分得越好,选取临界点的簇的个数
        score = clf.inertia_
        print("\n轮廓系数：score.shape = {0}----score = {1}".format(score.shape, score))
        y_predict = clf.predict(tfidf_result)
        print("\ny_predict.shape = {0}----y_predict = {1}".format(y_predict.shape, y_predict))

        result = {
     }  # 每个样本所属的簇
        for text_idx, label_idx in enumerate(y_predict):
            if label_idx not in result:
                result[label_idx] = [text_idx]
            else:
                result[label_idx].append(text_idx)
        return result


if __name__ == '__main__':
    Kmeans = KmeansClustering(stopwords_path='../data/stop_words.txt')
    result = Kmeans.kmeans('../data/test_data.txt', n_clusters=4)
    print("\nKmeans聚类结果：result = {0}".format(result))

打印结果：

len(stopword_list) = 2192----stopword_list = ['′', '°', '', 'gov', 'a', 'b', ...,'｛－', '｜', '｝', '｝＞', '～', '～±', '～＋', '￥']

len(corpus) = 25----corpus[0] = 鲍勃 库西 奖归 属   NCAA 最强 控卫 坎巴 弗神 新浪 体育讯 本赛季 NCAA 末段 各项 奖项 评选 出炉 评选 最佳 控卫 鲍勃 库西 奖 下周 最终 四强 战时 公布 鲍勃 库西 奖是 由奈 史密斯 篮球 名人堂 提供 旨在 奖励 年度 最佳 大学 控卫 最终 获奖 球员 几名 热门 人选   NCAA 疯狂 专题 主页 上线 点击 链接 查看 精彩内容 吉梅尔 弗雷 戴特 杨百翰 大学 弗神 吉梅尔 弗雷 戴特 备受 关注 一名 射手 他会用 终结 对手 脚踝 变向 掉 面前 防守 任意 一支 手 得分 犯规 提前 两份 划入 帐 一名 命中率 高达 罚球 手 弗雷 戴特 控卫 具备 一点 特质 一位 赢家 一位 领导者 赛季 至始 至终 稳定 领导 球队 这是 无可比拟 杨百翰 大学 主教练 戴夫 罗斯 称赞 道 得分 能力 毋庸置疑 带领 球队 获胜 能力 控卫 职责 主场 之外 比赛 客场 立场 取胜 场 表现 很棒 弗雷 戴特 NBA 取得成功 专业人士 资格 做出 判断 喜爱 凯尔特人 主教练 多克 里 弗斯 说道 很棒 看过 ESPN 片段 剪辑 剪辑 超级 巨星 一名 优秀 NBA 球员 诺兰 史密斯 杜克大学 赛季 球队 控卫凯瑞 厄尔 文因 脚趾 伤病 缺席 赛季 大部分 比赛 诺兰 史密斯 接管 球权 进攻 端上 足 发条 ACC 联盟 杜克大学 分区 得分 榜上 名列前茅 分区 助攻 榜上 占据 头名 众强 林立 ACC 联盟 前无古人 全美 球员 凯瑞 厄尔 文 受伤 接管 球队 毫无准备 杜克 主教练 迈克 沙舍 夫斯基 赞扬 道 他会 比赛 带入 节奏 得分 组织 领导 球队 无所不能 攻防 俱佳 持球 防守 提高 拥有 辉煌 赛季 坎巴 沃克 康涅狄格 大学 坎巴 沃克 带领 康涅狄格 赛季 毛伊岛 邀请赛 力克 密歇根州 肯塔基 等队 夺冠 他场 分 助攻 最佳 球员 大东 赛区 锦标赛 全国 锦标赛 他场 27.1 分 6.1 篮板 5.1 次 助攻 依旧 给力 疯狂 表现 赛季 疯狂 表现 结束 赛季 全国 锦标赛 天 连赢 场 赢得 大东 赛区 锦标赛 冠军 归功于 坎巴 沃克 康涅狄格 大学 主教练 吉姆 卡洪 称赞 道 一名 纯正 控卫 能为 得分 单场 分 有过 单场 助攻 单场 篮板 一名 英尺 175 镑 球员 球员 领导者 球队 做 贡献 乔丹 泰勒 威斯康辛 大学 全美 持球者 乔丹 泰勒 失误 4.26 助攻 失误 全美 遥遥领先 大十 赛区 比赛 平均 35.8 分钟 失误 名 出色 得分手 全场 砍 分 击败 印第安纳 大学 比赛 证明 下半场 分 夜晚 证明 值得 首轮 顺位 见证者 印第安纳 大学 主教练 汤姆 克 雷恩 说道 一名 控卫 领导 球队 球队 变 更好 带领 球队 成功 乔丹 泰勒 威斯康辛 教练 博 莱恩 说道 诺里斯 科尔 克利夫兰 州 诺里斯 科尔 草根 传奇 上演 默默无闻 克利夫兰 州 招募 刻苦 训练 去年 夏天 加练 千次 跳投 提高 弱点 本赛季 杨斯顿 州 比赛 分 篮板 次 助攻 年 一位 球员 NCAA 联盟 名字 布雷克 格里芬 轻松 地防下 王牌 克利夫兰 州 主教练 加里 沃特斯 称赞 弟子 得分 球队 助攻 成功 团队 事 四名 球员 带领 球队 甜蜜 强 球员 球队 挡 强 大门 之外 表现 足够 出色 不远 将来 一所 熟悉 NBA 球馆 里 clay

词袋中所有词语：len(words) = 3863----word = ['000999', '010', '011', '02', '05', ...,'鼓励', '鼓舞', '鼓起', '鼠王', '龙珠', '龙骑士']

vectorizer_result.shape = (25, 3863)----vectorizer_result = 
[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 1 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [1 0 0 ... 0 0 0]]

tfidf_result.shape = (25, 3863)----tfidf_result = 
[[0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.07715721 ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.03068967 0.         0.         ... 0.         0.         0.        ]]

centers.shape = (4, 3863)----centers = 
[[-2.16840434e-19  0.00000000e+00  0.00000000e+00 ...  3.47951649e-03
   1.90016129e-02  1.73975824e-03]
 [-2.16840434e-19  7.83718590e-03  0.00000000e+00 ...  0.00000000e+00
   8.67361738e-19  0.00000000e+00]
 [ 6.13793366e-03  0.00000000e+00  1.54314412e-02 ...  0.00000000e+00
   0.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ...  0.00000000e+00
   0.00000000e+00  0.00000000e+00]]

轮廓系数：score.shape = ()----score = 19.57267663283431

y_predict.shape = (25,)----y_predict = [0 0 0 0 0 0 0 1 1 0 3 3 3 3 3 1 1 1 1 1 2 2 2 2 2]

Kmeans聚类结果：result = {
     0: [0, 1, 2, 3, 4, 5, 6, 9], 1: [7, 8, 15, 16, 17, 18, 19], 3: [10, 11, 12, 13, 14], 2: [20, 21, 22, 23, 24]}

Process finished with exit code 0

3、k-Means++算法

由于 K-means 算法的分类结果会受到初始点的选取而有所区别，即K-means 算法是初始值敏感的。因此有提出这种算法的改进: K-means++ 。
k-Means++算法步骤
其实这个算法也只是对初始点的选择有改进而已，其他步骤都一样。初始质心选取的基本思路就是，初始的聚类中心之间的相互距离要尽可能的远。

3.1 k-Means++算法描述：

步骤一：随机选取一个样本作为第一个聚类中心 c1；
步骤二：
- 计算每个样本与当前已有类聚中心最短距离（即与最近一个聚类中心的距离），用 D(x)表示；
- 这个值越大，表示被选取作为聚类中心的概率较大；
- 最后，用轮盘法选出下一个聚类中心；
步骤三：重复步骤二，知道选出 k 个聚类中心。

选出初始点后，就继续使用标准的 k-means 算法了。

3.2 k-Means++算法效率

K-means++ 能显著的改善分类结果的最终误差。
尽管计算初始点时花费了额外的时间，但是在迭代过程中，k-mean 本身能快速收敛，因此算法实际上降低了计算时间。
网上有人使用真实和合成的数据集测试了他们的方法，速度通常提高了 2 倍，对于某些数据集，误差提高了近 1000 倍。

3.3 K-means++算法选取初始聚类中心

数据集中共有8个样本，分布以及对应序号如下图所示：

假设经过步骤一后6号点被选择为第一个初始聚类中心，

那在进行步骤二时每个样本的D(x)和被选择为第二个聚类中心的概率如下表所示：

其中的 $P (x)$ 就是每个样本被选为下一个聚类中心的概率。
最后一行的Sum是概率 $P (x)$ 的累加和，用于轮盘法选择出第二个聚类中心。
方法是随机产生出一个0~1之间的随机数，判断它属于哪个区间，那么该区间对应的序号就是被选择出来的第二个聚类中心了。
例如1号点的区间为[0,0.2)，2号点的区间为[0.2, 0.525)。
从上表可以直观的看到第二个初始聚类中心是1号，2号，3号，4号中的一个的概率为0.9。
而这4个点正好是离第一个初始聚类中心6号点较远的四个点。
这也验证了K-means的改进思想：即离当前已有聚类中心较远的点有更大的概率被选为下一个聚类中心。
可以看到，该例的K值取2是比较合适的。当K值大于2时，每个样本会有多个距离，需要取最小的那个距离作为 D(x)。

3.4 K-means++算法代码实现

import math
import random
from sklearn import datasets


def euler_distance(point1: list, point2: list) -> float:
    """计算两点之间的欧拉距离，支持多维"""
    distance = 0.0
    for a, b in zip(point1, point2):
        distance += math.pow(a - b, 2)
    return math.sqrt(distance)


def get_closest_dist(point, centroids):
    min_dist = math.inf  # 初始设为无穷大
    for i, centroid in enumerate(centroids):
        dist = euler_distance(centroid, point)
        if dist < min_dist:
            min_dist = dist
    return min_dist


def kpp_centers(data_set: list, k: int) -> list:
    """从数据集中返回 k 个对象可作为质心"""
    cluster_centers = []
    cluster_centers.append(random.choice(data_set))
    d = [0 for _ in range(len(data_set))]
    for _ in range(1, k):
        total = 0.0
        for i, point in enumerate(data_set):
            d[i] = get_closest_dist(point, cluster_centers)  # 与最近一个聚类中心的距离
            total += d[i]
        total *= random.random()
        for i, di in enumerate(d):  # 轮盘法选出下一个聚类中心；
            total -= di
            if total > 0:
                continue
            cluster_centers.append(data_set[i])
            break
    return cluster_centers


if __name__ == "__main__":
    iris = datasets.load_iris()
    print('从iris数据集中返回4个对象可作为质心：\n', kpp_centers(iris.data, 4))

打印结果：

从iris数据集中返回4个对象可作为质心： 
[array([5.1, 3.4, 1.5, 0.2]), array([6.4, 3.1, 5.5, 1.8]), array([4.4, 2.9, 1.4, 0.2]), array([7.7, 3.8, 6.7, 2.2])]

你可能感兴趣的:(#,机器学习/ML,人工智能,机器学习,算法)

Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
前后端分离与不分离解析，很全面！涔溪前端
从多个维度对前后端分离与不分离进行更加深入、系统的分析，包括技术架构、开发流程、部署维护、性能优化、团队协作、适用场景等方面全面理解两者的区别和优劣。一、概念定义1.前后端不分离（传统服务端渲染）前端页面由服务器端生成并返回给浏览器，如PHP、JSP、ASP.NET等。前端逻辑和后端业务耦合在一起，通常一个请求对应一个完整的HTML页面。2.前后端分离（现代Web开发模式）前端独立开发为一个完整的
《聚类算法》入门--大白话篇：像整理房间一样给数据分类
一、什么是聚类算法？想象一下你的衣柜里堆满了衣服，但你不想一件件整理。聚类算法就像一个聪明的助手，它能自动帮你把衣服分成几堆：T恤放一堆、裤子放一堆、外套放一堆。它通过观察衣服的颜色、大小、款式这些特征，把相似的放在一起，不相似的分开。在计算机世界里，聚类算法就是帮我们把杂乱的数据分成有意义的组。它不需要提前知道答案（这就是"无监督学习"），而是像侦探一样，从数据中发现隐藏的规律。二、最常见的三种
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
基于MATLAB的资源优化与工期固定-资源均衡分析方法研究【附代码】拉勾科研工作室 matlab 开发语言
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）资源均衡优化相关理论与问题分类在现代工程项目中，资源的合理分配和使用是确保项目按时完成、成本可控的关键因素。资源均衡优化作为项目管理中的核心环节，旨在通过调整资源的使用方案，使资源消耗在整个工期内尽可能平稳，避免
医学图像增强的层级化模糊与虚拟仪器无参考质量评价研究【附代码】拉勾科研工作室计算机视觉图像处理人工智能
算法与建模领域的探索者|专注数据分析与智能模型设计✨擅长算法、建模、数据分析matlab、python、仿真✅具体问题可以私信或查看文章底部二维码✅感恩科研路上每一位志同道合的伙伴！（1）层级模糊隶属度的X光医学图像增强算法针对X光医学图像普遍存在的对比度差、细节模糊等问题，本算法提出了一种基于层级模糊隶属度的增强方法。该方法的核心思想在于利用拉普拉斯金字塔分解图像，并在多尺度下分层计算模糊隶属度
C8051F单片机在三轴伺服转台动力学模型与伺服算法仿真中的应用【附设计】
自动化设计|控制系统|毕业设计指导|工业自动化解决方案✨专业领域：程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列编程三菱/欧姆龙应用PIC单片机触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以私信或查
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL gpt
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理1.MindSQL(库)MindSQL是一
【微信小程序】富文本rich-text的图片预览效果的几种方法 Lana学习中微信小程序微信小程序小程序
前言使用原生小程序开发，实现在富文本rich-text中的图片预览效果的几种方法对比。update:因为方案3wxparser后续没有再维护，解析微信公众号文章时会出现排版错误的问题。作为插件也很难二次开发。换成mp-html了1.正则+wx.previewImage（有明显不足）一个不需要用额外组件或插件的方法：思路：使用正则把图片的url进行剖离出来，push进一个数组中，点击富文本组件，运行
机器学习5——非参数估计平和男人杨争争山东大学机器学习期末复习机器学习概率论算法
非参数估计在参数估计中我们已经提到，想要估计后验概率P(ωi∣x)=p(x∣ωi)p(ωi)p(x)P\left(\omega_i\midx\right)=\frac{p\left(x\mid\omega_i\right)p\left(\omega_i\right)}{p(x)}P(ωi∣x)=p(x)p(x∣ωi)p(ωi)，就需要估计类条件概率p(x∣ωi)p\left(x\mid\omega
机器学习4——参数估计之贝叶斯估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能
贝叶斯估计问题建模：后验概率公式：P(ωi∣x,D)=P(x∣ωi,Di)P(ωi)∑j=1cP(x∣ωj,Dj)P(ωj)P\left(\omega_i\mid\mathbf{x},\mathcal{D}\right)=\frac{P\left(\mathbf{x}\mid\omega_i,\mathcal{D}_i\right)P\left(\omega_i\right)}{\sum_{j=1
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
微信小程序＜rich-text＞支持里面图片点击放大二豆是富婆微信小程序小程序
使用渲染类似下面的html代码：宠物友好xxx提供宠物友好服务，具体请见下图wxml：js放大图片方法：//富文本图片点击预览showImg(e){letcontentimg=e.target.dataset.nodes;letimgs=contentimg.match(/]+>/g);//把img所有节点的图片选择出来letarrImg=[];//遍历标签拼拿到你的图片的src里面的内容放在我们
机器学习3——参数估计之极大似然估计平和男人杨争争山东大学机器学习期末复习机器学习人工智能算法
参数估计问题背景：P(ωi∣x)=p(x∣ωi)P(ωi)p(x)p(x)=∑j=1cp(x∣ωj)P(ωj)\begin{aligned}&P\left(\omega_i\mid\mathbf{x}\right)=\frac{p\left(\mathbf{x}\mid\omega_i\right)P\left(\omega_i\right)}{p(\mathbf{x})}\\&p(\mathbf
浏览器移动端html右边有一点白_手机端页面在项目中遇到的一些问题及解决办法... weixin_39804335
1.解决页面使用overflow:scroll在iOS上滑动卡顿的问题?首先你可能会给页面的html和body增加了height:100%,然后就可能造成IOS上页面滑动的卡顿问题。解决方案是：(1)看是否能把body和html的height:100%去除掉。(2)在滚动的容器中增加：-webkit-overflow-scrolling:touch或者给body增加：body{overflow-x
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
【k近邻】 K-Nearest Neighbors算法原理及流程 F_D_Z 机器学习方法数理算法学习机器学习 k近邻算法 k-近邻算法
【k近邻】K-NearestNeighbors算法原理及流程【k近邻】K-NearestNeighbors算法距离度量选择与数据维度归一化【k近邻】K-NearestNeighbors算法k值的选择【k近邻】Kd树的构造与最近邻搜索算法【k近邻】Kd树构造与最近邻搜索示例k近邻算法（K-NearestNeighbors，简称KNN）是一种常用的监督学习算法，可以用于分类和回归问题。在OpenCV中
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
高通手机跑AI系列之——3D姿势估计伊利丹~怒风 Qualcomm 智能手机 AI编程 arm python 人工智能
目录环境准备手机软件算法Demo代码功能分析关键模块解析示例代码代码效果环境准备手机测试手机型号：RedmiK60Pro处理器：第二代骁龙8移动--8gen2运行内存：8.0GB，LPDDR5X-8400，67.0GB/s摄像头：前置16MP+后置50MP+8MP+2MPAI算力：NPU48TopsINT8&&GPU1536ALUx2x680MHz=2.089TFLOPS提示：任意手机均可以，性能
Mysql 主从备份龙那个猫robot 数据库 mysql
英文好的可以直接去mysql官网查看https://dev.mysql.com/doc/refman/5.7/en/replication.html1环境准备我这里准备两套linux虚拟机，主mysql服务器,从mysql服务区ip192.168.1.30ip192.168.1.1001.1备份主mysql数据库1.2从数据库恢复主mysql数据库1.3配置主mysql服务器配置server-id
iphone se 一代不完美越狱 14.6 视频壁纸教程(踩坑笔记) YANG_301 ios iphone
iphonese一代不完美越狱14.6加视频壁纸教程-踩坑笔记越狱流程1.爱思助手制作启动u盘坑点:2.越狱好后视频壁纸软件1.源2.软件安装越狱流程1.爱思助手制作启动u盘https://www.i4.cn/news_detail_42302.html此网址为具体流程,但要注意!!!坑点:下图中最后一排quickmode应被勾选(勾选后是×(´ཀ`」∠))进入options后不禁要勾选allow
Markdown编辑器写文章方法 Joel Jin 笔记
Markdown编辑器欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mar
矩阵题解——螺旋矩阵 II【LeetCode】 chao_789 我的学习记录矩阵篇_刷题笔记算法 leetcode python 数据结构矩阵
59.螺旋矩阵II第一个算法：基于层数和偏移量的方法算法逻辑思路：初始化阶段：创建n×n的零矩阵，设置起始点(0,0)，计算需要循环的层数(n//2)，初始化计数器为1核心循环逻辑：通过偏移量控制每一层的边界外层循环：遍历每一层(offset从1到loop)内层四个循环：按顺时针方向填充当前层左→右：填充上边，范围[starty,n-offset)上→下：填充右边，范围[startx,n-offs
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
Script to save all images from a docker-compose.yml file 唧唧歪歪的 docker docker docker-compose
通过docker-compose.yml导出镜像到单个文件Scripttosaveallimagesfromadocker-compose.ymlfile1st#!/bin/bashmkdir-poutforimgin`grepimage$1|sed-e's/^.*image\://g'`;docleanname=${img/\//-}tag=`dockerimages|grep$img|awk'
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p