不想当程序员（☆∀☆）

sklearn之k-means聚类算法

听了菜菜的sklearn算法而写的学习笔记

概述
- 无监督学习与有监督学习
- 结构化数据与非结构化数据
- 聚类算法与分类算法
- sklearn中的聚类算法
KMeans一最简单的聚类算法
- KMeans算法工作原理
- - 先导概念
  - 核心任务
  - 算法步骤
  - eg：kmeans将数据分为4个簇
- 衡量KMeans算法效果的指标
- - 簇内误差平方和
  - - 聚出的类应该有什么性质，有什么用处？
    - 什么是差异？
    - 以欧几里得距离为例衡量差异
    - 不同的距离对应着不同的质心和inertia
  - 算法复杂度
  - - 时间复杂度
    - 空间复杂度
类：sklearn.cluster.KMeans
- 重要参数
- - k-means++寻找优秀初始化质心的原理
- 一些其他的参数（选看）
- 重要属性
- 重要接口
- eg.简单聚类
函数：k_means
聚类模型评估指标
- - 聚类，回归，分类的评价指标有哪些？
- inertia(不建议用，不太准确)
- 真实标签已知的情况下（不常用）
- 真实标签未知的情况下（常用）
- - 轮廓系数
  - calinski-harabasz Index(CHI) 卡林斯基-哈拉巴斯指数
  - 其它的指标
案例：聚类算法用于降维和矢量量化

概述

无监督学习与有监督学习

无监督学习

定义：模型在训练时，只需要输入特征矩阵X，不需要输入标签y；
典型无监督算法：PCA，聚类算法

有监督学习

定义：模型在训练时，既需要X又需要y；
典型有监督算法：决策树，随机森林，逻辑回归等

结构化数据与非结构化数据

结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理；
非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

聚类算法与分类算法

聚类算法（无监督分类）

目的：将其划分为多个有意义/有用的簇；
功能：
1. 基于业务需求或建模需求进行划分；
2. 单纯地探索数据的自然结构和分布，即数据之间的联系；
3. 降维和矢量量化：将高维特征压缩到一列当中，常常用于图像、声音、视频等非结构化数据的处理，大幅压缩数据量；
学习类型：无监督学习；
典型算法：k-means，DBSCAN，层次聚类，光谱聚类；
输出：
1. 聚类结果不确定，分出来的类不一定就是数据的真实分类；
2. 同样的聚类，根据业务需求的不同，结果可能是好的，也可能不好。

分类算法

目的：将数据进行单纯的分类；
功能：对已经分类好的数据进行学习，学习好后再将新数据放入分类模型中对新数据进行分类；
学习类型：有监督学习；
典型算法：决策树，贝叶斯，逻辑回归；
输出：
1. 分类的结果是确定的，不根据业务或建模需求决定；
2. 分类后模型的优劣客观易判断。

sklearn中的聚类算法

聚类算法在sklearn中有两种表现形式：

类：通过实例化、训练并使用接口或属性调用结果；
函数：只需要数据特征矩阵X和超参数就可以得出结果，就像数学中的函数一样，只要有自变量就能得出因变量；

这篇blog中用的聚类算法就是：(中括号中的参数就是可填可不填)

类：cluster.KMeans([n_clusters，init,…])
函数：cluster.k_means(X，n_clusters，[，…])

输入数据应注意：

模块的算法可以采用不同类型的矩阵作为输入

所有方法可以输入[n_samples，n_features]的标准特征矩阵，该矩阵可从sklearn.feature_extraction模块中的类中获得；
对于亲和力传播、光谱聚类和DBSCAN，可以输入[n_samples，n_samples]的相似性矩阵，该矩阵可用sklearn.metrics.pairwise模块中的函数来获得。

KMeans一最简单的聚类算法

KMeans算法工作原理

先导概念

簇：聚类的结果表现，将一个N样本的特征矩阵X分为k个簇，一个簇中的数据就被认为是一类；
质心：簇中所有数据的均值μj即为"质心"；（所有数据在每个轴坐标上的均值即为质心在该轴上的坐标）

核心任务

找出k个质心，将离这些质心最近的数据分到这些之心所代表的簇中。

算法步骤

随机抽取k个质心；
{将样本点分给距离最近的质心，生成k个簇；
对于每个簇，以每个簇的样本点的均值作为新质心；}
循环执行步骤2，直至质心位置不变。（当簇不再改变时，质心位置就不变）

eg：kmeans将数据分为4个簇

衡量KMeans算法效果的指标

簇内误差平方和

聚出的类应该有什么性质，有什么用处？

簇内差异小（数据相似），簇间差异大（数据不同）；类似于分箱应该达到的效果；
研究每个簇中有什么性质，可根据这些性制定不同的策略。

什么是差异？

样本到其所在簇的质心的距离

注：余弦距离通常用来衡量文本和文本之间的差异。

以欧几里得距离为例衡量差异

簇内平方和（又叫"inertia"）：

整体平方和（又叫"total inertia"）：

total inertia越小，簇内样本越相似，聚类效果越好。

因此，kmeans希望找到让total inertia最小的质心一最优化问题。

当质心不断变化时，total inertia越来越小，当total inertia最小时，质心不再改变。

注：kmeans中的total inertia类似于别的方法中的损失函数，但是要注意的是kmeans并没有损失函数这个概念。

不同的距离对应着不同的质心和inertia

距离～质心～ inertia：

欧几里得距离～均值～最小化每个样本点到质心的欧式距离之和；
曼哈顿距离～中位数～最小化每个样本点到质心曼哈顿距离之和；
余弦距离～均值～最小化每个样本点到质心的余弦距离之和

注：实验证明，使用不同的距离，就应该选用不同的质心和不同的inertia搭配，只要选对，就可以达到不错的聚类效果。

算法复杂度

时间复杂度

平均时间复杂度：O（knT），其中，k：簇数，n：样本数，T：迭代次数；（相比之下，KNN的平均复杂度为O（n））
最坏时间复杂度：O（n^((k+2)/p)），其中，n：样本数，p：特征总数；

空间复杂度

～

类：sklearn.cluster.KMeans

class  sklearn.cluster.KMeans (n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001,
precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm=’auto’)

下面的参数的使用在例代码中都能看到（除了选看的那一部分参数）

重要参数

n_clusters：簇数k，默认为8，但一般我们都会取一个比8小的数；
init：初始化质心的方法，可取值如下
1. “k-means++”：默认，以k-means++的方法为聚类选取更优秀的初始质心，以加速聚类；
2. “random”：随机选取k个质心；
3. 一个n维数组：数组的形状应该是(n_clusters，n_features)并给出初始质心。

plus = KMeans(n_clusters = 10).fit(X)
plus.n_iter_  #明显看出，k-means++迭代的次数小

#12

random = KMeans(n_clusters = 10,init="random",random_state=420).fit(X)
random.n_iter_

#19

random_state：控制每次质心随机初始化的随机数种子，random_state一样，初始化的质心就是一样的；
n_init：整数，默认10，若n_init的值是n，就选n个不同的随机种子并依次运行k-means算法，最终以输出最优的那个随机数种子作为n_init的值进行运算；
max_iter：最大迭代次数，会出现迭代次数用完但没有聚类完或没达到最大迭代次数就聚类完的情况，可以调用n_iter属性来得出真是迭代次数；

random = KMeans(n_clusters = 10,init="random",max_iter=10,random_state=420).fit(X)
y_pred_max10 = random.labels_
silhouette_score(X,y_pred_max10)

#0.3952586444034157

random.n_iter_
#9

random = KMeans(n_clusters = 10,init="random",max_iter=20,random_state=420).fit(X)
y_pred_max20 = random.labels_
silhouette_score(X,y_pred_max20)

#0.3401504537571701

random.n_iter_
#19

tol：浮点数，默认1e-4，两次迭代间的Inertia下降的量如果小于tol值，则停止迭代；

k-means++寻找优秀初始化质心的原理

随机初始化质心，聚类结果易受初始化质心的影响；（eg：选取了一个质心，但是其距离其他的质心都很远，是个孤立点）
思想：逐个选取k kk个簇中心，且离其它簇中心越远的样本点越有可能被选为下一个簇中心。
具体实现步骤：
1.从数据集X中随机（均匀分布）选取一个样本点作为第一个初始聚类中心ci；
2.接着计算每个样本与当前已有聚类中心之间的最短距离，用D ( x )表示；然后计算每个样本点被选为下一个聚类中心的概率P ( x )，最后选择最大概率值所对应的样本点作为下一个簇中心；

3.重复步骤2，直至选出k个质心；

一些其他的参数（选看）

重要属性

labels：每个样本点对应的标签；
cluster_centers_：收敛到的质心的坐标；
inertia：簇内平方和；
n_iter_：实际迭代次数；

重要接口

fit(训练特征矩阵X，[训练用标签，sample_weight])：拟合训练模型；
predict(测试特征矩阵X，[sample_weight])：拟合好后把新的样本分到相应的类中；
fit_predict(训练特征矩阵X，[训练用标签，sample_weight])：相当于先fit后predict，只不过训练测试特征矩阵相同而已，计算质心，预测每个样本所在簇的索引并返回；
transform(任意特征矩阵X)：将X转化到簇距离空间中，在新空间中，每个维度是样本到集群中心的距离；
fit_transform(训练特征矩阵X，[训练用标签，sample_weight])：相当于先fit后transform，聚类并将X转换到簇距离空间中并返回新空间的特征矩阵；
score(测试特征矩阵X，[训练用标签，sample_weight])：返回簇内平方和，簇内平方和越小越好，最佳为0，是一种模型评估指标；
get_params()：获取类的参数；
set_params(n_clusters=… ，init=… ，…)：重新设置参数

eg.简单聚类

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

#自己创建数据集，创建好的数据集是已经被分好标签的
X, y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1)

fig, ax1 = plt.subplots(1)#fig是画布，ax1是对象，对象在画布中，图画在对象上展现在画布中
ax1.scatter(X[:, 0], X[:, 1]
            ,marker='o'#点的形状
            ,s=8 #点的大小
           )
plt.show()

#展示这些点的分布
color = ["red","pink","orange","gray"]
fig, ax1 = plt.subplots(1)
for i in range(4):
    ax1.scatter(X[y==i, 0], X[y==i, 1]
                ,marker='o' #点的形状
                ,s=8 #点的大小
                ,c=color[i]
               )
plt.show()

#对这些数据使用聚类算法，看他的聚类效果怎么样
from sklearn.cluster import KMeans
n_clusters = 3
cluster = KMeans(n_clusters=n_clusters, random_state=0).fit(X)
y_pred = cluster.labels_
y_pred
#结果太长，这里就不写了，是一个一维数组，里面只有0，1，2

pre = cluster.fit_predict(X)
pre == y_pred
#本来就是利用X来聚类的，聚类好后又作用于X肯定结果都是True

当样本量太大或特征数量太多时，计算起来很麻烦，为了简化计算，我们可以只用样本的一部分进行聚类，将聚类结果再作用于整个数据集，但是这样的聚类效果不确定好还是坏。

cluster_smallsub = KMeans(n_clusters=n_clusters, random_state=0).fit(X[:200])
y_pred_ = cluster_smallsub.predict(X)
y_pred == y_pred_
#因为用少量样本聚出来的类的效果不一定特别好，所以结果会出现很多False

centroid = cluster.cluster_centers_
centroid
#array([[-7.09306648, -8.10994454],
#      [-1.54234022,  4.43517599],
#      [-8.0862351 , -3.5179868 ]])

函数：k_means

sklearn.cluster.k_means (X, n_clusters, sample_weight=None, init=’k-means++’, precompute_distances=’auto’,
n_init=10, max_iter=300, verbose=False, tol=0.0001, random_state=None, copy_x=True, n_jobs=None,
algorithm=’auto’, return_n_iter=False)

eg.

#函数k均值聚类
from sklearn.cluster import k_means
k_means(X,4,return_n_iter=True)#依次返回质心坐标，每个样本对应的簇标签，inertia及最佳迭代次数(结果太长了，这里就不写了)

聚类模型评估指标

聚类，回归，分类的评价指标有哪些？

分类：评价较简单，分类结果有正误之分，可以使用预测的准确率、混淆矩阵、ROC曲线等进行评估；
回归：SSE均方误差、损失函数；
聚类：以下几个都是

inertia(不建议用，不太准确)

inertia并不是越小越好，inertia不适合作为指标的原因有以下几点：

inertia非有界，没有参考，因此你并不知道这个数值是不是真的小；
计算易受特征总数的影响；若特征总数过多，计算起来很费劲；
易受超参数k的影响，k越大，inertia一定会越来越小；
inertia对数据分布有假设（假设数据服从凸分布），且假设数据是各向同性的（即数据的属性在不同的方向上有不同的含义）；所以使用Inertia作为评估指标，会让聚类算法在一些细长簇，环形簇，或者不规则形状的流形时表现不佳；

k对inertia的影响：

n_clusters = 4
cluster_ = KMeans(n_clusters=n_clusters, random_state=0).fit(X)
inertia_ = cluster_.inertia_
inertia_
#908.3855684760603

n_clusters = 5
cluster_ = KMeans(n_clusters=n_clusters, random_state=0).fit(X)
inertia_ = cluster_.inertia_
inertia_
#811.0841324482416

n_clusters = 6
cluster_ = KMeans(n_clusters=n_clusters, random_state=0).fit(X)
inertia_ = cluster_.inertia_
inertia_
#733.1538350083074

#通过上面的例子可以发现，n_clusters越大，inertia_越小，但是我们并不能仅靠越来越多的聚类数来实现好的聚类效果，类数越少聚类效果越好才是我们应该追求的目标。
#同时也说明了inertia_并不是一个好的模型聚类效果评价指标

k均值聚类算法在一些细长簇，环形簇，或者不规则形状的流形上的表现：

真实标签已知的情况下（不常用）

这种情况很少出现，如果出现了一般都用分类方法，但是也有需要用聚类算法的；

真实标签未知的情况下（常用）

轮廓系数

对没有真实标签的数据进行探索，也不知道正确答案；
这种情况下，完全依赖于评价簇内的稠密程度（簇内差异小）和簇间的离散程度（簇外差异大）来评估聚类的效果；
轮廓系数是对每个样本定义的，也能用来衡量：
1. 样本与簇中其它样本的相似度a，即样本与同一簇中所有其他点之间的平均距离；
2. 样本与其它簇中的样本的相似度b，即样本与下一个最近的簇中所有点之间的平均距离；
3. 我们希望b>a，且越大越好；
单个样本的轮廓系数：

等价于
s∈(-1，1)

s>0，聚类效果好；特别地，s→1，a相对于b越小，聚类效果越好；
s=0，两个簇的相似度一致，两个簇应该合成一个；
s<0，聚类效果差；
若一个簇中大多数样本都有很高的轮廓系数，则总轮廓系数大，平均轮廓系数大，聚类效果好；
若一个簇中大多数样本都为低轮廓系数或负轮廓系数，则聚类效果不是很好，原因可能是簇数k设置得过大或过小；

sklearn中计算轮廓系数的方法：模块metrics中的类
1. silhouette_score：平均轮廓系数；
2. silhouette_samples：每个样本自己的轮廓系数；

from sklearn.metrics import silhouette_score
from sklearn.metrics import silhouette_samples

silhouette_score(X,y_pred)#在上面的例子中，y_pred是聚成3类得出的标签
#0.5882004012129721

silhouette_score(X,cluster_.labels_)#在上面的例子中，cluster_.labels_是聚成6类得出的标签
#0.5150064498560357

silhouette_samples(X,y_pred)
#每个样本的轮廓系数都返回了，内容太长，这里不写了

轮廓系数的优点：
1. 取值有界，对聚类效果有一个参考；
2. 对数据的分布没有假设，因此在很多数据集上都能表现得很好；
轮廓系数的缺点：在凸性类上表现出"虚高"（即返回的分数比真实轮廓系数高），例如，基于密度进行的聚类，通过DBSCAN获得的聚类结果等；
基于轮廓系数选择合适的n_clusters:

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score

import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np

for n_clusters in [2,3,4,5,6,7]:
    n_clusters = n_clusters
    fig, (ax1, ax2) = plt.subplots(1, 2)
    fig.set_size_inches(18, 7)
    ax1.set_xlim([-0.1, 1])
    ax1.set_ylim([0, X.shape[0] + (n_clusters + 1) * 10])
    clusterer = KMeans(n_clusters=n_clusters, random_state=10).fit(X)
    cluster_labels = clusterer.labels_
    silhouette_avg = silhouette_score(X, cluster_labels)
    print("For n_clusters =", n_clusters,
          "The average silhouette_score is :", silhouette_avg)
    sample_silhouette_values = silhouette_samples(X, cluster_labels)
    y_lower = 10
    for i in range(n_clusters):
        ith_cluster_silhouette_values = sample_silhouette_values[cluster_labels == i]
        ith_cluster_silhouette_values.sort()
        size_cluster_i = ith_cluster_silhouette_values.shape[0]
        y_upper = y_lower + size_cluster_i
        color = cm.nipy_spectral(float(i)/n_clusters)
        ax1.fill_betweenx(np.arange(y_lower, y_upper)
                          ,ith_cluster_silhouette_values
                          ,facecolor=color
                          ,alpha=0.7
                         )
        ax1.text(-0.05
                 , y_lower + 0.5 * size_cluster_i
                 , str(i))
        y_lower = y_upper + 10

    ax1.set_title("The silhouette plot for the various clusters.")
    ax1.set_xlabel("The silhouette coefficient values")
    ax1.set_ylabel("Cluster label")
    ax1.axvline(x=silhouette_avg, color="red", linestyle="--")
    ax1.set_yticks([])
    ax1.set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])

    colors = cm.nipy_spectral(cluster_labels.astype(float) / n_clusters)
    ax2.scatter(X[:, 0], X[:, 1]
                ,marker='o'
                ,s=8
                ,c=colors
               )
    centers = clusterer.cluster_centers_
    # Draw white circles at cluster centers
    ax2.scatter(centers[:, 0], centers[:, 1], marker='x',
                c="red", alpha=1, s=200)
    
    ax2.set_title("The visualization of the clustered data.")
    ax2.set_xlabel("Feature space for the 1st feature")
    ax2.set_ylabel("Feature space for the 2nd feature")

    plt.suptitle(("Silhouette analysis for KMeans clustering on sample data "
                  "with n_clusters = %d" % n_clusters),
                 fontsize=14, fontweight='bold')
    plt.show()

For n_clusters = 2 The average silhouette_score is : 0.7049787496083262

For n_clusters = 3 The average silhouette_score is : 0.5882004012129721

For n_clusters = 4 The average silhouette_score is : 0.6505186632729437

For n_clusters = 5 The average silhouette_score is : 0.56376469026194

For n_clusters = 6 The average silhouette_score is : 0.4504666294372765

For n_clusters = 7 The average silhouette_score is : 0.39092211029930857

从上面的结果看出，聚成4类最好。

calinski-harabasz Index(CHI) 卡林斯基-哈拉巴斯指数

卡林斯基-哈拉巴斯指数s(k)：

其中，

N：数据集样本量；
k：簇数；
Wk：组内离散矩阵（一个簇内数据的协方差矩阵）；
Bk：组件离散矩阵（不同簇之间的协方差矩阵）；
Tr(A)：矩阵A的迹（主对角线元素之和）；

并且：

组间离散程度越高，Tr(Bk)越大；
组内离散程度越低，Tr(Wk)越小；
因此，我们希望CHI越大越好；

CHI的优点：计算快；

#使用时间戳计算运行时间来显式表示calinski_harabasz_score的计算比轮廓系数的计算快得多
from time import time
t0 = time()
calinski_harabasz_score(X, y_pred)
time() - t0

#0.000997304916381836

t0 = time()
silhouette_score(X,y_pred)
time() - t0

#0.005983591079711914

#将时间戳转化为易懂的形式
import datetime
datetime.datetime.fromtimestamp(t0).strftime("%Y-%m-%d %H:%M:%S")

#'2021-05-29 15:23:25'

CHI的缺点：

指数无界；
在凸数据集上会表现出"虚高"；

其它的指标

Davies-Bouldin 戴维斯-布尔丁指数
Contingency Matrix 权变矩阵

案例：聚类算法用于降维和矢量量化

导入库

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances_argmin #对两个序列的点进行距离匹配的函数
from sklearn.datasets import load_sample_image #导入图片的一个数据集
from sklearn.utils import shuffle #将一个序列：字典，列表，图片等打乱重排的函数

导入数据，探索数据

china = load_sample_image("china.jpg")
china

china.dtype  #一般图片的数据类型都是'uint8'
#dtype('uint8')

china.shape   #三维：长度*宽度*像素，像素是三个数，由三个数决定一个颜色
#(427, 640, 3)

china[0][0]
#array([174, 201, 231], dtype=uint8)

newimage = china.reshape((427 * 640,3)) #将所有数据拉成一行，方便下面进行颜色个数的判断

import pandas as pd
pd.DataFrame(newimage).drop_duplicates().shape #去除重复值来查看有多少种颜色，发现有9万多种

plt.figure(figsize=(15,15))
plt.imshow(china) #imshow显示三维数组形成的图片（图1）

flower = load_sample_image("flower.jpg")
plt.figure(figsize=(15,15))
plt.imshow(flower) #（图2）

处理完后发现有9w多种颜色，我们想把它压缩至64种颜色，可用聚类算法；

决定超参数，数据预处理

n_clusters = 64
china = np.array(china, dtype=np.float64) / china.max()
w, h, d = original_shape = tuple(china.shape)

assert d == 3,"一个格子中的特征数目不等于3种"  #如果不等于3就报错，所报的错误就是后面的字符串的内容
image_array = np.reshape(china, (w * h, d))  #将所有数据拉成一行

image_array
'''
array([[0.68235294, 0.78823529, 0.90588235],
       [0.68235294, 0.78823529, 0.90588235],
       [0.68235294, 0.78823529, 0.90588235],
       ...,
       [0.16862745, 0.19215686, 0.15294118],
       [0.05098039, 0.08235294, 0.02352941],
       [0.05882353, 0.09411765, 0.02745098]])
'''

image_array.shape
#(273280, 3)

注：reshape的函数解释

a = np.random.random((2,4))
a
'''array([[0.43516089, 0.8142793 , 0.08701465, 0.14891459],
          [0.6404939 , 0.8470681 , 0.89773921, 0.78202351]])'''
a.reshape((4,2))
'''array([[0.43516089, 0.8142793 ],
       [0.08701465, 0.14891459],
       [0.6404939 , 0.8470681 ],
       [0.89773921, 0.78202351]])'''
np.reshape(a,(4,2))
#答案与上一个一样

np.reshape(a,(2,2,2))
'''array([[[0.43516089, 0.8142793 ],
        [0.08701465, 0.14891459]],

       [[0.6404939 , 0.8470681 ],
        [0.89773921, 0.78202351]]])'''
np.reshape(a,(3,2))  #报错，无论有几维，只要维度之积不变，就可以reshape

对数据进行K-Means的矢量量化

image_array_sample = shuffle(image_array, random_state=0)[:1000]
kmeans = KMeans(n_clusters=n_clusters, random_state=0).fit(image_array_sample)
kmeans.cluster_centers_
#返回64个质心坐标

labels = kmeans.predict(image_array)
labels.shape
#(273280,)

image_kmeans = image_array.copy()
for i in range(w*h):
    image_kmeans[i] = kmeans.cluster_centers_[labels[i]]
image_kmeans
'''array([[0.73524384, 0.82021116, 0.91925591],
       [0.73524384, 0.82021116, 0.91925591],
       [0.73524384, 0.82021116, 0.91925591],
       ...,
       [0.15546218, 0.1557423 , 0.12829132],
       [0.07058824, 0.0754637 , 0.0508744 ],
       [0.07058824, 0.0754637 , 0.0508744 ]])'''
       
pd.DataFrame(image_kmeans).drop_duplicates().shape
#(64, 3)

image_kmeans = image_kmeans.reshape(w,h,d)  #从二维变回三维
image_kmeans.shape
#(427, 640, 3)

对数据进行随机的矢量量化

centroid_random = shuffle(image_array, random_state=0)[:n_clusters]
labels_random = pairwise_distances_argmin(centroid_random,image_array,axis=0)

labels_random.shape
#(273280,)

centroid_random
#返回64个质心的坐标

len(set(labels_random))  #集合之后，重复数据被除，结果只有64个数据
#64

image_random = image_array.copy()
for i in range(w*h):
    image_random[i] = centroid_random[labels_random[i]]
image_random = image_random.reshape(w,h,d)
image_random.shape
#(427, 640, 3)

将原图，按KMeans矢量量化和随机矢量量化的图像绘制出来

plt.figure(figsize=(10,10))
plt.axis('off')
plt.title('Original image (96,615 colors)')
plt.imshow(china)
plt.figure(figsize=(10,10))
plt.axis('off')
plt.title('Quantized image (64 colors, K-Means)')
plt.imshow(image_kmeans)
plt.figure(figsize=(10,10))
plt.axis('off')
plt.title('Quantized image (64 colors, Random)')
plt.imshow(image_random)
plt.show()

你可能感兴趣的:(python机器学习)

Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
机器学习专栏博文汇总 python游乐园机器学习机器学习人工智能合集
本篇汇集了Python游乐园中机器学习专栏博文，会持续更新，需要的小伙伴可以收藏一下Python机器学习实战：基于不同机器学习算法的鸢尾花数据集分析机器学习常见问题：过拟合及其处理方式结构化数据和非结构化数据的区别是什么如何选择合适的机器学习算法来处理非结构化数据可用于文本分析的机器学习算法都有哪些Python机器学习实战：遗传算法机器学习基础：什么是启发式算法机器学习中常用的调节参数的方法（附P
00_01 python机器学习_环境搭建辛　欣机器学习 python sklearn
机器学习环境的搭建Windows+Python3Python3下载地址python环境设置安装尽量安装在自定义目录下,方便查找,其他选项都用默认值就行.安装成功后,cmd里输入python校验.下载用于机器学习的虚拟环境的包>python-mpipvirtualenv初始化虚拟环境#进入到自定义要保存环境的位置>cdxxxxxx#.venv是新创建的用于存放机器学习必要包的文件夹,名字可以随意起,
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
python 支持向量机回归_深入浅出python机器学习---支持向量机SVM 笔记0114-2020 weixin_39864387 python 支持向量机回归
题前故事：小D最近也交了一个女朋友，但是这个女孩好像非常情绪化，喜怒无常，让小D捉摸不透，小D女朋友的情绪完全不是“线性可分”的，于是小D想到了SVM算法，也就是大名鼎鼎的一一支持向量机。支持向量机理解引入首先需要知道线性可分和线性不可分的概念我们提取样本特征是“是否有妹子”和“是否有好吃的”这两项的时候，能够很容易用图中的直线把男生的情绪分成“开心”和“不开心”两类，这种情况下我们说样本是线性可
python程序员工资高吗？ lmseo5hy python培训 python程序员
据统计数据显示，北京Python平均薪资为18860元，Python不同岗位薪资范围为：Python全栈开发工程师（10k-20K）、Python运维开发工程师（15k-20K）、Python高级开发工程师（15k-30K）、Python大数据工程师（15K-30K）、Python机器学习工程师（15k-30K）、Python架构师（20k-40k）等，相比于Java、PHP、C#等其他的编程语言
Python 机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习算法链管道网格搜索
Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明目录Python机器学习基础之算法链与管道【算法链与管道/预处理进行参数选择/构建管道/在网格搜索中使用管道】的简单说明一、简单介绍二、算法链与管道1、算法链与管道的概念2、使用Pipeline的示例3、关键点说明三、用预处理进行参数选择四、构建管道五、在网格搜索中使用管道1、举例说
Python 机器学习基础之模型评估与改进【评估指标与评分】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习模型评估与改进评估指标与评分召回率
Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明目录Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明一、简单介绍二、评估指标与评分1、牢记最终目标2、二分类指标1）错误类型2）不平衡数据集3）混淆矩阵4）考虑不确定性5）准确率-召回率曲线6）受试者工作特征（ROC）与AUC3、多分类指标4、回归指标5、在模型选择中使用评估指标附录一、参考文献一、简单介绍Py
深入探索Python机器学习算法：模型评估数据攻城小狮子 Python机器学习 python 机器学习算法 sklearn 人工智能
深入探索Python机器学习算法：模型评估文章目录深入探索Python机器学习算法：模型评估模型评估1.数据集划分1.1划分原则和方法1.2交叉验证技术1.3不同数据集划分方法的适用性2.评估指标分析2.1分类任务评估指标2.2回归任务评估指标2.3不同评估指标的选择和比较3.模型评估的注意事项3.1避免数据泄露问题3.2评估指标的稳定性和可靠性模型评估1.数据集划分1.1划分原则和方法在机器学习
深入解析Python机器学习库Scikit-Learn的应用实例 caihuayuan5 面试题汇总与解析 spring boot java 后端大数据课程设计
深入解析Python机器学习库Scikit-Learn的应用实例随着人工智能和数据科学领域的迅速发展，机器学习成为了当下最炙手可热的技术之一。而在机器学习领域，Python作为一种功能强大且易于上手的编程语言，拥有庞大的生态系统和丰富的机器学习库。其中，Scikit-Learn作为Python中一个重要的机器学习库，包含了许多常用的机器学习算法和工具，可用于数据挖掘、数据分析和预测建模等应用场景。
python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习... 坂田月半
内容简介O'ReillyMedia,Inc．介绍第1章向量、矩阵和数组1.0简介1.1创建一个向量1.2创建一个矩阵1.3创建一个稀疏矩阵1.4选择元素1.5展示一个矩阵的属性1.6对多个元素同时应用某个操作1.7找到最大值和最小值1.8计算平均值、方差和标准差1.9矩阵变形1.10转置向量或矩阵1.11展开一个矩阵1.12计算矩阵的秩1.13计算行列式1.14获取矩阵的对角线元素1.15计算矩阵
PYTHON机器学习小项目教程：预测鸢尾花种类 jackispy python 机器学习人工智能
我们将使用经典的鸢尾花数据集来构建一个分类模型，该数据集包含150个样本，每个样本有四个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。目标是根据这些特征预测鸢尾花的种类（山鸢尾、变色鸢尾或维吉尼亚鸢尾）。一、环境配置首先，确保你已经安装了必要的库。如：pandas、numpy等，命令如下所示pipinstallnumpypandasscikit-learnmatplotlib[-i镜像源网站]二、
【Rust】——使用Drop Trait 运行清理代码和Rc＜T＞引用计数智能指针 Y小夜 Rust（官方文档重点总结）rust 开发语言后端
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，Python机器学习等主页链接：Y小夜-CSDN博客目录使用DropTrait运行清理代码通过std::mem::drop提早丢弃值
Python机器学习库之scikit-llm使用详解 Rocky006 python 开发语言
概要Pythonscikit-llm库是一个用于机器学习的强大工具，它基于scikit-learn库并扩展了一些机器学习算法和功能，可以帮助开发者更轻松地进行机器学习模型的训练和评估。安装可以使用pip工具来安装Pythonscikit-llm库：pip install scikit-llm安装完成后，就可以开始使用scikit-llm库进行机器学习任务了。特性支持多种机器学习算法，如线性回归、逻
Python机器学习舆情分析项目案例分享数澜悠客数字化转型 python 机器学习开发语言
数据收集与准备1.数据收集多样化数据源：从社交媒体平台（如微博、Twitter）、新闻网站、论坛等多渠道收集数据，以获取更全面的舆情信息。可以使用Python的requests库和网页解析库（如BeautifulSoup）进行网页数据爬取，使用Tweepy库获取Twitter数据。数据标注：对于监督学习，需要对收集到的数据进行标注，标记为积极、消极或中性等类别。可以使用人工标注的方式，也可以利用半
python 学习路线 Coding Happily python 学习 windows
学习顺序《python编程：从入门到实践》《Head-FirstPython》《“笨方法”学python3》《PythonCookbook》《Python机器学习基础教程》《FluentPython》《Python编程》《Python编程：从入门到实践》变量变量命名：仅用小写和下划线。变量本质:指向特定的值。字符串在字符串中使用变量：f’{varies1}{varies2}’更早版本:‘{}{}’
Python机器学习实战：独热编码 python游乐园机器学习 python 机器学习人工智能
独热编码（One-HotEncoding）是一种用于将分类数据转换为适合机器学习算法处理的数值型数据的编码技术。基本概念在机器学习中，很多算法要求输入的数据是数值型的，但实际数据中常常包含分类变量，比如颜色（红、绿、蓝）、性别（男、女）等。独热编码就是为了解决这个问题而设计的，它将每个类别变量转换为一个二进制向量。原理对于一个具有n个不同类别的分类变量，独热编码会创建一个长度为n的二进制向量。在这
【Python三方库】Python机器学习开源库之dlib库的简介、安装、使用方法、示例代码、注意事项等详细攻略 I'mAlex Python三方库 python 机器学习开源
dlib是一个强大且多功能的库，广泛应用于计算机视觉领域。本文详细介绍了dlib的简介、安装及使用方法，包括面部检测、特征点检测和人脸识别等功能。通过这些基本功能的示例，你可以逐步深入了解并实际应用dlib库，解决更多复杂的计算机视觉问题。掌握dlib库不仅能提升你的编程技能，还能为你以后在计算机视觉领域的研究与应用打下坚实的基础。希望这篇文章能让你更好地理解和使用dlib库，开启你的计算机视觉之
Python机器学习实战：主成分分析(PCA)的原理和实战操作 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：主成分分析(PCA)的原理和实战操作1.背景介绍1.1什么是主成分分析(PCA)？主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的无监督学习算法，用于数据降维和特征提取。它通过线性变换将原始高维数据映射到低维空间，同时保留数据的主要特征和信息。PCA的目标是找到数据中最主要的方向（主成分），沿着这些方向对数据进行投影，从而实现降维。1
Python机器学习实战：人脸识别技术的实现和挑战 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：人脸识别技术的实现和挑战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：人脸识别技术,模型训练,多人识别,动态人脸检测,应用场景1.背景介绍1.1问题的由来随着科技的进步和互联网的普及，人脸识别技术因其在安全验证、生物特征识别、智能监控等多个领域的广泛应用而迅速崛起。从传统的门禁系统到现代的人脸支付、社交媒体的自动登
python（scikit-learn）实现k均值聚类算法嘿哈哈哈哈哈哈机器学习聚类 python 算法机器学习人工智能
k均值聚类算法原理详解示例为链接中的例题直接调用python机器学习的库scikit-learn中k均值算法的相关方法fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotlib.pyplotaspltx=np.array([[0,2],[0,0],[1,0],[5,0],[5,2]])#计算k均值聚类kmeans=KMeans(n_
Scikit-learn提供了哪些机器学习算法以及如何使用Scikit-learn进行模型训练和评估 Java资深爱好者机器学习 scikit-learn 算法
Scikit-learn库的使用一、Scikit-learn提供的机器学习算法Scikit-learn（通常简称为sklearn）是一个广泛使用的Python机器学习库，它提供了多种用于数据挖掘和数据分析的算法。Scikit-learn支持的机器学习算法可以大致分为以下几类：分类算法：支持向量机（SVM）随机森林（RandomForest）逻辑回归（LogisticRegression）朴素贝叶斯
超实用的Python机器学习教程 - 基于scikit - learn库 AI_DL_CODE 人工智能 python 机器学习人工智能
一、机器学习简介机器学习的定义与概念机器学习是一门多领域交叉学科，它涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简单来说，机器学习是让计算机从数据中学习规律并进行预测或决策的技术。它旨在构建能够自动从数据中学习模式并进行改进的算法，而无需被明确编程来执行特定任务。例如，我们可以让机器学习算法通过分析大量的历史天气数据来预测未来的天气情况，或者通过分析用户的购物历史来推荐可能感兴趣
Python 机器学习基础之【常用机器学习库】 NumPy 数值计算库仙魁XAN Python 机器学习基础+实战案例 python 机器学习 numpy 数值计算
Python机器学习基础之【常用机器学习库】NumPy数值计算库目录Python机器学习基础之【常用机器学习库】NumPy数值计算库一、简单介绍二、Numpy基础1、安装NumPy2、导入NumPy3、创建数组4、数组操作5、常用函数6、矩阵运算7、广播机制8、随机数三、在机器学习中使用到Numpy的简单示例1、数据预处理1.1数据归一化1.2数据标准化2、特征工程1.1多项式特征3、简单线性回归
scikit-learn基本功能和示例代码 weixin_30777913 深度学习机器学习 python scikit-learn
scikit-learn（简称sklearn）是一个广泛使用的Python机器学习库，提供了丰富的工具和算法，涵盖了数据预处理、模型训练、评估和优化等多个方面。scikit-learn是一个功能强大的机器学习库，涵盖了数据预处理、分类、回归、聚类、降维、模型选择与评估等多个方面。通过上述代码示例，您可以快速上手并使用scikit-learn进行机器学习任务。以下是对scikit-learn主要功能
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
【2025 ODA teigha .NET系列开发教程第五章】给CAD实体添加附属数据XDATA，包括源码三好学生～张旺 ODA Teigha .NET开发教程 .net
系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档2025ODAteigha.NET系列开发教程系列文章目录AutoCADXData扩展数据开发指南什么是XData？XData的两种存储方式1.全局字典存储(XRecord)2.实体附加存储步骤1：注册应
【Springboot】——响应与分层解耦架构 Y小夜架构 spring boot 后端 java spring
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，设计模式、Python机器学习、Springboot等主页链接：Y小夜-CSDN博客目录响应响应数据✨@ResponseBody✨G
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地