我爱Python数据挖掘

我总结了五种常用聚类分析算法，推荐收藏

大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分。

基本思想

物以类聚、人以群分

常用于数据探索或挖掘前期

没有先验经验做探索性分析
样本量较大时做预处理

解决问题

数据集可以分几类
每个类别有多少样本量
不同类别中各个变量的强弱关系如何
不同类型的典型特征是什么

应用

群类别间的差异性特征分析
群类别内的关键特征提取
图像压缩、分割、图像理解
异常检测
数据离散化

缺点: 无法提供明确的行动指向; 数据异常对结果有影响。

限于篇幅，完整源码、技术交流，文末获取

K-Means 聚类

K-Means算法的思想简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。

均值聚类是一种矢量量化方法，起源于信号处理，是数据挖掘中流行的聚类分析方法。

算法原理

随机K个质心；
开始循环，计算每个样本点到那个质心到距离，样本离哪个近就将该样本分给哪个质心，得到K个簇；
对于每个簇，计算所有被分到该簇的样本点的平均距离作为新的质心；
直到所有簇不再发生变化。

衡量指标

组内平方和：Total_Inertia
轮廓系数：组内差异，组间差异取值范围越大越好

优化目标

内差异小，簇间差异大；其中差异由样本点到其所在簇的质心的距离衡量

应用

客户分群、用户画像、精确营销、基于聚类的推荐系统

K-Means算法的优点

k-means算法是解决聚类问题的一种经典算法，算法简单、快速。
算法尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的，且簇与簇之间区别明显时，聚类效果较好。

缺点

k-means方法只有在簇的平均值被定义的情况下才能使用，且对有些分类属性的数据不适合。
要求用户必须事先给出要生成的簇的数目k。
对初值敏感，对于不同的初始值，可能会导致不同的聚类结果。
不适合于发现非凸面形状的簇，或者大小差别很大的簇。
对于"噪声"和孤立点数据敏感，少量的该类数据能够对平均值产生极大影响。

单支股票单个字段聚类

仍然以股市数据为例，根据每支股票整个时间段内的股价特征，将相似的那些交易日打上标签，并通过可视化方式将整个时间段内的交易日开盘价与收盘价展现出来。

数据准备

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
import yfinance as yf
yf.pdr_override()

symbol = 'TCEHY'
start = '2020-01-01'
end = '2021-01-01'

dataset = yf.download(symbol,start,end)
dataset.head()

数据标准化

X = dataset[['Open','High','Low','Close','Adj Close','Volume']]
from sklearn.preprocessing import StandardScaler
X = dataset.values[:,1:]
X = np.nan_to_num(X)
Clus_dataSet = StandardScaler().fit_transform(X)
Clus_dataSet

array([[-1.33493398, -1.31490333, -1.33543485, 
        -1.33612775, -0.95734284],
       [-1.19325204, -1.16643501, -1.15260357, 
        -1.15474442,  0.23740018],
       ...,
       [ 0.99796748,  1.03600566,  0.98270623,  
         0.98235044, -0.41634718],
       [ 1.0222281 ,  0.97701185,  0.99932706,  
         0.99888395, -0.63830968]])

模型建立

from sklearn.cluster import KMeans 
# 设置簇中心个数
clusterNum = 3
k_means = KMeans(init = "k-means++", 
                 n_clusters = clusterNum,
                 n_init = 12)
k_means.fit(X)
labels = k_means.labels_
print(labels)

[1 0 1 0 0 1 1 0...1 1]

设置价格标签

dataset["Prices"] = labels
dataset.head(5)

将三个聚类中心聚合求均值

dataset.groupby('Prices').mean()

可视化

以类别为颜色，开盘价为散点的面积绘制开盘价和收盘价的气泡图。

area = np.pi * ( X[:, 1])**2  
plt.figure(figsize=(10,6))
plt.scatter(X[:, 0], X[:, 3], s=area, 
            c=labels.astype(np.float), 
            alpha=0.5)
plt.xlabel('Open', fontsize=18)
plt.ylabel('Close', fontsize=16)
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.xlim([35,95])
plt.ylim([30,100])
plt.show()

3D可视化聚类结果

from mpl_toolkits.mplot3d import Axes3D 
fig = plt.figure(1, figsize=(8, 6))
plt.clf() # Clear figure
# 设置3d画布
ax = Axes3D(fig, rect=[0, 0, .95, 1], elev=48, azim=134)
plt.cla() # Clear axis
ax.set_xlabel('High', fontsize=18)
ax.set_ylabel('Open', fontsize=16)
ax.set_zlabel('Close', fontsize=16)
# 绘制散点图
ax.scatter(X[:, 1], X[:, 0], X[:, 3], c= labels.astype(np.float))

多支股票单个字段聚类

数据获取

从维基百科中获取股票符号、行业和子行业。

# 美股
wiki_table = pd.read_html('https://en.wikipedia.org/wiki/List_of_S%26P_500_companies',header=0)[0]
symbols = list(wiki_table['Ticker symbol'])
# A股
import urllib
word = '深圳证券交易所主板上市公司列表'
word = urllib.parse.quote(word)
wiki_table = pd.read_html(f'https://zh.wikipedia.org/wiki/{word}',header=0)[0]
symbols = list(wiki_table['公司代码'])

或直接在深圳证券交易所下载A股列表。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd 
import baostock as bs
# 从下载下来的A股列上获取上市公司名称及代码
zero = '000000'
A_table = pd.read_excel('./A股列表.xlsx')
A_codes = A_table['A股代码'].map(lambda x: zero[0: 6 - len(str(x))] + str(x))[0: 200].values
A_names = A_table['A股简称'][0: 200].values
print(A_codes)

['000001' '000002' '000004' '000005' '000006' '000007' '000008' '000009'
 '000010' '000011' '000012' '000014' '000016' '000017' '000019' '000020'
  ...
 '000611' '000612' '000613' '000615' '000616' '000617' '000619' '000620'
 '000622' '000623' '000625' '000626' '000627' '000628' '000629' '000630']

根据上面获得的股票代码下载相应日k线图。

bs.login()
dataset = pd.DataFrame()
for num, A_code in enumerate(A_codes):
    print(A_code)
    result = bs.query_history_k_data(A_code, fields = 'date,close',
                                    start_date = '2020-01-01',
                                    end_date = '2021-01-01',
                                    frequency='d')
    df_result = result.get_data().rename(columns={'close':A_names[num]})
    
    if num == 0:
        dataset = df_result
    else:
        dataset = dataset.merge(df_result, on=['date'])
bs.logout()
dataset = dataset.set_index('date').applymap(lambda x: float(x))

数据预处理

import math
# 计算一个理论一年的平均年收益率Returns和波动率Volatility
returns = dataset.pct_change().mean() * 252
returns = pd.DataFrame(returns)
# print(returns)
returns.columns = ['Returns']
returns['Volatility'] = dataset.pct_change(
                    ).std() * math.sqrt(252)
# print(returns['Volatility'])
# 将数据格式化为numpy数组以提供给K-Means算法
data = np.asarray(
          [np.asarray(returns['Returns']),
           np.asarray(returns['Volatility'])]
           ).T
# 删除NaN值，将其替换为0
cleaned_data = np.where(np.isnan(data), 0, data)
X = cleaned_data

建立聚类模型

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# 在变量“n_clusters”中定义集群数量
n_clusters = 12

# 数据聚类
kmeans = KMeans(n_clusters)
kmeans.fit(X)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=12, n_init=10, n_jobs=None, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

绘制学习曲线

from sklearn.cluster import KMeans

min_clusters = 1
max_clusters = 20
distortions = []
for i in range(min_clusters, max_clusters+1):
    km = KMeans(n_clusters=i,
                init='k-means++',
                n_init=10,
                max_iter=300,
                random_state=0)
    km.fit(X)
    distortions.append(km.inertia_)
    
# 绘图
plt.figure(figsize=(14,6))
plt.plot(range(min_clusters, max_clusters+1), distortions, marker='o')
plt.xlabel("Number of clusters", fontsize=18)
plt.ylabel("Distortion", fontsize=16)
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.show()

绘制轮廓系数

wcss = []
from sklearn.metrics import silhouette_score
for k in range(2, 20):
    k_means = KMeans(n_clusters=k)
    k_means.fit(X)
    wcss.append(silhouette_score(X, k_means.labels_))
fig = plt.figure(figsize=(15, 5))
plt.plot(range(2, 20), wcss)
plt.grid(True)
plt.xticks(fontsize=15)
plt.xlabel("Number of clusters", fontsize=18)
plt.ylabel('Silhouette_score', fontsize=15)
plt.title('Silhouette_score curve', fontsize=18)
plt.show()

简单判断下，图中拐点位置大致在聚类中心个数为9时，此时轮廓系数最小。则n_clusters可以选择等于9.

scipy中的k-means

from scipy.cluster.vq import kmeans, vq
# 计算 K = 5 的K均值(5个簇)
centroids,_ = kmeans(cleaned_data,5)
# 将每个样本分配给一个簇
idx,_ = vq(cleaned_data,centroids)
data = cleaned_data

绘制聚类散点图

将每种簇按照不同的颜色区分绘制，同时绘制出簇中心。

统计每个股票属于哪个簇

details = [(name,cluster) for name, 
          cluster in zip(returns.index,idx)]
labels =['A股简称', 'Cluster']
df = pd.DataFrame.from_records(details, 
                               columns=labels)
df.head(n=10)

|
| A股简称 | Cluster |
| — | — | — |
| 0 | 平安银行 | 3 |
| 1 | 万科Ａ | 1 |
| 2 | 国华网安 | 3 |
| 3 | 世纪星源 | 1 |
| 4 | 深振业Ａ | 3 |
| 5 | 全新好 | 2 |
| 6 | 神州高铁 | 2 |
| 7 | 中国宝安 | 3 |
| 8 | 美丽生态 | 3 |
| 9 | 深物业A | 0 |

多支股票多个字段举例

stocks_dict = dict(zip(A_names,A_codes))
bs.login()
dataset = []
for names, A_code in stocks_dict.items():
    print(A_code)
    result = bs.query_history_k_data(A_code, fields = 'date,open,high,low,close,volume',
                                    start_date = '2020-01-01',
                                    end_date = '2021-01-01',
                                    frequency='d')
    df_result = result.get_data()
    dataset.append(df_result)
bs.logout()

# 获取开盘价
open_price = np.array([p["open"] for p in dataset]).astype(np.float)

# 获取收盘价
close_price = np.array([p["close"] for p in dataset]).astype(np.float)
# 计算变化率
X = (close_price - open_price) / open_price

建模

from sklearn.cluster import KMeans
# 定义聚类中心个数
n_clusters = 12
kmeans = KMeans(n_clusters)
kmeans.fit(X)
# 输出结果
labels = kmeans.labels_
for i in range(n_clusters):
    print('Cluster %i: %s' % ((i + 1), 
          ', '.join(A_names[labels == i])))

使用管道链接归一化和聚类模型

from sklearn.pipeline import make_pipeline
from sklearn.cluster import KMeans
from sklearn.preprocessing import Normalizer

normalizer = Normalizer()
kmeans = KMeans(n_clusters=10, max_iter = 1000)
# 制作一个管道链接归一化和kmeans
pipeline = make_pipeline(normalizer, kmeans)
pipeline.fit(X)
labels = pipeline.predict(X)
df = pd.DataFrame({'labels':labels,
                   'companies':A_names})
print(df.sort_values('labels'))

     labels companies
434       0      华铁股份
472       0      协鑫能科
419       0      首钢股份
417       0      中通客车
194       0      长安汽车
..      ...       ...
266       9      鲁  泰Ａ
268       9      国元证券
467       9      传化智联
234       9      中山公用
0         9      平安银行

[500 rows x 2 columns]

使用PCA降维

如果用于聚类的数据维度很高，在使用聚类分析时通常会占用过程的计算时间。此时运用PCAj降维方法。

from sklearn.preprocessing import Normalizer
from sklearn.decomposition import PCA
normalizer = Normalizer()
new_X = normalizer.fit_transform(X)
# 使用PCA降维
reduced_data = PCA(n_components = 2).fit_transform(new_X)
#对降维后的数据训练kmeans
kmeans = KMeans(n_clusters =10)
kmeans.fit(reduced_data)
labels = kmeans.predict(reduced_data)
# print(kmeans.inertia_)
# 创建DataFrame
df = pd.DataFrame({'labels':labels,
                   'companies':A_names})
# 根据标签排序
print(df.sort_values('labels'))

3.2745576650179067
     labels companies
339       0      *ST长动
445       0      诚志股份
37        0      德赛电池
244       0      模塑科技
41        0      深 赛 格
..      ...       ...
275       9      南风化工
108       9      国际医学
22        9      深深房Ａ
444       9      九 芝 堂
164       9      *ST金洲

[500 rows x 2 columns]

可视化簇及簇中心

Mini-Batch K-Means聚类

Mini Batch K-Means算法是K-Means算法的变种，采用小批量的数据子集减小计算时间，同时仍试图优化目标函数，这里所谓的小批量是指每次训练算法时所随机抽取的数据子集，采用这些随机产生的子集进行训练算法，大大减小了计算时间，与其他算法相比，减少了K-Means的收敛时间，小批量K-Means产生的结果，一般只略差于标准算法。

该算法的迭代步骤有两步：

从数据集中随机抽取一些数据形成小批量，把他们分配给最近的质心
更新质心

与K-Means算法相比，数据的更新是在每一个小的样本集上。对于每一个小批量，通过计算平均值得到更新质心，并把小批量里的数据分配给该质心，随着迭代次数的增加，这些质心的变化是逐渐减小的，直到质心稳定或者达到指定的迭代次数，停止计算。

单支股票多个字段

import baostock as bs
bs.login()
result = bs.query_history_k_data('sh.601318', fields = 'date,open,high, low,close,volume',
                                    start_date = '2018-01-01',
                                    end_date = '2021-01-01',
                                    frequency='d')
dataset = result.get_data().set_index('date').applymap(lambda x: float(x))
bs.logout()

dataset['Increase_Decrease'] = np.where(dataset['volume'].shift(-1) > dataset['volume'],1,0)
dataset['Buy_Sell_on_Open'] = np.where(dataset['open'].shift(-1) > dataset['open'],1,0)
dataset['Buy_Sell'] = np.where(dataset['close'].shift(-1) > dataset['close'],1,0)
dataset['Returns'] = dataset['close'].pct_change()
dataset = dataset.dropna()
dataset.tail()

模型建立

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import MiniBatchKMeans

X = dataset.drop(['close', 'open'], axis=1).values
Y = dataset['close'].values
# 数据标准化
scaler = StandardScaler()
X_std = scaler.fit_transform(X)
# 创建聚类对象
clustering = MiniBatchKMeans(n_clusters=3, random_state=0, batch_size=100)
# 训练模型
model = clustering.fit(X_std)

预测结果

model.cluster_centers_
model.labels_
model.predict(X,Y)

基于图的 AP 聚类

Affinity Propagation Clustering（简称AP算法）特别适合高维、多类数据快速聚类，相比传统的聚类算法，该算法算是比较新的，从聚类性能和效率方面都有大幅度的提升。

AP算法的基本思想：将全部样本看作网络的节点，然后通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中，共有两种消息在各节点间传递，分别是吸引度( responsibility)和归属度(availability) 。

AP算法通过迭代过程不断更新每一个点的吸引度和归属度值，直到产生m个高质量的Exemplar（类似于质心），同时将其余的数据点分配到相应的聚类中。

AP算法流程：

步骤1：算法初始，将吸引度矩阵R和归属度矩阵初始化为0矩阵；
步骤2：更新吸引度矩阵
步骤3：更新归属度矩阵
步骤4：根据衰减系数对两个公式进行衰减
重复步骤2，3,4直至矩阵稳定或者达到最大迭代次数，算法结束。
最终取最大的k作为聚类中心。

AP聚类算法的特点：

无需指定聚类“数量”参数。
明确的质心（聚类中心点）。
对距离矩阵的对称性没要求。
初始值不敏感。
算法复杂度较高，为，为样本数，为迭代次数，而K-Means只是的复杂度。
若以误差平方和来衡量算法间的优劣，AP聚类比其他方法的误差平方和都要低。

AP算法相对K-Means鲁棒性强且准确度较高，但没有任何一个算法是完美的，AP聚类算法也不例外：

AP聚类应用中需要手动指定Preference和Damping factor，这其实是原有的聚类“数量”控制的变体。
算法较慢。由于AP算法复杂度较高，运行时间相对K-Means长，这会使得尤其在海量数据下运行时耗费的时间很多。

数据准备

market_dates = np.vstack([dataset.index])
open_price = np.array([p["open"] for p in dataset]).astype(np.float)
high_price = np.array([p["high"] for p in dataset]).astype(np.float)
low_price = np.array([p["low"] for p in dataset]).astype(np.float)
close_price = np.array([p["close"] for p in dataset]).astype(np.float)
volume_price = np.array([p["volume"] for p in dataset]).astype(np.float)

数据预处理

# 计算变化率
X = (close_price - open_price) / open_price
# 每日变化的报价是什么携带最多的信息
variation = close_price - open_price
from sklearn import cluster, covariance, manifold, preprocessing
# 从相关性中学习图形结构
edge_model = covariance.GraphicalLassoCV()
# 标准化时间序列:使用相关性而不是协方差
# 是更有效的结构恢复
X = variation.copy().T

# 在对输入数据进行归一化之后，经验协方差矩阵的特征值仍然跨越大约[0-8]的较大范围。
# 使用sklearn.covariance.shrunk_covariance（）函数缩小此范围可以使其在计算上更容易接受
myScaler = preprocessing.StandardScaler()
X = myScaler.fit_transform(X)
emp_cov = covariance.empirical_covariance(X)
shrunk_cov = covariance.shrunk_covariance(emp_cov, shrinkage=0.8)

模型训练

edge_model.fit(shrunk_cov)
# 使用ffinity propagation聚类
_, labels = cluster.affinity_propagation(edge_model.covariance_)
n_labels = labels.max()
for i in range(n_labels + 1):
    print('Cluster %i: %s' % ((i + 1), ', '.join(A_names[labels == i])))

市场结构可视化

算法的基本思想是将样本数据看做网络的节点，根据节点之间的相互关系计算出每个节点作为聚类中心的合适程度，选择合适程度最高的几个数据节点作为聚类中心，并将其他节点分配给最合适的聚类中心。

DBSCAN 聚类

一种基于密度的带有噪声的空间聚类。它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据集中发现任意形状的聚类。

基于密度的空间聚类与噪声应用。寻找高密度的核心样本，并从中扩展星团。适用于包含相似密度的簇的数据。

DBSCAN算法将聚类视为由低密度区域分隔的高密度区域。由于这种相当通用的观点，DBSCAN发现的集群可以是任何形状，而k-means假设集群是凸形的。DBSCAN的核心组件是核心样本的概念，即位于高密度区域的样本。因此，一个集群是一组彼此接近的核心样本(通过一定的距离度量)和一组与核心样本相近的非核心样本(但它们本身不是核心样本)。

>>> from sklearn.cluster import DBSCAN
>>> import numpy as np
'''
X = np.array([[1, 2], [2, 2], [2, 3],
              [8, 7], [8, 8], [25, 80]])
'''
>>> clustering = DBSCAN(eps=3, min_samples=2).fit(X)
>>> clustering.labels_
'array([ 0,  0,  0,  1,  1, -1])'
>>> clustering
'DBSCAN(eps=3, min_samples=2)'

eps float, default=0.5 两个样本之间的最大距离，其中一个样本被认为是相邻的。这不是集群内点的距离的最大值，这是为您的数据集和距离函数选择的最重要的DBSCAN参数。

min_samples int, default=5 被视为核心点的某一邻域内的样本数(或总权重)。这包括点本身。

层次聚类

层次聚类（Hierarchical Clustering）在数据挖掘和统计中，层次聚类是一种聚类分析方法，旨在建立一个层次的聚类。

层次聚类(Hierarchical Clustering)通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法，

合并算法

层次聚类的合并算法通过计算两类数据点间的相似性，对所有数据点中最为相似的两个数据点进行组合，并反复迭代这一过程。

简单来说

通过计算每一个类别的数据点与所有数据点之间的欧式距离来确定它们之间的相似性，距离越小，相似度越高。并将距离最近的两个数据点或类别进行组合，生成聚类树。

数据准备

import baostock as bs
bs.login()
result = bs.query_history_k_data('sh.601318', fields = 'date,open,high, low,close,volume',
                                    start_date = '2017-01-01',
                                    end_date = '2021-01-01',
                                    frequency='d')
dataset = result.get_data().set_index('date').applymap(lambda x: float(x))
bs.logout()
dataset = dataset.dropna()
dataset = dataset.reset_index(drop=True)
print("Shape of dataset after cleaning: ", dataset.size)
dataset.head(5)

Shape of dataset after cleaning:  4870

数据预处理

features = dataset[['open','high','low','close','volume']]
# 标准化
# 将每个数据缩放到0和1之间
from sklearn.preprocessing import MinMaxScaler
x = features.values #returns a numpy array
min_max_scaler = MinMaxScaler()
feature_mtx = min_max_scaler.fit_transform(x)
feature_mtx [0:5]

array([[0.00189166, 0.00996622, 0.00734394,  
        0.00807977, 0.04191282],
       [0.00791058, 0.00625   , 0.0106662 , 
        0.00756404, 0.02496157],
       [0.00859845, 0.00878378, 0.01363875, 
        0.00893932, 0.03806948],
       [0.00859845, 0.00793919, 0.00786851, 
        0.00395393, 0.06706422],
       [0.00412726, 0.00219595, 0.00646966, 
        0.00361011, 0.03184948]])

scipy中的层次聚类

聚类模型建立

criterion='distance'

import scipy
leng = feature_mtx.shape[0]
D = np.zeros([leng,leng])
for i in range(leng):
    for j in range(leng):
        # 计算两个一维数组之间的欧氏距离。
        # scipy.spatial.distance中包含各种距离的计算
        D[i,j] = scipy.spatial.distance.euclidean(feature_mtx[i], feature_mtx[j])
        
from scipy.cluster import hierarchy 
from scipy.cluster.hierarchy import fcluster

Z = hierarchy.linkage(D, 'complete')
max_d = 3
clusters = fcluster(Z, max_d, criterion='distance')
clusters

array([43, 43, 43, 43, 43, 43, 43, 43, 43, 
       44, 43, 43, 43, 43, 43, 43, 43,
       43, 43, 45, 43, 43, 43, 43, 45, 43, 
       45, 43, 45, 45, 45, 45, 45, 43,
        ...
       30, 30, 30, 30, 32, 32, 30, 28, 28, 
       28, 28, 28, 38, 38, 36, 34, 33,
       33, 33, 33, 36, 36, 37, 37, 38, 37, 
       28, 37, 37, 37, 37, 28, 27, 27,
       30, 27, 28, 28, 28], dtype=int32)

criterion='maxclust'

from scipy.cluster.hierarchy import fcluster
k = 5
clusters = fcluster(Z, k, criterion='maxclust')
clusters

array([4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4,
       4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4,
       ...
       2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2], dtype=int32)

fcluster参数

scipy.cluster.hierarchy.fcluster(Z,    
                    t, 
                    criterion='inconsistent', 
                    depth=2, 
                    R=None, 
                    monocrit=None)
Z: ndarray

根据给定的链接矩阵定义的层次聚类，形成平面聚类。

t: scalar

对于 “inconsistent”, "distance "or “monocrit” 的标准，这是形成平面集群时要应用的阈值。

对于"maxclust"或"maxclust_monocrit"标准，这将是请求的最大集群数量。

criterion: str 可选参数
用于形成扁平集群的标准。可以是以下任何值：

inconsistent:

如果一个集群节点及其所有后代节点的值小于或等于t的值不一致，那么它的所有叶子后代都属于同一个平面集群。当没有非单例集群满足此条件时，每个节点都被分配到自己的集群中。(默认)

distance:

形成扁平的群集，使每个平面集群的原始观测结果不大于同聚距离。

maxclust:

求一个最小阈值，使同一平面集群中任意两个原始观测之间的同聚距离不大于且不超过个聚类形成的平面集群

monocrit:

当monocrit[j] <= t时，从索引为i的簇节点c形成一个扁平集群

例如，对不一致矩阵R中计算的最大平均距离阈值设为0.8的阈值:
MR = maxRstat(Z, R, 3)
fcluster(Z, t=0.8, criterion='monocrit', monocrit=MR)
maxclust_monocrit:

当下面和包括的所有集群指数时，从非单子集群节点形成一个扁平的集群。最小化，以至于形成不超过扁平的集群。单节必须是单调的。例如，要最大限度地降低最大不一致值上的阈值 t，以便形成不超过 3 个平面集群，则需要：

从一个非单例集群节点形成一个平面集群时，所有的集群索引都被最小化，这样只会形成一个平面集群。monocrit 必须是单调的。

例如，要最小化最大不一致性值的阈值t，以便形成不超过3个平面集群，请执行:cmonocrit[i] <= ricrt
MI = maxinconsts(Z, R)
fcluster(Z, t=3, criterion='maxclust_monocrit', monocrit=MI)

可视化层次聚类

import pylab
fig = pylab.figure(figsize=(18,50))
def llf(id):
    return '[%s %s %s]' % (dataset['high'][id], dataset['low'][id], int(float(dataset['close'][id])) )
    
dendro = hierarchy.dendrogram(Z,  leaf_label_func=llf, leaf_rotation=0, leaf_font_size =12, orientation = 'right')

pylab 提供了比较强大的画图功能，平常使用最多的应该是画线了。

hierarchy.dendrogram将分层聚类绘制为树状图。

树状图通过在非单例群集及其子级之间绘制一条U-shaped链接来说明每个群集的组成方式。U-link的顶部指示群集合并。U-link的两条腿指示要合并的集群。U-link的两条腿的长度表示子群集之间的距离。它也是两个子类中原始观测值之间的距离。

Z: ndarray

链接矩阵编码分层聚类以呈现为树状图。看到linkage函数以获取有关格式的更多信息Z。

orientation：str, 可选参数
树状图的绘制方向，可以是以下任意字符串：

'top'

在顶部绘制根，并绘制向下的后代链接。(默认)。

'bottom'

在底部绘制根，并绘制向上的后代链接。

'left'

在左边绘制根，在右边绘制后代链接。

'right'

在右边绘制根，在左边绘制后代链接。

leaf_rotation：double, 可选参数
指定旋转叶子标签的角度(以度为单位)。如果未指定，则旋转基于树状图中的节点数(默认为0)。

leaf_font_size：int, 可选参数
指定叶子标签的字体大小(以磅为单位)。未指定时，大小基于树状图中的节点数。

leaf_label_func：lambda 或 function, 可选参数
当leaf_label_func是可调用函数时，对于具有簇索引的每个叶子。该函数应返回带有叶子标签的字符串。

指标对应于原始观察值，而索引对应于非单簇。

层次聚类热图

热图的绘制非常简单，因为seaborn的工具包非常强大，我们使用clustermap函数即可。

import seaborn as sns
sns.clustermap(D,method ='ward',metric='euclidean')

计算距离矩阵

from scipy.spatial import distance_matrix 
# 返回所有成对距离的矩阵。
dist_matrix = distance_matrix(feature_mtx,feature_mtx) 
print(dist_matrix)

[[0.         0.01867314 0.01007541 ... 1.71146908 
  1.71172797 1.75931251]
 [0.01867314 0.         0.01376365 ... 1.70982933 
  1.71026084 1.75873221]
 ...
 [1.71172797 1.71026084 1.70562427 ... 0.02158105 
  0.         0.09823995]
 [1.75931251 1.75873221 1.75346407 ... 0.11352427 
  0.09823995 0.        ]]

sklearn中的层次聚类

from sklearn.cluster import AgglomerativeClustering 
agglom = AgglomerativeClustering(n_clusters = 6, linkage = 'complete')
agglom.fit(feature_mtx)
agglom.labels_

array([3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
     ...
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2], dtype=int64)

dataset['cluster_'] = agglom.labels_
dataset.head()

可视化层次聚类

分别以股票的最高价和最低价为轴，以收盘价为圆圈的面积，以不同颜色区分不同簇，绘制聚类散点图。

每个集群中按交易量聚合并可视化

agg_price = dataset.groupby(['cluster_','volume'])['open','high','low','close'].mean()
agg_price

同样以股票的最高价和最低价为轴，以收盘价为圆圈的面积，以不同颜色区分不同簇，绘制聚类散点图。

技术交流

欢迎转载、收藏、有所收获点赞支持一下！数据、代码可以找我获取

目前开通了技术交流群，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友

方式①、发送如下图片至微信，长按识别，后台回复：加群；
方式②、添加微信号：dkl88191，备注：来自CSDN
方式③、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

你可能感兴趣的:(python,算法,聚类,机器学习)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

我总结了五种常用聚类分析算法，推荐收藏

K-Means 聚类

单支股票单个字段聚类

数据准备

数据标准化

模型建立

设置价格标签

将三个聚类中心聚合求均值

可视化

3D可视化聚类结果

多支股票单个字段聚类

数据获取

数据预处理

建立聚类模型

绘制学习曲线

绘制轮廓系数

scipy中的k-means

绘制聚类散点图

统计每个股票属于哪个簇

多支股票多个字段举例

建模

使用管道链接归一化和聚类模型

使用PCA降维

可视化簇及簇中心

Mini-Batch K-Means聚类

单支股票多个字段

模型建立

预测结果

基于图的 AP 聚类

数据准备

数据预处理

模型训练

市场结构可视化

DBSCAN 聚类

层次聚类

合并算法

简单来说

数据准备

数据预处理

scipy中的层次聚类

聚类模型建立

fcluster参数

可视化层次聚类

层次聚类热图

计算距离矩阵

sklearn中的层次聚类

可视化层次聚类

每个集群中按交易量聚合并可视化

推荐文章

技术交流

你可能感兴趣的:(python,算法,聚类,机器学习)