AIHUBEI

数据降维：主成分分析PCA、线性判别分析LDA、基于核的KPCA

通过降维实现数据压缩

特征提取：将原始特征空间映射变换到新的特征子空间中去

特征提取可以理解为一种保持大部分相关信息，同时对数据进行压缩的一种方法。特征提取不仅可以用来提高学习算法的存储空间或计算效率

还可以通过减少维数灾难来提高预测性能，尤其是在使用了非正则化模型的时候。

from IPython.display import Image
%matplotlib inline

1.通过主成分分析PCA实现无监督降维

主成分分析是一种广泛应用于不同领域的无监督线性变换技术，经常被用于特征提取和降维。

PCA的其他用途包括探索性数据分析和股市交易中信号的去噪，以及生物信息学领域中的基因组数据和基因表达的分析。

主成分分析的目标：在高维数据中找到方差最大的投影方向，将数据投影到与原始数据维度相等或者维数更低的空间中。

1.1主成分分析的主要步骤

# PCA几何表示
Image(filename='images/05_01.png', width=400)

在上图中， $x_1$ 和 $x_2$ 是原始特征轴，PC1和PC2代表主成分

建立一个 $\times k$ 维的变换矩阵 $\boldsymbol{W}$ ,待映射向量 $\boldsymbol{x}$ ，即一个训练样本中的特征：

映射变换后的空间维度为 $d$ ，

特征向量 $\boldsymbol{x}$ 定义如下：

$\boldsymbol{x}=\left[x_{1}, x_{2}, \ldots, x_{d}\right], \quad \boldsymbol{x} \in \mathbb{R}^{d}$
该特征向量通过变换矩阵 $\boldsymbol{W}$ 实现变换映射， $\boldsymbol{W} \in \mathbb{R}^{d \times k}$ .

变换如下：
$\boldsymbol{x} \boldsymbol{W}=\boldsymbol{Z}$

变换之后的输出向量：
$\mathbf{z}=\left[z_{1}, z_{2}, \ldots, z_{k}\right], \quad \boldsymbol{z} \in \mathbb{R}^{k}$

**注意：**PCA方向对数据缩放尺度高度敏感，因此在进行主成分分析之前需要进行特征标准化。

步骤归纳：

1.对原始维度为 $d$ 的数据集进行标准化处理；

2.构建协方差矩阵；

3.进行协方差矩阵分解，得到特征值和特征向量；

4.按照降序对特征值进行排序，以便对相应的特征向量进行排序；

5.选择 $K$ 个最大的特征值所对应的 $K$ 个特征向量，这里的 $K$ 就是新的特征空间的维度 $\leq d))$ ;

6.构建投影矩阵 $\boldsymbol{W}$ ；

7.使用投影矩阵 $\boldsymbol{W}$ 对原始 $d$ 维的输入数据集进行映射转换，得到其在 $K$ 维空间中的表示；

1.2代码示例：逐步提取主成分

import pandas as pd

# 在线载入红酒数据集
df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/'
                      'machine-learning-databases/wine/wine.data',
                      header=None)
# 也可以从UCI数据库中下载，从本地目录加载
# df_wine = pd.read_csv('wine.data', header=None)

df_wine.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash',
                   'Alcalinity of ash', 'Magnesium', 'Total phenols',
                   'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins',
                   'Color intensity', 'Hue',
                   'OD280/OD315 of diluted wines', 'Proline']

df_wine.head()

	Class label	Alcohol	Malic acid	Ash	Alcalinity of ash	Magnesium	Total phenols	Flavanoids	Nonflavanoid phenols	Proanthocyanins	Color intensity	Hue	OD280/OD315 of diluted wines	Proline
0	1	14.23	1.71	2.43	15.6	127	2.80	3.06	0.28	2.29	5.64	1.04	3.92	1065
1	1	13.20	1.78	2.14	11.2	100	2.65	2.76	0.26	1.28	4.38	1.05	3.40	1050
2	1	13.16	2.36	2.67	18.6	101	2.80	3.24	0.30	2.81	5.68	1.03	3.17	1185
3	1	14.37	1.95	2.50	16.8	113	3.85	3.49	0.24	2.18	7.80	0.86	3.45	1480
4	1	13.24	2.59	2.87	21.0	118	2.80	2.69	0.39	1.82	4.32	1.04	2.93	735

df_wine.info()


RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Class label                   178 non-null    int64  
 1   Alcohol                       178 non-null    float64
 2   Malic acid                    178 non-null    float64
 3   Ash                           178 non-null    float64
 4   Alcalinity of ash             178 non-null    float64
 5   Magnesium                     178 non-null    int64  
 6   Total phenols                 178 non-null    float64
 7   Flavanoids                    178 non-null    float64
 8   Nonflavanoid phenols          178 non-null    float64
 9   Proanthocyanins               178 non-null    float64
 10  Color intensity               178 non-null    float64
 11  Hue                           178 non-null    float64
 12  OD280/OD315 of diluted wines  178 non-null    float64
 13  Proline                       178 non-null    int64  
dtypes: float64(11), int64(3)
memory usage: 19.6 KB

df_wine.describe()

	Class label	Alcohol	Malic acid	Ash	Alcalinity of ash	Magnesium	Total phenols	Flavanoids	Nonflavanoid phenols	Proanthocyanins	Color intensity	Hue	OD280/OD315 of diluted wines	Proline
count	178.000000	178.000000	178.000000	178.000000	178.000000	178.000000	178.000000	178.000000	178.000000	178.000000	178.000000	178.000000	178.000000	178.000000
mean	1.938202	13.000618	2.336348	2.366517	19.494944	99.741573	2.295112	2.029270	0.361854	1.590899	5.058090	0.957449	2.611685	746.893258
std	0.775035	0.811827	1.117146	0.274344	3.339564	14.282484	0.625851	0.998859	0.124453	0.572359	2.318286	0.228572	0.709990	314.907474
min	1.000000	11.030000	0.740000	1.360000	10.600000	70.000000	0.980000	0.340000	0.130000	0.410000	1.280000	0.480000	1.270000	278.000000
25%	1.000000	12.362500	1.602500	2.210000	17.200000	88.000000	1.742500	1.205000	0.270000	1.250000	3.220000	0.782500	1.937500	500.500000
50%	2.000000	13.050000	1.865000	2.360000	19.500000	98.000000	2.355000	2.135000	0.340000	1.555000	4.690000	0.965000	2.780000	673.500000
75%	3.000000	13.677500	3.082500	2.557500	21.500000	107.000000	2.800000	2.875000	0.437500	1.950000	6.200000	1.120000	3.170000	985.000000
max	3.000000	14.830000	5.800000	3.230000	30.000000	162.000000	3.880000	5.080000	0.660000	3.580000	13.000000	1.710000	4.000000	1680.000000

from sklearn.model_selection import train_test_split

X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values

X_train, X_test, y_train, y_test = \
    train_test_split(X, y, test_size=0.3, 
                     stratify=y,
                     random_state=0)

数据标准化

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train_std = sc.fit_transform(X_train)
X_test_std = sc.transform(X_test)

计算协方差矩阵：

协方差矩阵为对称阵，维度为 $\times d$ ，其中 $d$ 为数据集中的特征个数；

假设有两个特征 $x_j$ 和 $x_k$ ，协方差计算如下：
$\sigma_{j k}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{j}^{(i)}-\mu_{j}\right)\left(x_{k}^{(i)}-\mu_{k}\right)$

其中， $\mu_{j}$ 和 $\mu_{k}$ 为各自的均值。协方差大于零，说明这两个特征同时增加或减少，协方差小于零，则这两个特征变化方向相反。

三个特征的协方差计算：
$\Sigma=\left[\begin{array}{ccc} \sigma_{1}^{2} & \sigma_{12} & \sigma_{13} \\ \sigma_{21} & \sigma_{2}^{2} & \sigma_{23} \\ \sigma_{31} & \sigma_{32} & \sigma_{3}^{2} \end{array}\right]$

这里的 $\Sigma$ 为希腊字母sigma，而不是代表求和符号。

协方差矩阵的特征向量代表了主成分，特征值则代表了它们的大小。

在红酒数据集中，有13个特征，因此将会从13x13的协方差矩阵中产生13个特征向量和13个特征值。

特征向量满足 $\boldsymbol{v}$ ：
$\Sigma \boldsymbol{v}=\lambda \boldsymbol{v}$
其中， $\lambda$ 为特征值，是标量。

# 协方差矩阵分解
import numpy as np
# 计算协方差矩阵
cov_mat = np.cov(X_train_std.T)
eigen_vals, eigen_vecs = np.linalg.eig(cov_mat)

print('\nEigenvalues \n%s' % eigen_vals)

Eigenvalues 
[4.84274532 2.41602459 1.54845825 0.96120438 0.84166161 0.6620634
 0.51828472 0.34650377 0.3131368  0.10754642 0.21357215 0.15362835
 0.1808613 ]

1.3总方差和解释方差(Total and explained variance)

计算特征值的方差解释比variance explained ratios：

特征值 $\lambda_j$ 的方差解释比定义为该特征值的函数，形式如下：
$\text { Explained variance ratio }=\frac{\lambda_{j}}{\sum_{j=1}^{d} \lambda_{j}}$

tot = sum(eigen_vals)
# 使用列表生成式
var_exp = [(i / tot) for i in sorted(eigen_vals, reverse=True)]
# 使用numpy的cumsum函数，计算出解释方差的累积和，其可以通过matplotlib的step函数进行可视化
cum_var_exp = np.cumsum(var_exp)

import matplotlib.pyplot as plt


plt.bar(range(1, 14), var_exp, alpha=0.5, align='center',
        label='Individual explained variance')
plt.step(range(1, 14), cum_var_exp, where='mid',
         label='Cumulative explained variance')

plt.ylabel('Explained variance ratio')
plt.xlabel('Principal component index')
plt.legend(loc='best')
plt.tight_layout()
# plt.savefig('images/05_02.png', dpi=300)
plt.show()

结果显示出，第一个主成分的方差解释比大约为40%，同时前两个主成分的累积解释方差占比已经达到了60%左右。

这里有些类似于通过随机森林模型的特征重要性度量，但PCA方法是无监督的。

1.4特征变换

# 构建元组列表，值为特征值和特征向量成对组成的元组
eigen_pairs = [(np.abs(eigen_vals[i]), eigen_vecs[:, i])
               for i in range(len(eigen_vals))]

# 按照特征值降序排序
eigen_pairs.sort(key=lambda k: k[0], reverse=True)

这里选择两个最大特征值对应的特征向量，其解释方差占比为60%左右，但实践中更科学的选择方法是：通过计算效率和分类器性能之间的权衡来确定。

# 构建投影矩阵，维度为13x2
w = np.hstack((eigen_pairs[0][1][:, np.newaxis],
               eigen_pairs[1][1][:, np.newaxis]))
print('Matrix W:\n', w)

Matrix W:
 [[-0.13724218  0.50303478]
 [ 0.24724326  0.16487119]
 [-0.02545159  0.24456476]
 [ 0.20694508 -0.11352904]
 [-0.15436582  0.28974518]
 [-0.39376952  0.05080104]
 [-0.41735106 -0.02287338]
 [ 0.30572896  0.09048885]
 [-0.30668347  0.00835233]
 [ 0.07554066  0.54977581]
 [-0.32613263 -0.20716433]
 [-0.36861022 -0.24902536]
 [-0.29669651  0.38022942]]

镜像投影：

若 $v$ 是矩阵 $\Sigma$ 的特征向量，则有：
$\Sigma \boldsymbol{v}=\lambda v$

且： $v$ 是特征向量， $- v$ 也是特征向量。上式左右同时乘以标量 $\alpha$ :
$\alpha \Sigma \boldsymbol{v}=\alpha \lambda \boldsymbol{v}$

因为矩阵乘法与标量乘法相关，上式可写为：
$\Sigma(\alpha \boldsymbol{v})=\lambda(\alpha \boldsymbol{v})$

这说明， $v$ 是特征向量， $- v$ 也是特征向量。

使用投影矩阵，可以实现从原始数据的13维，变换到由主成分1和2组成的二维表示上：
$x^{\prime}=x W$

X_train_std[0].dot(w)

array([2.38299011, 0.45458499])

# 在整个数据集上，进行投影变换

X_train_pca = X_train_std.dot(w)
colors = ['r', 'b', 'g']
markers = ['s', 'x', 'o']

for l, c, m in zip(np.unique(y_train), colors, markers):
    plt.scatter(X_train_pca[y_train == l, 0], 
                X_train_pca[y_train == l, 1], 
                c=c, label=l, marker=m)

plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='lower left')
plt.tight_layout()
# plt.savefig('images/05_03.png', dpi=300)
plt.show()

可以看出，数据沿X轴会更加分散

1.5使用sklearn进行主成分分析

from sklearn.decomposition import PCA

pca = PCA()
X_train_pca = pca.fit_transform(X_train_std)
pca.explained_variance_ratio_

array([0.36951469, 0.18434927, 0.11815159, 0.07334252, 0.06422108,
       0.05051724, 0.03954654, 0.02643918, 0.02389319, 0.01629614,
       0.01380021, 0.01172226, 0.00820609])

plt.bar(range(1, 14), pca.explained_variance_ratio_, alpha=0.5, align='center')
plt.step(range(1, 14), np.cumsum(pca.explained_variance_ratio_), where='mid')
plt.ylabel('Explained variance ratio')
plt.xlabel('Principal components')

plt.show()

pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train_std)
X_test_pca = pca.transform(X_test_std)

plt.scatter(X_train_pca[:, 0], X_train_pca[:, 1])
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.show()

from matplotlib.colors import ListedColormap

def plot_decision_regions(X, y, classifier, resolution=0.02):

    # setup marker generator and color map
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])

    # plot the decision surface
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
                           np.arange(x2_min, x2_max, resolution))
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha=0.4, cmap=cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

    # plot examples by class
    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y == cl, 0], 
                    y=X[y == cl, 1],
                    alpha=0.6, 
                    color=cmap(idx),
                    edgecolor='black',
                    marker=markers[idx], 
                    label=cl)

from sklearn.linear_model import LogisticRegression

# 训练逻辑回归分类器，使用2个主成分
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train_std)
X_test_pca = pca.transform(X_test_std)

lr = LogisticRegression(multi_class='ovr', random_state=1, solver='lbfgs')
lr = lr.fit(X_train_pca, y_train)

plot_decision_regions(X_train_pca, y_train, classifier=lr)
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='lower left')
plt.tight_layout()
# plt.savefig('images/05_04.png', dpi=300)
plt.show()

plot_decision_regions(X_test_pca, y_test, classifier=lr)
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='lower left')
plt.tight_layout()
# plt.savefig('images/05_05.png', dpi=300)
plt.show()

# 保留所有的主成分
pca = PCA(n_components=None)
X_train_pca = pca.fit_transform(X_train_std)
pca.explained_variance_ratio_

array([0.36951469, 0.18434927, 0.11815159, 0.07334252, 0.06422108,
       0.05051724, 0.03954654, 0.02643918, 0.02389319, 0.01629614,
       0.01380021, 0.01172226, 0.00820609])

2.基于线性判别分析的有监督数据压缩

线性判别分析可以作为一种特征提取技术来提高计算效率，同时可以降低由于非正则模型中的维数灾难所造成的过拟合情况

主成分分析试图在数据集中找到具有最大方差的正交分量轴，

线性判别分析的目标是找到可以优化类别可分性的特征子空间，

2.1主成分分析和线性判别分析

PCA和LDA都是用来降低数据维度的线性变换方法，前者是无监督算法，后者是有监督的算法

有研究指出：通过主成分分析进行预处理往往会在图像识别任务中产生更好的分类效果。例如：在当每个类只包含少量的样本情况下

线性判别分析有时候也称为Fisher LDA,Fisher LDA建立在具有等类协方差和正态分布的假设下

# 二分类线性判别分析几何示意图
Image(filename='images/05_06.png', width=400)

在线性判别LD1的方向上，两个类可以被完美的分开。在线性判别LD2的方向上，尽管其具有高方差，但却不能很好的分隔这两类。

LDA的一个前提假设是：数据呈正态分布，此外，我们也假设各类具由相同的协方差矩阵，且训练样本在统计上彼此独立。然而，即便这些假设中的一个或者多个不满足，使用LDA进行降维依旧可以获得不错的效果。

2.2线性判别分析的步骤与原理

步骤：

1.标准化 $d$ 维的原始数据集；

2.对于每个类别，分别计算 $d$ 维的均值向量；

3.构建类间散度矩阵 $\boldsymbol{S}_B$ ，构建类内散度矩阵 $\boldsymbol{S}_w$ ；

4.计算矩阵 $\boldsymbol{S}_{W}^{-1} \boldsymbol{S}_{B}$ 的特征向量和对应的特征值；

5.按照特征值降序排序，以排列对应的特征向量；

6.选择对应与 $K$ 个最大特征值的 $K$ 个特征向量，构造 $\times K$ 维的变换矩阵 $\boldsymbol{W}$ ,其中矩阵的列为特征向量；

7.利用变换矩阵 $\boldsymbol{W}$ 将样本投影到新的特征子空间；

LDA考虑了类别标签信息，该信息体现在第二步的均值向量中。

2.3计算散度矩阵

# 对于每个类分别计算

之前已经做了标准化，所以均值为零，标准差为1：
对于每个类别 $i$ ,均值向量 $\boldsymbol{m}_i$ 存储的就是特征的均值信息 $\mu_{m}$ :
$\boldsymbol{m}_{i}=\frac{1}{n_{i}} \sum_{\boldsymbol{x} \in D_{i}} \boldsymbol{x}_{m}$

对于本文的三分类数据，结果如下：
$\boldsymbol{m}_{i}=\left[\begin{array}{c} \mu_{i, \text { alcohol }} \\ \mu_{i, \text { malic acid }} \\ \vdots \\ \mu_{i, \text { proline }} \end{array}\right]^{T}$

这里的 $\in\{1,2,3\}$

np.set_printoptions(precision=4)

mean_vecs = []
for label in range(1, 4):
    mean_vecs.append(np.mean(X_train_std[y_train == label], axis=0))
    print('MV %s: %s\n' % (label, mean_vecs[label - 1]))

MV 1: [ 0.9066 -0.3497  0.3201 -0.7189  0.5056  0.8807  0.9589 -0.5516  0.5416
  0.2338  0.5897  0.6563  1.2075]

MV 2: [-0.8749 -0.2848 -0.3735  0.3157 -0.3848 -0.0433  0.0635 -0.0946  0.0703
 -0.8286  0.3144  0.3608 -0.7253]

MV 3: [ 0.1992  0.866   0.1682  0.4148 -0.0451 -1.0286 -1.2876  0.8287 -0.7795
  0.9649 -1.209  -1.3622 -0.4013]

计算类内散度矩阵 $\boldsymbol{S}_w$ :
$S_{W}=\sum_{i=1}^{c} S_{i}$
其中，
$\boldsymbol{S}_{i}=\sum_{x \in D_{i}}\left(\boldsymbol{x}-\boldsymbol{m}_{i}\right)\left(\boldsymbol{x}-\boldsymbol{m}_{i}\right)^{T}$

d = 13 # 红酒数据特征个数
S_W = np.zeros((d, d))
for label, mv in zip(range(1, 4), mean_vecs):
    class_scatter = np.zeros((d, d))  # 对于每个类的散度矩阵
    for row in X_train_std[y_train == label]:
        row, mv = row.reshape(d, 1), mv.reshape(d, 1)  # reshape称为 列向量
        class_scatter += (row - mv).dot((row - mv).T)
    S_W += class_scatter                          # 散度矩阵加和

print('Within-class scatter matrix: %sx%s' % (S_W.shape[0], S_W.shape[1]))

Within-class scatter matrix: 13x13

# 这里的类并没有满足前面正态分布的假设，
print('Class label distribution: %s' 
      % np.bincount(y_train)[1:])

Class label distribution: [41 50 33]

因此，需要对单个散度矩阵 $\boldsymbol{S}_i$ 进行缩放：
$\Sigma_{i}=\frac{1}{n_{i}} \boldsymbol{S}_{i}=\frac{1}{n_{i}} \sum_{\boldsymbol{x} \in {D}_{i}}\left(\boldsymbol{x}-\boldsymbol{m}_{i}\right)\left(\boldsymbol{x}-\boldsymbol{m}_{i}\right)^{T}$

这里可以看到，计算散度矩阵实际上与计算协方差矩阵相同，所以协方差矩阵 $\Sigma_i$ 是散度矩阵的归一化形式:

# 缩放类间散度矩阵
d = 13  # 特征个数为13
S_W = np.zeros((d, d))
for label, mv in zip(range(1, 4), mean_vecs):
    class_scatter = np.cov(X_train_std[y_train == label].T)
    S_W += class_scatter
print('Scaled within-class scatter matrix: %sx%s' % (S_W.shape[0],
                                                     S_W.shape[1]))

Scaled within-class scatter matrix: 13x13

计算类间散度矩阵： $\boldsymbol{S}_B$
$\boldsymbol{S}_{\boldsymbol{B}}=\sum_{i=1}^{c} n_{i}\left(\boldsymbol{m}_{i}-\boldsymbol{m}\right)\left(\boldsymbol{m}_{i}-\boldsymbol{m}\right)^{T}$

mean_overall = np.mean(X_train_std, axis=0)
d = 13 
S_B = np.zeros((d, d))
for i, mean_vec in enumerate(mean_vecs):
    n = X_train_std[y_train == i + 1, :].shape[0]
    mean_vec = mean_vec.reshape(d, 1)  # make column vector
    mean_overall = mean_overall.reshape(d, 1)  # make column vector
    S_B += n * (mean_vec - mean_overall).dot((mean_vec - mean_overall).T)

print('Between-class scatter matrix: %sx%s' % (S_B.shape[0], S_B.shape[1]))

Between-class scatter matrix: 13x13

2.4为新的特征子空间选择线性判别

实际上就是求解矩阵 $S_W^{-1}S_B$ 特征值和特征向量的问题：

eigen_vals, eigen_vecs = np.linalg.eig(np.linalg.inv(S_W).dot(S_B))

按照特征值的大小对特征向量进行排序

# 构造元组列表，值为特征值和特征向量组成的元组
eigen_pairs = [(np.abs(eigen_vals[i]), eigen_vecs[:, i])
               for i in range(len(eigen_vals))]

# 降序排序
eigen_pairs = sorted(eigen_pairs, key=lambda k: k[0], reverse=True)


print('Eigenvalues in descending order:\n')
for eigen_val in eigen_pairs:
    print(eigen_val[0])

Eigenvalues in descending order:

349.6178089059939
172.76152218979388
3.7853134512521556e-14
2.117398448224407e-14
1.5164618894178885e-14
1.5164618894178885e-14
1.3579567140455979e-14
1.3579567140455979e-14
7.587760371654683e-15
5.906039984472233e-15
5.906039984472233e-15
2.256441978569674e-15
0.0

在线性判别分析中，线性判别的数量最多为类别数量减一

在所有的样本高度共线的情况下，协方差矩阵的秩为1，这会导致只有一个非零特征值的特征向量。

这里通过减少特征值的方式，可视化线性判别结果。将区分类别信息的内容称为可区分性，

tot = sum(eigen_vals.real)
discr = [(i / tot) for i in sorted(eigen_vals.real, reverse=True)]
cum_discr = np.cumsum(discr)

plt.bar(range(1, 14), discr, alpha=0.5, align='center',
        label='Individual "discriminability"')
plt.step(range(1, 14), cum_discr, where='mid',
         label='Cumulative "discriminability"')
plt.ylabel('"Discriminability" ratio')
plt.xlabel('Linear discriminants')
plt.ylim([-0.1, 1.1])
plt.legend(loc='best')
plt.tight_layout()
# plt.savefig('images/05_07.png', dpi=300)
plt.show()

# 构造变换矩阵
w = np.hstack((eigen_pairs[0][1][:, np.newaxis].real,
              eigen_pairs[1][1][:, np.newaxis].real))
print('Matrix W:\n', w)

Matrix W:
 [[-0.1481 -0.4092]
 [ 0.0908 -0.1577]
 [-0.0168 -0.3537]
 [ 0.1484  0.3223]
 [-0.0163 -0.0817]
 [ 0.1913  0.0842]
 [-0.7338  0.2823]
 [-0.075  -0.0102]
 [ 0.0018  0.0907]
 [ 0.294  -0.2152]
 [-0.0328  0.2747]
 [-0.3547 -0.0124]
 [-0.3915 -0.5958]]

2.5将样本投影到新的特征空间

变换过程：
$\boldsymbol{X}^{\prime}=\boldsymbol{X} \boldsymbol{W}$

X_train_lda = X_train_std.dot(w)
colors = ['r', 'b', 'g']
markers = ['s', 'x', 'o']

for l, c, m in zip(np.unique(y_train), colors, markers):
    plt.scatter(X_train_lda[y_train == l, 0],
                X_train_lda[y_train == l, 1] * (-1),
                c=c, label=l, marker=m)

plt.xlabel('LD 1')
plt.ylabel('LD 2')
plt.legend(loc='lower right')
plt.tight_layout()
# plt.savefig('images/05_08.png', dpi=300)
plt.show()

2.6通过Sklearn进行线性判别分析

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

lda = LDA(n_components=2)
X_train_lda = lda.fit_transform(X_train_std, y_train)

from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(multi_class='ovr', random_state=1, solver='lbfgs')
lr = lr.fit(X_train_lda, y_train)

plot_decision_regions(X_train_lda, y_train, classifier=lr)
plt.xlabel('LD 1')
plt.ylabel('LD 2')
plt.legend(loc='lower left')
plt.tight_layout()
# plt.savefig('images/05_09.png', dpi=300)
plt.show()

# 通过降低正则化力度，可以实现对决策边界的移动，
X_test_lda = lda.transform(X_test_std)

plot_decision_regions(X_test_lda, y_test, classifier=lr)
plt.xlabel('LD 1')
plt.ylabel('LD 2')
plt.legend(loc='lower left')
plt.tight_layout()
# plt.savefig('images/05_10.png', dpi=300)
plt.show()

可以看出，逻辑回归模型在仅仅使用了二维特征空间的情况下，已经可以很好地实现对红酒数据集的分类。而原始数据为13个特征

3.使用核主成分分析进行非线性映射

很多机器学习算法都假设输入数据的线性可分性，比如：感知机需要在数据为线性可分的时候才会收敛。

但是，目前很多算法都因为数据中的噪声导致缺乏完美的线性可分性，比如：adaline, LogisticRegression,线性SVM等。

类似于Kernel SVM，核PCA通过核技术，将原本非线性可分的数据映射变换为新的数据表示，得到适合线性分类器的低维子空间。

# 非线性问题几何表示
Image(filename='images/05_11.png', width=500)

3.1核函数和核技巧

为了实现对样本 $\boldsymbol{x}\in \mathbb{R}^d$ ，投影到 $K$ 维子空间，定义如下非线性映射函数：
$\phi: \quad \mathbb{R}^{d} \rightarrow \mathbb{R}^{k} \quad(k \gg d)$

示例：
假定有特征向量 $\boldsymbol{x}\in \mathbb{R}^d$ ， $\boldsymbol{X}$ 是列向量，包含有 $d$ 个特征，这里设定 $d = 2$ ,某一种3D映射方法可能如下：
$\begin{array}{c} \boldsymbol{x}=\left[x_{1}, x_{2}\right]^{T} \\ \downarrow \phi \\ \mathbf{z}=\left[x_{1}^{2}, \sqrt{2 x_{1} x_{2}}, x_{2}^{2}\right]^{T} \end{array}$

也就是说，通过KPCA进行非线性映射，将数据映射变换到高维空间。然后在高维空间中使用标准PCA将数据映射回一个低维空间，在该低维空间中可以利用线性分类器进行类别分隔，条件是样本可以在输入空间中通过密度进行分隔。

然而，这种方法的一个缺陷是计算成本非常高，所以这里引入核技巧。利用核技巧可以计算出在原始特征空间中两个高维特征之间的相似性。

针对特征 $k$ 和 $j$ ，计算PCA的协方差矩阵：
$\sigma_{j k}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{j}^{(i)}-\mu_{j}\right)\left(x_{k}^{(i)}-\mu_{k}\right)$

因为已经进行了数据标准化，因此上式等价于：
$\sigma_{j k}=\frac{1}{n} \sum_{i=1}^{n} x_{j}^{(i)} x_{k}^{(i)}$

一般形式：
$\Sigma=\frac{1}{n} \sum_{i=1}^{n} \boldsymbol{x}^{(i)} \boldsymbol{x}^{(i)^{T}}$

利用非线性特征组合替代原始特征空间中的点积：
$\Sigma=\frac{1}{n} \sum_{i=1}^{n} \phi\left(\boldsymbol{x}^{(i)}\right) \phi\left(\boldsymbol{x}^{(i)}\right)^{T}$

为了从上式协方差矩阵中获得特征向量(主成分),需要解如下方程:
$\begin{array}{l} \Sigma \boldsymbol{v}=\lambda \boldsymbol{v} \\ \Rightarrow \frac{1}{n} \sum_{i=1}^{n} \phi\left(\boldsymbol{x}^{(i)}\right) \phi\left(\boldsymbol{x}^{(i)}\right)^{T} \boldsymbol{v}=\lambda \boldsymbol{v} \\ \Rightarrow v=\frac{1}{n \lambda} \sum_{i=1}^{n} \phi\left(\boldsymbol{x}^{(i)}\right) \phi\left(\boldsymbol{x}^{(i)}\right)^{T} \boldsymbol{v}=\frac{1}{n} \sum_{i=1}^{n} \boldsymbol{a}^{(i)} \phi\left(\boldsymbol{x}^{(i)}\right) \end{array}$

这里的 $\lambda$ 和 $v$ 分别代表特征值和特征向量， $\boldsymbol{a}$ 可以通过提取核(相似度)矩阵 $K$ 的特征向量得到。

推导核矩阵：
写出协方差矩阵的矩阵表示形式：

$\Sigma=\frac{1}{n} \sum_{i=1}^{n} \phi\left(\boldsymbol{x}^{(i)}\right) \phi\left(\boldsymbol{x}^{(i)}\right)^{T}=\frac{1}{n} \phi(\boldsymbol{X})^{T} \phi(\boldsymbol{X})$

将特征向量计算方程式写成如下形式：
$v=\frac{1}{n} \sum_{i=1}^{n} a^{(i)} \phi\left(\boldsymbol{x}^{(i)}\right)=\lambda \phi(\boldsymbol{X})^{T} \boldsymbol{a}$

由于， $\Sigma \boldsymbol{v}=\lambda \boldsymbol{v}$ ,所以有：
$\frac{1}{n} \phi(\boldsymbol{X})^{T} \phi(\boldsymbol{X}) \phi(\boldsymbol{X})^{T} \boldsymbol{a}=\lambda \phi(\boldsymbol{X})^{T} \boldsymbol{a}$

左右两边再同时乘上 $\phi(\boldsymbol{X})$ ,得到如下形式：
$\begin{array}{l} \frac{1}{n} \phi(\boldsymbol{X}) \phi(\boldsymbol{X})^{T} \phi(\boldsymbol{X}) \phi(\boldsymbol{X})^{T} \boldsymbol{a}=\lambda \phi(\boldsymbol{X}) \phi(\boldsymbol{X})^{T} \boldsymbol{a} \\ \Rightarrow \frac{1}{n} \phi(\boldsymbol{X}) \phi(\boldsymbol{X})^{T} \boldsymbol{a}=\lambda \boldsymbol{a} \\ \Rightarrow \frac{1}{n} \boldsymbol{K} \boldsymbol{a}=\lambda \boldsymbol{a} \end{array}$

这里的 $\boldsymbol{K}$ 就是核矩阵，其定义为 $\boldsymbol{K}=\phi(\boldsymbol{X}) \phi(\boldsymbol{X})^{T}$

使用核函数可以避免高维计算:
$\kappa\left(\boldsymbol{x}^{(i)}, \boldsymbol{x}^{(j)}\right)=\phi\left(\boldsymbol{x}^{(i)}\right)^{T} \phi\left(\boldsymbol{x}^{(j)}\right)$

换句话说，经过KPCA之后得到已经是投影到相应成分之上的样本，而无需像PCA那样再次构造变换矩阵。

核函数可以理解为计算两个向量之间点积的函数，也就是一个相似度的度量。

最常用的核函数如下:

1.多项式核：
$\kappa\left(\boldsymbol{x}^{(i)}, \boldsymbol{x}^{(j)}\right)=\left(\boldsymbol{x}^{(i)^{T}} \boldsymbol{x}^{(j)}+\theta\right)^{p}$
这里的 $\theta$ 代表阈值，幂指数 $p$ 需要通过用户明确指定。

2.双曲正切核：
$\kappa\left(\boldsymbol{x}^{(i)}, \boldsymbol{x}^{(j)}\right)=\tanh \left(\eta \boldsymbol{x}^{(i)^{T}} \boldsymbol{x}^{(j)}+\theta\right)$

3.径向基函数核(RBF)或者高斯核:
$\kappa\left(\boldsymbol{x}^{(i)}, \boldsymbol{x}^{(j)}\right)=\exp \left(-\frac{\left\|\boldsymbol{x}^{(i)}-\boldsymbol{x}^{(j)}\right\|^{2}}{2 \sigma^{2}}\right)$

通常写成如下形式：
$\kappa\left(\boldsymbol{x}^{(i)}, \boldsymbol{x}^{(j)}\right)=\exp \left(-\gamma\left\|\boldsymbol{x}^{(i)}-\boldsymbol{x}^{(j)}\right\|^{2}\right)$
其中, $\gamma=\cfrac{1}{2\sigma^2}$

示例，使用RBF KPCA的步骤：

1.计算核矩阵 $K$ ，其中需要计算： $\kappa\left(\boldsymbol{x}^{(i)}, \boldsymbol{x}^{(j)}\right)=\exp \left(-\gamma\left\|\boldsymbol{x}^{(i)}-\boldsymbol{x}^{(j)}\right\|^{2}\right)$

对每个样本执行如下操作：
$\boldsymbol{K}=\left[\begin{array}{cccc} \kappa\left(\boldsymbol{x}^{(1)}, \boldsymbol{x}^{(1)}\right) & \kappa\left(\boldsymbol{x}^{(1)}, \boldsymbol{x}^{(2)}\right) & \cdots & \kappa\left(\boldsymbol{x}^{(1)}, \boldsymbol{x}^{(n)}\right) \\ \kappa\left(\boldsymbol{x}^{(2)}, \boldsymbol{x}^{(1)}\right) & \left(\boldsymbol{x}^{(2)}, \boldsymbol{x}^{(2)}\right) & \cdots & \kappa\left(\boldsymbol{x}^{(2)}, \boldsymbol{x}^{(n)}\right) \\ \vdots & \vdots & \ddots & \vdots \\ \kappa\left(\boldsymbol{x}^{(n)}, \boldsymbol{x}^{(1)}\right) & \kappa\left(\boldsymbol{x}^{(n)}, \boldsymbol{x}^{(2)}\right) & \cdots & \kappa\left(\boldsymbol{x}^{(n)}, \boldsymbol{x}^{(n)}\right) \end{array}\right]$

例如有100个训练样本，则上面这个对称的核矩阵就是100x100维。

2.得到核矩阵之后，计算
$\boldsymbol{K}^{\prime}=\boldsymbol{K}-\mathbf{1}_{n} \boldsymbol{K}-\boldsymbol{K} \mathbf{1}_{n}+\mathbf{1}_{n} \boldsymbol{K} \mathbf{1}_{\boldsymbol{n}}$
其中， $\mathbf{1}_{n}$ 是一个nxn的矩阵，与核矩阵具有相同的维度，且所有的值为 $\cfrac{1}{n}$

3.得到前 $K$ 个特征向量，按照降序排序。这里的特征向量不是主成分轴，而是已经投影到这些轴上的样本。

3.2利用python实现核主成分分析

from scipy.spatial.distance import pdist, squareform
from scipy.linalg import eigh
import numpy as np


from distutils.version import LooseVersion as Version
from scipy import __version__ as scipy_version


if scipy_version >= Version('1.4.1'):
    from numpy import exp
else:
    from scipy import exp




def rbf_kernel_pca(X, gamma, n_components):
    """
    RBF kernel PCA implementation.

    Parameters
    ------------
    X: {NumPy ndarray}, shape = [n_examples, n_features]
        
    gamma: float
      Tuning parameter of the RBF kernel
        
    n_components: int
      Number of principal components to return

    Returns
    ------------
     X_pc: {NumPy ndarray}, shape = [n_examples, k_features]
       Projected dataset   

    """

    sq_dists = pdist(X, 'sqeuclidean')

    mat_sq_dists = squareform(sq_dists)


    K = exp(-gamma * mat_sq_dists)


    N = K.shape[0]
    one_n = np.ones((N, N)) / N
    K = K - one_n.dot(K) - K.dot(one_n) + one_n.dot(K).dot(one_n)


    eigvals, eigvecs = eigh(K)
    eigvals, eigvecs = eigvals[::-1], eigvecs[:, ::-1]

    X_pc = np.column_stack([eigvecs[:, i]
                            for i in range(n_components)])

    return X_pc

使用RBF KPCA进行降维的一个缺点是必须指明参数 $\gamma$ ，这个参数可以通过随机搜索或者网格搜索来进行调整。

3.3: 示例，分隔半月形

import matplotlib.pyplot as plt
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=100, random_state=123)

plt.scatter(X[y == 0, 0], X[y == 0, 1], color='red', marker='^', alpha=0.5)
plt.scatter(X[y == 1, 0], X[y == 1, 1], color='blue', marker='o', alpha=0.5)

plt.tight_layout()
# plt.savefig('images/05_12.png', dpi=300)
plt.show()

# 利用标准PCA
from sklearn.decomposition import PCA

scikit_pca = PCA(n_components=2)
X_spca = scikit_pca.fit_transform(X)

fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(7, 3))

ax[0].scatter(X_spca[y == 0, 0], X_spca[y == 0, 1],
              color='red', marker='^', alpha=0.5)
ax[0].scatter(X_spca[y == 1, 0], X_spca[y == 1, 1],
              color='blue', marker='o', alpha=0.5)

ax[1].scatter(X_spca[y == 0, 0], np.zeros((50, 1)) + 0.02,
              color='red', marker='^', alpha=0.5)
ax[1].scatter(X_spca[y == 1, 0], np.zeros((50, 1)) - 0.02,
              color='blue', marker='o', alpha=0.5)

ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1, 1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')

plt.tight_layout()
# plt.savefig('images/05_13.png', dpi=300)
plt.show()

# 利用KPCA
X_kpca = rbf_kernel_pca(X, gamma=15, n_components=2)

fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(7, 3))
ax[0].scatter(X_kpca[y==0, 0], X_kpca[y==0, 1], 
            color='red', marker='^', alpha=0.5)
ax[0].scatter(X_kpca[y==1, 0], X_kpca[y==1, 1],
            color='blue', marker='o', alpha=0.5)

ax[1].scatter(X_kpca[y==0, 0], np.zeros((50, 1))+0.02, 
            color='red', marker='^', alpha=0.5)
ax[1].scatter(X_kpca[y==1, 0], np.zeros((50, 1))-0.02,
            color='blue', marker='o', alpha=0.5)

ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1, 1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')

plt.tight_layout()
# plt.savefig('images/05_14.png', dpi=300)
plt.show()

PCA是一种无监督的方法，不适用类别标签信息来最大化方差。而LDA是有监督的。

3.4: 示例，分隔同心圆

from sklearn.datasets import make_circles

X, y = make_circles(n_samples=1000, random_state=123, noise=0.1, factor=0.2)

plt.scatter(X[y == 0, 0], X[y == 0, 1], color='red', marker='^', alpha=0.5)
plt.scatter(X[y == 1, 0], X[y == 1, 1], color='blue', marker='o', alpha=0.5)

plt.tight_layout()
# plt.savefig('images/05_15.png', dpi=300)
plt.show()

# 使用PCA
scikit_pca = PCA(n_components=2)
X_spca = scikit_pca.fit_transform(X)

fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(7, 3))

ax[0].scatter(X_spca[y == 0, 0], X_spca[y == 0, 1],
              color='red', marker='^', alpha=0.5)
ax[0].scatter(X_spca[y == 1, 0], X_spca[y == 1, 1],
              color='blue', marker='o', alpha=0.5)

ax[1].scatter(X_spca[y == 0, 0], np.zeros((500, 1)) + 0.02,
              color='red', marker='^', alpha=0.5)
ax[1].scatter(X_spca[y == 1, 0], np.zeros((500, 1)) - 0.02,
              color='blue', marker='o', alpha=0.5)

ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1, 1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')

plt.tight_layout()
# plt.savefig('images/05_16.png', dpi=300)
plt.show()

# 使用KPCA
X_kpca = rbf_kernel_pca(X, gamma=15, n_components=2)

fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(7, 3))
ax[0].scatter(X_kpca[y == 0, 0], X_kpca[y == 0, 1],
              color='red', marker='^', alpha=0.5)
ax[0].scatter(X_kpca[y == 1, 0], X_kpca[y == 1, 1],
              color='blue', marker='o', alpha=0.5)

ax[1].scatter(X_kpca[y == 0, 0], np.zeros((500, 1)) + 0.02,
              color='red', marker='^', alpha=0.5)
ax[1].scatter(X_kpca[y == 1, 0], np.zeros((500, 1)) - 0.02,
              color='blue', marker='o', alpha=0.5)

ax[0].set_xlabel('PC1')
ax[0].set_ylabel('PC2')
ax[1].set_ylim([-1, 1])
ax[1].set_yticks([])
ax[1].set_xlabel('PC1')

plt.tight_layout()
# plt.savefig('images/05_17.png', dpi=300)
plt.show()

3.5投影新的数据点

from scipy.spatial.distance import pdist, squareform
from scipy import exp
from scipy.linalg import eigh
import numpy as np

def rbf_kernel_pca(X, gamma, n_components):
    """
    RBF kernel PCA implementation.

    Parameters
    ------------
    X: {NumPy ndarray}, shape = [n_examples, n_features]
        
    gamma: float
      Tuning parameter of the RBF kernel
        
    n_components: int
      Number of principal components to return

    Returns
    ------------
     alphas: {NumPy ndarray}, shape = [n_examples, k_features]
       Projected dataset 
     
     lambdas: list
       Eigenvalues

    """

    sq_dists = pdist(X, 'sqeuclidean')


    mat_sq_dists = squareform(sq_dists)

    K = exp(-gamma * mat_sq_dists)

    N = K.shape[0]
    one_n = np.ones((N, N)) / N
    K = K - one_n.dot(K) - K.dot(one_n) + one_n.dot(K).dot(one_n)

    eigvals, eigvecs = eigh(K)
    eigvals, eigvecs = eigvals[::-1], eigvecs[:, ::-1]

    alphas = np.column_stack([eigvecs[:, i]
                              for i in range(n_components)])

    lambdas = [eigvals[i] for i in range(n_components)]

    return alphas, lambdas

X, y = make_moons(n_samples=100, random_state=123)
alphas, lambdas = rbf_kernel_pca(X, gamma=15, n_components=1)

D:\installation\anaconda3\lib\site-packages\ipykernel_launcher.py:35: DeprecationWarning: scipy.exp is deprecated and will be removed in SciPy 2.0.0, use numpy.exp instead

x_new = X[25]
x_new

array([1.8713, 0.0093])

x_proj = alphas[25] # original projection
x_proj

array([0.0788])

def project_x(x_new, X, gamma, alphas, lambdas):
    pair_dist = np.array([np.sum((x_new - row)**2) for row in X])
    k = np.exp(-gamma * pair_dist)
    return k.dot(alphas / lambdas)

# projection of the "new" datapoint
x_reproj = project_x(x_new, X, gamma=15, alphas=alphas, lambdas=lambdas)
x_reproj

array([0.0788])

plt.scatter(alphas[y == 0, 0], np.zeros((50)),
            color='red', marker='^', alpha=0.5)
plt.scatter(alphas[y == 1, 0], np.zeros((50)),
            color='blue', marker='o', alpha=0.5)
plt.scatter(x_proj, 0, color='black',
            label='Original projection of point X[25]', marker='^', s=100)
plt.scatter(x_reproj, 0, color='green',
            label='Remapped point X[25]', marker='x', s=500)
plt.yticks([], [])
plt.legend(scatterpoints=1)

plt.tight_layout()
# plt.savefig('images/05_18.png', dpi=300)
plt.show()

3.6使用Sklearn实现核PCA

from sklearn.decomposition import KernelPCA

X, y = make_moons(n_samples=100, random_state=123)
scikit_kpca = KernelPCA(n_components=2, kernel='rbf', gamma=15)
X_skernpca = scikit_kpca.fit_transform(X)

plt.scatter(X_skernpca[y == 0, 0], X_skernpca[y == 0, 1],
            color='red', marker='^', alpha=0.5)
plt.scatter(X_skernpca[y == 1, 0], X_skernpca[y == 1, 1],
            color='blue', marker='o', alpha=0.5)

plt.xlabel('PC1')
plt.ylabel('PC2')
plt.tight_layout()
# plt.savefig('images/05_19.png', dpi=300)
plt.show()

你可能感兴趣的:(数据分析&挖掘,机器学习,降维,pca降维,线性判别分析,基于核的KPCA)

linux防火墙多个多个ip配置,网络中多网卡和多ip中的高可用没伞请奔跑i linux防火墙多个多个ip配置
一、虚拟网卡实现一个网卡多个地址1、单个网卡实现多个ipv4地址，只需要在该网卡的配置文件的目录新增网卡配置文件即可。进入网卡"eth0"的目录下2、新增网卡配置文件"ifcfg-eth0:0"和"ifcfg-eth0:1"3、关掉NetworkManager服务4、重启网卡，让系统重读配置网卡配置文件5、使用ifconfig命令查看在线的网卡ip地址二、多网卡bond，mode11、首先在虚拟机
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
python之连连看游戏 CrMylive. python 游戏 pygame
实现一个简单的连连看游戏需要用到pygame库和一些基本的数据结构和算法。导入pygame库在程序开始之前，首先需要导入pygame库。在Python中，可以使用以下代码导入pygame库：importpygame初始化Pygame在导入pygame库之后，需要使用以下代码初始化pygame：pygame.init()设置游戏窗口设置游戏窗口的大小、标题等属性。可以使用以下代码设置游戏窗口大小为6
C++|向函数传递对象柯ran C++程序设计 c++开发语言
在C++里，对象作为函数的参数和返回值，有值传递、指针传递和引用传递这三种传递方式，下面为你详细介绍。1.值传递在值传递时，把实参对象的值复制给形参对象，函数会接收实参的一个副本，而非实参本身。函数内对形参的修改不会影响到实参。#includeusingnamespacestd;classMyClass{public:intvalue;MyClass(intval):value(val){}};/
力扣刷题|链表面试题 02.02. 返回倒数第 k 个节点柯ran 力扣 leetcode 算法数据结构链表
题目：实现一种算法，找出单向链表中倒数第k个节点。返回该节点的值。快慢指针思想，画图更容易理解/***Definitionforsingly-linkedlist.*structListNode{*intval;*structListNode*next;*};*/intkthToLast(structListNode*head,intk){assert(head!=NULL);if(head==N
常见的设计模式(单例模式&工厂模式) 客行. 设计模式单例模式观察者模式
目录一.为什么要学习设计模式？二.单例模式概念优点缺点1.饿汉模式1.1概念1.2示例2.懒汉模式2.1概念2.2示例三.工厂模式1.概念2.使用场景3.工厂方法一.为什么要学习设计模式？设计模式（Designpattern）代表了最佳的实践，是很多优秀的软件开发人员的经验总结，是解决特定问题的解决方案。它并不是语法规定，也不拘泥于特定语言。恰当的使用设计模式可以代码的可复用性，可维护性，可扩展性
【USTC 计算机网络】第二章：应用层 - TCP & UDP 套接字编程柃歌计算机网络计算机网络 tcp/ip udp websocket 网络协议
本文详细介绍了TCP与UDP套接字编程，并在Windows下使用C++实现套接字编程，对代码做了十分精细的讲解，这部分内容非常重要，是计算机网络学到目前为止第一次编程，也是网络编程开发中最基础的一个部分，必须彻底掌握。1.Windows使用C++实现TCPSocket在Windows下进行套接字编程需要遵循如下步骤：初始化Winsock库：使用WSAStartup初始化Winsock库。该函数需要
selectpicker.js 下拉框多选控件的属性和方法草木红 #JavaScript js jquery javascript bootstrap
中文网：https://www.bootstrapselect.cn/index.htmgithub：https://github.com/snapappointments/bootstrap-select需要用到的js和css（按顺序引用）：bootstrap.min.cssbootstrap-select.cssjquery.min.jsbootstrap.min.jsbootstrap-se
go debug日记：protoc -I . helloworld.proto --go_out=plugins=grpc:.错误debug fcopy golang学习 golang 开发语言后端
使用protoc生成go的文件出现bug运行命令protoc-I.helloworld.proto--go_out=plugins=grpc:.如图所示即，没有指定生成的go文件位置，需要在文件中添加optiongo_package="path;name";其中path表示生成的go文件的存放地址，会自动生成目录的。name表示生成的go文件所属的包名之后运行protoc-I.helloworld
Kubernetes学习笔记-移除Nacos迁移至K8s 人生偌只如初见 Kubernetes J2EE kubernetes k8s java
项目服务的配置管理和服务注册发现由原先的Nacos全面迁移到Kubernetes上。一、移除Nacos移除Nacos组件依赖。com.alibaba.cloudspring-cloud-starter-alibaba-nacos-discoverycom.alibaba.cloudspring-cloud-starter-alibaba-nacos-configorg.springframewor
【系统架构设计师-2018年】案例分析-答案及详解数据知道系统架构软考高级系统架构设计师
试题一（25分）阅读以下关于软件系统设计的叙述，在答题纸上回答问题1至问题3。【说明】某文化产业集团委托软件公司开发一套文化用品商城系统，业务涉及文化用品销售、定制、竞拍和点评等板块，以提升商城的信息化建设水平。该软件公司组织项目组完成了需求调研，现已进入到系统架构设计阶段。考虑到系统需求对架构设计决策的影响，项目组先列出了可能影响系统架构设计的部分需求如下：（a）用户界面支持用户的个性化定制；（
使用Alchemy平台构建区块链应用程序的技术指南 dgay_hua 区块链 python
在现代开发中，区块链技术已经成为一项热门技能，而Alchemy提供了一套强大的工具集，使得开发者可以轻松构建区块链应用程序。本文将带您深入了解如何在Alchemy平台上进行区块链应用的安装和设置，并展示如何使用BlockchainDocumentLoader类进行文档加载。技术背景介绍Alchemy是一个领先的区块链开发平台，通过提供强大的API和开发工具，帮助开发者轻松创建和管理区块链应用。它支
Linux信号：一场内核与用户空间的暗战芯作者 DD：日记 linux
在Linux系统的黑暗森林中，每个进程都是小心翼翼的猎人。当一束神秘的信号光划过天际，内核瞬间变身信号调度大师，在进程的生死簿上书写着命运。这场跨越用户空间与内核态的博弈，远比表面看到的更加惊心动魄。一、信号诞生的量子纠缠当Ctrl+C的闪电划破终端的宁静，内核的tty驱动层率先捕捉到这个量子扰动。键盘中断处理程序像精密的外科手术刀，准确地将SIGINT信号注入当前前台进程的task_struct
基于Qt的连连看游戏开发 CodeJolt qt 数据库 java QT
连连看是一种经典的益智游戏，它的目标是通过消除相同的配对图标来清空游戏界面。在本文中，我将向您展示如何使用Qt框架开发一个基于Qt的连连看小游戏。我们将使用C++编程语言和Qt库来实现游戏的逻辑和界面。首先，让我们创建一个新的Qt项目。在QtCreator中，选择"新建项目"，然后选择"QtWidgets应用程序"模板。为项目指定一个名称，然后点击"下一步"。在下一个对话框中，您可以选择项目的位置
【Java学习日记6】：字面量的分类与使用小蛋6g Java学习日记 java 开发语言
一、字面量的定义与作用字面量是程序中直接书写的数据值，无需通过变量或计算获取。它用于表示固定的值，如数字、字符、布尔值等，例如：数字100、字符串"Hello"、字符'A'等。字面量告诉编译器数据的类型和值。字面量就是告诉程序员:数据在程序中的书写格式.---二、字面量的分类Java中的字面量按数据类型可分为以下六类：类型说明示例整数类型不带小数点的数字123,-456小数类型带小数点的数字3.1
Python, Java, C ++开发全球热能动态监测APP Geeker-2025 python java c++
开发一个“全球热能动态监测APP”是一个非常有意义的想法，尤其是在能源管理和环境保护领域。以下是开发该APP的详细思路和技术实现方案，分别针对Python、Java和C++。---###**功能需求分析**1.**全球热能数据展示**：-各国或地区的热能生产、消费和进出口数据。-实时监测热能动态（如发电厂的热能输出、温度变化等）。2.**地图可视化**：-在地图上标注热能发电厂的位置。-使用颜色或
数学建模第三节一只自律的鸡数学建模数学建模
目录前言一钻井布局问题第一问分析第二问分析总结前言这里讲述99年的钻井布局问题，利用这个问题讲述模型优化，LINGO，MATLAB的使用一钻井布局问题这个是钻井布局的原题，坐标的位置为a=[0.50,1.41,3.00,3.37,3.40,4.72,4.72,5.43,7.57,8.38,8.98,9.50];b=[2.00,3.50,1.50,3.51,5.50,2.00,6.24,4.10,2
什么是设计模式以及常见的例子（如单例、工厂、观察者等） python资深爱好者 c++设计模式单例模式
设计模式（DesignPattern）是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式的主要目的是为了可重用代码、让代码更容易被他人理解、提高代码的可靠性。设计模式一般包含模式名称、问题、目的、解决方案、效果等基本要素。设计模式根据目的（即模式是用来做什么的）可以分为三大类：创建型模式、结构型模式和行为型模式。下面分别给出几个常见的设计模式例子，包括单例模式、工厂模
大二下开始学数据结构与算法--07,单项循环链表的实现爱我的你不说话链表数据结构
自习所完成的任务单向循环链表代码的实现和测验任务学课程到p28复现相关代码感悟其实这个教程上的观念，跟我刚开始理解想的并不一样，我以为会是：头节点使实例化的节点的循环链表，但是，教程给的更像是存在头节点，但头节点没有实际意义的添加了尾节点单项循环链表（跟之前单向不循环链表相比，更像是只多了一尾节点）。#include#include#includeusingnamespacestd;//存在头节点
虚拟机添加多块网卡，重启时，ip绑定错误如何解决千航@abc kvm虚拟化服务器网络 linux 虚拟化 kvm
在网卡的配置文件添加这一条NAME="ens9"DEVICE=ens9ONBOOT=yesNETBOOT=yesIPV6INIT=yesBOOTPROTO=noneTYPE=EthernetIPADDR=172.17.10.254PREFIX=24DEVICE这个参数的用途是指定配置文件对应的网络设备，每个网络接口都有自己的名称，像ens33、ens36、eth0、ens9等等，而DEVICE=e
微信小程序：用户拒绝小程序获取当前位置后的处理办法草木红 #小程序小程序微信小程序
【1】问题描述：小程序在调用wx.getLocation()获取用地理位置时，如果用户选择拒绝授权，代码会直接抛出错误。如果再次调用wx.getLocation()时，就不会在弹窗询问用户是否允许授权。导致用户想要重新允许获取地理位置时，没有途径。【2】前提准备：小程序已经申请过wx.getLocation()：获取当前的地理位置的服务权限在小程序的根目录下的app.json中配置required
React 18 如何定义变量，及赋值与渲染痴心阿文 React react.js javascript 前端
React18中，定义变量、赋值和渲染的方式因变量的用途和作用域不同而有所差异，下面为你详细介绍不同场景下的实现方法。1.函数组件内定义普通变量在函数组件里，你可以像在普通JavaScript函数中一样定义变量，并且这些变量会在每次组件重新渲染时重新创建。importReactfrom'react';constMyComponent=()=>{//定义普通变量并赋值constmessage='He
产品设计相关理论知识计应UI4班王运梅笔记
1、伯斯塔尔法则（Postel’sLaw）系统/产品应保有一定程度的容错能力，在设计中表现为允许用户进行任何操作，即便是错的或无效的Blilibili安卓端头部区域除了[搜索栏]和其他几个按钮之外，任何地方点击都能够进入侧边栏，即使没有点击到[三条杠]，因为这三条杠实在是太小了，用户极有可能没有点击到，所以干脆扩大了可触发的热区。2、美好即用效应当界面被设计得足够美观时，用户往往会容忍一些较为轻微
Java基础笔记（小白友好版）代码什么的真不会呀 java 笔记开发语言
Java基础笔记（小白友好版）1.Java简介Java是一种广泛使用的计算机编程语言，由詹姆斯·高斯林（JamesGosling）在1995年创建Java的口号是"一次编写，到处运行"（WriteOnce,RunAnywhere）Java程序需要先编译成字节码（.class文件），然后在Java虚拟机（JVM）上运行主要特点：面向对象：一切皆对象，代码更清晰易懂平台无关性：可以在Windows、M
css预编译风不在乎前端 css css 前端 scss less stylus
前言定义我们使用css来编写样式，但是随着样式效果的多样化以及复杂化，css变量常量的缺失、语法的呆板等一成不变的写法就会十分臃肿难以维护。所以基于css扩展了一套属于自己的语法，通过专门的编程语言，扩展css的编程能力，在编译成css。常见的库有less、scss/sass、stylus等。特点完美兼容css代码，结构清晰便于扩展支持css定义变量常量、代码嵌套提供函数，支持循环语句支持模块化，
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
使用Three.js渲染器创建炫酷3D场景 Front_Yue 3D技术实践指南 javascript three.js 3d
引言在当今数字化的时代，3D图形技术正以其独特的魅力在各个领域掀起波澜。从影视制作到游戏开发，从虚拟现实到网页交互，3D场景以其强烈的视觉冲击力和沉浸式的体验，成为了吸引用户、传达信息的重要手段。而Three.js，作为一款功能强大且广受欢迎的JavaScript3D库，为我们提供了便捷、高效的途径来创建令人炫目的3D场景。本文将深入探讨使用Three.js渲染器创建炫酷3D场景的方方面面，带领读
asp.net mvc mysql 开源项目_【开源项目SugarSite】ASP.NET MVC+ Layui+ SqlSugar+RestSharp项目讲解... weixin_39805732 asp.net mvc mysql 开源项目
SugarSite一个前端支持移动端的企业网站，目前只支持了简单功能，后续还会加上论坛等。源码GIT地址：技术介绍Layui个人而言不喜欢引用一堆东西，越简洁越好，layui正好能够满足我的这种需求，它是一款轻量级UI，JS部分都是采用模块化设计(AMD)，对移动端支持比较不错。唯一不足是目前支持的组件有些少，需要有一定前端扩展能力的人才可以顺心使用。用法：例如我想用form.js和uploda.
动物识别系统代码python_动物识别系统__代码 weixin_39812065 动物识别系统代码python
1动物识别专家系统动物识别专家系统是流行的专家系统实验模型，它用产生式规则来表示知识，共15条规则、可以识别七种动物，这些规则既少又简单，可以改造他们，也可以加进新的规则，还可以用来识别其他东西的新规则来取代这些规则。动物识别15条规则的中文表示是：规则1：如果：动物有毛发则：该动物是哺乳动物规则2：如果：动物有奶则：该单位是哺乳动物规则3:如果：该动物有羽毛则：该动物是鸟规则4：如果：动物会飞，
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少