欧欧不太欧

模式识别在生物信息领域的应用实例

一、问题需求

细胞是动植物的结构和功能的基本单位。人体大约由几十万亿个细胞组成，根据细胞的形态、功能等可以把细胞分为众多不同的类型，如生殖细胞、神经细胞等等。研究发现，即使是同一类的细胞，在形态、基因表达等方面仍存在着差异。为了探究细胞与细胞之间的差异及其原因，单细胞测序技术应运而生。本次作业将使用单细胞基因表达数据对细胞分类问题进行探究。

在给出的单细胞基因表达数据中，每一行为一个细胞，每一列为一个基因的表达值。我们可以把每一个细胞看做一个样本，把它对应的基因表达量作为特征向量。

现需基于上述的单细胞基因表达数据，研究如下问题：

对提供的两类细胞的单细胞RNA-seq数据设计分类器，并针对测试数据给出类别标签预测。
对提供的十类细胞的单细胞RNA-seq数据设计分类器，并针对测试数据给出类别标签预测。
对2中的十类细胞数据使用PCA或tSNE等方法进行降维和可视化，并对数据进行聚类分析，比较聚类结果和真实标签之间的关系。

未征得老师允许，这里就不上传原始数据啦，胖友们可以自己找数据集玩一下。

二、问题分析

通过读取查看给出的数据集，可以发现，无论是二分类还是十分类问题的数据量都比较少，平均每类一千多条样本，而特征维度有两万五千多，如果直接用来训练，必然会出现严重的过拟合现象；同时，在这些数据样本中，可能存在大量的对分类不起作用或相关性很高的“冗余特征”，存在噪声的特征维度，因此需要先对数据进行清洗、筛选、降维，再对降维后的数据进行训练。总体的步骤过程如下图。

首先，在读取数据之后，我们可以先删除分布完全相同的特征，可以发现这样的特征在二分类数据集中有七千多种，而十分类数据集也有一千多种。其次删除对分类无贡献或贡献很小的特征，考虑到噪声导致分布上的波动，可将方差小于0.1的特征视作所有类差别不大的特征，即对分类贡献很小的特征。此时，特征空间的维度已减小过一半。我们可以再对得到的数据进行降维，可采用主成分分析PCA等方法。

由于数据集的数据量比较少，因此可以考虑使用支持向量机SVM对二分类数据进行分类训练，当然也可以也可以考虑使用神经网络进行训练，对于十分类数据可以考虑使用多个单模型进行投票，也可以考虑支持多分类的支持向量机。

对于降维可视化，可以考虑PCA+tSNE的策略，保证降维效果和运算速率。

三、编程环境

编程语言：Anaconda3 + Tensorflow1.8
操作系统：Win10

四、二分类问题

预处理

剔除分布相同的特征

我们使用pandas读取数据集，然后检测分布相同的特征并将其视为冗余特征删除掉。

import pandas as pd
xtest = xtest.T[~x.T.duplicated()].T
x = x.T.drop_duplicates().T

将方差小于0.1的特征视为对分类帮助不大的特征，也进行删除。

var = x.var(0)
cols = np.append(cols, np.argwhere(var < 0.1))
index = list(set(i for i in range(x.shape[1])).difference(
    cols.reshape(-1)
))
x, xtest = x[:, index], xtest[:, index]

剔除含噪量较大的特征

如果一列特征中出现少于5个非零值，将其视为噪声特征，删除之。

x_not_zero = x > 0
sum_not_zero = sum(x_not_zero)
noise_cols = np.argwhere(sum_not_zero < 5)
index = list(set(i for i in range(x.shape[1])).difference(
    noise_cols.reshape(-1)
))

异常值检测

用箱型图的办法检测异常值，即计算出25%和75%的点，记为下四分位数Q~L~和上四分位数Q~U~，可计算出四分位数间距 IQR=QU−QL ，则上限为 QU+1.5IQR ，下限为 QL−1.5IQR ，超过界限的点即为异常点。在此处采用将异常值修改为对应的四分位数。

# 异常值处理
# ql, qu为下、上四分位数, iqr为四分位数间距
x_desc = x.describe()
ql, qu = x_desc.iloc[4, :], x_desc.iloc[6, :]
iqr = qu - ql
# 设置上下限
upper = qu + 1.5 * iqr
lower = ql - 1.5 * iqr
# 异常值置于四分位点
tmp1, tmp2 = x - upper, xtest - upper
x[tmp1 > 0] = x[tmp1 > 0] - tmp1[tmp1 > 0]
xtest[tmp2 > 0] = xtest[tmp2 > 0] - tmp2[tmp2 > 0]
tmp1, tm2 = lower - x, lower - xtest
x[tmp1 > 0] = x[tmp1 > 0] + tmp1[tmp1 > 0]
xtest[tmp2 > 0] = xtest[tmp2 > 0] + tmp2[tmp2 > 0]
x, xtest = x.astype(int), xtest.astype(int)

处理完异常值后再进行一次冗余检测，输出的特征仅剩553维！对处理完的数据进行分类，精度在96%~98%之间，波动较大。因此这样对异常值的处理效果不太好，因此在最终的方案中并未采用。同时在处理过程中发现异常值有两万多个，说明很可能存在一两个异常样本。

特征提取

尽管在最终的模型中未采用特征提取的方法，但是在实验中尝试了对特征选择后的数据进行特征提取，提取后的数据在SVM中精度达97%，不如未提取的数据。

我们采用PCA方法进行降维。

y = np.array(y)
x = np.array(x)
if n_components:
    pca = PCA(n_components, whiten=True)
    pca.fit(x)
    x = pca.transform(x)
    x_test = pca.transform(x_test)

通过测试表明，如果保留95%以上的信息，将需要输出624维的特征，对于一般的分类器和简单感知器网络而言，这样的维度是难以接受的。可以考虑，能不能适当的丢失更多信息，而在保持较好的分类效果的同时，避免过拟合现象的出现呢？我们可以先粗略的从5~100以5为间隔选择输出维度，重复5次实验，取平均值，得到如下图结果：

可见在40\~80之间能达到较好的分类效果。因此同理，可分别在40\~80和50~70中分别以2、1为间隔进行测试，重复5次实验，取平均值，得到下两幅图的结果：

因此，我们选用51个维度为输出特征维度，这个维度约为样本数的2%，因此是可被接受的。使用这51维特征训练SVM，精度在96%~98%之间，显然不如直接使用全部的选择的特征；用来训练两个隐层的神经网络，精度可达97%，比未进行特征提取的精度高，后者的精度仅有95%。

数据集划分

方案一：把提供训练的数据划分为训练集（80%）、验证集（10%）、测试集（10%）；
方案二：把提供训练的数据划分为训练集（90%）、测试集（10%）；
方案三：不拆分训练数据，全部作为训练集。

其中，方案一用于除SVM之外的模型如神经网络等的参数和模型选择；方案二用于支持向量机的训练，此处采用scikit-learn的svm模块，因此不需要自己制作验证集。方案三用于最终训练支持向量机并对测试数据进行预测。

模型构造

由于选用SVM作为分类模型，SVM的核方法的思想是将低维数据映射到高维空间进行线性分类，因此事实上并不需要对数据进行降维。但考虑到计算量和噪声，仍可以将数据进行上述的筛选、剔除，得到两千多维的特征空间，在此空间中，计算量是客观的，而数据信息保留较完整。直接使用筛选后的数据进行训练即可。

在同一批的训练集和测试集划分中，线性支持向量机的准确率可达98%以上，而已调好参数的非线性支持向量机只能达97%，因此使用线性支持向量机的效果更好。

如果考虑先对筛选后的数据进行PCA降维，再使用线性SVM进行训练，也能达98%的精度，但上下起伏波动较大，因为两类数据数量分布不均匀，降维后的线性SVM最差精度在96%以下，不如未降维的数据，因此直接使用筛选后、未降维的数据。

综上，选择的模型为线性SVM，数据使用筛选清洗后、不进行PCA降维的两千多特征的数据。经实验验证，在该数据集上SVM取C=1已达最优，即采用sklearn的默认参数即可。

为了进一步提高稳定性，此处采用KFold的办法，使用十倍交叉验证构造十个线性SVM，再对测试数据进行投票，对于投票一致的样本，认为是分类准确的，将其并入训练集中，对于投票不一致的，视为存疑数据，重新利用新的整体的训练集训练，得到一个新的SVM，再利用该SVM对存疑数据进行分类。经实验验证，采用本方案得到的分类系统的稳定性比单纯使用十个SVM投票要好，平均精度也有提高。

代码如下，其中对label规范到{1，-1}，事实上，sklearn里的svm并不要求规范化：

def train(x, y, show_confusion=False):
    # 拆分训练集和测试集
    x_train, y_train, x_test, y_test = records.divide_sets(x, y, need_validate=False)
    y_train[y_train == 2], y_test[y_test == 2] = -1, -1
    y_test, y_train = y_test.reshape(-1), y_train.reshape(-1)
    # 十倍交叉验证
    kf = KFold(n_splits=10)
    preds = []
    for train_index, validate_index in kf.split(y_train):
        clf = svm.LinearSVC()
        clf.fit(x_train[train_index], y_train[train_index])
        pred = clf.predict(x_test)
        preds.append(pred)
    pred = np.mean(preds, 0)
    classified = np.array(list(x_test[pred == 1]) + list(x_test[pred == -1]))
    x_train_new = np.array(list(x_train) + list(classified))
    y_train_new = np.append(np.append(y_train, pred[pred == 1]), pred[pred == -1])

    clf = svm.LinearSVC()
    clf.fit(x_train_new, y_train_new.reshape((-1, 1)))

    for i in range(len(pred)):
        if pred[i] != 1. and pred[i] != -1.:
            pred[i] = clf.predict(x_test[i].reshape((1, -1)))[0]
    accuracy = accuracy_score(y_test, pred)
    print("Acc of all-SVC-vote in test sets is {:.4f}%".format(accuracy * 100))
    if show_confusion:
        print(confusion_matrix(y_test, pred))

实验结果

使用十倍交叉验证，可以发现精度在98%~99%之间，下述为某次测试结果：

1	2	3	4	5	6	7	8	9	10	aver
acc	0.9870	0.9826	0.9891	0.9848	0.9870	0.9891	0.9870	0.9891	0.9848	0.9891

可见线性SVM对本分类问题的精度和稳定性都还可以。在利用十倍交叉验证采用投票和构造新模型的机制后，下述为某次实验，对模型训练十次的精度，可见精度和稳定性都得到了提升。

1	2	3	4	5	6	7	8	9	10	aver
acc	0.9891	0.9913	0.9870	0.9891	0.9935	0.9935	0.9935	0.9913	0.9848	0.9957

下述为某次测试的混淆矩阵，其精度为98.9130%，可以发现在测试集中两类数据数量相差较大，其中一类约为另一类的1.5倍，这不是偶然的，事实上在给出的数据中本身就存在这样的关系，导致SVM会随着测试集抽样的不同引发不同的精度波动，从而影响分类结果的稳定性。而在本方法模型能较好地规避这个问题。

273	3
2	182

其他方法

非线性SVM

使用二次非线性SVM分类器，经过调参，发现取核函数 K=(0.019x+22)2 ，取 C=1 效果较好，精度在95%~97%之间，显然不如线性SVM。

使用三次非线性SVM分类器，取核函数 K=(0.020x+22)3 ，取 C=0.5 效果较好，精度在95%~97%之间，比二次更差一点。

使用径向基SVM分类器，取核函数系数 γ=0.0075 ，取 C=12 效果较好，精度在96%~98%之间，比二次稍好。

神经网络

如果直接对高维的数据构造神经网络模型，显然由于数据量太少而特征维度太高极易出现过拟合，尽管可能在给定的数据集表现很好，但可迁移性不高，不是一个好的模型。因此使用PCA降维后的数据进行训练，训练模型为含两个隐层的全连接神经网络。在训练中可以观察到，神经网络模型在训练五六千次（每次抽取64对数据进行训练）后出现过拟合现象，表现为：随着训练次数增加，损失函数不断减少（如果设置的学习率较大则会出现loss上升的情况），但验证集表现精度不变，甚至还有下降趋势。因此可将训练次数设置为5000，一方面保证训练精度，另一方面及时防止过拟合。最终测出精度为96%~97%。

def fc_net(x_train, y_train, x_test, in_dim=100):
    x = tf.placeholder(tf.float32, [None, in_dim], name='x-input')
    y_ = tf.placeholder(tf.float32, [None, 2], name='y-input')
    with slim.arg_scope(
            [slim.fully_connected],
            weights_regularizer=slim.l2_regularizer(1e-4),
            weights_initializer=tf.truncated_normal_initializer(stddev=0.1),
            biases_initializer=tf.constant_initializer(0.1),
            activation_fn=tf.sigmoid
    ):
        out = slim.fully_connected(x, 200)
        y = slim.fully_connected(out, 2)
    loss = slim.losses.softmax_cross_entropy(y, y_)
    accuracy = tf.reduce_mean(
        tf.cast(tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)), tf.float32)
    )
    global_step = tf.Variable(0, trainable=False)
    learning_rate = tf.train.exponential_decay(0.1, global_step, 128, 0.99)

    optimizer = tf.train.GradientDescentOptimizer(learning_rate)
    train_step = optimizer.minimize(loss, global_step=global_step)
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        x_t, y_t, x_v, y_v = records.divide_sets(x_train, y_train, need_validate=False)
        for i in range(1, 5001):
            # x_batch, y_batch = next_batch(x_train, y_train, 128)
            x_batch, y_batch = next_batch(x_t, y_t, 128)
            train_dict = {x: x_batch, y_: y_batch}
            validate_dict = {x: x_v, y_: y_v}
            sess.run(train_step, feed_dict=train_dict)
            if i % 100 == 0:
                los, acc, steps = sess.run(
                    [loss, accuracy, global_step], feed_dict=validate_dict
                )
                print('step:{}, loss:{}, acc:{}'.format(steps, los, acc))
        test_dict = {x: x_test, y_: np.zeros((x_test.shape[0], 2))}
        return sess.run(tf.argmax(y, 1) * 2 - 1, feed_dict=test_dict)

五、十分类问题

根据二分类的经验，由于数据量少而特征维度高，此处采用多分类的支持向量机最优。我们采用与二分类相同的特征筛选方法，即去除冗余特征、去除方差小于0.1的无贡献特征和少于5个非零值的噪声特征。可筛选剩三千多项特征。这大大减小了训练SVM的计算量。

我们尝试使用线性SVM，某次十倍交叉验证（并不是全部数据参与十倍交叉验证，已有一部分数据被抽出作为测试集）结果如下：

1	2	3	4	5	6	7	8	9	10	aver
acc	0.9977	0.9984	0.9984	0.9930	0.9961	0.9946	0.9992	0.9977	1	0.9961

可见精度在99.30%~100%之间波动，平均精度达99.71%，分类效果已经很好，不需再考虑非线性SVM。

同样采用与二分类一样的投票方法，重复10次实验，结果如下：

1	2	3	4	5	6	7	8	9	10	aver
acc	0.9981	0.9972	0.9978	0.9978	0.9984	0.9972	0.9963	0.9966	0.9960	0.9972

精度在99.60%~99.84%之间波动，平均精度达99.73%，精度和稳定性都有所提高。

某次分类结果的混淆矩阵如下：

245	0	0	0	0	0	0	0	0	0
0	282	0	0	0	0	0	0	0	0
0	0	258	0	0	0	0	0	0	0
0	1	0	283	0	0	0	2	0	0
0	0	0	0	282	0	0	0	0	0
0	0	0	0	0	264	0	0	0	0
0	1	0	0	0	0	543	0	1	1
2	0	0	0	0	0	0	483	0	0
0	0	0	0	0	0	2	0	294	0
0	0	0	0	0	0	2	0	0	270

可见给定的数据集同样存在数据数量不均匀的问题，该问题容易造成分类精度的降低，引起精度波动。采用投票的办法可提高鲁棒性。

六、聚类

为了降低计算量，我们可以考虑对筛选剩的三千多项特征进行降维。由于tSNE的降维效果最好，但运行很慢，因此可以考虑采用PCA+tSNE的策略，即用PCA降维至小维度空间，再用tSNE进行降维可视化，这样在保证运行速率的同时使得降维效果有所提高。

先用PCA将特征空间降到50维，再用tSNE降维至三维，得到如下散点图：

可见十类样本分层明显，但存在个别异常点，原因可能有：特征选择时丢失信息；PCA降维仅保存了特征选择后的95%的信息，进一步丢失数据；样本本身存在异常值。

如果采用PCA直接降到3维空间，得下图：

显然十类样本交叠较明显，可分性不够高。因此在降维效果上PCA不如tSNE。但值得注意的是，尽管已实现使用PCA将特征降至50维，此时再采用tSNE降维所需要的时间仍然很多，在本机测试数需要20分钟才能得出降维结果；而如果先用PCA降维至10维，再用tSNE进行降维，也需要十分钟。综上，采用PCA+tSNE的策略可以兼顾两者的优点，提高降维的效果。

从tSNE的降维可视化可见该算法降维结果具有明显的分层，因此可以考虑直接使用tSNE降维后的三维数据进行聚类。设置10个聚类中心，采用KMeans算法进行聚类，将聚类结果每一簇的点的真实类别放入到一个集合中，统计每一个集合的众数，将集合中与众数相等的点视为分类准确点，可计算得到聚类的准确性为80.05%。但是，我们观察每个集合的众数，分别为：1、8、9、10、4、5、7、7、6、3，可以发现，集合的众数存在重复，即同一类可能存在相差较远的两个聚类中心，因此使用与分类数相同的聚类数进行聚类效果并不一定是最好，但是聚类数的确定仍需靠经验或者实验测得。

七、总结

对于原始的采样数据，可能存在大量冗余信息和噪声信息，在进行分类之前需要对数据进行预处理，一般来说，去掉方差较小的特征对分类效果影响不大，反而可以提高运算速度。对于异常值的处理需要谨慎，常用的异常值处理方法大多依靠经验，可能会对分类产生较大影响。

对于数据量少、特征维度高的数据集，采用支持向量机的模型进行分类可得到较好效果；在使用支持向量机时，如果线性SVM能满足要求，就不需要考虑多项式核SVM，如果采用多项式核SVM能满足要求，就不需要考虑高斯核SVM。为了提高算法鲁棒性，可考虑使用多个模型组建投票机进行投票。对于此类数据集，如果采用神经网络模型，很容易出现过拟合现象，此时可考虑数据降维、及时停止训练、降低学习率等办法，尽量避免过拟合的产生。

此数据集中数据分布不均匀，不仅会对数据抽样划分的结果产生影响，还会影响模型的建立，导致模型准确性产生波动，影响稳定性。这时候可以引入存疑数据的概念，将投票不一致的数据记为存疑数据，采用其他模型进行评估，一般来说可以提高稳定性，但这其中的关键是这里的其他模型的设计存在难度。因此，在数据采用的时候应尽量保证采样数量的均匀。

对于降维算法而言，PCA的运算量较少，运算起来较快，而tSNE运算巨慢，需要大量的时间，但降维效果明显比PCA好，因此可以综合考虑两种算法，可以先使用PCA降维到较低空间，再使用tSNE进行降维可视化。

PS：存疑数据的处理是我自己想出来的，没有经过数学证明收敛性，欢迎胖友们指正啦~

附：完整代码

records.py

# -*- coding:utf-8 -*-
import pandas as pd
import random
import tensorflow as tf
import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from sklearn import svm
from sklearn.metrics import accuracy_score


def create_record(cwd, num_classes):
    """
    :param cwd: 当前工作路径
    :param num_classes: 数据集的类别数，用于选择数据集
    """
    # 读取文本
    path = cwd + "/" + str(num_classes) + "classes/" + str(num_classes)
    x = pd.read_csv(path + 'ctrainX.txt', sep='\t', header=None,
                    dtype=int, na_filter=False).values
    y = pd.read_csv(path + 'ctrainY.txt', sep='\t', header=None,
                    dtype=int, na_filter=False).values
    xtest = pd.read_csv(path + 'ctestX.txt', sep='\t', header=None,
                        dtype=int, na_filter=False).values
    # 简单的数据清洗
    # 除去重复列
    # xtest = xtest.T[~x.T.duplicated()].T
    # x = x.T.drop_duplicates().T
    # # 异常值处理
    # # ql, qu为下、上四分位数, iqr为四分位数间距
    # x_desc = x.describe()
    # ql, qu = x_desc.iloc[4, :], x_desc.iloc[6, :]
    # iqr = qu - ql
    # # 设置上下限
    # upper = qu + 1.5 * iqr
    # lower = ql - 1.5 * iqr
    # # 异常值置于四分位点
    # tmp1, tmp2 = x - upper, xtest - upper
    # x[tmp1 > 0] = x[tmp1 > 0] - tmp1[tmp1 > 0]
    # xtest[tmp2 > 0] = xtest[tmp2 > 0] - tmp2[tmp2 > 0]
    # tmp1, tm2 = lower - x, lower - xtest
    # x[tmp1 > 0] = x[tmp1 > 0] + tmp1[tmp1 > 0]
    # xtest[tmp2 > 0] = xtest[tmp2 > 0] + tmp2[tmp2 > 0]
    # x, xtest = x.astype(int), xtest.astype(int)
    # xtest = xtest.T[~x.T.duplicated()].T.values
    # x = x.T.drop_duplicates().T.values
    print('{}{}'.format(x.shape, xtest.shape))
    # 删除列全部为0的冗余特征，列中只出现少于5个非零值（约0.5%）的噪声特征
    # 删除方差差小于0.1的冗余特征
    x_not_zero = x > 0
    sum_not_zero = sum(x_not_zero)
    noise_cols = np.argwhere(sum_not_zero < 5)
    var = x.var(0)
    noise_cols = np.append(noise_cols, np.argwhere(var < 0.1))
    index = list(set(i for i in range(x.shape[1])).difference(
        noise_cols.reshape(-1)
    ))
    x, xtest = x[:, index], xtest[:, index]
    print(x.shape)
    # # 归一化数据，归一化后效果反而变差
    # x_max, x_min, x_mean = x.max(0), x.min(0), x.mean(0)
    # x = (x - x_mean) / (x_max - x_min)
    # xtest = (xtest - x_mean) / (x_max - x_min) * 2
    # 制作训练集
    writer = tf.python_io.TFRecordWriter(path + "train.tfrecords")
    for index in range(y.shape[0]):
        label = tf.train.Int64List(value=y[index])
        genes = tf.train.Int64List(value=x[index])
        feature = {
            "label": tf.train.Feature(int64_list=label),
            "genes": tf.train.Feature(int64_list=genes)
        }
        example = tf.train.Example(
            features=tf.train.Features(feature=feature)
        )
        writer.write(example.SerializeToString())
    writer.close()

    # 制作测试集
    writer = tf.python_io.TFRecordWriter(path + "test.tfrecords")
    for each in xtest:
        genes = tf.train.Int64List(value=list(each))
        feature = {
            "genes": tf.train.Feature(int64_list=genes)
        }
        example = tf.train.Example(
            features=tf.train.Features(feature=feature)
        )
        writer.write(example.SerializeToString())
    writer.close()


def preprocessing(cwd, num_classes, n_components=None):
    """
    :param cwd: 当前工作路径
    :param num_classes: 数据集的类别数，用于选择数据集
    :param n_components: 降维后的维度，默认None，表示不降维
    """
    data_train = "{}/{}classes/{}train.tfrecords".format(cwd, num_classes, num_classes)
    data_test = "{}/{}classes/{}test.tfrecords".format(cwd, num_classes, num_classes)
    x, y, x_test = [], [], []
    for serialized_example in tf.python_io.tf_record_iterator(data_train):
        example = tf.train.Example()
        example.ParseFromString(serialized_example)
        y.append(example.features.feature['label'].int64_list.value)
        x.append(example.features.feature['genes'].int64_list.value)
    for serialized_example in tf.python_io.tf_record_iterator(data_test):
        example = tf.train.Example()
        example.ParseFromString(serialized_example)
        x_test.append(example.features.feature['genes'].int64_list.value)
    y = np.array(y)
    x = np.array(x)
    x_test = np.array(x_test)
    if n_components:
        pca = PCA(n_components, whiten=True)
        pca.fit(x)
        x = pca.transform(x)
        x_test = pca.transform(x_test)
        # 计算信息量
        s = 0
        for each in pca.explained_variance_ratio_:
            s += each
        print(s)
    return x, y, x_test

    # # 筛选输出特征维度
    # x = np.array(x)
    # x_train, y_train, x_test, y_test = divide_sets(x, y, need_validate=False)
    # y_train[y_train == 2] = -1
    # y_test[y_test == 2] = -1
    # acc = []
    # # 50~70
    # for i in range(50, 70):
    #     pca = PCA(i, whiten=True)
    #     pca.fit(x_train)
    #     x = pca.transform(x_train)
    #     x_ = pca.transform(x_test)
    #     clf = svm.LinearSVC()
    #     clf.fit(x, y_train)
    #     pred = clf.predict(x_)
    #     accuracy = accuracy_score(y_test, pred)
    #     acc.append(accuracy)
    #     print("Acc of LinearSVC is {:.4f}%".format(accuracy * 100))
    # 计算信息量
    # s, cnt = 0, 0
    # for each in pca.explained_variance_ratio_:
    #     s += each
    #     cnt += 1
    #     10c: cnt=13  -> 0.90
    #      2c: cnt=245 -> 0.90
    #      2c: cnt=624 -> 0.95
    #     if s > 0.90:
    #         break
    # print(s)
    # print(cnt)
    # return acc


def divide_sets(x_sets, y_sets, need_validate=True):
    """
    :param x_sets: 基因数据集
    :param y_sets: 标签数据集
    :param need_validate: 是否产生验证集，在sklearn.svm中不需要手动产生验证集
    :return: 训练集、（验证集、）测试集
    """
    # 训练神经网络等需要自己制作验证集
    # 使用svm模块不需要自己制作验证集
    if need_validate:
        # 随机抽取测试集和验证集
        length = round(y_sets.shape[0] * 0.1)
        random_list = random.sample(
            range(y_sets.shape[0]), length * 2
        )
        validate_index, test_index = random_list[:length], random_list[length:]
        train_index = list(
            set(i for i in range(y_sets.shape[0])).difference(set(random_list))
        )
        x_train, y_train = x_sets[train_index], y_sets[train_index]
        x_validate, y_validate = x_sets[validate_index], y_sets[validate_index]
        x_test, y_test = x_sets[test_index], y_sets[test_index]
        return x_train, y_train, x_validate, y_validate, x_test, y_test
    else:
        # 随机抽取测试集
        length = round(y_sets.shape[0] * 0.2)
        test_index = random.sample(
            range(y_sets.shape[0]), length
        )
        train_index = list(
            set(i for i in range(y_sets.shape[0])).difference(set(test_index))
        )
        x_train, y_train = x_sets[train_index], y_sets[train_index]
        x_test, y_test = x_sets[test_index], y_sets[test_index]
        return x_train, y_train, x_test, y_test

make_record.py

# -*- coding:utf-8 -*-
import os
import records

# 读取当前路径
cwd = os.getcwd()
# 制造record
records.create_record(cwd, 2)
records.create_record(cwd, 10)

classification2.py

# -*- coding:utf-8 -*-
import os
import numpy as np
from sklearn import svm
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score, confusion_matrix
import records
import tensorflow.contrib.slim as slim
import tensorflow as tf
import random
import pandas as pd


def train(x, y, show_confusion=False):
    # 拆分训练集和测试集
    x_train, y_train, x_test, y_test = records.divide_sets(x, y, need_validate=False)
    # y_train1, y_test1 = y_train.copy(), y_test.copy()
    y_train[y_train == 2], y_test[y_test == 2] = -1, -1
    y_test, y_train = y_test.reshape(-1), y_train.reshape(-1)
    # y_train1[y_train1 == 2], y_test1[y_test1 == 2] = 0, 0
    # y_test1, y_train1 = y_test1.reshape(-1), y_train1.reshape(-1)
    # y_train2, y_test2 = np.eye(2)[y_train1], np.eye(2)[y_test1]
    # # 训练线性SVM
    # clf = svm.LinearSVC()
    # clf.fit(x_train, y_train)
    # pred = clf.predict(x_test)
    # accuracy = accuracy_score(y_test, pred)
    # print("Acc of LinearSVC is {:.4f}%".format(accuracy * 100))
    # 十倍交叉验证
    kf = KFold(n_splits=10)
    preds = []
    # fc_preds =[]
    for train_index, validate_index in kf.split(y_train):
        clf = svm.LinearSVC()
        clf.fit(x_train[train_index], y_train[train_index])
        # pred = clf.predict(x_train[validate_index])
        # accuracy = accuracy_score(y_train[validate_index], pred)
        # print("Acc of LinearSVC in validate sets is {:.4f}%".format(accuracy * 100))
        pred = clf.predict(x_test)
        # fc_pred = fc_net(x_train, y_train2, x_test, y_test2, in_dim=51)
        # print(accuracy_score(y_test, fc_pred))
        # fc_preds.append(fc_pred)
        # accuracy = accuracy_score(y_test, pred)
        # print("Acc of LinearSVC in test sets is {:.4f}%".format(accuracy * 100))
        preds.append(pred)
    pred = np.mean(preds, 0)
    classified = np.array(list(x_test[pred == 1]) + list(x_test[pred == -1]))
    x_train_new = np.array(list(x_train) + list(classified))
    y_train_new = np.append(np.append(y_train, pred[pred == 1]), pred[pred == -1])

    clf = svm.LinearSVC()
    clf.fit(x_train_new, y_train_new.reshape((-1, 1)))

    for i in range(len(pred)):
        if pred[i] != 1. and pred[i] != -1.:
            pred[i] = clf.predict(x_test[i].reshape((1, -1)))[0]
    # 神经网络不如SVM
    # fc_pred = np.sum(fc_preds, 0)
    # fc_pred[fc_pred > 0], fc_pred[fc_pred <= 0] = 1, -1
    accuracy = accuracy_score(y_test, pred)
    # accuracy1 = accuracy_score(y_test, fc_pred)
    # print('mean cnn {:.4f}%'.format(np.mean(fc_preds) * 100))
    print("Acc of all-SVC-vote in test sets is {:.4f}%".format(accuracy * 100))
    if show_confusion:
        print(confusion_matrix(y_test, pred))
    # print("Acc of fc-net in test sets is {:.4f}%".format(accuracy1 * 100))
    # # 多项式和径向基均不如线性
    # clf1 = svm.SVC(C=1, kernel='poly', degree=2, gamma=0.0019, coef0=22)
    # clf1 = svm.SVC(C=0.5, kernel='poly', degree=3, gamma=0.0020, coef0=22)
    # clf1 = svm.SVC(C=12, kernel='rbf', gamma=0.0075)
    # clf1.fit(x_train, y_train)
    # pred1 = clf1.predict(x_test)
    # accuracy1 = accuracy_score(y_test, pred1)
    # print("Acc of RBFSVC is {:.4f}%".format(accuracy1 * 100))
    # return accuracy, accuracy1


def test(x_train, y_train, x_test):
    y_train[y_train == 2] = -1
    y_train = y_train.reshape(-1)
    # 10Fold
    kf = KFold(n_splits=10)
    preds = []
    for train_index, _ in kf.split(y_train):
        clf = svm.LinearSVC()
        clf.fit(x_train[train_index], y_train[train_index])
        pred = clf.predict(x_test)
        preds.append(pred)
    pred = np.mean(preds, 0)
    classified = np.array(list(x_test[pred == 1]) + list(x_test[pred == -1]))
    x_train_new = np.array(list(x_train) + list(classified))
    y_train_new = np.append(np.append(y_train, pred[pred == 1]), pred[pred == -1])

    clf = svm.LinearSVC()
    clf.fit(x_train_new, y_train_new.reshape((-1, 1)))

    for i in range(len(pred)):
        if pred[i] != 1. and pred[i] != -1.:
            pred[i] = clf.predict(x_test[i].reshape((1, -1)))[0]
    pred[pred == -1] = 2
    pred_data_frame = pd.DataFrame(pred.astype(int))
    pred_data_frame.to_csv(
        '2classes\\2ctestY.txt',
        header=None,
        index=None,
        encoding='utf-8'
    )


def knn(sets, data, k):
    d = np.matmul(sets, data)
    return d.argsort()[:k]


def fc_net(x_train, y_train, x_test, in_dim=100):
    x = tf.placeholder(tf.float32, [None, in_dim], name='x-input')
    y_ = tf.placeholder(tf.float32, [None, 2], name='y-input')
    with slim.arg_scope(
            [slim.fully_connected],
            weights_regularizer=slim.l2_regularizer(1e-4),
            weights_initializer=tf.truncated_normal_initializer(stddev=0.1),
            biases_initializer=tf.constant_initializer(0.1),
            activation_fn=tf.sigmoid
    ):
        out = slim.fully_connected(x, 200)
        y = slim.fully_connected(out, 2)
    loss = slim.losses.softmax_cross_entropy(y, y_)
    accuracy = tf.reduce_mean(
        tf.cast(tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)), tf.float32)
    )
    global_step = tf.Variable(0, trainable=False)
    learning_rate = tf.train.exponential_decay(0.1, global_step, 128, 0.99)

    optimizer = tf.train.GradientDescentOptimizer(learning_rate)
    train_step = optimizer.minimize(loss, global_step=global_step)
    with tf.Session() as sess:
        tf.global_variables_initializer().run()
        x_t, y_t, x_v, y_v = records.divide_sets(x_train, y_train, need_validate=False)
        for i in range(1, 5001):
            # x_batch, y_batch = next_batch(x_train, y_train, 128)
            x_batch, y_batch = next_batch(x_t, y_t, 128)
            train_dict = {x: x_batch, y_: y_batch}
            validate_dict = {x: x_v, y_: y_v}
            sess.run(train_step, feed_dict=train_dict)
            if i % 100 == 0:
                los, acc, steps = sess.run(
                    [loss, accuracy, global_step], feed_dict=validate_dict
                )
                print('step:{}, loss:{}, acc:{}'.format(steps, los, acc))
        test_dict = {x: x_test, y_: np.zeros((x_test.shape[0], 2))}
        return sess.run(tf.argmax(y, 1) * 2 - 1, feed_dict=test_dict)


def next_batch(x, y, batch_size=64):
    random_list = random.sample(
        range(y.shape[0]), batch_size
    )
    return x[random_list], y[random_list]


def main():
    cwd = os.getcwd()
    x, y, x_test = records.preprocessing(cwd, 2)
    train(x, y, show_confusion=True)
    test(x, y, x_test)


if __name__ == "__main__":
    main()

classification10.py

# -*- coding:utf-8 -*-
import os
import numpy as np
from sklearn import svm
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score, confusion_matrix
import records
import pandas as pd


def train(x, y, show_confusion=False):
    # 拆分训练集和测试集
    x_train, y_train, x_test, y_test = records.divide_sets(x, y, need_validate=False)
    y_test, y_train = y_test.reshape(-1), y_train.reshape(-1)
    # 十倍交叉验证
    kf = KFold(n_splits=10)
    preds = []
    for train_index, validate_index in kf.split(y_train):
        clf = svm.LinearSVC()
        clf.fit(x_train[train_index], y_train[train_index])
        pred = clf.predict(x_train[validate_index])
        accuracy = accuracy_score(y_train[validate_index], pred)
        print("Acc of LinearSVC in validate sets is {:.4f}%".format(accuracy * 100))
        pred = clf.predict(x_test)
        preds.append(pred)
    preds = np.array(preds)
    var = preds.var(0)
    x_train_new = np.array(list(x_train) + list(x_test[var == 0]))
    y_train_new = np.append(y_train, preds[0][var == 0])

    clf = svm.LinearSVC()
    clf.fit(x_train_new, y_train_new.reshape((-1, 1)))

    pred = []
    for i in range(var.shape[0]):
        if var[i] != 0:
            pred.append(clf.predict(x_test[i].reshape((1, -1))))
        else:
            pred.append(preds[0, i])

    accuracy = accuracy_score(y_test, pred)
    print("Acc of all-SVC-vote in test sets is {:.4f}%".format(accuracy * 100))
    if show_confusion:
        print(confusion_matrix(y_test, pred))


def test(x_train, y_train, x_test):
    y_train = y_train.reshape(-1)
    # 10Fold
    kf = KFold(n_splits=10)
    preds = []
    for train_index, validate_index in kf.split(y_train):
        clf = svm.LinearSVC()
        clf.fit(x_train[train_index], y_train[train_index])
        pred = clf.predict(x_test)
        preds.append(pred)
    preds = np.array(preds)
    var = preds.var(0)
    x_train_new = np.array(list(x_train) + list(x_test[var == 0]))
    y_train_new = np.append(y_train, preds[0][var == 0])

    clf = svm.LinearSVC()
    clf.fit(x_train_new, y_train_new.reshape((-1, 1)))

    pred = []
    for i in range(var.shape[0]):
        if var[i] != 0:
            pred.append(int(clf.predict(x_test[i].reshape((1, -1)))))
        else:
            pred.append(int(preds[0, i]))

    pred_data_frame = pd.DataFrame(pred)
    pred_data_frame.to_csv(
        '10classes\\10ctestY.txt',
        header=None,
        index=None,
        encoding='utf-8'
    )


def main():
    cwd = os.getcwd()
    x, y, x_test = records.preprocessing(cwd, 10)
    train(x, y, show_confusion=True)
    test(x, y, x_test)


if __name__ == "__main__":
    main()

clustering.py

# -*- coding:utf-8 -*-
import os
from sklearn.manifold import TSNE
import records
import matplotlib.pyplot as plt
import time
from mpl_toolkits.mplot3d import Axes3D
from sklearn.cluster import KMeans
from scipy.stats import mode


def main():
    cwd = os.getcwd()
    time1 = time.time()
    x, y, _ = records.preprocessing(cwd, 10, n_components=50)
    y = y.reshape(-1)
    tsne = TSNE(n_components=3)
    x = tsne.fit_transform(x)
    time2 = time.time()
    print(time2 - time1)
    color = ['r', 'b', 'g', 'y', 'k', 'c', 'gold', 'purple', 'm', 'pink']
    ax = plt.subplot(111, projection='3d')
    for i in range(10):
        x_i = x[y == i + 1]
        ax.scatter(x_i[:, 0], x_i[:, 1], x_i[:, 2], color[i])
    ax.grid()
    plt.show()

    clf = KMeans(n_clusters=10)
    s = clf.fit(x)
    correct_nums = 0
    for i in range(10):
        m = mode(y[s.labels_ == i])
        correct_nums += m.count[0]
        print(m.mode[0])
    print("Acc of KMeans is {:.4f}".format(correct_nums / y.shape[0] * 100))
    time3 = time.time()
    print(time3 - time2)


if __name__ == "__main__":
    main()

README.txt

# 最终结果保存在result文件夹下，其中"2ctestY.txt"和"10ctestY.txt"分别为二分类和十分类的预测结果。
# 源文件保存在src文件夹下。

# 环境：Win10 + Anaconda3 + Tensorflow1.8
###################################
#   运行说明
0. records.py里编写了数据预处理和PCA降维、制作和读取.tfrecords文件、抽取训练集验证集测试集等函数。
1. 将两类数据的训练集和测试集均放入2classes文件夹中，十分类数据则放入10classes文件夹中。
2. 运行make_record.py文件（必须!），将原始数据进行初步筛选并存为程序读取更快的.tfrecords格式。
3. 运行classification2.py执行二分类任务。
4. 运行classification10.py执行十分类任务。
5. 运行clustering.py执行降维可视化、聚类任务。
###################################

你可能感兴趣的:(模式识别笔记,模式识别,机器学习)

支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
《你要活成一束光》读书笔记彩云悦读乐教
这是一本很有温度的书。本书以写信的形式道出了人间条条真理，语言朴实却给人感触至深，书中的四十封书信，有写给女儿、儿子的；有写给老爸、妈妈的；有写给爱人、亲人、朋友的；还有写给陌生的兄弟的，每一封信都会有不同的感悟与体会，每一封信都传达着真挚的爱意，它像是一束光，周身散发着巨大而美好的能量…该书文笔流畅，语言清新优美，画面感十足，字里行间充满了浓浓的亲情、友情、爱情，让人感动！读的时候会让人大笑，会
Python编程：从入门到实践 YC运维 Python_study python 学习开发语言
这是基于《Python编程：从入门到实践》这本书以一个初学者的视角去学习而记录的笔记，浓缩了精华的部分以及分享了一些我自己的见解。做这个既是为了让自己边学边记录也是为了保留自己的问题去和小伙伴一起谈论。一，python是什么以及核心作用Python是一种高级、解释型、面向对象的编程语言，由荷兰人GuidovanRossum于1989年圣诞节期间创建，第一个公开发行版发行于1991年。它的设计哲学强
2020/4/1，《教育的勇气》读书笔记。刘霞辉
2020/4/1，《教育的勇气》读书笔记。很快就到了本书的最后一部分----突围或改变：教育困境中的思与行。读张老师的书，如果不写读书笔记，真的是一口气可以读完一本书。读他的书，像是一种享受，由内到外地放松。更多时候是可以引起内心的共情、共鸣。一，维持一种有意义团体的生命活力作者开篇从谢云老师的“知行社”说起，知行社、优培写作班、1＋1教育、勇气更新等都是非常有意义的团体。这些团体在开始建设的时候
读书笔记：SFBT其他重要晤谈技巧与原则风雨彩虹1219
中原焦点团队坚持分享1453天2022-07-09一、以“澄清式自我揭露”与“温和挑战”取代面质1、SFBT不建议咨询师告诉当事人有关自己的过去经验，尤其是个人之前的惨痛故事或者直接建议当事人的个人体验。但是并不表示不能揭露自己，SFBT自我揭露是以“澄清”的方式来询问当事人，并要扣着目标导向与优势观点。2、如果当事人坚持想知道咨询师的个人故事，SFBT的咨询师会先询问当事人认为获得这样的信息对自
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
百天创业笔记04 七色阳光l
七色阳光:浙江兰溪人，退休后选择走进思涵读书荟，不留遗憾，以往生活一去不复返，最重要的是余生怎么过，与读书绑在一起，会很精彩，用心去体会！成长蜕变挑战营打卡第18天每日任务:（完成打✓）①6:00起床进行魔力练习（√）②每日营养早餐，群内打卡（√）③每天运动20分钟以上（√）④每月更新20个短视频，本月目前为止更新第几个了？（14）⑤每天在官微连麦分享书籍（√）⑥每天直播不低于1个小时（√）⑦每天
破茧成蝶：负债女性如何通过工作重拾财务自由氧惠购物达人
女人负债累累该做什么工作？首先，需要明确的是，没有任何一种工作可以迅速还清债务。因此，选择工作的关键在于其稳定性、可靠性和可持续性。以下是一些适合负债累累女性的工作：1.客服代表：客服代表可以在家里工作，并且可以灵活安排自己的时间。这意味着，你可以在保持稳定收入的同时，也有足够的时间来处理债务问题。月入十万必看！都在挣钱！推荐几个月入几千到几万的靠谱副业项目！（公众号：善士思维笔记）氧惠APP是与
Javaweb笔记笙鹿鸣 html 前端 html5
HTMLHTML网页常用基础知识网页结构JavaSEC/SClientserver客户端–服务器JavaWebB/SBroswerServer浏览器–服务器网页的组成部分：内容（结构）、表现、行为HTML:HyperTextMarkupLanguage(超文本标记语言)ALT+F2选择浏览器HTML书写规范：表示整个html页面的开始头信息标题标题body是页面的主体内容页面主体内容表示整个htm
京东内部优惠券怎么领？京东怎么找内部优惠券？氧惠评测
京东内部优惠券的领取方式多样，以下是一些主要途径和具体步骤：月入十万必看！都在挣钱！推荐几个月入几千到几万的靠谱副业项目！（公众号：善士思维笔记）氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。金珊
利用 Python 爬取小红书热门笔记并进行标签关键词分析程序员威哥最新爬虫实战项目 python 笔记开发语言
一、背景与目标小红书（RED）作为中国最活跃的内容社区之一，拥有大量关于美妆、穿搭、美食、旅游等领域的用户生成内容（UGC）。对于产品、品牌方或研究人员来说，提取热门笔记的标签关键词，可以有效捕捉用户关注点、消费趋势及内容热词。本项目目标：使用Python爬取小红书某个话题下的热门笔记；分析每篇笔记中的标题、正文、标签等字段；利用NLP技术提取高频关键词；对关键词进行可视化与聚类分析。二、技术难点
按时写作|2021-04-17 格莱在创作
旷野上的风和老人.jpg（哈哈，声明一下：所有在发布的图片均为格莱诺本人的摄影作品）按时写作是一种训练方式，是通往作家之路的一种办法。就像是人们常说的那样，要想成为作家，你就要天天写，要想成为画家，你就要天天画。是的，每天都要按时写作，成为习惯，结合不断的输入，水到渠成的那天便是指日可待。按时写作是自己生活的笔记，是用来保存记忆场景、对话，以及为自己的创作埋下种子，还有训练文笔流畅，提升思辨力等等
每日复盘Day53 米果果教育张滢
10月7号复盘图片发自App米果果教育张滢【每日目标】每天三目标1.早起、早餐✅2.英语学习作业打卡✅3.赢效率手册和总结笔记✅【每日早起】6:30(今天6点醒来，起床后晨跑，好久没晨跑感觉好棒)【每日学习】萌姐英语课《第40课》；樊登读书会《运动改造大脑》【每日关爱】晨跑、一组减脂训练、胶原肽果饮、水光疗套装图片发自App图片发自App【每日成就】早上比计划早起，老妈在也不担心早饭，花30分钟晨
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
java学习day6 + leetcode31 下一个排列冬夜戏雪 java 学习算法
1.消息队列和一些功能P74P75P76基于stream的消息队列单消费模式消费者组P77基于消息队列的异步秒杀下单shift2提及，插入已知笔记P78探店笔记P79查看探店笔记p80点赞功能一人一赞这里也有并发P81点赞排行榜sortedsetset集合的选择redis里面的zsetmybatis改sql排序语句p82好友关注关注和取关p83共同关注redis里的set交集功能解析id集合没看懂
《数据结构》学习笔记二：算法（二）小曼blog
继续上节的学习，我们在这一篇文章里把“算法”这一章内容学习完。本节解决问题：算法的好坏到底是如何评估的？知识点：1.函数的渐进增长2.算法的时间复杂度3.常见的时间复杂度4.算法的空间复杂度1.函数的渐进增长这一知识点与数学相关，不过没关系都是很容易理解的内容。问题：假如两个算法的输入规模都是n,A的执行次数是2n+3,B的执行次数是3n+1,那么这两个算法哪一个更好呢？我们来分析一下，用数学的折
集群技术笔记-HAProxy 与 Keepalived 高可用负载均衡实战
目录前言HAProxy一、HAProxy介绍（一）定义（二）核心优势（三）调度算法速查表（四）工作模式（五）配置文件结构（六）健康检查字段二、搭建负载均衡集群（一）准备基本环境（二）配置流程配置真实服务器配置代理服务器（三）客户端验证三、配置健康检查页面（一）修改配置文件追加配置内容（二）重启服务（三）浏览器访问验证Keepalived一、Keepalived介绍（一）定义（二）功能（三）工作原理
香严工作日记第十天（2月12日）素琴本无弦
【读书笔记】摘要1我相信医院里的药物为上帝所憎恶，但如果那天晚上我手头有吗啡，肯定会给卢克服用。疼痛令他喘不过气来。他躺在床上，豆大的汗珠从额头滑落至胸前，他屏住呼吸直到脸变红，继而变紫，仿佛让大脑缺氧才能撑到下一分钟。当肺部疼痛超过烧伤带来的痛苦时，他哭着大口大口地呼气——肺部解脱了，腿却痛到极点。感悟：隔着屏幕都能感受到那份疼痛╯﹏╰。他们似乎已经习以为常，没有感受到任何的慌乱和不安。但是生活
《我不惧怕成为这样“强硬”的姑娘》读书笔记05 幺拐妖怪
在大学那些年因为我考取的并不是什么名牌大学，所以我一直羡慕着那些考上名牌大学的学霸们。作者刘媛媛与北大的那些年让我意识到：学霸之所以是学霸，是因为他们都在抓住飞逝的光阴，为着出厂的一刻做准备，努力变成一盒优质的牛奶。反观我的大学四年，好像都沉浸在社团活动里面，对学业并不怎么上心，而且也没怎么多多跟专业的老师们沟通交流，获取学习经验和心得。在大学里面，我也看到过许多不同的人，有些人在学校里面就肆意开
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
筑基笔记三十六王婷灏常用
一、《筑基笔记三十六》王婷灏，中原焦点团队讲师、心理咨询师，持续原创分享第1391天,2022年9月18日一、心境障碍又称情感性精神障碍；以持续而显著的情绪低落或高涨为主要表现，包括抑郁症和躁狂症；伴有相应认知、行为改变，可有精神病性症状;—般为发作性病程，间歇期完全正常；虽有反复发作的倾向，但不出现精神衰退,具有复发倾向，大多可缓解。预后较好。二、躁狂症“三高”：思维奔逸、情感高涨、意志增强。易
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
申请印象笔记Developer Tokens 骑马纵天下
目前印象笔记已经关闭申请developertokens公开通道,如果想要申请需要自己去开发者中心发邮件申请申请通道获取DeveloperTokens链接给印象那边发邮件大概一天左右的时就会回复，再次点击获取developertoken链接就可以了。印象笔记回复邮件再次获取成功ps:口令有效期一年
使用QMI8658六轴原始数据融合输出欧拉角笔记
关于四元素和三维旋转的知识，推荐看一下https://github.com/Krasjet/quaternion。qmi8658六轴姿态传感器的原始数据读取函数如下。需要注意的是，陀螺仪数据的格式。voidQmi8658_read_acc_xyz(floatacc_xyz[3]){unsignedcharbuf_reg[6];shortraw_acc_xyz[3];Qmi8658_read_reg
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
《犹太人的教子枕边书》读书笔记(一) 岚华
图片发自App前言犹太民族一直以人才辈出闻名于世界。伟大的政治思想家马克思、无产阶级革命导师列宁、著名心理学家弗洛伊德、美国石油大王洛克菲勒、金融大亨索罗斯、华尔街金融巨头摩根......这些在各个领域成就辉煌、享誉国际的名人都是犹太裔。【心得：】犹太人具有非凡的创造力。其根源又是什么呢？难道就是他们的任性。一个夹缝中求生的民族，却为世界文明作出了巨大的贡献。并且有人这样断言：没有犹太人，世界的历
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
《在与众不同的教室里》读书笔记（4）河南张俊红
新世纪教育改革的先锋：贝齐.罗杰斯和詹森.卡姆拉斯第五位教师：贝齐.罗杰斯罗杰斯到条件最差的学校布莱顿学校任教，这是当地历史上最悠久的老大难薄弱校，他认为，薄弱校改造的核心是师资力量。为了提高教师水平加强家长的参与，为家长提供家教早餐，每安排家长每月一天到学校去听辅导员讲家教经验，并享受免费的早餐。罗杰斯是认为教师改变一切的关键是教师的质量。教师必须以关爱积极的态度接纳学生的全部，课堂教学应该营造
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

245	0	0	0	0	0	0	0	0	0
0	282	0	0	0	0	0	0	0	0
0	0	258	0	0	0	0	0	0	0
0	1	0	283	0	0	0	2	0	0
0	0	0	0	282	0	0	0	0	0
0	0	0	0	0	264	0	0	0	0
0	1	0	0	0	0	543	0	1	1
2	0	0	0	0	0	0	483	0	0
0	0	0	0	0	0	2	0	294	0
0	0	0	0	0	0	2	0	0	270

245	0	0	0	0	0	0	0	0	0
0	282	0	0	0	0	0	0	0	0
0	0	258	0	0	0	0	0	0	0
0	1	0	283	0	0	0	2	0	0
0	0	0	0	282	0	0	0	0	0
0	0	0	0	0	264	0	0	0	0
0	1	0	0	0	0	543	0	1	1
2	0	0	0	0	0	0	483	0	0
0	0	0	0	0	0	2	0	294	0
0	0	0	0	0	0	2	0	0	270

模式识别在生物信息领域的应用实例

模式识别在生物信息领域的应用实例

一、问题需求

二、问题分析

三、编程环境

四、二分类问题

预处理

剔除分布相同的特征

剔除含噪量较大的特征

异常值检测

特征提取

数据集划分

模型构造

实验结果

其他方法

非线性SVM

神经网络

最近邻决策

五、十分类问题

六、聚类

七、总结

附：完整代码

你可能感兴趣的:(模式识别笔记,模式识别,机器学习)

245	0	0	0	0	0	0	0	0	0
0	282	0	0	0	0	0	0	0	0
0	0	258	0	0	0	0	0	0	0
0	1	0	283	0	0	0	2	0	0
0	0	0	0	282	0	0	0	0	0
0	0	0	0	0	264	0	0	0	0
0	1	0	0	0	0	543	0	1	1
2	0	0	0	0	0	0	483	0	0
0	0	0	0	0	0	2	0	294	0
0	0	0	0	0	0	2	0	0	270