热爱学习的小鲁同学

机器学习之降维压缩数据

特征提取：将原始数据压缩为低纬度的

5.1用主成分分析实现无监督降维

5.1完成以下步骤：

标准化数据
构建协方差矩阵
获取协方差矩阵特征值和特征向量
以降序对特征值排序，从而对特征排序

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df=pd.read_csv('wine-Copy1.data',names=['分类标签','酒精','苹果酸',
                                  '灰','灰的碱度','镁','总酚','黄酮类化合物',
                                  '非黄烷类酚类','原花青素','色彩强度',
                                  '色调','稀释酒','脯氨酸'])
df.head()

	分类标签	酒精	苹果酸	灰	灰的碱度	镁	总酚	黄酮类化合物	非黄烷类酚类	原花青素	色彩强度	色调	稀释酒	脯氨酸
0	1	14.23	1.71	2.43	15.6	127	2.80	3.06	0.28	2.29	5.64	1.04	3.92	1065
1	1	13.20	1.78	2.14	11.2	100	2.65	2.76	0.26	1.28	4.38	1.05	3.40	1050
2	1	13.16	2.36	2.67	18.6	101	2.80	3.24	0.30	2.81	5.68	1.03	3.17	1185
3	1	14.37	1.95	2.50	16.8	113	3.85	3.49	0.24	2.18	7.80	0.86	3.45	1480
4	1	13.24	2.59	2.87	21.0	118	2.80	2.69	0.39	1.82	4.32	1.04	2.93	735

from sklearn.model_selection import train_test_split
X=df.iloc[:,1:].values
y=df.iloc[:,0].values

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,stratify=y,
                                              random_state=0)
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(124, 13)
(54, 13)
(124,)
(54,)

#标准化
from sklearn.preprocessing import StandardScaler
sc=StandardScaler()
X_train_std=sc.fit_transform(X_train)
X_test_std=sc.transform(X_test)

def cov(m, y=None, rowvar=True, bias=False, ddof=None, fweights=None,aweights=None)

m:一维或则二维的数组，默认情况下每一行代表一个变量（属性），每一列代表一个观测

#获取协方差矩阵的特征值和特征向量
cov_mat=np.cov(X_train_std.T)
cov_mat.shape

(13, 13)

w,v = numpy.linalg.eig(a) 计算方形矩阵a的特征值和右特征向量

参数：

a : 待求特征值和特征向量的方阵。

w: 多个特征值组成的一个矢量。备注：多个特征值并没有按特定的次序排列。特征值中可能包含复数。

v: 多个特征向量组成的一个矩阵。每一个特征向量都被归一化了。第i列的特征向量v[:,i]对应第i个特征值w[i]。

————————————————

eigen_vals,eigen_vecs=np.linalg.eig(cov_mat)

eigen_vals

array([4.84274532, 2.41602459, 1.54845825, 0.96120438, 0.84166161,
       0.6620634 , 0.51828472, 0.34650377, 0.3131368 , 0.10754642,
       0.21357215, 0.15362835, 0.1808613 ])

eigen_vecs.shape

(13, 13)

总方差和解释方差

tot=sum(eigen_vals)

var_exp=[(i/tot) for i in sorted(eigen_vals,reverse=True)]
var_exp

[0.36951468599607645,
 0.18434927059884165,
 0.11815159094596986,
 0.07334251763785471,
 0.06422107821731672,
 0.05051724484907654,
 0.03954653891241449,
 0.026439183169220035,
 0.02389319259185293,
 0.016296137737251016,
 0.013800211221948418,
 0.01172226244308596,
 0.008206085679091375]

#累计解释方差
cum_var_exp=np.cumsum(var_exp)
cum_var_exp

array([0.36951469, 0.55386396, 0.67201555, 0.74535807, 0.80957914,
       0.86009639, 0.89964293, 0.92608211, 0.9499753 , 0.96627144,
       0.98007165, 0.99179391, 1.        ])

#coding:utf-8
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
#有中文出现的情况，需要u'内容


plt.bar(range(1,14),var_exp,alpha=0.5,align='center',
       label='解释方差')
plt.step(range(1,14),cum_var_exp,label='累计解释方差',color='k')
plt.xlabel('主成分索引')
plt.xlabel('解释方差比率')
plt.legend(loc='best')

[

特征变换

选择与前k个特征值对应的特征向量，其中k为新特征子空间的维数（k≤d)
用前k个特征向量构造投影矩阵W
用投影矩阵W变换d维输入数据集X以获得新的k维特征子空间

#做一个（特征值，特征向量）元组
eigen_pairs=[(np.abs(eigen_vals[i]),eigen_vecs[:,i]) for i in range(len(eigen_vals))]

eigen_pairs[0]

(4.842745315655895,
 array([-0.13724218,  0.24724326, -0.02545159,  0.20694508, -0.15436582,
        -0.39376952, -0.41735106,  0.30572896, -0.30668347,  0.07554066,
        -0.32613263, -0.36861022, -0.29669651]))

#对特征值排序
eigen_pairs.sort(key=lambda k:k[0],reverse=True)

#选用前两个最大特征值的特征向量
w=np.hstack((eigen_pairs[0][1][:,np.newaxis],
           eigen_pairs[1][1][:,np.newaxis]))

w#得到13×2的投影矩阵

array([[-0.13724218,  0.50303478],
       [ 0.24724326,  0.16487119],
       [-0.02545159,  0.24456476],
       [ 0.20694508, -0.11352904],
       [-0.15436582,  0.28974518],
       [-0.39376952,  0.05080104],
       [-0.41735106, -0.02287338],
       [ 0.30572896,  0.09048885],
       [-0.30668347,  0.00835233],
       [ 0.07554066,  0.54977581],
       [-0.32613263, -0.20716433],
       [-0.36861022, -0.24902536],
       [-0.29669651,  0.38022942]])

这里只选择了两个，实际中，主成分的数量必需通过在计算效率和分类器性能平衡来确定

两个新特征的的样本向量
$ X^{'}=XW $

#获得2维度的数据集
X_train_pca=X_train_std.dot(w)
X_train_pca.shape

(124, 2)

#可视化实现
colors=['r','b','g']
markers=['s','x','o']
for l,c,m in zip(np.unique(y_train),colors,markers):
    plt.scatter(X_train_pca[y_train==l,0],X_train_pca[y_train==l,1],
               c=c,label=l,marker=m)
    
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='best')
plt.show()

PCA是不使用任何分类标签的无监督学习技术

sklearn实现

#边界决策的可视化

from matplotlib.colors import ListedColormap

def plot_decision_regions(X,y,classifier,test_idx=None,resolution=0.02):

##简历颜色产生器和颜色绘图板
    markers=('s','x','o','^','y')
    colors=('red','blue','lightgreen','gray','cyan')
    cmap=ListedColormap(colors[:len(np.unique(y))])
    
##画出决策边界

    x1_min,x1_max=X[:,0].min()-1,X[:,0].max()+2
    x2_min,x2_max=X[:,1].min()-1,X[:,1].max()+2
    xx1,xx2=np.meshgrid(np.arange(x1_min,x1_max,resolution),
                       np.arange(x2_min,x2_max,resolution))
    z=classifier.predict(np.array([xx1.ravel(),xx2.ravel()]).T)
    z=z.reshape(xx1.shape)
    plt.contourf(xx1,xx2,z,alpha=0.2,cmap=cmap)
    plt.xlim(xx1.min(),xx2.max())
    plt.ylim(xx2.min(),xx2.max())
    
    #绘出样例
    for idx,c1 in enumerate(np.unique(y)):
        plt.scatter(x=X[y==c1,0],y=X[y==c1,1],
                   alpha=0.8,c=cmap(idx),
                   marker=markers[idx],label=c1)
        
    #绘出测试样例
    if test_idx:
        X_test,y_test=X[test_idx,:],y[test_idx]
        plt.scatter(X_test[:,0],X_test[:,1],c='',
                   alpha=0.1,linewidth=1,marker='o',label='test set',
                    edgecolors='black',s=150)

from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score

#PCA降维
pca=PCA(n_components=2)

X_train_pca=pca.fit_transform(X_train_std)
X_test_pca=pca.transform(X_test_std)

#训练LogisticRegression模型
lr=LogisticRegression(C=1.1)
lr.fit(X_train_pca,y_train)

#测试集和训练集准确率
pred1=lr.predict(X_train_pca)
accuracy1=accuracy_score(y_train,pred1)
print('训练集准确率：'+"{}".format(accuracy1))

pred2=lr.predict(X_test_pca)
accuracy2=accuracy_score(y_test,pred2)
print('测试集准确率：'+"{}".format(accuracy2))

训练集准确率：0.9838709677419355
测试集准确率：0.9259259259259259

#训练集决策区域
plot_decision_regions(X_train_pca,y_train,classifier=lr)
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='best')
plt.show()

*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.
*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.
*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.

#测试集决策区域
plot_decision_regions(X_test_pca,y_test,classifier=lr)
plt.xlabel('PC 1')
plt.ylabel('PC 2')
plt.legend(loc='best')
plt.show()

*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.
*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.
*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.

5.2基于线性判别分析的有监督数据压缩

线性判别方法：提高计算效率和减少维数过高引起的过拟合

LDA是有监督的方法

##手动实现LDA

#标准化前面已经实现

#计算散步矩阵
np.set_printoptions(precision=4)
mean_vecs=[]
for label in range(1,4):
    mean_vecs.append(np.mean(X_train_std[y_train==label],axis=0))
    print("{}{}{}".format('MV',label,mean_vecs[label-1]))

MV1[ 0.9066 -0.3497  0.3201 -0.7189  0.5056  0.8807  0.9589 -0.5516  0.5416
  0.2338  0.5897  0.6563  1.2075]
MV2[-0.8749 -0.2848 -0.3735  0.3157 -0.3848 -0.0433  0.0635 -0.0946  0.0703
 -0.8286  0.3144  0.3608 -0.7253]
MV3[ 0.1992  0.866   0.1682  0.4148 -0.0451 -1.0286 -1.2876  0.8287 -0.7795
  0.9649 -1.209  -1.3622 -0.4013]

mean_vecs

[array([ 0.9066, -0.3497,  0.3201, -0.7189,  0.5056,  0.8807,  0.9589,
        -0.5516,  0.5416,  0.2338,  0.5897,  0.6563,  1.2075]),
 array([-0.8749, -0.2848, -0.3735,  0.3157, -0.3848, -0.0433,  0.0635,
        -0.0946,  0.0703, -0.8286,  0.3144,  0.3608, -0.7253]),
 array([ 0.1992,  0.866 ,  0.1682,  0.4148, -0.0451, -1.0286, -1.2876,
         0.8287, -0.7795,  0.9649, -1.209 , -1.3622, -0.4013])]

S_W=np.zeros((13,13))
d=13
for label,mv in zip(range(1,4),mean_vecs):
    class_scatter=np.zeros((d,d))
    for row in X_train_std[y_train==label]:
        row,mv=row.reshape(d,1),mv.reshape(d,1)
        class_scatter=class_scatter+(row-mv).dot((row-mv).T)
    S_W=S_W+class_scatter
print("{}{}{}{}".format('within-class matrix:',S_W.shape[0],'X',S_W.shape[1]))

within-class matrix:13X13

y_train

array([3, 1, 1, 1, 3, 2, 2, 3, 2, 2, 2, 1, 2, 3, 1, 3, 2, 1, 3, 3, 2, 1,
       2, 2, 2, 2, 3, 1, 2, 2, 1, 1, 3, 1, 2, 1, 1, 2, 3, 3, 1, 3, 3, 3,
       1, 2, 3, 3, 2, 3, 2, 2, 2, 1, 2, 2, 3, 3, 2, 1, 1, 2, 3, 3, 2, 1,
       2, 2, 2, 1, 1, 1, 1, 1, 3, 1, 2, 3, 2, 2, 3, 1, 2, 1, 2, 2, 3, 2,
       1, 1, 1, 3, 2, 1, 1, 2, 2, 3, 3, 2, 1, 1, 2, 2, 3, 1, 3, 1, 2, 2,
       2, 2, 1, 3, 1, 1, 1, 1, 2, 2, 3, 3, 2, 2], dtype=int64)

print("{}{}".format('Class label distribution',np.bincount(y_train)[1:]))

Class label distribution[41 50 33]

#由于样本分布不均，除以各类的n，每个类别散步矩阵相当于协方差矩阵
S_W=np.zeros((13,13))
for label,mv in zip(range(1,4),mean_vecs):
    class_scatter=np.cov(X_train_std[y_train==label].T)
    S_W+=class_scatter
print('{}{}{}{}'.format('Scaled within-class scater matrix:',
                       S_W.shape[0],'X',S_W.shape[1]))

Scaled within-class scater matrix:13X13

#类间散步矩阵
mean_overall=np.mean(X_train_std,axis=0)

d=13
S_B=np.zeros((13,13))
for i,mean_vec in enumerate(mean_vecs):
    n=X_train[y_train==i+1,:].shape[0]
    mean_vec=mean_vec.reshape(d,1)
    mean_overall=mean_overall.reshape(d,1)
    S_B=S_B+n*(mean_vec-mean_overall).dot((mean_vec-mean_overall).T)
print('{}{}{}{}'.format('between-class scatter matrix:',
                         S_B.shape[0],'X',S_B.shape[1]))

between-class scatter matrix:13X13

在新的特征子空间选择线性判别式

$计算S_{w}^{-1}S_{B}特征值和特征向量$

#计算特征值和特征向量
eigen_vals,eigen_vecs=np.linalg.eig(np.linalg.inv(S_W).dot(S_B))

eigen_vals#出现了复数

array([ 0.0000e+00+0.0000e+00j,  1.7276e+02+0.0000e+00j,
        3.4962e+02+0.0000e+00j, -3.7853e-14+0.0000e+00j,
       -2.1174e-14+0.0000e+00j, -2.9948e-15+1.4866e-14j,
       -2.9948e-15-1.4866e-14j,  1.2667e-14+4.8950e-15j,
        1.2667e-14-4.8950e-15j,  7.5878e-15+0.0000e+00j,
       -2.9162e-15+5.1358e-15j, -2.9162e-15-5.1358e-15j,
       -2.2564e-15+0.0000e+00j])

eigen_vecs

array([[ 0.7517+0.j    , -0.4092+0.j    , -0.1481+0.j    ,
         0.406 +0.j    , -0.5115+0.j    , -0.6795+0.j    ,
        -0.6795-0.j    ,  0.6167+0.j    ,  0.6167-0.j    ,
         0.7528+0.j    ,  0.6923+0.j    ,  0.6923-0.j    ,
         0.7594+0.j    ],
       [-0.0834+0.j    , -0.1577+0.j    ,  0.0908+0.j    ,
         0.153 +0.j    , -0.1468+0.j    ,  0.1224+0.0641j,
         0.1224-0.0641j, -0.0988+0.0079j, -0.0988-0.0079j,
        -0.0926+0.j    , -0.1152+0.051j , -0.1152-0.051j ,
        -0.0752+0.j    ],
       [-0.2406+0.j    , -0.3537+0.j    , -0.0168+0.j    ,
         0.2157+0.j    ,  0.0056+0.j    ,  0.0873+0.0821j,
         0.0873-0.0821j, -0.2082-0.047j , -0.2082+0.047j ,
        -0.2838+0.j    , -0.3075-0.1804j, -0.3075+0.1804j,
        -0.2155+0.j    ],
       [ 0.2515+0.j    ,  0.3223+0.j    ,  0.1484+0.j    ,
         0.1153+0.j    , -0.1081+0.j    , -0.3026-0.0141j,
        -0.3026+0.0141j,  0.0359+0.1655j,  0.0359-0.1655j,
         0.2738+0.j    ,  0.2521-0.0098j,  0.2521+0.0098j,
         0.2746+0.j    ],
       [-0.0586+0.j    , -0.0817+0.j    , -0.0163+0.j    ,
         0.0043+0.j    , -0.1021+0.j    ,  0.0499+0.0023j,
         0.0499-0.0023j, -0.0757-0.0479j, -0.0757+0.0479j,
        -0.0627+0.j    ,  0.0819-0.0293j,  0.0819+0.0293j,
        -0.0827+0.j    ],
       [ 0.1027+0.j    ,  0.0842+0.j    ,  0.1913+0.j    ,
        -0.038 +0.j    ,  0.2103+0.j    , -0.1432+0.0557j,
        -0.1432-0.0557j,  0.1065-0.1211j,  0.1065+0.1211j,
         0.0217+0.j    ,  0.1051+0.033j ,  0.1051-0.033j ,
         0.0831+0.j    ],
       [ 0.0109+0.j    ,  0.2823+0.j    , -0.7338+0.j    ,
        -0.5208+0.j    , -0.1468+0.j    , -0.0806-0.0204j,
        -0.0806+0.0204j, -0.0264+0.2665j, -0.0264-0.2665j,
         0.0449+0.j    , -0.0057+0.0149j, -0.0057-0.0149j,
         0.0139+0.j    ],
       [-0.025 +0.j    , -0.0102+0.j    , -0.075 +0.j    ,
        -0.0864+0.j    , -0.0279+0.j    ,  0.0336-0.0378j,
         0.0336+0.0378j, -0.1637-0.058j , -0.1637+0.058j ,
        -0.0851+0.j    , -0.0068-0.0514j, -0.0068+0.0514j,
        -0.0205+0.j    ],
       [ 0.0611+0.j    ,  0.0907+0.j    ,  0.0018+0.j    ,
         0.1421+0.j    , -0.0711+0.j    , -0.0529+0.0346j,
        -0.0529-0.0346j,  0.087 +0.0359j,  0.087 -0.0359j,
         0.0471+0.j    ,  0.0416+0.0129j,  0.0416-0.0129j,
         0.1022+0.j    ],
       [-0.0726+0.j    , -0.2152+0.j    ,  0.294 +0.j    ,
        -0.0811+0.j    , -0.2123+0.j    , -0.0033-0.1045j,
        -0.0033+0.1045j, -0.0395+0.0271j, -0.0395-0.0271j,
        -0.0533+0.j    , -0.0443+0.0641j, -0.0443-0.0641j,
        -0.0811+0.j    ],
       [ 0.1757+0.j    ,  0.2747+0.j    , -0.0328+0.j    ,
        -0.0103+0.j    , -0.3724+0.j    , -0.1923-0.061j ,
        -0.1923+0.061j ,  0.1121-0.2787j,  0.1121+0.2787j,
         0.1673+0.j    ,  0.1886+0.0468j,  0.1886-0.0468j,
         0.1603+0.j    ],
       [-0.0943+0.j    , -0.0124+0.j    , -0.3547+0.j    ,
         0.6254+0.j    , -0.1993+0.j    ,  0.137 -0.0395j,
         0.137 +0.0395j, -0.1668+0.0864j, -0.1668-0.0864j,
        -0.0855+0.j    , -0.0947-0.0672j, -0.0947+0.0672j,
        -0.0816+0.j    ],
       [-0.4933+0.j    , -0.5958+0.j    , -0.3915+0.j    ,
        -0.2319+0.j    ,  0.6322+0.j    ,  0.5491+0.0017j,
         0.5491-0.0017j, -0.5103+0.0514j, -0.5103-0.0514j,
        -0.4639+0.j    , -0.4818+0.005j , -0.4818-0.005j ,
        -0.4818+0.j    ]])

note

Above, I used the numpy.linalg.eig function to decompose the symmetric covariance matrix into its eigenvalues and eigenvectors.

>>> eigen_vals, eigen_vecs = np.linalg.eig(cov_mat)

This is not really a “mistake,” but probably suboptimal. It would be better to use numpy.linalg.eigh in such cases, which has been designed for Hermetian matrices. The latter always returns real eigenvalues; whereas the numerically less stable np.linalg.eig can decompose nonsymmetric square matrices, you may find that it returns complex eigenvalues in certain cases. (S.R.)

#对特征值排序
eigen_pairs=[(np.abs(eigen_vals[i]),eigen_vecs[:,i]) for i in range(len(eigen_vals))]

eigen_pairs

[(0.0,
  array([ 0.7517+0.j, -0.0834+0.j, -0.2406+0.j,  0.2515+0.j, -0.0586+0.j,
          0.1027+0.j,  0.0109+0.j, -0.025 +0.j,  0.0611+0.j, -0.0726+0.j,
          0.1757+0.j, -0.0943+0.j, -0.4933+0.j])),
 (172.76152218979388,
  array([-0.4092+0.j, -0.1577+0.j, -0.3537+0.j,  0.3223+0.j, -0.0817+0.j,
          0.0842+0.j,  0.2823+0.j, -0.0102+0.j,  0.0907+0.j, -0.2152+0.j,
          0.2747+0.j, -0.0124+0.j, -0.5958+0.j])),
 (349.6178089059939,
  array([-0.1481+0.j,  0.0908+0.j, -0.0168+0.j,  0.1484+0.j, -0.0163+0.j,
          0.1913+0.j, -0.7338+0.j, -0.075 +0.j,  0.0018+0.j,  0.294 +0.j,
         -0.0328+0.j, -0.3547+0.j, -0.3915+0.j])),
 (3.7853134512521556e-14,
  array([ 0.406 +0.j,  0.153 +0.j,  0.2157+0.j,  0.1153+0.j,  0.0043+0.j,
         -0.038 +0.j, -0.5208+0.j, -0.0864+0.j,  0.1421+0.j, -0.0811+0.j,
         -0.0103+0.j,  0.6254+0.j, -0.2319+0.j])),
 (2.117398448224407e-14,
  array([-0.5115+0.j, -0.1468+0.j,  0.0056+0.j, -0.1081+0.j, -0.1021+0.j,
          0.2103+0.j, -0.1468+0.j, -0.0279+0.j, -0.0711+0.j, -0.2123+0.j,
         -0.3724+0.j, -0.1993+0.j,  0.6322+0.j])),
 (1.5164618894178885e-14,
  array([-0.6795+0.j    ,  0.1224+0.0641j,  0.0873+0.0821j, -0.3026-0.0141j,
          0.0499+0.0023j, -0.1432+0.0557j, -0.0806-0.0204j,  0.0336-0.0378j,
         -0.0529+0.0346j, -0.0033-0.1045j, -0.1923-0.061j ,  0.137 -0.0395j,
          0.5491+0.0017j])),
 (1.5164618894178885e-14,
  array([-0.6795-0.j    ,  0.1224-0.0641j,  0.0873-0.0821j, -0.3026+0.0141j,
          0.0499-0.0023j, -0.1432-0.0557j, -0.0806+0.0204j,  0.0336+0.0378j,
         -0.0529-0.0346j, -0.0033+0.1045j, -0.1923+0.061j ,  0.137 +0.0395j,
          0.5491-0.0017j])),
 (1.3579567140455979e-14,
  array([ 0.6167+0.j    , -0.0988+0.0079j, -0.2082-0.047j ,  0.0359+0.1655j,
         -0.0757-0.0479j,  0.1065-0.1211j, -0.0264+0.2665j, -0.1637-0.058j ,
          0.087 +0.0359j, -0.0395+0.0271j,  0.1121-0.2787j, -0.1668+0.0864j,
         -0.5103+0.0514j])),
 (1.3579567140455979e-14,
  array([ 0.6167-0.j    , -0.0988-0.0079j, -0.2082+0.047j ,  0.0359-0.1655j,
         -0.0757+0.0479j,  0.1065+0.1211j, -0.0264-0.2665j, -0.1637+0.058j ,
          0.087 -0.0359j, -0.0395-0.0271j,  0.1121+0.2787j, -0.1668-0.0864j,
         -0.5103-0.0514j])),
 (7.587760371654683e-15,
  array([ 0.7528+0.j, -0.0926+0.j, -0.2838+0.j,  0.2738+0.j, -0.0627+0.j,
          0.0217+0.j,  0.0449+0.j, -0.0851+0.j,  0.0471+0.j, -0.0533+0.j,
          0.1673+0.j, -0.0855+0.j, -0.4639+0.j])),
 (5.906039984472233e-15,
  array([ 0.6923+0.j    , -0.1152+0.051j , -0.3075-0.1804j,  0.2521-0.0098j,
          0.0819-0.0293j,  0.1051+0.033j , -0.0057+0.0149j, -0.0068-0.0514j,
          0.0416+0.0129j, -0.0443+0.0641j,  0.1886+0.0468j, -0.0947-0.0672j,
         -0.4818+0.005j ])),
 (5.906039984472233e-15,
  array([ 0.6923-0.j    , -0.1152-0.051j , -0.3075+0.1804j,  0.2521+0.0098j,
          0.0819+0.0293j,  0.1051-0.033j , -0.0057-0.0149j, -0.0068+0.0514j,
          0.0416-0.0129j, -0.0443-0.0641j,  0.1886-0.0468j, -0.0947+0.0672j,
         -0.4818-0.005j ])),
 (2.256441978569674e-15,
  array([ 0.7594+0.j, -0.0752+0.j, -0.2155+0.j,  0.2746+0.j, -0.0827+0.j,
          0.0831+0.j,  0.0139+0.j, -0.0205+0.j,  0.1022+0.j, -0.0811+0.j,
          0.1603+0.j, -0.0816+0.j, -0.4818+0.j]))]

eigen_pairs=sorted(eigen_pairs,key=lambda k :k[0],reverse=True)

for eigen_val in eigen_pairs:
    print(eigen_val[0])

349.6178089059939
172.76152218979388
3.7853134512521556e-14
2.117398448224407e-14
1.5164618894178885e-14
1.5164618894178885e-14
1.3579567140455979e-14
1.3579567140455979e-14
7.587760371654683e-15
5.906039984472233e-15
5.906039984472233e-15
2.256441978569674e-15
0.0

LDA的线性判别数量最多为c-1，c为分类标签的数量

tot=sum(eigen_vals.real)#取实部
discr=[(i/tot) for i in sorted(eigen_vals.real,reverse=True)]

discr

[0.6692795600710417,
 0.3307204399289582,
 2.4247937533367015e-17,
 2.4247937533367015e-17,
 1.4525383988179517e-17,
 0.0,
 -4.3195468201936075e-18,
 -5.582576175728131e-18,
 -5.582576175728131e-18,
 -5.7329513395579316e-18,
 -5.7329513395579316e-18,
 -4.053373328884912e-17,
 -7.246292542455223e-17]

cum_discar=np.cumsum(discr)

辨别力：类的判别信息

#coding:utf-8
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
#有中文出现的情况，需要u'内容

plt.bar(range(1,14),discr,alpha=0.4,align='center',
       label="独立'辨别力'")
plt.step(range(1,14),cum_discar,where='mid',
        label="累计'辨别力'",color='k')
plt.xlabel('线性判别')
plt.ylabel('the ratio of discriminability')
plt.legend(loc='best')
plt.show()

eigen_pairs[0][1][:,np.newaxis].real

array([[-0.1481],
       [ 0.0908],
       [-0.0168],
       [ 0.1484],
       [-0.0163],
       [ 0.1913],
       [-0.7338],
       [-0.075 ],
       [ 0.0018],
       [ 0.294 ],
       [-0.0328],
       [-0.3547],
       [-0.3915]])

W=np.hstack((eigen_pairs[0][1][:,np.newaxis].real,
             eigen_pairs[1][1][:,np.newaxis].real))

print('matrix W:\n',W)

matrix W:
 [[-0.1481 -0.4092]
 [ 0.0908 -0.1577]
 [-0.0168 -0.3537]
 [ 0.1484  0.3223]
 [-0.0163 -0.0817]
 [ 0.1913  0.0842]
 [-0.7338  0.2823]
 [-0.075  -0.0102]
 [ 0.0018  0.0907]
 [ 0.294  -0.2152]
 [-0.0328  0.2747]
 [-0.3547 -0.0124]
 [-0.3915 -0.5958]]

将样本投射到新的特征空间

$X^{'}=XW$

X_train_lda=X_train_std.dot(W)

colors=['r','b','g']
markers=['s','x','o']
for l,c,m in zip(np.unique(y_train),colors,markers):
    plt.scatter(X_train_lda[y_train==l,0],
                X_train_lda[y_train==l,1],c=c,label=l,
               marker=m)
plt.xlabel('LD 1')
plt.ylabel('LD 2')
plt.legend(loc='best')
plt.show()

sklearn实现LDA

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
lda=LDA(n_components=2)#3个类别

X_train_lda=lda.fit_transform(X_train_std,y_train)#获得投影后新的特征

#使用逻辑斯蒂回归处理低位数据
lr=LogisticRegression(C=1.1)
lr=lr.fit(X_train_lda,y_train)

plot_decision_regions(X_train_lda,y_train,classifier=lr)
plt.xlabel('LD 1')
plt.ylabel('LD 2')
plt.legend(loc='best')
plt.xlim([-3,4])
plt.show()

*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.
*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.
*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.

X_test_lda=lda.transform(X_test_std)

plot_decision_regions(X_test_lda,y_test,classifier=lr)
plt.xlabel('LD 1')
plt.ylabel('LD 2')
plt.legend(loc='best')
plt.show()

*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.
*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.
*c* argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with *x* & *y*.  Please use the *color* keyword-argument or provide a 2-D array with a single row if you intend to specify the same RGB or RGBA value for all points.

5.3 KPCA

5.3.2python实现

from scipy.spatial.distance import pdist,squareform
from scipy import exp
from scipy.linalg import eigh
import numpy as np

def rbf_kernel_pca(X,gamma,n_components):
    
    """
    X:{numpy ndarry},shape={n_samples,n_features}
    
    gamma: RBF kernel 参数
    
    n_components:返回的主分空间
    ___________
    
    returns:
    X_pc:shape=[n_samples,k_features]
    
    """
    
    #计算数据集中x之间的平方欧几里得距离
    sq_dists=pdist(X,'sqeuclidean')
    
    #将距离转化为方阵
    mat_sq_dists=squareform(sq_dists)
    
    #计算高斯核矩阵
    K=exp(-gamma*mat_sq_dists)
    
    #中心化核矩阵
    N=K.shape[0]
    one_n=np.ones((N,N)) / N
    K=K-one_n.dot(K)-K.dot(one_n)+one_n.dot(K).dot(one_n)
    
    #计算中心化核矩阵的特征向量和特征值
    #scipy.linalg.eigh返回降序排列
    eigvals,eigvecs=eigh(K)#特征值按升序排列
    
    eigvals,eigvecs=eigvals[::-1],eigvecs[:,::-1]#倒着取
    
    #选择靠前的k个特征向量
    X_pc=np.vstack([eigvecs[:,i] for i in range(n_components)]).T
    
    
    return X_pc

#分离半月形
from sklearn.datasets import make_moons
X,y=make_moons(n_samples=100,random_state=123)
plt.scatter(X[y==0,0],X[y==0,1],
           color='red',marker='^',alpha=0.5)
plt.scatter(X[y==1,0],X[y==1,1],
           color='blue',marker='o',alpha=0.5)
plt.show()

X.shape

(100, 2)

array([0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1,
       0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1,
       0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0,
       1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1,
       1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1], dtype=int64)

#通过标准的PCA处理
from sklearn.decomposition import PCA
scikit_pca=PCA(n_components=2)
X_spca=scikit_pca.fit_transform(X)

fig,ax=plt.subplots(nrows=1,ncols=2,figsize=(7,3))
ax[0].scatter(X_spca[y==0,0],X_spca[y==0,1],
             color='r',marker='^',alpha=0.5)
ax[0].scatter(X_spca[y==1,0],X_spca[y==1,1],
             color='b',marker='o',alpha=0.5)

ax[0].set_xlabel('PC 1')
ax[0].set_ylabel('PC 2')
ax[0].set_ylim([-1,1])

ax[1].scatter(X_spca[y==0,0],np.zeros((50,1))+0.02,
             color='r',marker='^',alpha=0.5)
ax[1].scatter(X_spca[y==1,0],np.zeros((50,1))+0.02,
             color='b',marker='o',alpha=0.5)
ax[1].set_yticks([])
ax[1].set_xlabel('PC 1')

Text(0.5, 0, 'PC 1')

左图：PCA处理后只是翻转，依然线性不可分

右图：PCA处理后在一维上依然重合

#使用RBF核PCA

X_kpca=rbf_kernel_pca(X,gamma=15,n_components=2)

X_kpca.shape

:23: DeprecationWarning: scipy.exp is deprecated and will be removed in SciPy 2.0.0, use numpy.exp instead
  K=exp(-gamma*mat_sq_dists)





(100, 2)

fig,ax=plt.subplots(nrows=1,ncols=2,figsize=(7,3))
ax[0].scatter(X_kpca[y==0,0],X_kpca[y==0,1],
             color='r',marker='^',alpha=0.5)
ax[0].scatter(X_kpca[y==1,0],X_kpca[y==1,1],
             color='b',marker='o',alpha=0.5)
ax[0].set_xlabel('PC 1')
ax[0].set_ylabel('PC 2')


ax[1].scatter(X_kpca[y==0,0],np.zeros((50,1))+0.02,
             color='r',marker='^',alpha=0.5)
ax[1].scatter(X_kpca[y==1,0],np.zeros((50,1))+0.02,
             color='b',marker='o',alpha=0.5)
ax[1].set_yticks([])
plt.show()

分离同心圆

from sklearn.datasets import make_circles
X,y=make_circles(n_samples=1000,random_state=123,
                noise=0.1,factor=0.2)

X.shape, y.shape

((1000, 2), (1000,))

plt.scatter(X[y==0,0],X[y==0,1],
           color='r',marker='^',alpha=0.5)
plt.scatter(X[y==1,0],X[y==1,1],
           color='b',marker='o',alpha=0.5)

]

#使用标准pca
scikit_pca=PCA(n_components=2)
X_spca=scikit_pca.fit_transform(X)

fig,ax=plt.subplots(nrows=1,ncols=2,figsize=(7,3))
ax[0].scatter(X_spca[y==0,0],X_spca[y==0,1],
             color='r',marker='^',alpha=0.5)
ax[0].scatter(X_spca[y==1,0],X_spca[y==1,1],
             color='b',marker='o',alpha=0.5)
ax[0].set_xlabel('PC 1')
ax[0].set_ylabel('PC 2')


ax[1].scatter(X_spca[y==0,0],np.zeros((500,1))+0.02,
             color='r',marker='^',alpha=0.5)
ax[1].scatter(X_spca[y==1,0],np.zeros((500,1))+0.02,
             color='b',marker='o',alpha=0.5)
ax[1].set_yticks([])
plt.show()

显然PCA不能将数据分开

#使用KPCA
X_kpca=rbf_kernel_pca(X,gamma=15,n_components=2)

fig,ax=plt.subplots(nrows=1,ncols=2,figsize=(7,3))
ax[0].scatter(X_kpca[y==0,0],X_kpca[y==0,1],
             color='r',marker='^',alpha=0.5)
ax[0].scatter(X_kpca[y==1,0],X_kpca[y==1,1],
             color='b',marker='o',alpha=0.5)
ax[0].set_xlabel('PC 1')
ax[0].set_ylabel('PC 2')


ax[1].scatter(X_kpca[y==0,0],np.zeros((500,1))+0.02,
             color='r',marker='^',alpha=0.5)
ax[1].scatter(X_kpca[y==1,0],np.zeros((500,1))+0.02,
             color='b',marker='o',alpha=0.5)
ax[1].set_yticks([])
plt.show()

:23: DeprecationWarning: scipy.exp is deprecated and will be removed in SciPy 2.0.0, use numpy.exp instead
  K=exp(-gamma*mat_sq_dists)

KPCA将数据分开

5.3.3投影新的数据点

def rbf_kernel_pca(X,gamma,n_components):
    
    """
    X:{numpy ndarry},shape={n_samples,n_features}
    
    gamma: RBF kernel 参数
    
    n_components:返回的主分空间
    ___________
    
    returns:
    X_pc:shape=[n_samples,k_features]
    
    """
    
    #计算数据集中x之间的平方欧几里得距离
    sq_dists=pdist(X,'sqeuclidean')
    
    #将距离转化为方阵
    mat_sq_dists=squareform(sq_dists)
    
    #计算高斯核矩阵
    K=exp(-gamma*mat_sq_dists)
    
    #中心化核矩阵
    N=K.shape[0]
    one_n=np.ones((N,N)) / N
    K=K-one_n.dot(K)-K.dot(one_n)+one_n.dot(K).dot(one_n)
    
    #计算中心化核矩阵的特征向量和特征值
    #scipy.linalg.eigh返回降序排列
    eigvals,eigvecs=eigh(K)#特征值按升序排列
    
    eigvals,eigvecs=eigvals[::-1],eigvecs[:,::-1]#倒着取
    
    #选择靠前的k个特征向量
    alphas=np.vstack([eigvecs[:,i] for i in range(n_components)]).T
    
    #选择特征值
    lambdas=[eigvals[i] for i in range(n_components)]
    
    return alphas,lambdas

#创建新的半月数据集
X,y=make_moons(n_samples=100,random_state=123)

#RBF核PCA投影到一维数据集
alphas,lambdas=rbf_kernel_pca(X,gamma=15,n_components=1)

:23: DeprecationWarning: scipy.exp is deprecated and will be removed in SciPy 2.0.0, use numpy.exp instead
  K=exp(-gamma*mat_sq_dists)

alphas.shape

(100, 1)

#将第26个数据点投射到新的子空间
x_new=X[25]
x_new

array([1.8713, 0.0093])

x_proj=alphas[25]
x_proj

array([0.0788])

def project_x(x_new,X,gamma,alphas,lambdas):
    pair_dist=np.array([np.sum((x_new-row)**2 ) for row in X])
    k=np.exp(-gamma*pair_dist)
    return k.dot(alphas/lambdas)

#验证
x_reproj=project_x(x_new,X,gamma=15.0,alphas=alphas,lambdas=lambdas)
x_reproj

array([0.0788])

#coding:utf-8
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
#有中文出现的情况，需要u'内容



#投影可视化
plt.scatter(alphas[y==0,0],np.zeros((50)),
           color='r',marker='^',alpha=0.5)
plt.scatter(alphas[y==1,0],np.zeros(50),
           color='b',marker='o',alpha=0.5)
plt.scatter(x_proj,0,color='black',
           label='X[25]的原始投影',marker='^',s=100)
plt.scatter(x_reproj,0,color='g',
           label='重新投影的点X[25]',marker='x',s=500)
plt.legend(loc='best')
plt.show()

5.3.4 sklearn实现核主成分分析

from sklearn.decomposition import KernelPCA

X,y=make_moons(n_samples=100,random_state=123)

sklearn_kpca=KernelPCA(n_components=2,kernel='rbf',gamma=15)
X_skernpac=sklearn_kpca.fit_transform(X)

plt.scatter(X_skernpac[y==0,0],X_skernpac[y==0,1],
           color='r',marker='^',alpha=0.5)
plt.scatter(X_skernpac[y==1,0],X_skernpac[y==1,1],
           color='b',marker='o',alpha=0.5)
plt.xlabel('PC 1')
plt.ylabel('PC 2')

Text(0, 0.5, 'PC 2')

你可能感兴趣的:(python机器学习笔记,机器学习,python)

取余和取模到底是不是一回事？对比Python、Java、C和C++中的%运算符霜叶桑 java python c语言 c++
取余和取模到底是不是一回事？对比Python、JAVA、C和C++中的%运算符数学中的「取余」和「取模」计算机领域中的「取余」和「取模」Python、Java、C和C++中的`%`运算符Python：取模运算Java：取余运算C和C++：取余运算为什么一般用正除数数学中的「取余」和「取模」在纯数学中，当我们谈论整数除法a÷ba\divba÷b（aaa是被除数，bbb是除数，且b≠0b\not=0
结构型智能科技的关键可行性——信息型智能向结构型智能的转变（修改提纲）刘海东刘海东人工智能机器学习算法
结构型智能科技的关键可行性——信息型智能向结构型智能的转变1.信息型智能科技概述1.1传统计算机科技的信息型继承者1.2信息型智能环境1.3信息型智能主体1.4机器学习创造的智能1.5信息型智能科技的缺陷2.结构型智能科技概述2.1传统计算机科技向生命结构的发展2.2结构型智能科技的环境2.3结构型智能科技创造的机器生命2.4结构型智能科技的科学性3.结构型智能科技的关键可行性——信息型智能向结构
194、Django Channels实战：构建实时WebSocket应用多多的编程笔记 django websocket sqlite
DjangoChannels：实现WebSocket与实时通信本文将向您介绍Python开发框架Django中的一个重要组件——DjangoChannels，它使得在Django中实现WebSocket通信变得轻而易举。通过阅读本文，您将了解WebSocket的概念、DjangoChannels的工作原理以及如何在实际项目中使用它来实现实时通信。1.WebSocket：实现快速双向通信在介绍Dja
apache-dolphinscheduler-3.2.0调度器简介和集群部署详细安装文档
1、为什么选用apache-dolphinscheduler轻松管理复杂的任务工程支持跨项目和跨工作流程的任务依赖支持Kill、暂停和恢复操作任务支持以租户、Worker分组组和环境中隔离运行每个任务都可以修改输出参数，并将其传递给后续任务在一分钟内创建你的工作流程通过拖拉拽的工作流创建方式提高效率支持Python、Yaml和OpenApi的方式生成工作流支持将一个工作流作为另一个工作流的子流程执
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
基于python版本secsgem源码开发gem，该gem作为一个中间平台，既要连接EAP，又要连接探针台，应该如何设置devicetype、connectmode SunkingYang #SECS协议 python gem eap 中间平台三方连接设备类型
文章目录一、角色定义与连接模式设计1.中间平台的双向角色2.核心参数设置二、代码实现步骤1.创建两个独立连接实例2.数据转发逻辑实现三、高级配置与注意事项1.状态机管理2.多线程与异步处理3.协议兼容性4.调试与错误排查四、典型应用场景1.配方管理2.事件与报警处理五、扩展方案（多设备协同）总结基于Python的secsgem库开发中间平台需同时连接EAP（作为Host端）和探针台（作为Equip
Python 爬虫入门（九）：Scrapy安装及使用「详细介绍」 blues_C Python爬虫实战 python 爬虫 scrapy
Python爬虫入门（九）：Scrapy安装及使用「详细介绍」前言1.Scrapy简介2.Scrapy的安装2.1环境准备2.2安装Scrapy3.创建Scrapy项目3.1创建项目3.2项目结构简介4.编写爬虫4.1创建爬虫4.2解析数据4.3运行爬虫5.存储数据5.1存储为JSON文件5.2存储到数据库5.2.1MongoDB6.处理请求和响应6.1请求头设置6.2处理响应7.高级功能7.1使
python 会议室预约系统解决方案_会议预约管理系统解决方案 weixin_39963853 python 会议室预约系统解决方案
随着时代快速发展，各大会议中心都有密集的会议安排，同时企业也会有大大小小的会议安排。会议室没有管理，会造成会议室被争抢、重要会议被非重要会议挤占、会议室信息不能及时发布、会议室设备开会时不满足会议要求、会议室设备没有提前调试以及设备因没有及时检修造成故障、会中设备出现故障且没有应急预案等等问题。这些问题往往频繁发生，使人们平时习以为常，用时抱怨连连。如果任由问题发生、日积月累，则会产生严重影响，轻
python 会议室预约系统解决方案_智能会议预约系统解决方案 weixin_39914868 python 会议室预约系统解决方案
随着时代的发展，科技的进步，效率在工作中成为了评价工作能力的一项标准。人的工作效率，机器的工作效率等等，我们都是逐步在提高。达到高效的工作状态离不开智能的解决方案，在此我将分享上海铭港公司做的智能办公空间—会议预约系统的案例。上海铭港做的此项会议预约系统案例的解决方案围绕的主题中心即是：效率提到会议室，可能令大家的头疼的事情随之而来。特别是公司的行政部门人员。哪间会议室是在空闲状态？哪间会议室有人
python 会议室预约系统解决方案_会议室预约管理系统方案书.pdf
会议预约管理系统系统方案目录一、系统概述31.1什么是会议预约管理31.2会议管理趋势4二、系统功能52.1功能特点52.2系统优势62.3系统界面7三、系统部署103.1安装示意图103.2安装实景图11四、会议显示12五、应用行业135.1教育行业135.2法律行业135.3医疗保健135.4企业13一、系统概述为符合现代信息化的考虑，在办公楼的底楼进出大厅设置一套多媒体信息显示公告系统，用于
python 会议室预约系统解决方案_会议预约系统_智能会议预约管理系统_轻松实现会议管理解决方案... weixin_39779032 python 会议室预约系统解决方案
随着社会的发展，会议预约管理系统在近年来呈现高速发展，但是各种等级层次不齐。现代办公会议室是组织的公共资源，会议室及其附属的设备构成召开会议的基础环境。广州朗歌公司以提高会议效率为焦点，以会议全过程管理为理念，开发了会议预定管理系统产品。会议室预约管理系统的目标是为会议的准备提供便捷的服务，实时动态的将会议室预定信息，传递到每个会议室门口、大厅及楼梯口等公共通道的显示屏上，实现会议信息发布引导功能
GitHub每周最火火火项目（6.30-7.6） FutureUniant Github周推 github microsoft 人工智能 ai 计算机视觉
1.NanniCoder/MediaCrawler项目名称：MediaCrawler项目介绍：该项目采用Python语言开发，专注于多平台媒体内容的爬取工作。从用途来看，它能够精准抓取小红书笔记、抖音视频、快手视频、B站视频、微博帖子、百度贴吧帖子及评论、知乎问答文章等各类媒体平台的内容。在使用场景方面，对于新媒体运营者而言，可借助它批量采集行业内多平台的热门内容、竞品动态，为自身内容创作、运营策
python项目使用poetry管理依赖项 zQIANYUN python开发 python 开发语言
1.poetry管理依赖项Poetry是Python项目中用于依赖管理和项目打包的工具。相比传统的pip和requirements.txt，Poetry提供了更加现代和集成的解决方案。优点：Poetry能够自动处理依赖关系冲突，帮助开发者避免版本不兼容问题。在安装新的依赖时，它会检查现有依赖，并更新pyproject.toml文件和生成锁定的poetry.lock文件，以确保项目使用的依赖版本在团
Seaborn 教程 froginwe11 开发语言
Seaborn教程引言Seaborn是一个强大的Python数据可视化库，它建立在Matplotlib的基础上，专门用于统计图形的绘制。Seaborn提供了一系列的绘图功能，使得统计数据的可视化变得更加简单和直观。本文将为您提供一个全面的Seaborn教程，帮助您快速掌握其基本用法和高级技巧。安装与导入在开始之前，请确保您的Python环境中已经安装了Seaborn和Matplotlib。您可以使
【机器学习|学习笔记】组合特征（Feature Combinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。努力毕业的小土博^_^ 机器学习学习笔记机器学习学习笔记人工智能神经网络深度学习
【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达能力的有效手段。文章目录【机器学习|学习笔记】组合特征（FeatureCombinations）是提升模型性能、挖掘特征交互信息、增强非线性表达
python中的logger包的详细使用教程 SunkingYang #python入门之日志使用 python 日志 logger 使用方法说明
文章目录功能说明一、Logger的创建与基础配置二、Handler的配置与使用三、Formatter自定义日志格式四、记录不同级别的日志五、高级配置与最佳实践六、常见问题与调试使用方法一、基础配置与快速使用二、自定义Logger对象三、高级用法四、最佳实践与注意事项五、实际应用场景示例Python的logging模块是标准库中用于记录日志的核心工具，通过灵活配置可实现多级别、多目标、多格式的日志管
10分钟掌握Python缓存
项目背景代码检查项目，需要存储每一步检查的中间结果，最终把结果汇总并写入文件中在中间结果的存储中可以使用context进行上下文的传递，但是整体对代码改动比较大，违背了开闭原则也可以利用缓存存储，处理完成之后再统一读缓存并写入文件在权衡了不同方案后，我决定采用缓存来存储中间结果。接下来，我将探讨Python中可用缓存组件。python缓存分类决定选择缓存，那么python中都有哪些类型的缓存呢?1
Go与Python爬虫对比及模板实现
go语言和Python语言都可选作用来爬虫项目，因为python经过十几年的累积，各种库是应有尽有，学习也相对比较简单，相比GO起步较晚还是有很大优势的，么有对比就没有伤害，所以我利用一个下午，写个Go爬虫，虽说运行起来没啥问题，但是之间出错的概率太高了，没有完备的模版套用得走很多弯路，这就是为啥go没有python受欢迎的原因。为何Go爬虫远没有Python爬虫流行？1、历史生态差距Python
pip设置国内源：阿里云、腾讯云、清华大学源 [email protected] Python pip python
更换Python的pip源（尤其是默认源访问速度较慢时）是一个常见需求，可以显著提升安装Python包的速度。以下是如何为pip设置国内源的步骤，以阿里云、腾讯云、清华大学源为例：1.备份原有源配置（可选但推荐）在进行任何更改之前，备份现有的pip配置文件是一个好习惯。这样，如果遇到问题，你可以轻松恢复到初始状态。Bash1mkdir~/.pip_backup2cp~/.pip/pip.conf~
前端如何借助 Postman 进行接口性能调优前端视界前端艺匠馆前端 postman lua ai
前端如何借助Postman进行接口性能调优关键词：前端开发、Postman、接口性能调优、API测试、性能分析摘要：本文围绕前端开发中借助Postman进行接口性能调优展开。首先介绍了相关背景知识，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念，如接口性能的相关概念及其联系，并给出了对应的文本示意图和Mermaid流程图。详细讲解了核心算法原理和具体操作步骤，结合Python代码示例进行
数据分析全流程：从收集到可视化的高效实战晨曦543210 python
1.数据收集来源：数据库、API、传感器、日志文件、社交媒体、问卷调查等。工具：Python（requests、Scrapy）、SQL、Excel、Kafka（实时流数据）。2.数据清洗处理缺失、重复、错误或不一致的数据：缺失值：删除、填充（均值/中位数/众数）、插值或预测。异常值：使用箱线图、Z-score或IQR方法检测并处理。格式标准化：统一日期、单位、文本格式（如大小写、去除空格）。去重：
R语言的软件开发工具纪霁然包罗万象 golang 开发语言后端
R语言的软件开发工具引言R语言因其强大的数据分析能力和丰富的统计包，自发布以来便广受欢迎。随着数据科学和分析的迅猛发展，R语言也逐渐成为数据分析、机器学习和统计建模领域的重要工具。为了更好地利用R语言进行软件开发，许多软件开发工具和环境应运而生。本文将深入探讨R语言的主要开发工具，帮助开发者更高效地进行数据处理和分析。1.R和RStudio基础R语言本身是一个用于统计计算和图形绘制的编程语言，而R
R语言初学者爬虫简单模板 q56731523 r语言爬虫开发语言 iphone
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p
邻近巷道爆破振动模拟与可视化：计算力学的工程应用碳酸的唐动态规划数学建模
引言隧道爆破施工是现代工程建设中常用的方法，但爆破产生的振动会对周围结构和地质环境产生影响。本文介绍一个基于Python的邻近巷道爆破振动模拟系统，该系统通过数值计算模拟爆破引起的应力波传播过程，并提供多种可视化方式展示振动效应。本研究对于理解爆破振动机理、评估爆破安全距离以及优化爆破参数具有重要意义。理论基础爆破应力波传播模型爆破引起的应力波在岩体中的传播可通过弹性波动理论描述。在均匀介质中，应
手把手教你编写Python抢购脚本_抢单脚本的制作教程网络安全小宇哥 python 开发语言测试工具学习 web安全网络安全安全架构
想买苹果手机，但总是抢不到，所以想试着能不能写个脚本代码。第一步：把想要抢购的商品加进购物车，注意：脚本是对购物车内全部商品进行下单操作，所以不够买的商品最好先从购物车内删除。第二步：写好Python脚本，在抢购之前运行，并设置好抢购时间。Python脚本实现安装Python。我安装的是anaconda安装webdriver扩展。它是Selenium模块的一部分。Selenium是一个用于Web应
【Python】类（class）的创建 Herbert_JL python python linux
1类简介1.1什么是类在面向对象编程（OOP）中，类（Class）是一种封装了数据和操作这些数据的函数的编程结构。它是一种抽象的概念，用于定义具有相同属性（变量）和方法（函数）的对象的模板。类可以看作是一个“蓝图”，用于创建具有相同特征和行为的对象实例。1.2类的作用1.2.1封装（Encapsulation）类将数据（属性）和操作数据的方法封装在一起，形成一个独立的单元。这样可以隐藏内部实现细节
【Python】类的继承、重载与多态
类的继承(Inheritance)类的继承是面向对象编程（OOP）中的一个重要概念，它允许一个类（称为子类或派生类）继承另一个类（称为父类或基类）的属性和方法。继承可以提高代码的复用性，减少重复代码，并且能够构建出层次化的类结构。继承的基本概念父类（基类）：被继承的类，提供了可以被继承的属性和方法。子类（派生类）：继承父类的类，可以使用父类的属性和方法，并且还可以添加新的属性和方法，或者覆盖父类的
【Python】For Herbert_JL python python 开发语言
For基本语法forelementiniterable:statement(s)element：是循环变量，用于存储可迭代对象中当前遍历到的元素。iterable：是需要遍历的可迭代对象，如列表、元组、字典等。for遍历列表fruits=["apple","banana","cherry"]forfruitinfruits:print(fruit)applebananacherryfor遍历字符串
【python 进阶】argparse模块 Herbert_JL python python java linux
argparse模块Python的argparse模块用于解析命令行参数，使得脚本能够灵活地接受用户从命令行传入的各种参数，从而根据不同的参数配置来执行不同的操作。ArgumentParser类argparse.ArgumentParser是Python中argparse模块的核心类，用于创建一个解析器对象，该对象能够读取和解析命令行参数和选项，将它们转换为相应的数据类型，并提供给程序使用。功能常
在python中function啥类型_Python中function和method
这两个概念已经有很多人解释过了，从本文的『参考』中就可以看出来。之所以还要写一篇这个主题，主要是为了用自己的语言表述一下，并且尽可能的讲的清楚一点。泛泛地说，function是一般意义上的函数，即对一段代码的封装，并由一个地址(函数名)来调用。method通常是面向对象的概念，即method是属于一个类或类的对象的。method是与类或类的对象相关的函数。下面讲一下我对这两个概念的更具体的理解。如
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置