Charlotte77

机器学习基础与实践（三）----数据降维之PCA

写在前面：本来这篇应该是上周四更新，但是上周四写了一篇深度学习的反向传播法的过程，就推迟更新了。本来想参考PRML来写，但是发现里面涉及到比较多的数学知识，写出来可能不好理解，我决定还是用最通俗的方法解释PCA，并举一个实例一步步计算，然后再进行数学推导，最后再介绍一些变种以及相应的程序。（数学推导及变种下次再写好了）

正文：

　　在数据处理中，经常会遇到特征维度比样本数量多得多的情况，如果拿到实际工程中去跑，效果不一定好。一是因为冗余的特征会带来一些噪音，影响计算的结果；二是因为无关的特征会加大计算量，耗费时间和资源。所以我们通常会对数据重新变换一下，再跑模型。数据变换的目的不仅仅是降维，还可以消除特征之间的相关性，并发现一些潜在的特征变量。

　　一、PCA的目的

　　PCA是一种在尽可能减少信息损失的情况下找到某种方式降低数据的维度的方法。通常来说，我们期望得到的结果，是把原始数据的特征空间（n个d维样本）投影到一个小一点的子空间里去，并尽可能表达的很好（就是说损失信息最少）。常见的应用在于模式识别中，我们可以通过减少特征空间的维度，抽取子空间的数据来最好的表达我们的数据，从而减少参数估计的误差。注意，主成分分析通常会得到协方差矩阵和相关矩阵。这些矩阵可以通过原始数据计算出来。协方差矩阵包含平方和与向量积的和。相关矩阵与协方差矩阵类似，但是第一个变量，也就是第一列，是标准化后的数据。如果变量之间的方差很大，或者变量的量纲不统一，我们必须先标准化再进行主成分分析。

　　二、PCA VS MDA

　　提到PCA，可能有些人会想到MDA（Multiple Discriminate Analysis,多元判别分析法），这两者都是线性变换，而且很相似。只不过在PCA中，我们是找到一个成分（方向）来把我们的数据最大化方差，而在MDA中，我们的目标是最大化不同类别之间的差异（比如说，在模式识别问题中，我们的数据包含多个类别，与两个主成分的PCA相比，这就忽略了类别标签）。

换句话说，通过PCA，我们把整个数据集（不含类别标签）投射到一个不同的子空间中，在MDA中，我们试图决定一个合适的子空间来区分不同类别。再换种方式说，PCA是找到数据传播最广的时候的最大方差的轴axis，MDA是最大化类别与类别之间的区别。

　　上文我们提到了子空间，那么怎么样去寻找“好的”子空间呢？

　　假设我们的目标是减少d维的数据集，将其投影到k维的子空间上（看k

　　下文中我们会计算数据中的特征向量（主成分），然后计算散布矩阵（scatter_matrix）中（也可以从协方差矩阵中计算）。每个特征向量与特征值相关，即特征向量的“长度”或“大小”。如果发现每个特征值都很小，那就可以说明我们的原始数据就已经是一个“好的”空间了。但是，如果有些特征值比其他值要大得多，我们只需要关注那些特别大的特征值，因为这些值包含了数据分布情况的绝大部分信息。反之，那些接近于0的特征值包含的信息几乎没有，在新的特征空间里我们可以忽略不计。

　　三、PCA的过程

　　通常来说有以下六步：

　　1.数据准备----生成三维样本向量

　　首先随机生成40*3维的数据，符合多元高斯分布。假设数据被分为两类，其中一半类别为w1，另一半类别为w2

 1 #coding:utf-8
 2 import numpy as np
 3 
 4 np.random.seed(4294967295) 
 5 
 6 mu_vec1 = np.array([0,0,0])
 7 cov_mat1 = np.array([[1,0,0],[0,1,0],[0,0,1]])
 8 class1_sample = np.random.multivariate_normal(mu_vec1, cov_mat1, 20).T
 9 assert class1_sample.shape == (3,20)#检验数据的维度是否为3*20，若不为3*20，则抛出异常
10 
11 mu_vec2 = np.array([1,1,1])
12 cov_mat2 = np.array([[1,0,0],[0,1,0],[0,0,1]])
13 class2_sample = np.random.multivariate_normal(mu_vec2, cov_mat2, 20).T
14 assert class1_sample.shape == (3,20)#检验数据的维度是否为3*20，若不为3*20，则抛出异常

　　运行这段代码后，我们就生成了包含两个类别的样本数据，其中每一列都是一个三维的向量，所有数据是这样的矩阵：

　　结果：

　　2.作图查看原始数据的分布

 1 from matplotlib import pyplot as plt
 2 from mpl_toolkits.mplot3d import Axes3D
 3 from mpl_toolkits.mplot3d import proj3d
 4 
 5 fig = plt.figure(figsize=(8,8))
 6 ax = fig.add_subplot(111, projection='3d')
 7 plt.rcParams['legend.fontsize'] = 10   
 8 ax.plot(class1_sample[0,:], class1_sample[1,:], class1_sample[2,:], 'o', markersize=8, color='blue', alpha=0.5, label='class1')
 9 ax.plot(class2_sample[0,:], class2_sample[1,:], class2_sample[2,:], '^', markersize=8, alpha=0.5, color='red', label='class2')
10 
11 plt.title('Samples for class 1 and class 2')
12 ax.legend(loc='upper right')
13 
14 plt.show()

　　结果：

　　3.去掉数据的类别特征

1 all_samples = np.concatenate((class1_sample, class2_sample), axis=1)
2 assert all_samples.shape == (3,40)#检验数据的维度是否为3*20，若不为3*20，则抛出异常

　　4.计算d维向量均值

1 mean_x = np.mean(all_samples[0,:])
2 mean_y = np.mean(all_samples[1,:])
3 mean_z = np.mean(all_samples[2,:])
4 
5 mean_vector = np.array([[mean_x],[mean_y],[mean_z]])
6 
7 print('Mean Vector:\n', mean_vector)

　　结果：

1 print('Mean Vector:\n', mean_vector)
2 Mean Vector:, 
3 array([[ 0.68047077],
4        [ 0.52975093],
5        [ 0.43787182]]))

　　5.计算散步矩阵或者协方差矩阵

　　a.计算散步矩阵

　　散布矩阵公式：

　　其中m是向量的均值：（第4步已经算出来是mean_vector）

1 scatter_matrix = np.zeros((3,3))
2 for i in range(all_samples.shape[1]):
3     scatter_matrix += (all_samples[:,i].reshape(3,1) - mean_vector).dot((all_samples[:,i].reshape(3,1) - mean_vector).T)
4 print('Scatter Matrix:\n', scatter_matrix)

　　结果：

1  print('Scatter Matrix:\n', scatter_matrix)
2 ('Scatter Matrix:, 
3 array([[ 46.81069724,  13.95578062,  27.08660175],
4        [ 13.95578062,  48.28401947,  11.32856266],
5        [ 27.08660175,  11.32856266,  50.51724488]]))

　　b.计算协方差矩阵

　　如果不计算散布矩阵的话，也可以用python里内置的numpy.cov()函数直接计算协方差矩阵。因为散步矩阵和协方差矩阵非常类似，散布矩阵乘以（1/N-1）就是协方差，所以他们的特征空间是完全等价的（特征向量相同，特征值用一个常数（1/N-1，这里是1/39）等价缩放了）。协方差矩阵如下所示：

1 cov_mat = np.cov([all_samples[0,:],all_samples[1,:],all_samples[2,:]])
2 print('Covariance Matrix:\n', cov_mat)

　　结果：

1 >>> print('Covariance Matrix:\n', cov_mat)
2 Covariance Matrix:,
3  array([[ 1.20027429,  0.35784053,  0.69452825],
4        [ 0.35784053,  1.23805178,  0.29047597],
5        [ 0.69452825,  0.29047597,  1.29531397]]))

　　6.计算相应的特征向量和特征值

 1 # 通过散布矩阵计算特征值和特征向量
 2 eig_val_sc, eig_vec_sc = np.linalg.eig(scatter_matrix)
 3 
 4 # 通过协方差矩阵计算特征值和特征向量
 5 eig_val_cov, eig_vec_cov = np.linalg.eig(cov_mat)
 6 
 7 for i in range(len(eig_val_sc)):
 8     eigvec_sc = eig_vec_sc[:,i].reshape(1,3).T
 9     eigvec_cov = eig_vec_cov[:,i].reshape(1,3).T
10     assert eigvec_sc.all() == eigvec_cov.all()
11 
12 print('Eigenvector {}: \n{}'.format(i+1, eigvec_sc))
13 print('Eigenvalue {} from scatter matrix: {}'.format(i+1, eig_val_sc[i]))
14 print('Eigenvalue {} from covariance matrix: {}'.format(i+1, eig_val_cov[i]))
15 print('Scaling factor: ', eig_val_sc[i]/eig_val_cov[i])
16 print(40 * '-')

　　结果：

 1 Eigenvector 1:
 2     [[-0.84190486]
 3      [-0.39978877]
 4      [-0.36244329]]
 5     Eigenvalue 1 from scatter matrix: 55.398855957302445
 6     Eigenvalue 1 from covariance matrix: 1.4204834860846791
 7     Scaling factor:  39.0
 8     ----------------------------------------
 9     Eigenvector 2:
10     [[-0.44565232]
11      [ 0.13637858]
12      [ 0.88475697]]
13     Eigenvalue 2 from scatter matrix: 32.42754801292286
14     Eigenvalue 2 from covariance matrix: 0.8314755900749456
15     Scaling factor:  39.0
16     ----------------------------------------
17     Eigenvector 3:
18     [[ 0.30428639]
19      [-0.90640489]
20      [ 0.29298458]]
21     Eigenvalue 3 from scatter matrix: 34.65493432806495
22     Eigenvalue 3 from covariance matrix: 0.8885880596939733
23     Scaling factor:  39.0
24     ----------------------------------------

　　其实从上面的结果就可以发现，通过散布矩阵和协方差矩阵计算的特征空间相同，协方差矩阵的特征值*39 = 散布矩阵的特征值

　　当然，我们也可以快速验证一下特征值-特征向量的计算是否正确，是不是满足方程（其中为协方差矩阵，v为特征向量，lambda为特征值）

1 for i in range(len(eig_val_sc)):
2     eigv = eig_vec_sc[:,i].reshape(1,3).T
3     np.testing.assert_array_almost_equal(scatter_matrix.dot(eigv), eig_val_sc[i] * eigv,decimal=6, err_msg='', verbose=True)

　　得出结果未返回异常，证明计算正确

　　注：np.testing.assert_array_almost_equal计算得出的结果不一样会返回一下结果：

 1 >>> np.testing.assert_array_almost_equal([1.0,2.33333,np.nan],
 2 ...                                      [1.0,2.33339,np.nan], decimal=5)
 3 ...
 4 'exceptions.AssertionError'>:
 5 AssertionError:
 6 Arrays are not almost equal
 7 
 8 (mismatch 50.0%)
 9  x: array([ 1.     ,  2.33333,      NaN])
10  y: array([ 1.     ,  2.33339,      NaN])

　　可视化特征向量

 1 from matplotlib import pyplot as plt
 2 from mpl_toolkits.mplot3d import Axes3D
 3 from mpl_toolkits.mplot3d import proj3d
 4 from matplotlib.patches import FancyArrowPatch
 5 
 6 
 7 class Arrow3D(FancyArrowPatch):
 8     def __init__(self, xs, ys, zs, *args, **kwargs):
 9         FancyArrowPatch.__init__(self, (0,0), (0,0), *args, **kwargs)
10         self._verts3d = xs, ys, zs
11 
12     def draw(self, renderer):
13         xs3d, ys3d, zs3d = self._verts3d
14         xs, ys, zs = proj3d.proj_transform(xs3d, ys3d, zs3d, renderer.M)
15         self.set_positions((xs[0],ys[0]),(xs[1],ys[1]))
16         FancyArrowPatch.draw(self, renderer)
17 
18 fig = plt.figure(figsize=(7,7))
19 ax = fig.add_subplot(111, projection='3d')
20 
21 ax.plot(all_samples[0,:], all_samples[1,:], all_samples[2,:], 'o', markersize=8, color='green', alpha=0.2)
22 ax.plot([mean_x], [mean_y], [mean_z], 'o', markersize=10, color='red', alpha=0.5)
23 for v in eig_vec_sc.T:
24     a = Arrow3D([mean_x, v[0]], [mean_y, v[1]], [mean_z, v[2]], mutation_scale=20, lw=3, arrowstyle="-|>", color="r")
25     ax.add_artist(a)
26 ax.set_xlabel('x_values')
27 ax.set_ylabel('y_values')
28 ax.set_zlabel('z_values')
29 
30 plt.title('Eigenvectors')
31 
32 plt.show()

　　结果：

　　7.根据特征值对特征向量降序排列

1 for ev in eig_vec_sc:
2     numpy.testing.assert_array_almost_equal(1.0, np.linalg.norm(ev))

　　因此，对于低维的子空间来说，决定丢掉哪个特征向量，就必须参考特征向量相应的特征值。通俗来说，如果一个特征向量的特征值特别小，那它所包含的数据分布的信息也很少，那么这个特征向量就可以忽略不计了。常用的方法是根据特征值对特征向量进行降序排列，选出前k个特征向量

1 # 生成（特征向量，特征值）元祖
2 eig_pairs = [(np.abs(eig_val_sc[i]), eig_vec_sc[:,i]) for i in range(len(eig_val_sc))]
3 
4 #对（特征向量，特征值）元祖按照降序排列
5 eig_pairs.sort(key=lambda x: x[0], reverse=True)
6 
7 #输出值
8 for i in eig_pairs:
9     print(i[0])

　　结果：

 1 84.5729942896
 2 39.811391232     
 3 21.2275760682

　　8.选出前k个特征值最大的特征向量

　　本文的例子是想把三维的空间降维成二维空间，现在我们把前两个最大特征值的特征向量组合起来，生成d*k维的特征向量矩阵W

1 matrix_w = np.hstack((eig_pairs[0][1].reshape(3,1), eig_pairs[1][1].reshape(3,1)))
2 print('Matrix W:\n', matrix_w)

　　结果：

1 >>> print('Matrix W:\n', matrix_w)
2 Matrix W:,
3  array([[-0.62497663,  0.2126888 ],
4        [-0.44135959, -0.88989795],
5        [-0.643899  ,  0.40354071]]))

　　9.将样本转化为新的特征空间

　　最后一步，把2*3维的特征向量矩阵W带到公式中，将样本数据转化为新的特征空间

 1 matrix_w = np.hstack((eig_pairs[0][1].reshape(3,1), eig_pairs[1][1].reshape(3,1)))
 2 print('Matrix W:\n', matrix_w)
 3 
 4 
 5 transformed = matrix_w.T.dot(all_samples)
 6 assert transformed.shape == (2,40), "The matrix is not 2x40 dimensional."
 7 
 8 
 9 plt.plot(transformed[0,0:20], transformed[1,0:20], 'o', markersize=7, color='blue', alpha=0.5, label='class1')
10 plt.plot(transformed[0,20:40], transformed[1,20:40], '^', markersize=7, color='red', alpha=0.5, label='class2')
11 plt.xlim([-4,4])
12 plt.ylim([-4,4])
13 plt.xlabel('x_values')
14 plt.ylabel('y_values')
15 plt.legend()
16 plt.title('Transformed samples with class labels')
17 
18 plt.show()

　　结果：

　　到这一步，PCA的过程就结束了。其实python里有已经写好的模块，可以直接拿来用，但是我觉得不管什么模块，都要懂得它的原理是什么。matplotlib有matplotlib.mlab.PCA()，sklearn也有专门一个模块Dimensionality reduction专门讲PCA，包括传统的PCA，也就是我上文写的，以及增量PCA，核PCA等等，除了PCA以外，还有ZCA白化等等，在图像处理中也经常会用到，内容太多，下次再写。

　　最后推荐一个博客，动态展示了PCA的过程：http://setosa.io/ev/principal-component-analysis/ 写的也很清楚，可以看一下；再推荐一个维基百科的，讲的真的是详细啊https://en.wikipedia.org/wiki/Principal_component_analysis

------------------------------------本博客所有内容以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，并且是非商业用途，谢谢！--------------------------------

深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
Java学习第五十八部分——设计模式慕y274 java 学习设计模式
目录一、概述提要二、创建型模式——解决“如何创建对象”的问题1.单例模式(Singleton)2.工厂方法模式(FactoryMethod)3.解释器模式(Interpreter)4.建造者模式(Builder)5.原型模式(Prototype)三、结构型模式——解决“如何组合类和对象”的问题1.适配器模式(Adapter)2.桥接模式(Bridge)3.组合模式(Composite)4.装饰器模
实现分布式锁
在黑马点评项目中，在实现分布式锁的时候提到了实现的几种方式，本文来简单了解一下。一、MySQL、Redis、ZooKeeper是不是都是“数据库”？严格来说，三者的定位和功能差异很大，但广义上都可以视为“数据存储系统”，不过它们的核心设计目标和适用场景完全不同。我们可以从“数据模型”和“核心用途”两个维度区分：类型MySQLRedisZooKeeper核心定位关系型数据库（OLTP，事务型存储）内
Java自动拆箱机制
在黑马点评项目中，提到了一个细节，就是Java的自动拆箱机制，本文来简单了解一下。Java的自动拆箱机制（Unboxing）是一种编译器层面的语法糖，用于简化包装类对象（如Integer、Boolean、Long等）与基本数据类型（如int、boolean、long等）之间的转换。它的核心作用是让开发者无需手动调用intValue()、booleanValue()等方法，即可直接在包装类对象和基本
好看的衣服那么多，女孩子只想一次买个够！结果总也买不完…… 唇色优雅
今天看到好多好看的衣服，哎呀，不买可惜了，买吧，好几百又没了，可一生有几个20来岁，再过几年就奔三了，要是有孩子总不能穿得太时尚太少女吧(´๑•_•๑)可我如此喜欢这些好看的衣服，忍不住想剁手，最后全都因为没钱忍住了，其实我曾经有一次春天花了一千多，买了七件春夏的衣服，平均一套也不是特别贵，有一百多的，也有两百多的，都不等，但是好看很重要，可实际上，我很少穿这些漂亮的衣服。上班吧，显得花枝招展，不
三大工厂设计模式狗头 | 软件技术导航前端
1.简单工厂模式1.1需求入手从需求进行入手，可以更深入的理解什么是设计模式。有一个制作披萨的需求：需要便于扩展披萨的种类，便于维护。1.披萨的种类有很多：GreekPizz，CheesePizz等2.披萨的制作流程：prepare（制作）=>bake（烘烤）=>cut（切开）=>box（打包）3.完成披萨店的订购功能。1.2使用传统的方式进行实现1.2.1披萨抽象类进行定义抽象披萨类，这个抽象类
Zabbix 企业级分布式监控部署伤不起bb zabbix 分布式
目录一、监控系统基础认知1.为什么需要监控？2.监控的5个层次（从底层到上层）3.监控系统的基本原理二、Zabbix系统详解1.Zabbix是什么？2.Zabbix核心功能3.Zabbix核心组件三、Zabbix部署实战（分布式架构）1.环境准备（4台服务器）2.部署ZabbixServer（核心步骤）步骤1：添加Zabbix源并安装依赖步骤2：配置数据库步骤3：导入Zabbix初始数据步骤4：配
2019-05-14 小猫妮：听从内心的声音，带着取舍的能力向前小猫妮_竖屏思维导图创始人
我知道当下不并不一定是最好的，但是我选择接受。主题小猫妮：听从内心的声音，带着取舍的能力向前关键词内心取舍勇气抉择选择逐字稿哈喽，我是小猫妮，今天是2019年5月14日，周二。我想要分享的话题呢，是关于听从内心的声音，带着取舍的能力向前。我为什么会想到这样的一个话题呢，触发器是因为最近在外地找房子，租房子，然后呢，我只花了三个小时，从选房到亲自去现场看房，以及到又一次的选房，又一次看房以及最后的做
读书笔记：SFBT其他重要晤谈技巧与原则风雨彩虹1219
中原焦点团队坚持分享1453天2022-07-09一、以“澄清式自我揭露”与“温和挑战”取代面质1、SFBT不建议咨询师告诉当事人有关自己的过去经验，尤其是个人之前的惨痛故事或者直接建议当事人的个人体验。但是并不表示不能揭露自己，SFBT自我揭露是以“澄清”的方式来询问当事人，并要扣着目标导向与优势观点。2、如果当事人坚持想知道咨询师的个人故事，SFBT的咨询师会先询问当事人认为获得这样的信息对自
部署Zabbix企业级分布式监控 YUNYINGXIA Zabbix
目录一、监控系统概述1.1监控的重要性1.2监控类型1.3监控层次划分二、监控系统的实现原理2.1模块组成2.2采集协议2.3监控模式2.4代理架构三、监控系统的开源产品四、Zabbix系统概述4.1初识zabbix4.2Zabbix的功能特性4.3Zabbix角色及架构五、部署流程5.1资源清单5.2基础环境配置5.3部署zabbixserver5.4zabbix页面配置5.5部署proxy5.
Unity VR多人手术系统恢复3：Agora语音通讯系统问题解决全记录马特说 unity vr 游戏引擎
前言这是一个Unity多人VR手术模拟项目，已经搁置了近两年时间。最近重新启动了这个项目，然而在恢复过程中却遇到了些的技术障碍。项目重启遇到的挑战当我们重新部署和测试系统时，发现原本运行良好的Agora语音通讯功能完全失效了。经过初步排查发现了以下问题：外部服务依赖失效-两年前依赖的第三方Token服务器已经宕机代码架构问题暴露-多个组件重复获取Token，产生混乱的调用逻辑配置不一致-频道命名规
重庆最全合法上户口亲子鉴定10家医院名单汇总一览（附2024年9月鉴定名录前瞻）中量亲鉴生物
重庆可以做上户口亲子鉴定的医院在哪里？像重庆医科大学附属第一医院、重庆医科大学附属第二医院和重庆市人民医院等大型医院都无法提供亲子鉴定服务。因为医疗服务与司法鉴定服务各有专攻，在重庆，医院主要负责治疗疾病，而上户口亲子鉴定这类专业鉴定则交由具备相应资质的机构承担。接下来，小编将为大家介绍重庆的上户口亲子鉴定正规机构，排名不分先后，仅供大家参考和了解。重庆最全上户口亲子鉴定中心地址1、重庆中量国鉴生
财富自由之路第三章可可_4b5e
读好书一定要慢。文字的出现，使人类与其他动物区分开来。人类也正是因为有了文字才与其它物种有了本质上的不同。而阅读，对于任何一个正常人类来说都具有非凡的意义。人类之外的物种只能依赖最落后但被称为神奇的方式积累经验：基因遗传。啄木鸟可以本能地采用最优算法获取食物——而一个MIT的数学博士面对同样的问题却不见得可以迅速解决；而啄木鸟的小脑袋在没有受过高等教育的情况下，是如何得到结果的呢？答案是：通过上百
我与神的对话珂月小馨
图片发自App一个迷糊夜晚，我听着耶稣基督教堂的钟声，闻声来到了耶稣十字架脚下，我赤裸着并不秀气的双脚，静静的仰望着十字架，木质十字架已经有了相当的年代感，上面的铁钉已经锈迹斑斑，木头已经发黑，布满了虫洞，此时此刻，十字架空空如也，我不经觉得悲凉起来，又仿佛如此的沉重而哀痛。因为我眼前的十字架背负了太多的故事，此刻，在我眼里，这个木架子神圣而伤感。图片发自App我沉默了许久，在十字架下面赤裸着双脚
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
2021-08-20 愿一切刚刚好
婚姻到底给了女人什么？有的只是一夜夜争吵的无眠，一次次自己的疼痛，心痛和身体痛并存，你生活在自我的世界里，在你那里我感受不到曾经的温暖，有的只是观点不同，一次次的争吵的心痛，你总说咱们三观不同，你总把独立和自重挂在嘴上来对我说教，我一步步妥协，不愿与你起冲突，可你呢？你要的是一个独立自主陪你走下去的人？你心里真的有我吗？每当我遇到困难时，心里想的第一人不是你，我怕麻烦你，女的咋就这么难，我要的是一
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
百天创业笔记04 七色阳光l
七色阳光:浙江兰溪人，退休后选择走进思涵读书荟，不留遗憾，以往生活一去不复返，最重要的是余生怎么过，与读书绑在一起，会很精彩，用心去体会！成长蜕变挑战营打卡第18天每日任务:（完成打✓）①6:00起床进行魔力练习（√）②每日营养早餐，群内打卡（√）③每天运动20分钟以上（√）④每月更新20个短视频，本月目前为止更新第几个了？（14）⑤每天在官微连麦分享书籍（√）⑥每天直播不低于1个小时（√）⑦每天
给儿子的第799封信晨跑牡丹园，上班惠泽园用书信书写父亲
白天:宝贝儿子好！你的关键词:午间阳洒你卧、爸坐书桌午餐、规律晒阳一时、周末向你申请。妹妹关键词:睡前视频如常、笑脸背后坚强、不知咳嗽可好、上学心灵独挡。爸爸关键词:三天火锅完结、生活曲线平稳、牡丹晨跑十公、聆听行家文化。这两天，爸爸变换了上班的步行路线，从之前的走街过巷，改道成现在的走街穿园。穿过的这个园，就是惠泽园。惠泽园，你们并不陌生。这是你们小时候，爸爸经常带你们，来放风玩耍的地方。你还在
学习卡卡002
今天很认真地听直播，带着好奇心，推开致良知，成圣成贤的大门。今天主要是两三个主题。第一是解释什么是致良知，成圣成贤。阳明心学是王守仁提出的。在我们的观念中，成圣成贤是多么的似乎可望不可及，非常的高大。但是，通过老师的解释，有所顿悟，首先，我们要立志——立圣贤之志。志不立，天下无可成之事，有志者，事竟成。如果一个人连立志的勇气都没有，如何谈致良知这件事。圣贤很抽象，非要说与圣贤最接近的，那就是诚信。
Flutter 响应式状态管理框架GetX xiangzhihong8 Flutter入门与实战 flutter android ios
一、状态管理框架对比在Flutter的状态管理框架中，主流的状态管理框架有四个：GetX（又称为Get）、BLoC、MobX、Provider。Provider其中，Provider是Flutter社区提供的一种状态管理工具，本质上是对InheritedWidget组件的封装，具有如下一些优点：简化的资源分配与处置懒加载创建新类时减少大量的模板代码支持DevTools更通用的调用Inherited
爸爸、妈妈您们该享享清福了马力_文子
这两天对我来说最高兴的事就是爸爸妈妈退休了，我们村的条件比较差，为了供三个孩子上学，爸爸妈妈很早就出来打工了。我记得我小的时候，那会全国煤矿矿难频发，在村里人们宁愿受死受活，过着面朝黄土背朝天的日子也不愿意去煤矿打工，爸爸也对煤矿一直有恐惧心理，我记得他说打死也不去煤矿，可是后来为了供我们兄妹三个上学，爸爸还是选择去了煤矿。我知道在爸爸的心里对煤矿仍然还是充满恐惧的，包括我妈和我们兄妹三个，因为当
2023-02-15 淑女小辣椒
今天是什么日子：没啥日子今天起床：6点今天就寝：准备22点今天天气：阴天心情：停车位变数真大纪念日：初二十五叫我起床的不是闹钟是梦想今天三只青蛙/番茄钟1.写作输出2.发布小红书视频3.摘公众号输出今天成功日志-记录三五件有收获的事务1.停车位算是搞定了2.公众号输出一篇算是完成了3.每天记录打卡内容，慢慢习惯了今天财务检视又花100块钱给保安买烟今日人际的投入联系物业经理今天开卷有益-学习/读书
【水乡之恋】二月半~匆匆作别小刺猬乖乖
【原创作品】【侵权必究】与二月半匆匆作别时我还是个懵懂少年。依稀记得，那天下午放学后我背着书包匆匆走出校园大门，径直往南走了百来米便来到已热闹了一天的二月半集市。在熙熙攘攘的人群中，我左避右闪穿梭而行，眼睛不停地四处张望，看看哪个摊位或者角落围拢的人多，同时耳听八方，仔细搜寻哪里有吆喝或者其它特别的声音，发现没见过的稀奇玩意便也围上去看个究竟。此刻夕阳西下，余晖映照下人们的脸庞红扑扑的，身上也很似
重庆专业提供正规无创亲子鉴定的10家机构地址新版合集一览（附2024年9月鉴定标准）中量亲鉴生物
对于孕期的母亲而言，无创亲子鉴定无疑是一剂强心针。无需侵入性操作，只需简单采集孕妇静脉血，即可进行鉴定，既保障了母婴健康，又让爱的确认过程充满安心与尊重。重庆无创亲子鉴定正规机构1、重庆中量国鉴生物DNA亲子鉴定咨询中心机构地址：重庆市大渡口区春晖路机构业务范围：DNA鉴定服务咨询预约，包括：个人（隐私）亲子鉴定、司法亲子鉴定咨询预约、胎儿产前亲子鉴定、亲缘关系鉴定、上户口及等DNA鉴定。机构服务
一次次目送你的背影平静之美
三天的假，过的飞快。第一天，到两边老人那各吃了个饭。第二天，你陪孩子骑自行车，接送大宝上篮球兴趣班，我也得以独自去街上逛逛。第三天，我们哪也没去，就在小区内活动。下午，大宝上篮球兴趣班，我带着小宝开车送你去火车站，乘坐五点的火车。路上，你说，等到站要到夜里十一点多。你还说，等你去了后，把学校的事情办妥，八月份回来接我们。你问我，到时是开车还是坐车？说东西太多，是不是要开车？我说，早想好了，如果去的
Java全栈开发性能优化全攻略：从数据库到前端 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据 java 性能优化数据库 ai
Java全栈开发性能优化全攻略：从数据库到前端关键词：Java全栈、性能优化、数据库索引、后端缓存、前端渲染、响应时间、系统瓶颈摘要：本文从全栈视角出发，系统讲解Java开发中数据库、后端服务、前端页面三大核心层的性能优化方法。通过生活类比、代码示例和实战案例，带你一步步理解索引设计、缓存策略、懒加载、防抖节流等关键技术，掌握从“发现瓶颈”到“精准优化”的完整流程，最终实现用户体验与资源效率的双重
佛法知识 cd9208e767fb
世界当代住世佛陀亲说《世法哲言》（十一）【正知正见真理真谛】欲速则不达，行慢而失获，事理如是观，正住中道参，琴弦之懈弗出和雅之音，反之过紧则易于折。不管你做什麽事，如果不切合实际，过于太急、太快，往往不能成功，因为它不符合客观事物的逻辑、法度。如果速度太慢，往往又错失良机，达不到自己的目的。所以行慢而失获。凡是世间上的一切事理，都应该注意这两个正反不同的关键。那麽，怎样做才对呢？这就要认真研究分析
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

机器学习基础与实践（三）----数据降维之PCA

你可能感兴趣的:(机器学习基础与实践（三）----数据降维之PCA)