终不是少年人

机器学习笔记（三）—— 二向箔（从PCA到SVD）

还记得《三体》中的“二向箔”吗？那种降维打击真的令人印象深刻！“我毁灭你，与你何干！”我想这应该算是所有科幻小说中排的上号的攻击手段了吧~
现在，我们有一个新的敌人，它有着庞大的身躯，有八双眼睛，4个头，10只手，20条腿，你无法用语言形容它，因为它巨大的让你难以一窥全貌，它的特点太多了让你无从找到描述的切入点 —— 是的，这就是横亘在机器学习路上的第一只拦路虎——数据集。
我常常有个疑惑，在几百兆甚至几十个G的数据集中，有着上百个特征属性，我们在模型学习过程中真的需要全部使用上吗？特征属性的数量越多，模型学习的效果真的更好吗？比如现在在波士顿的房价数据集中，你觉得波士顿的车辆数量会与房价的变化有太大的关系吗？也许我们在收集数据的时候，会尽可能地考虑更多的可能性，收集更多类型的数据，但是当我们开始进行模型学习的时候，我们必须要把它当成一盘丰盛的食材，去细心的肢解它，取其精华，去其糟粕。
那么我们该如何对待这令人抓狂的敌人呢？我们是残忍而又狡猾的猎人，我们对待敌人绝不手软，我们要使用人类想象力所能想象到的极限攻击手段——降维打击去毁灭它！
现在，让我来隆重地向你们介绍，机器学习中的二向箔 —— 主成分分析法（PCA） & 奇异值分解法（SVD）！！！

一、主成分分析法

主成分分析法（Principal Component Analysis)是最常用的几种降维方法之一。PCA的思想是将原有的n维数据集映射到全新的具有正交特征的K维上。那么，我们如何得到这全新的K维空间呢？有两种思路：分别是对应于样本到超平面的最小投影距离以及样本点在超平面上的投影点的最大方差

（一）PCA的推导

1.1 最小投影距离

在原先的n维空间中有大量的样本点，但是我希望现在只用一个超平面来对这所有的样本点进行恰当的表达（这一过程你可以理解为二维坐标中的点投影在一根直线上、三维坐标中的点投影在一个面上）。首先我脑海中想到的是基于我们最小二乘法思想的最近投影距离。

为了方便计算，首先我们要对m个n维样本 $x^{(1)},.....,x^{(m)})$ 进行中心化操作，使其 $\sum_{i=1}^{m} x^{(i)} = 0$ ; 接着假设投影变换后的新坐标系（PS：记住这是坐标系，不是指数据点新的坐标）为 $({\omega _1,...., \omega_n})$ ，其中 $\omega$ 是标准正交基，即 $||\omega||=1$ , $\omega_i^T \omega_j = 0$

假设现在将维度降低至 $n^{'} < n$ , 则样本点 $x^{(i)}$ 在低维左边下的投影为 $z^{(i)} = (z_1^{(i)},z_2^{(i)},....,z_{n'}^{(i)})^T$ ,其中 $z_j^{(i)} = \omega_j^Tx^{(i)}$ 是 $x^{(i)}$ 低维坐标下第 $j$ 维的坐标。

好了，现在我们有最原始的数据集 $x^{(i)}$ , 也有降维后的数据集 $z^{(i)}$ , 也有了新的坐标系 $\omega$ , 现在我们试图将低维的数据重新恢复至n维的 $X^{(i)} = \sum_{j=1}^{n'} z_j^{(i)}w_j = Wz^{(i)}$ ,注： $({\omega _1,...., \omega_{n'}})$

因此，为了使所有的样本到超平面的距离足够近，我们需要最小化下面的式子： $\sum_{i=1}^{m} ||X^{(i)} - x^{(i)}||^2$
即：

$\sum_{i=1}^{m} ||X^{(i)} - x^{(i)}||^2$

$\sum_{i=1}^{m} ||Wz^{(i)} - x^{(i)}||^2$

$=\sum_{i=1}^{m}(Wz^{(i)})^T(Wz^{(i)} ) - 2\sum_{i=1}^{m}(Wz^{(i)})^Tx^{(i)} + \sum_{i=1}^{m}x^{(i)T}x^{(i)}$

$=\sum_{i=1}^{m}(z^{(i)})^T(z^{(i)}) - 2\sum_{i=1}^{m}z^{(i)T}W^Tx^{(i)} + \sum_{i=1}^{m}x^{(i)T}x^{(i)}$

$=\sum_{i=1}^{m}(z^{(i)})^T(z^{(i)}) - 2\sum_{i=1}^{m}z^{(i)T}x^{(i)} + \sum_{i=1}^{m}x^{(i)T}x^{(i)}$

$=-\sum_{i=1}^{m}z^{(i)T}x^{(i)} + \sum_{i=1}^{m}x^{(i)T}x^{(i)}$

$=-tr(W^T(\sum_{i=1}^{m} x^{(i)}x^{(i)T})W) + \sum_{i=1}^{m}x^{(i)T}x^{(i)}$

$=-tr(W^TXX^TW) + \sum_{i=1}^{m}x^{(i)T}x^{(i)}$

由于在上式中 $\sum_{i=1}^{m}x^{(i)T}x^{(i)}$ 是一个常量，因此最小化 $\sum_{i=1}^{m} ||X^{(i)} - x^{(i)}||^2$ 等价于最大化 $tr(W^TXX^TW)$ $s.t. W^TW = I$
利用拉格朗日函数可以得到：
$tr(W^TXX^TW + \lambda(W^TW - I))$
通过 $\frac{\partial J(W)}{\partial W} = 0$
解：
$XX^TW = \lambda W$
也就是 $W$ 是 $XX^T$ 的 $n^{'}$ 个特征向量组成的矩阵，特征值 $\lambda$ 的值的大小代表对应的特征向量上所能表达的数据的信息量的多少，简单来说， $\lambda$ 的值越大，特征向量方向上能够表达的数据信息越多，越能代表原始数据！所以，对于原始数据集，通过对 $\lambda$ 的值从大到小进行排序，取其中前 $n^{'}$ 个特征值所对应的特征向量构成 $W$ ，我们只需要使用 $z^{(i)} = W^Tx^{(i)}$ ，就可以将其降维至基于最小投影距离的新的 $n^{'}$ 维的数据集了。

1.2 最大方差法

首先我们需要明确一下，为什么要使用样本点在超平面上具有最大方差时比较好。现在有 $F_1、F_2$ 两个方向，可以很明显地看出在 $F_1$ 轴上数据点的投影较分散（方差较大），在 $F_2$ 上地数据点的投影较紧凑（方差较小），在相信我们直觉的情况下，我们本能地会认为 $F_1$ 轴上的投影点能够保存更多的原始数据集的信息。信息论中认为信号具有较大的方差，噪声具有较小的方差，信号与噪声的方差比（信噪比）越大越好。因此 $F_1$ 轴就是我们的主成分，而 $F_2$ 轴就是我们的噪声；这种思想我们可以推广到n维空间中。对于n维数据样本，首先我们求出基于最大方差的第一主成分，然后将数据集去掉第一主成分的分量构成新的数据集去求第二主成分，一直到求出第d个 (PS:我们需要的维数) 主成分为止！

在1.1的推导中我们已经直到样本点 $x^{(i)}$ 在新的坐标系上的投影为 $W^Tx^{(i)}$ ，因此要使所有的样本的投影方差最大，即最大化： $\sum_{i=1}^{m} W^Tx^{(i)}x^{(i)T}W$ $s.t. W^TW = I$
因此最后结果依然为：
$XX^TW = \lambda W$
解释如上！也是就是说，通过对数据集样本的协方差矩阵 $XX^T$ 进行特征集分解，取最大 $n^{'}$ 个特征值所对应的特征向量作为投影矩阵，不仅可以得到最小投影距离，而且可以得到最大投影方差，可谓一石二鸟，一举两得！！???

现在我们来回想一下我们为什么要降维？对于庞大的数据集过多的特征，我们的学习模型有时候会充分学习到那些无关紧要的特征，从而会导致过拟合现象。那么如果在繁杂的特征中判别哪些信息是有用的，需要被学习的；哪些信息是垃圾信息，会对学习模型产生不利影响，那么我们的学习模型的效用将会大大的提高！而这就是我们PCA要做到的事情，这就是我们的新维数d所能产生的巨大影响。上面提到过， $\lambda$ 的值的大小代表了那个特征向量上多能记载的信息量的多少，因此通过 $\frac{\sum_{i=1}^{d} \lambda_i}{\sum_{i=1}^{n} \lambda_i} *100\%$ 的大小，可以了解到新的d维数据集能够表达出初始输出集多少信息。

（二）算法描述

PCA算法的数学描述
伪代码：

'''
输入： 样本集 D :m个样本,n维 ； 低维空间维数d

过程：
1. 对所有的样本进行中心化操作
2. 计算样本的协方差矩阵
3. 对协方差矩阵做特征值分解
4. 取最大的d个特征值所对应的特征向量作为投影矩阵
5. 利用投影矩阵获得新的d维数据样本

输出：
投影矩阵W ； 新的d维数据集样本
'''

核心代码：

def PCA(dataset,d):
	MeanDataset = dataset - np.mean(dataset,axis = 0) ; #中心化操作
	CovMat = np.(MeanDataset,rowvar = 0);  #求协方差矩阵
	Vals,Vects = np.linalg.eig(np.mat(CovMat)) ; #求特征值与特征向量
	NewSort = argsort(Vals) ; # 从小到大排序
	NewSort = Newsort[::-1];#从大到小排序
	Vects = Vects[:,Newsort[:d]]; #选取前d个最大的特征值所代表的特征向量
	LowDataset = MeanDataset * Vects; #新的d维数据样本
	return LowDataset,Vects;

好了，现在我们通过上面简单的代码就实现了主成分分析过程。但是你是否会有疑惑，我们在线性回归模型中踢掉了最小二乘法所代表的矩阵计算，而选择了梯度下降法，目的就是为了能够减轻计算；而主成分分析法实现降维的目的也是为了能够减小数据集的量级，从而能够减少计算；现在在主成分分析模型中，我们却被迫采用了令人头疼的矩阵计算，真的合适吗？还有没有更好的解决办法？
在回归的“二三事”中我曾提到过梯度上升法，这里我们将再次拾起梯度法来踢走令人生厌的超规模矩阵计算。

（三） PCA的梯度上升法实现

现在我们基于最大投影方差，我们先求第一主成分：
第一步：中心化处理
$\sum_{i=1}^{m} x_i = 0$
第二步：确定效益函数
设 $(\omega_1, .... ,\omega_n)^T$
则方差为： $Var(X_{pricipal}) = \frac{1}{m} \sum_{i=1}^{m} (X_{pricipal}^{(i)} - X_{mean})^2 = \frac{1}{m} \sum_{i=1}^{m} ||X_{pricipal}^{(i)} - X_{mean}||^2$
由于已经中心化处理过,故：
$Var(X_{pricipal}) = \frac{1}{m} \sum_{i=1}^{m} ||X_{pricipal}^{(i)}||^2 = \frac{1}{m} \sum_{i=1}^{m} ||X^{(i)} \omega_i||^2$
即我们的目标变为，求w值，使得：
$\frac{1}{m} \sum_{i=1}^{m} ||X^{(i)} \omega_i||^2 = \frac{1}{m} \sum_{i=1}^{m} (X_1^{(1)}\omega_1+....+X_1^{(n)}\omega_n)^2$
第三步：求梯度
$\nabla f = (\frac{\partial f}{\partial \omega_1},.....,\frac{\partial f}{\partial \omega_n})^T = \frac{2}{m} (\sum_{i=1}^{m}(X^{(i)}W)X_1^{(i)},......,\sum_{i=1}^{m}(X^{(i)}W)X_n^{(i)})^T$
通过化简得：
$\nabla f = \frac{2}{m} X^T(XW)$
第四步：更新W，求得效益函数极大值，获得第一主成分
$W_{new} = W_{old} + \alpha \nabla f$

现在我们已经获得了想要得第一主成分，也就是通过它我们已经可以实现将n维数据降维至1维空间上了；但是单独得1维数据在很多情况下并不能满足表达原始数据集绝大多数信息得要求，因此如何获得其他d-1维的数据是我们接下来的工作：

第一步：求出主成分上面的数据
$X_{new} = X_{old} - X_{old}W$
即通过基础的矩阵运算，我们就可以得到去除主成分分量后的新的数据集了
第二步：在新的数据集是继续求主成分，方法与上面一样
第三步：重复上面操作，直至得到d个主成分

代码：

class PCA:

    def __init__(self, n_components):
        """初始化PCA"""
        assert n_components >= 1, "n_components must be valid"
        self.n_components = n_components #主成分个数
        self.components_ = None ##投影矩阵

    def fit(self, X, eta=0.01, n_iters=1e4):
        """获得数据集X的前n个主成分"""
        assert self.n_components <= X.shape[1], \
            "n_components must not be greater than the feature number of X"

        def demean(X): #中心化操作
            return X - np.mean(X, axis=0) 

        def f(w, X):
            return np.sum((X.dot(w) ** 2)) / len(X)

        def df(w, X): #梯度
            return X.T.dot(X.dot(w)) * 2. / len(X)

        def direction(w): #标准化方向向量
            return w / np.linalg.norm(w)

        def first_component(X, initial_w, eta=0.01, n_iters=1e4, epsilon=1e-8): #求主成分的过程

            w = direction(initial_w)
            cur_iter = 0

            while cur_iter < n_iters: #梯度上升过程
                gradient = df(w, X)
                last_w = w
                w = w + eta * gradient
                w = direction(w)
                if (abs(f(w, X) - f(last_w, X)) < epsilon):
                    break

                cur_iter += 1

            return w

        X_pca = demean(X)
        self.components_ = np.empty(shape=(self.n_components, X.shape[1]))  #初始化投影矩阵
        for i in range(self.n_components): #求d维投影矩阵
            initial_w = np.random.random(X_pca.shape[1])
            w = first_component(X_pca, initial_w, eta, n_iters)
            self.components_[i,:] = w

            X_pca = X_pca - X_pca.dot(w).reshape(-1, 1) * w

        return self

    def transform(self, X):
        """将给定的X，映射到各个主成分分量中"""
        assert X.shape[1] == self.components_.shape[1]

        return X.dot(self.components_.T)

    def inverse_transform(self, X):
        """将给定的X，反向映射回原来的特征空间"""
        assert X.shape[1] == self.components_.shape[0]

        return X.dot(self.components_)

    def __repr__(self):
        return "PCA(n_components=%d)" % self.n_components

二、奇异值分解

在主成分分析一部分我们提到，使用PCA进行降维，需要找到样本的协方差矩阵 $X^TX$ 的最大的 $d$ 个特征值，然后用其对应的特征向量作为投影矩阵进行降维。但是当样本数量很多、特征数很大的时候，求出协方差矩阵是一件计算量十分巨大的工程，对此我是类比线性模型的推导过程，给出梯度上升法来简化学习过程。事实上，我们还有另一种工具——奇异值分解（SVD），同样可以得到得到协方差 $X^TX$ 的d维投影矩阵，且并不需要求出协方差矩阵。这种方法在样本量大的时候十分有效，实际上在sklearn库中的PCA算法使用的就是SVD算法。下面我们来一窥全貌！

（一）什么是SVD

对于一个方阵A(N x N矩阵），其特征值与特征向量的定义维：
$\lambda x$
令 $\Omega = {\omega_1,....,\omega_n}$ 为特征向量组成的矩阵， $T$ 为以n个特征值为主对角线的N x N矩阵，则：
$\Omega \Sigma \Omega^{-1}$
通过将 $\Omega$ 的n个特征向量标准正交化，使其满足 $||\omega_1||=1$ 且 $\Omega ^T\Omega =I$ ，则 $\Omega \Sigma \Omega^T$
但是上面的情况必须要满足A为方阵的前提条件，那么对于M x N 的非方阵矩阵，我们可以对其进行分解吗？SVD干的就是这个事 —— SVD是适用于任意形式的矩阵的一种分解方法！！！

假设A是一个[M,N]的矩阵，那么我们可以得到一个[M,M]的矩阵 $U$ (里面的向量都是正交的，称为左奇异向量)，一个[M,N]的矩阵 $T$ (除了主对角线都是零，主对角线上为奇异值），一个[N,N]的矩阵 $V^T$ (里面的向量都正交，称为右奇异向量），则：
$U\Sigma V^T$

现在来了，我们该如何去求左奇异向量、右奇异向量、奇异值呢？

观察一下，右奇异向量的维数是N x N维，而 $A^TA$ 也是N x N维，那么我们对 $A^TA$ 做特征分解试试看：
$(A^TA)v_i = \lambda_i v_i$
如果我们将 $A^TA$ 的每个特征向量组成一个N x N的矩阵V，那么它就构成了我们的右奇异矩阵；
证明：
由于 $U\Sigma V^T , A^T = V\Sigma^TU^T$
则： $A^TA = V\Sigma^TU^TU\Sigma V^T$
由于: $U^TU = I, \Sigma^T\Sigma =\Sigma^2$
则： $A^TA = V\Sigma^2V^T$
证毕！

现在，我们使用相同的方法去求左奇异矩阵：
$(AA^T)u_i = \lambda_i u_i$
我们将 $AA^T$ 的所有特征向量构成一个M x M的矩阵U，就是我们的左奇异矩阵U了。
$AA^T = UT^2U^T$ 可以证明U是我们想要的左奇异矩阵！

现在我们需要去求奇异值矩阵 $\Sigma$ 了
由于： $U\Sigma V^TV = U\Sigma$
得：
$Av_i = \sigma_i u_i$
即对于每一个奇异值 $\sigma$ ，我们可以通过 $\sigma_i = \frac{Av_i}{u_i}$ 求得(注： $v_i$ 是V的特征向量， $u_i$ 是U的特征向量）

注意，在上面我们证明右奇异矩阵V的时候，说到 $A^TA = V\Sigma^2V^T$ ，那么 $\Sigma^2$ 主对角线上的奇异值不就是 $A^TA$ 的特征值嘛！
所以我们右更简单的求解奇异值的方法：
$\sigma_i = \sqrt{\lambda_i}$
其中 $\lambda$ 是 $A^TA$ 的特征值。
同理：
由 $Av_i = \sigma_i u_i$ 可得：
$u_i = \frac{1}{\sigma_i}Av_i$
是不是又可以减轻U矩阵的计算量啦~~~

这时候各位看客肯定会跳出来吐槽我，说好的可以通过SVD来降低矩阵计算量的呀，你这个 $O(N^3)$ 的算法，更复杂了好吗？
是这样没错，如果没有Google的SVD并行化算法的话，那么确实处理上亿规模的矩阵运算一定是天方夜谈，但是在众多大牛的贡献下，SVD的并行化计算也有成熟的代码或框架供大家使用，所以通过SVD去求解 $AA^T$ 的特征向量即PCA所要的协方差矩阵是一件更为取巧的事情！

（二）SVD与PCA

我们花了大力气去实现SVD，它有什么特性使我们如此着迷呢？
在奇异值矩阵中，我们按照奇异值的大小从大到小进行排列，会发现奇异值减小的特别快，在很多情况下，前10%的奇异值的和就可以占到全部奇异值之和99%以上的比例！这意味着什么？意味着我们可以将维数降低到原来的十分之一还可以解释其99%以上的信息，这是多么的令人着迷~
也就是我们通过最大的k个奇异值与其对应的左右奇异向量就可以近似描述我们原来的矩阵，即：
$A_{m*n} = U_{m*m}\Sigma_{m*n}V^T_{n*n} = U_{m*k}\Sigma_{k*k}V^T_{k*n}$

因此，SVD不仅仅可以用作PCA降维过程中，而且可以用作数据压缩、去噪等过程。这是一件多么有趣的事情！

如何在 Ubuntu 20.04 或 22.04 上安装 Python 3 百川Cs 计算机基础 ubuntu python linux pip conda
以下是关于如何在Ubuntu20.04或22.04上安装Python3的详细步骤。Python是一种广泛使用的编程语言，适用于自动化、数据分析、机器学习等领域。Ubuntu系统通常预装了Python3，但如果需要安装或升级到最新版本，可以按照以下方法操作。检查系统是否已安装Python3打开终端（快捷键：Ctrl+Alt+T）。输入以下命令检查是否已安装Python3：python3--versi
Python pywinauto PC端自动化测试核心代码封装类《代码爱好者》 ChatGPT python 自动化测试框架 python windows
PythonpywinautoPC端自动化测试核心代码封装类以下是一个基于pywinauto的自动化测试核心代码封装类的完整代码实例，其中包含多个函数实例并加上中文注释方案1importpywinautoimporttimeclassPywinautoWrapper:def__init__(self,app_path):"""初始化函数，传入应用程序的路径"""self.app_path=app_
PySide6与PyQt5的区别大乔乔布斯 pyqt python qt
虽然PySide6和PyQt5的功能和API十分相似，但由于它们分别是基于不同版本的Qt和由不同的团队维护，是两个不同的Python绑定库，分别用于与Qt库进行交互，可能会在一些细节上表现出差异，一些关键区别：1.维护和授权PySide6:由TheQtCompany官方维护。使用LGPL授权，这意味着你可以在开源和闭源项目中免费使用它（遵守LGPL条款）。版本号与Qt本身一致，PySide6对应于
MySQL 拆分字符串函数Split 大乔乔布斯 mysql 数据库
MYSQL目前没有Hive或者Java。python这列直接split的函数，需要自己定义一个，复制代码，一键使用CREATEDEFINER=`root`@`localhost`FUNCTION`func_split_str`(xVARCHAR(255),--字符串delimVARCHAR(12),--分隔符posINT--按分隔浮拆分后的第几个结果，从1开始数)RETURNSvarchar(25
TypeError: ‘str‘ object is not callable的几种情况及解决办法兔兔爱学习兔兔爱学习 pandas python 机器学习深度学习人工智能
TypeError:‘str’objectisnotcallable的几种情况及解决办法第一个可能，定义了一个str的变量，这个和Python自带函数str的命名冲突了，所以发生这个错误。确实，这是一个情况。这种情况的解决办法就是：严格遵守命名规范，避免命名冲突。第二个可能，是字符串后面加了括号调用的缘故。这一般是由于不了解，对某个对象的细节不清楚，错把属性看成了函数。
Python:实现similarity search相似性搜索算法(附完整源码) 源代码大师 python算法完整教程 python 机器学习
Python:实现similaritysearch相似性搜索算法from__future__importannotationsimportmathimportnumpyasnpdefeuclidean(input_a:np.ndarray,input_b:np.ndarray)->
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
龙珠训练营机器学习task04 a_little_pig_ python
学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容，学习链接为：https://tianchi.aliyun.com/competition/entrance/231702/introduction?spm=5176.20222472.J_3678908510.8.8f5e67c2RKrT98总体思路：分别使用LightGBM，xgboost，gbdt，catboost建立多个个体学习器（加入b
解锁 Python 与 MySQL 交互密码：全方位技术解析与实战攻略秋夜Autumn python MySQL
目录一、引言二、环境准备2.1安装MySQL2.2安装Python及相关库2.2.1使用mysql-connector-python2.2.2使用pymysql三、基本连接与操作3.1连接到MySQL数据库3.2创建游标对象3.3执行SQL查询3.3.1查询单条记录3.3.2查询多条记录3.4插入数据3.5更新数据3.6删除数据3.7关闭连接四、错误处理五、高级操作5.1使用事务5.2处理大型结果
【贪心算法】洛谷P1106 - 删数问题仟濹算法学习笔记贪心算法算法 c语言 c++
2025-01-22-第46篇【洛谷】贪心算法题单-【贪心算法】-【学习笔记】作者(Author):郑龙浩/仟濹(CSND账号名)目录文章目录目录P1106删数问题题目描述输入格式输出格式样例#1样例输入#1样例输出#1提示思路代码P1106删数问题题目描述键盘输入一个高精度的正整数nnn（不超过250250250位），去掉其中任意kkk个数字后剩下的数字按原左右次序将组成一个新的非负整数。编程对
Python Pandas数据清洗与处理大数据张老师 Python程序设计 python pandas 开发语言
PythonPandas数据清洗与处理在进行数据分析时，原始数据往往包含了许多不完整、不准确或者冗余的信息。数据清洗与处理的任务就是将这些杂乱无章的数据清理干净，确保数据的准确性和一致性，从而为后续的分析工作打下坚实的基础。Pandas提供了强大的工具来帮助我们清洗和处理数据，尤其是在处理Series和DataFrame时，它能够高效地进行数据的筛选、填充、删除、替换等操作。本节将通过一些常见的数
新能源汽车 BMS 学习笔记篇——如何选择继电器 & MOS 管作为开关 WPG大大通其他教程笔记 MOS 大大通继电器
序：继电器和MOSFET（俗称MOS管）都可以用作BMS（BatteryManagementSystem，电池管理系统）中控制电池充放电的开关，但它们在原理、结构和特性上存在一些区别，以下总结它们之间主要区别及适用场景一、继电器&MOS管的组成结构及工作原理1、继电器：由线圈、触点和机械部件组成。当ControlSwitch闭合时，触发继电器的电磁线圈产生磁场，使其吸引或释放触点（RelayCon
成功使用devpi搭建PyPI缓存源，建立内网python安装包服务器（通过代理上网） jcsx 基础运维知识库开源学习 python pip nginx
前言缓存源和镜像源的区别：缓存源：初始状态为空。下载请求的软件包没有缓存，则回源到设置的上游镜像源，然后该软件包会被缓存。如果请求的软件包已经被缓存，则直接从本地缓存返回用户。下载速度：第一次速度=通过外网从上游镜像源下载的速度；之后的速度=内网带宽速度。磁盘空间：少。初始时只保存了软件包索引，随着使用过程，软件包被缓存，磁盘占用逐渐变大。镜像源：初始状态含有所有软件包，并且定时与上游镜像源同步。
Python接口自动化测试框架（实战篇）-- Jenkins持续集成职说测试 python jenkins ci/cd 自动化测试接口自动化测试
文章目录一、前言二、[Jenkins](https://www.jenkins.io/)2.1、环境搭建2.2、插件准备2.3、创建job2.4、小结2.5、构建策略2.6、报告展示2.7、扩展三、总结一、前言温馨提示：在框架需要集成jenkins的时候，一定要注意环境切换问题，如果jenkins和开发环境是同样的系统且都有python环境，基本不用太担心代码的移植问题，如果是跨平台了，那么需要注
python实战项目34：基于flask的天气数据可视化系统1.0 wp_tao Python副业接单实战项目 flask 信息可视化 python
基于flask的天气数据可视化系统1.0一、效果展示二、flask简介三、图表绘制四、前端页面编写五、完整代码一、效果展示该flask项目相对简单入门，使用了flask框架、bootstrap前端技术，数据使用的是上一篇scrapy爬取城市天气数据中爬取到的数据。二、flask简介Flask是一个基于Python的Web开发框架，它以灵活、微框架著称，基于werkzeug的轻量级web框架，可提高
Jira用例自动去除summary重复用例吾爱乐享 w w w w .f e n
title:Jira用例自动去除summary重复用例tags:-jira-pythoncategories:-python一、背景与需求二、解决方案思路三、实施步骤本文永久更新地址:在使用Jira进行项目管理时，测试用例的维护至关重要。随着项目推进，用例数量增多，可能会出现summary重复的情况，手动排查费时费力，因此实现自动去除重复用例功能意义重大。一、背景与需求项目团队在Jira中积累了大
RPA与Python 空着
部分朋友可能是了解Python的。Python这两年，火的两点，就是聚焦于两个场景：数据抓取和办公自动化。那么Python算RPA吗？RPA是一种概念，依托于这个概念诞生了很多产品。而Python是一种计算机语言，Python不仅仅可以做RPA概念范围内的东西，还可以做其他东西。但是，Python做数据抓取也好，做办公自动化也好，他都是聚焦于具体的场景本身。而并非聚焦于RPA概念上的。所以，很少见
Python爬虫技术第12节设置headers和cookies hummhumm python 爬虫开发语言 django flask java spring
在使用Python进行网络爬虫开发时，经常需要模拟浏览器行为，这包括设置请求头（headers）和处理cookies。下面我将详细介绍如何在Python中使用requests库来设置headers和处理cookies。设置HeadersHeaders包含了客户端发送给服务器的信息，比如用户代理（User-Agent）、接受的内容类型（Accept）、语言偏好（Accept-Language）等。设
Python爬虫技术第16节 XPath hummhumm python 爬虫开发语言 flask java maven java-ee
XPath是一种在XML文档中查找信息的语言，尽管XML和HTML在语法上有区别，但XPath同样适用于HTML文档的解析，尤其是在使用如lxml这样的库时。XPath提供了一种强大的方法来定位和提取XML/HTML文档中的元素和属性。XPath基础XPath表达式由路径表达式组成，它们指定了文档中的位置。下面是一些基本的XPath语法：根节点：/表示绝对路径的开始，指向文档的根节点。//表示从当
【C++】初学者的浪漫编程指南星霜旅人 C++c++
少年不惧岁月长，彼方尚有荣光在。前言这是我自己学习C++的第一篇博客总结。后期我会继续把C++学习笔记开源至博客上。C++的兼容性1.C++兼容绝大多数C语言的语法，因此只需要把.c后缀文件改为.cpp即可。2.VS编译器看到是.cpp就会调用C++编译器编译。#define_CRT_SECURE_NO_WARNINGS#includeintmain(){printf("helloworld\n"
机器学习与分布式机器学习_经理人的机器学习–您需要知道的 cumian8165 算法神经网络大数据编程语言 python
机器学习与分布式机器学习Ifyouaremanagingatechteamasaproductorprojectmanager,hereiswhatyouneedtoknowaboutmachinelearning.如果您要以产品或项目经理的身份管理技术团队，这是您需要了解的有关机器学习的知识。Machinelearninganddeeplearninghavebeenpopularbuzzwor
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
【实践】Python实现气象数据分析与可视化大数据张老师 Python程序设计信息可视化 python 数据分析可视化
一、项目需求在本节中，我们将明确“气象数据分析与可视化”项目的需求，定义项目的功能和目标，为后续的实现奠定基础。通过本项目，读者将学习如何使用Python的各种数据处理和可视化工具来分析和展示气象数据，从而掌握数据处理与可视化的核心技能。1.项目目标“气象数据分析与可视化”项目的目标是通过对历史气象数据的处理和分析，生成直观的图表和统计结果，帮助用户理解气象趋势并预测未来变化。项目的主要功能如下：
证券量化交易选择合适的编程语言 jcsx 量化 numpy pandas pyqt servlet javascript
在证券量化交易中，选择合适的编程语言至关重要，因为它直接影响到开发效率、运行速度和策略的灵活性。常用的编程语言有几个，它们各自有不同的优势和应用场景。以下是一些在量化交易中常用的编程语言：PythonPython是目前量化交易中最流行的编程语言之一，特别是在金融数据分析和模型开发中，广泛被使用。Python的流行主要有以下原因：数据处理能力：Python有非常强大的数据处理库，如pandas（数据
基于 Jenkins 的测试报告获取与处理并写入 Jira Wiki 的技术总结吾爱乐享 w w w w .f e n
title:基于Jenkins的测试报告获取与处理并写入JiraWiki的技术总结tags:-jenkins-pythoncategories:-jenkins在软件开发的持续集成与持续交付（CI/CD）流程里，及时、准确地获取并分析测试报告对保障软件质量至关重要。本文将详细阐述如何借助Jenkins搭建自动化系统，实现批量触发测试任务、获取测试报告关键信息并写入JiraWiki的全流程自动化，为
已解决python 的SyntaxError ：invalid syntax异常正确解决办法，亲测有效，嘿嘿嘿代码无疆 Python python 开发语言
文章目录问题分析报错原因解决思路解决方法示例1：拼写错误示例2：缺少符号示例3：错误的缩进示例4：错误的语句结构SyntaxError:invalidsyntax异常是Python中最常见的错误之一，它表示代码中存在语法错误。这种错误通常发生在Python解释器无法理解你的代码时，比如因为拼写错误、缺少符号、错误的缩进、不正确的语句结构等。问题分析当Python解释器报告SyntaxError:i
【Python篇】从零到精通：全面分析Scikit-Learn在机器学习中的绝妙应用半截诗 Python python 机器学习 scikit-learn 人工智能深度学习数据分析随机森林
文章目录从零到精通：全面揭秘Scikit-Learn在机器学习中的绝妙应用前言第一部分：深入了解Scikit-Learn的基础知识1.什么是Scikit-Learn？2.安装Scikit-Learn3.Scikit-Learn中的基本构件4.数据集的加载与探索5.数据预处理标准化数据6.构建和训练机器学习模型构建逻辑回归模型7.模型评估与验证混淆矩阵第二部分：深入理解Scikit-Learn的高级
Python设计模式 - 抽象工厂模式 mofei12138 设计模式 python python 设计模式抽象工厂模式
定义抽象工厂模式是一种创建型设计模式，它提供了一种创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。产品等级结构与产品族为了更好地理解抽象工厂模式，先引入两个概念：产品等级结构：就是产品的继承结构。例如电视机抽象类有A品牌电视机子类和B品牌电视机子类，那么抽象电视机和具体品牌的电视机就构成了一个产品等级结构。产品族：同一个工厂生产的，位于不同产品等级结构中的一组产品。例如海尔工厂生产的海
【Python设计模式07】工厂方法模式一碗姜汤设计模式 python 设计模式工厂方法模式
工厂方法模式（FactoryMethodPattern）是一种创建型设计模式，它定义了一个用于创建对象的接口，让子类决定实例化哪一个类。工厂方法使得一个类的实例化延迟到其子类。通过使用工厂方法模式，可以将对象的创建过程与使用过程分离，从而提高代码的灵活性和可扩展性。工厂方法模式的结构工厂方法模式主要包括以下几个角色：抽象产品（Product）：定义产品的接口。具体产品（ConcreteProduc
分形、大自然的分形几何、数据可视化、Python绘图 timedot-hj python绘图指南 -分形与数据可视化可视化 python 几何学算法
分形、大自然的分形几何、数据可视化、Python绘图中国传统中的『分形』大自然的分形几何数据可视化本系列采用turtle、matplotlib、numpy这三个Python工具，以分形与计算机图像处理的经典算法为实例，通过程序和图像，来帮助读者一步步掌握Python绘图和数据可视化的方法和技巧，并且让读者感受到“龙枝屈曲竞分形，瑰丽绮错千万状”的分形魅力。本系列共有八章，分别为海岸线有多长，基因与
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key