V丶Chao

异常检测：从异常检测到PCA再到特征向量

20201001 -

0. 引言

最近的精力比较杂，当时仅仅是想学习《异常点检测》中的某个章节，但是因为遗忘的知识太多，导致又得学习更多的东西，比如线性代数的东西。很多概念在本科的时候都学过，所以捡起来也不是那么难，但是想马上得心应手的用起来，肯定是要花点功夫的。

在最近看的几个主体中，我就发现了一个非常重要的概念，那就是特征向量。其实这个东西，本身没什么难点嘛，大一学习的线性代数，不就是几个公式，然后求一求就出来了。当时的应试场景下，这样肯定是没什么问题的，但是当真正需要利用这个东西的实际意义的时候，而不是说仅仅是利用这个东西作为一个方程的解的时候，那就需要对这部分内容有深入的理解才行。

所以，本部分内容就将记录我这几天看这些东西学到的东西，从基础的异常点检测，再到特征向量，当然我现在也不能说就非常理解了，但是基本上已经算是明白怎么回事了，后续就是需要利用这部分东西慢慢的消化。

一开始想着这篇文章就从基础开始讲起，然后最后再到主题，但是仔细想了想，还是不要这样了，因为我本身产生这些内容的过程就是在学习某个主题，然后才延伸到了基础的内容，所以这里我也打算使用这样的方法。

这是这个系列的第一篇文章，第二篇文章是《线性代数 - 矩阵形式下的最小二乘法》。

1. 异常检测

本篇文章的内容都是在阅读书《Outlier analysis》二三章节的过程中产生的。我没有阅读过其他的书，但是我觉得这本书还是很值得看的。本小节主要介绍在学习到的异常检测的内容。
（针对这本书，后续会专门开设一个专栏来记录每个章节的内容 20201001）
本次阅读过程中，主要学习了这本书的第二和第三章节，分别是：

Ch2 - Probabilistic and Statistical Models for Outlier Detection
Ch3 - Linear Models for Outlier Detection

1.1 异常检测算法

在这两个章节中，主要学习一下三部分内容（章节，模型/方法，具体的重点知识）

Ch2 基于概率分布的距离测量方法：马哈拉诺比斯距离
Ch3 线性回归模型：最小二乘法
Ch3 主成分分析：PCA算法

在学习这些内容的时候，我也感觉到了自己线性代数部分内容的遗忘，直接找了一本同济的那本线性代数的书来看，大致上的概念都能弄懂，但是毕竟也不是完整的学习，肯定是有所缺陷的。

1.2 线性代数的知识

关于线性代数的知识，要讲起来，那就没完了。我捡几个重点，在这部分的学习中，觉得这个东西是最重要的。逆矩阵，特征向量，线性变换。其中线性变换是这个概念一定理解，要知道一个矩阵和向量相乘，在进行线性变换，例如最简单的，[1 0 0 1]，乘以任何一个向量是没有任何变换的。而如果是[1 0 0 0.5]，这个就会把某个向量在y轴上缩小为0.5倍。而且要注意肯定是线性变换。
更深入的，线性变换就是实现了一个变量的旋转和伸缩，而每部分又跟特征向量有关。

注：从后面的章节开始，我就开始讲述针对每个内容的具体，内容较多的话，就会写到另外一篇文章中。而且，在这部分的学习过程中，其实外网上有很多非常有效的文章，我本次学习过程也是主要通过google来实现的。既然有这么多优秀的文章，所以本文将主要记录大致原理，然后记录自己的理解，就不自己推导了，有兴趣的可以直接看原文，当然推荐直接看原文。

2. 马哈拉诺比斯距离

在《Outlier Analysis》的第二小节中，简单介绍了基于统计或者基于概率的方法如何发现异常点。在多元变量分析中，存在四种方法，最后一种就是利用马哈拉诺比斯距离来解决。其他三种方法分别是：基于深度的方法、基于偏差的方法、基于角度的方法，这些方法这里不进行展开。

2.1 具体公式

在单变量的异常检测过程中，使用的方法就是测量某个数值其与均值的距离，然后利用概率分布的方式来测量出来一个异常分数，通常可以假设数据是基于正态分布的。而且有一个点比较重要，就是不管什么类型的方法在进行异常检测，在最后一步，都可以是对每个点或者每个部分设置的异常分数进行划分，此时可以通过基于概率的方法实现最终的检测。而对于多维变量也一样，通过马哈拉诺比斯距离作为整个异常分数。

利用马哈拉诺比斯距离是将数据视为多个混合的高斯分布，概率分布公式为：

其中 $d$ 为维度， $\Sigma$ 是相应数据的协方差矩阵。而马哈拉诺比斯距离的具体定义如下：

其实，马哈拉诺比斯距离也是基于欧式距离来算的，但是是建立在某种线性代数的转换之上的，这个具体内容后面展开。那么有了上面的公式，利用这个距离方法来测量距离实现异常检测就好了。这里来探讨探讨其深层次的含义。

2.2 马哈拉诺比距离的好处

关于这个距离公式的好处呢，我是将其与欧式距离进行比较，肯定他也有自己的缺陷，但是这里的假设就是，为什么在测量距离的时候，使用这个公式更好呢？其实前面的公式完全是可以通过多变量的正态分布来进行实现的，在测量距离的时候，测量的也是到均值的距离。（我这里的说法有些不贴切，其实利用别的方法来说明更好，例如在使用k近邻的时候，当然这里不再具体展开）我主要说明，马哈拉诺比斯距离解决了欧式距离的什么缺点。以我现在的理解（可能有误），马哈拉诺比斯距离跟欧式距离还是有一定区别的，马哈拉诺比斯距离可能更侧重于在点和分布的距离上，例如前面的公式中，而欧氏距离是更普适的向量空间的距离。

2.2.1 欧式距离的缺点

欧式距离的计算方式很简单，对于两个点 $x_1,y_1),(x_2,y_2)$ ，他们的欧式距离计算公式如下：
$\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$
公式简洁明了，在二位平面上就是两个点的直线距离。但是这个公式存在着两个非常大的缺陷。

量纲问题
变量相关性问题

量纲的问题比较明显，当两个数据表中的内容相同，仅仅是量纲不同的时候，可能会发现距离是不同的，但是这个问题比较容易解决，通过最大最小归一化，或者直接正态化都可以，都能从数量上解决距离的问题；但是如果是相关性的话，就不容易解决了。这里先列举一个例子来说明如果是变量之间存在相关会出现什么情况或者说影响。

上述图片来源于文章[1]，~~文章[1]是对马哈拉诺比斯距离的详细介绍，后面还会具体展开~~。这里先说明相关性的问题。上述图中的两个分布都是二维高斯分布，但是左边式非相关的，右边是相关的。如果是使用欧式距离的话：

在不相关的情况下，两个点与高斯分布中心（假设已经进行归一化了）的距离相同时，他们大致的位置应该都是一样的，可以以高斯分布中心画圆。
但是在相关的情况下呢，就不对了，假设你要进行异常点检测，上述图中的右图中，点1和点2与中心的距离相同，但是明显点2才是异常点

也就是说，在存在相关的情况下，欧式距离是不能用来测量这种和中心的距离的，问题就是同样的距离却又不一样的位置，在异常检测中非常受影响。

2.2.2 马哈拉诺比斯距离的好处

在我现在的理解来看，马哈拉诺比斯距离可以解决前面欧式距离在相关性的场景下的问题，他采用的方法是通过对数据进行变换，得到一个某个坐标轴上没有这种相关性。也就是能够再次使用欧式距离的坐标系。通过下面这个图更能说明清楚。

上面这个图片来自于文章[4]，本质上文章[4]是来解释这个协方差矩阵的，但是这里是一致的。也就是说，马哈拉诺诺比斯求解的距离是新的坐标系下面的距离。（注意，实际上马哈拉诺比斯距离是上图的逆过程）。

2.3 马哈拉诺比斯距离的原理解释

2.3.1 具体公式

$mahalanobis\,distance = \sqrt{(X-\mu)C^{-1}(X-\mu)^T}$
其中 $X$ 是数据向量， $\mu$ 是每列的均值， $C$ 是协方差矩阵。
上述公式中，两边的东西都无所谓，本质上就是要给加减法的问题，那么重点就来到了这个中间的协方差矩阵的地方。

2.3.2 协方差矩阵

说到协方差，那么首先应该说的是方差，从公式上来看 $Var(x) = E((x - E(x))^2)$ ，方差是测量一个随机变量以均值为中心变化的范围。而协方差，所关注的是两个随机变量的关系，一般按照正负分为正相关和负相关，具体公式如下：
$V a r (x, y) = E [(x - E (x)) (y - E (y))]$
协方差矩阵正好是一个对称的矩阵，对角线上是每个变量的方差，而其他的地方是他们两两之间的协方差。用一句简单的话来说，就是衡量一个变量在变化时，另一个变量跟着变化的大小，从而来统计他们的相关性。这里将从矩阵变换的角度来解释协方差矩阵，从而来理解马哈拉诺比斯距离。

上图非常细致了说明了这个协方差矩阵及其在图像上的关系。从图中可以看出，在协方差不等于0的时候，整个点时有一定的相关性的，而且呈现去同时递增或者相反的趋势。上图来自于文章[4]，后续关于协方差矩阵部分的解释，都是来自于原文[4]，阅读原文[4]会更好。
前面已经说到了，欧式距离应用的局限性就是因为由于相关性的问题存在。那么我是不是能找到一个坐标系，在这个坐标系上，他们没有相关性，而原有的方差还存在呢？！其实说到这里，可以想象，直接利用以y为因变量的曲线即可，这是我们从图像上看出来的。那么这个方向应该怎么计算呢？那就又涉及到了特征向量和特征值的问题。也就是说，要对协方差矩阵进行特征向量的分解。
但是在文章[4]中提到，想找到的是方差最大的方向。但是这里我也不是很理解，方差最大的是什么方向，就假如说上方中的第一个图，我们如果是进行数值分解或者什么的，那么肯定应该是拟合出来的直线方向是最大的。但是如果仅仅从协方差矩阵上来看，好像y轴上方差最大，协方差才等于4。但是第二种理解方式肯定是不对的。估计原因就是，通过这种方式得出的结论，还是以x和y为基的空间下的方差。（这是我的理解，暂时不清楚对不对）
而且为什么要找方差最大的？这个也没有具体解释。可能就是因为方差最大的能够变成无关的？！
总之，不管怎么样，我都是要找到一个方向，这个方向上方差最大，那么可以找到一个向量，其方向正好是最大的，而大小是该方向的方差。这里他说的是希望能够找到代表协方差的向量，但是为什么呢？看后面的协方差矩阵的分解部分。

2.3.3 协方差矩阵的特征分解

（这部分内容，我在仔细学习文章[4]的时候，感觉虽然他的结论是对的，但是他这个说理的过程好像是不完备的，具体在什么地方不对，我暂时说不清楚，而且有时候他并没有深入进行解释，另外是有些公式也不是很对的样子。这里先按照他这里的思路往下走吧。）
我们要找到一个向量，这个向量在这个方向上方差最大，可以使用投影的方式。假设这个向量是 $v$ ，然后我的数据是 $D$ ，那么其投影应该是 $v^TD$ ，而投影后的数据的方差应该是 $v^t\Sigma v$ ，我们要寻找的这个向量就是能够将上述的方差的数值进行最大化的向量。（前面的公式中，需要严格的推导和定义，他这种形式就跟我在书上见到的不太一样，但大致能理解）
但是对于这个结果的求导，文章[4]并没有给出具体的答案，只是说使用了一个瑞丽商数的东西，直接就能得到这个向量应该是协方差矩阵的特征向量的结果。
（这部分内容后面在PCA中可能还会遇到，这里先简单记下）。

简单总结一下：从前面的说法中可以知道，我要寻找的是一个能够让数据投影之后，方差最大的方向。而通过一定的定理，这个方向正是特征向量的方向。

具体来说，协方差矩阵中方差最大的方向就是特征向量的方向，而且特征值就是方差的大小。~~前面说到了协方差矩阵是对角矩阵的时候，当不是对角矩阵的时候怎么办？此时上面的结论依然存在，只不过他不再是原始的坐标系而已。~~下面来从矩阵变化的形式，来说明以下协方差矩阵的分解。

2.3.4 矩阵变换的实质

在线性代数中，矩阵乘以向量是对向量的线性变换（这部分在线性代数中，多次强调）。而从几何平面上来理解这部分内容，就是对某个向量进行转换，包括旋转和伸缩。关于这部分内容，这里不再进行具体的阐述，可以查看系列视频[3]，一定要看完之后好好思考。
（这里关于具体的线性变换我还是不是非常理解，但是从几何的角度，我基本上能自己想象出来）
同时，再配合上类似空间的基和特征变量这些内容，然后加上几何学的东西，就能大致明白到底是什么意思了。关于这部分，还是需要更多的积累才能明白。知道了这些东西，那么我们可以把协方差矩阵就看作是一种矩阵变换的方式。

先来看一个最简单的例子，如果协方差矩阵是对角矩阵，也就是协方差部分都是0，那么将他应用于不相关的二维单位高斯分布的话。他会发生什么样的变化？

这个图给出的结论比较简单，他属于一种最简单的扩展把，就是在某个方向上进行扩展。那么如果不是对角矩阵呢？如果直接按照视频中[3]的解释，反正就是一种变换嘛，也无所谓。这里细化一下，将这个变换变为两部分（其实这个两部分在视频[3]中也有所体现，就是矩阵乘法的部分）。这两部分分别是旋转和伸缩（两部分肯定是有次序的）。假设我要进行的转换的矩阵是 $T$ ，那么可以将 $T$ 分解为两部分：旋转矩阵 $R$ 和伸缩矩阵 $S$ ，具体公式如下：
$T = R S$
其中两个矩阵，又可以分别定义为：
$R=\begin{bmatrix} cos(\theta) & sin(\theta) \\ sin(\theta) & cos(\theta) \end{bmatrix} S=\begin{bmatrix} s_x & 0 \\ 0 & s_y \end{bmatrix}$
其中 $\theta$ 是旋转的角度。

后面将继续分析对协方差矩阵进行分解的内容。前面提到了求解协方差矩阵的特征向量内容，其中 $\Sigma v=\lambda v$ ，那么假设将所有的特征向量都放在一起。
$\Sigma V= VL$
其中， $V$ 每一列都是协方差矩阵 $\Sigma$ 的特征向量，而 $L$ 是对角矩阵，每个值都是特征向量。
那么如此说来的话，可以有以下的结论：
$\Sigma =VLV^{-1}$
这个方程实际上就是线性代数中的对称矩阵部分的内容。那么既然得到了这样的结论，又跟前面的转换有什么关系呢？其中 $V$ 代表了旋转矩阵，而 $\sqrt{L}$ 是伸缩矩阵。此时就可以看出来，这个东西代表了什么？
$\Sigma = RSSR^{-1}$
而因为 $S$ 是一个对角矩阵，所以 $S=S^T$ ，而且 $R$ 是一个正交矩阵，那么 $R^{-1}=R^T$ ，因此有以下结论：
$T^T=(RS)^T=S^TR^T=SR^{-1}， \Sigma = RSSR^{-1} = TT^T$
那么从上述的内容中可以看出，如果你对某部分数据进行了转换 $T = R S$ ，那么他生成了协方差矩阵就是上面这种形式。再引用一下前面的那张图[4]。

其中方差最大的方向，就是特征值最大的特征向量的方向，剩下的特征向量都和这个最大的特征向量正交。
其实前面的内容实从一种逆向的角度来进行分析，也就是说，我想得到一个协方差矩阵，本质上就是通过这种变换来得到了，分别是旋转和伸缩。而且，最为关键的是，其中旋转的过程中，特征向量就是旋转的方向，而特征值是相应的伸缩范围。而其实特征向量的线性变换，就是利用特征向量和特征值来解释的。前面的分解内容虽然是说针对协方差矩阵来得到，但是实际上如果是普通的矩阵满足要求，也是能够推导出来的。

正如前面所说，这里是一种逆过程，但我们实际上得到的是右边部分的数据，我想要正常的，可以看到前面的马哈拉诺比斯距离的公式，正好带有了协方差矩阵的逆。也就是说，这里就是通过协方差矩阵来获取到了相应的方向，然后得到了距离，正好还是方差最大的方向的距离。

3. 小节

本文主要讲解了在特征变换，或者说在矩阵变换的角度上描述的马哈拉诺比斯距离。但实际上只是从逆过程进行了分析，并没有从正向来理解。

本来是想把所有的内容都写到这一篇文章中，但是发现文章太长了，就分开写。但是本文章已经介绍了非常多的基础的线性代数的内容了，后面更多是运用这些内容的地方。

在马哈拉诺比斯距离的应用过程中，当然不仅仅是这里提到异常检测能用到，肯定还有一些其他的内容能用到，比如说最近邻的分类中，利用马哈拉诺比斯距离来代替欧式距离。

4. 补充

问答[5]通过图像的方式解释了前面大概的意思，本质上你计算的依然是一个欧式距离，只不过是换了一个坐标系统；不顾我这里要说明的问题就是在马哈拉诺比斯距离的推导过程，这部分内容就是来自问答[5]中的一个回答。

那么具体来说，本来已经知道了 $\Sigma =Q^TDQ$ ，当然这个公式是保证的确存在才行，而且和前面的公式有些不一样，但具体含义是一致的。而 $\Sigma ^{-1} =QD^{-1/2}D^{-1/2}Q^T$ ，将这部分公式代入到马哈拉诺比斯距离公式中（从这里可以看出，他的确是跟前文说的一样，就是一种距离公式）
$\sqrt{(x-y)^T\Sigma ^{-1}(x-y)}$
带入后公式：
$\sqrt{[(x-y)^TQ]D^{-1/2}D^{-1/2}[Q^T(x-y)]}=\sqrt{z^Tz}$
前面那些操作正好就是之前说的那些旋转和伸缩，这就是的反过程。注意看是 $\Sigma ^{-1}$

参考

[1]Mahalonobis Distance – Understanding the math with examples (python)
[2]Baidu（站空用）
[3]【官方双语】线性代数的本质
[4]A geometric interpretation of the covariance matrix
[5]Bottom to top explanation of the Mahalanobis distance?

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
398顺境，逆境戴骁勇
2018.11.27周二雾霾最近儿子进入了一段顺境期，今天表现尤其不错。今天的数学测试成绩喜人，没有出现以往的计算错误，整个卷面书写工整，附加题也在规定时间内完成且做对。为迎接体育测试的锻炼有了质的飞跃。坐位体前屈成绩突飞猛进，估测成绩能达到12cm，这和上次测试的零分来比，简直是逆袭。儿子还在不断锻炼和提升，唯恐到时候掉链子。跑步姿势在我的调教下，逐渐正规起来，速度随之也有了提升。今晚测试的50
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
没想到，真没想到一棵落花的树
生活中，每一件小事都蕴藏着他的道理。有些令你意外，却能让你收到更为意外的结果。那一次，我真没想到的事，让我收获了爱。记忆的雨飘落下来，扰乱了我平静的心湖。那是一次数学考试，我破天荒地考了“99”分。我不禁沾沾自喜，这成绩我可不容易得到，妈妈一定会好好表扬我的。回到家，我想妈妈得意的报出成绩，妈妈只是淡淡的说：“嗯，等会儿试卷拿给我看看。”做完作业，我把试卷拿给了妈妈。只见妈妈捧着试卷，眯着眼睛盯着
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
九月班级管理工作反思追梦蜂
这个月应该算是最难的一个月，我已N年没当班主任，然后我又开始当了。职称是一方面，想到我如果退休了，不能再接触学生了，那该是多么遗憾的事！我的学生梁*铭是我的榜样，她那么努力，那么拼，那么上进，为什么我不行？虽然我面临的工作很难，但是高考数学也不容易。她拿下来了！满分150分她考了146分！我目睹她的艰辛，她的拼搏！还有，我要为我的孩子做榜样，如何竭尽全力，实现梦想。还有，服务，为社会做事，也是会有
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><