xiaoge的机器学习姬

svm学习理解笔记

最近一直在看machinelearning in action这本书，学习到很多知识，目前花费时间最多的是在Classification里面的svm（Support vector machines），主要原因是里面涉及到的数学相关的知识之前没有接触过，故本文边补习数学知识边学习svm.

1 svm简介

svm（支持向量机）主要就是在一个高维或者无限维中构造一个hyperplane（超平面），通过这个hyperplane将数据分割开来，从而达到分类目的。

a support vector machine constructs a hyperplane or set of hyperplanes in a high- or infinite-dimensional space, which can be used for classification, regression, or other tasks（http://en.wikipedia.org/wiki/Support_vector_machine）

2 什么是hyperplane？

图6.1上的ABCD中的数据，能否用一条直线将颜色不同的数据区分出来呢？

那图6.2上的ABCD中的数据呢？

很明显图6.2中的数据是可以用直线来将不同类型的数据划分开来，存在这样的一中解决方案，就说，这些数据是linearly separable（线性可分），同时这条用来分割图上的数据集的直线就被称为separating hyperplane（分离超平面），在2维上，separating hyperplane就是个直线(y=kx+b)，如果我们的数据集是3D的，那么用来划分3D数据的就是个平面，如果我们的数据是1024D的话，我们需要一个1023D的东西来划分目标数据，那这个1023D的东西是什么呢？或者说1023D这个对象该怎么称呼它呢，在抽象到N维上呢？我们就把这一个N-1D的对象称呼为hyperplane，hyperplane就是我们的decision boundary（判断边界），理想情况下，同一个边界范围内的数据是属于同一类对象的（实践情况下总有一些特殊的数据会跑到另外一个边界去了，后面在谈）。

3 什么是margin？

从图6.2上B、C、D上来看，这些hyperplane都可以将数据分开，那么哪一个是我们真正需要的？也就是说哪一个是最优的?对于我们来说，We’d like to make our classifier in such a way that the farther a data point is from the decision boundary, the more confident we are about the prediction we’ve made。

对于图6.2的B和C来说，BC上点到面的平均距离似乎比D的要少，按照平均距离这中方法去寻找最佳直线是否可行呢？按照平均距离来说是可行的，但是这并不是最好的主意。

We’d like to find the point closest to the separating hyperplane and make sure this is as far away from the separating line as possible. This is known as margin （我们需要找到每类中距离分离超平面最近的点，同时确保这些点远离这个超平面，越远越好，这就是所谓的margin）

PS：在http://en.wikipedia.org/wiki/Support_vector_machine上，margin是这样定义的

we can select two hyperplanes in a way that they separate the data and there are no points between them, and then try to maximize their distance. The region bounded by them is called "the margin"

Maximum-margin hyperplane and margins for an SVM trained with samples from two classes. Samples on the margin are called the support vectors.

4 什么是support vector

在0x03中末尾的那些点，就是所谓的support vector（按照wiki上的定义就是margin上的点就是support vectors）。

5 目标

现在要做的就是找到一个hyperplane，使得support vectors距离hyperplane最大。

看图6.3，超平面可以用W’X+b来表示，W、X都是vector，如果我们要确定A到线的垂直距离，可以用|W‘X+b| /||W||来表示。

b就像是一个截距，比如一元线性方程y=kx+b中的b，W和b全部一起描述了这个hyperplane（线）

6 sigmoid函数

定义：

图像：

（http://en.wikipedia.org/wiki/Sigmoid_function）

PS:第一次听到和见到sigmoid函数是Ng在视频中提到的:)

从sigmoid函数可以看到这个函数的特性，在定义区间内，当x=0的时候，y=0.5，当x大于0后，y迅速区域1，当x小于0时，y迅速趋于0。鉴于这种特性，可以定义一个类似sigmoid的函数f（W‘X+b），这样f(x)当x<0的时候，f(x)取-1，反之取1，sigmoid的值是0和1，为什么要用class labels的值-1和1去代替0和1呢？Why did we switch from class labels of 0 and 1 to -1 and 1? This makes the math manageable, because -1 and 1 are only different by the sign.（主要原因是为了从数学计算方便考虑的，符号上的0、1、-1并不影响真正的分类）

Y*f（W’X+b），这里Y也是个vector，取值{-1,1}，可以看到如果某个点i离超平面很远时候，比如规定6.3中红色点的label取值为1，蓝色取值为-1，那么当点是属于红色的时候，Yi*（W‘X）是一个很大的整数，当点i是蓝色，Yi取值-11的时候，那么Yi*（W‘X）也是一个很大的正数。反正不会出现负数情况.

考虑到以下情况，如图所示：

上图中点A到超平面的距离假设为：

超平面的单位法向量为：

点A在超平面的投影点B，所以点B可以由点A来描述：。

由于点B在超平面上，所以满足：

那么就得到了：

那么任意一点到超平面的几何距离都可以表示为：

同时根据这个式子，可以发现，当缩放W和b的时候，比如w变成2w，b变成2b的时候，实际的几何距离表示并没有发生改变support vector到超平面的距离可以表示为：

那么我们的问题就可以变成：

从上图可以看到，两类的support vector之间的距离为：2/||W||

所以现在的问题就是要求 2/||W||的最大值，也就是求||W||的最小值，||W||是个平方根，所以求

跟原问题是一样的效果，系数1/2是为了数学计算上的方便而添加的，不影响结果。

此时问题就成了一个：

这是一个quadratic programming optimization 问题，可以用QP的解决方法来解决，但是为了使SVM便于扩展，从另外一个角度来解决此问题（Lagrange duality），这样带来的好处就是allowing us to use kernels to get optimal margin classiﬁers to work eﬃciently in very high dimensional spaces（我的理解就是便于引入核函数，使得SVM的用途更加广泛）。

7 什么是Lagrange duality？

Lagrange duality个人理解是分为2部分，首先是 Lagrange multiplier，然后就是duality。先来说说Lagrange multiplier

7.1什么是 Lagrange multiplier？

Lagrange multiplier中文就是拉格朗日乘子，为什么要提到它？（http://en.wikipedia.org/wiki/Lagrange_multiplier）

在数学优化上，使用和引入拉格朗日乘子可以解决含有等式约束的问题，并找到这个问题的优解。

例如含有等式约束的问题可以描述为：

也就是求f(x,y)的最大值，约束条件为一个等式约束，g（x,y）=c

为了方便理解，上图说话

为了解决

引入一个变量（也就是拉格朗日乘子），得到一个新的式子，一般称为拉格朗日函数（Lagrange function）：

这样等式条件和原始问题就整合成到一个函数里面了。

要找到新问题的解，只需要对x、y、lambda分别求偏导即可，找出lambda，然后就可以得到驻点（x，y），从而找到目标点。

8 什么是duality？

每一个线性规划问题（称为原始问题）有一个与它对应的对偶线性规划问题（称为对偶问题），在线性方程中，圆问题的解与对偶问题的解是一致的。

举个简单例子来说：

工厂A有一些原材料a,b, 数量分别为100、300，可以用来生产甲、乙两种产品x，y，其中每生产一个甲产品，需要2个a和3个b，生成一个乙产品，需要4个a和5个b，每出售一个甲产品可以获利10元，出售一个乙产品，可以获利20元，问工厂A如何获利最高。

则可以的得到一个目标函数z=10*x+20*y,约束条件为不等式约束： x*2+y*3<=100,x*4+y*5<=300

以上问题先称作原始问题。

在考虑以下场景，此时来了另外一个工厂B，A工厂不想自己生产了，想把资源出售给B，此时，B希望能够以一个合理或者是较低的价格买进A的材料，A则希望在不损失自己的利益前提下出售自己资源。

假设A出售原材料a的单位价格是m，出售b的单位价格是b，那么此时问题就是z，：

z=100*m+300*n，z越小越好，越小的时候，B才越高兴接受A卖出的材料，此外条件约束为不等式约束，2m+3n>=10(意义为，A用自己的材料生产甲材料保底为10元，所以把资源卖给乙，那么最低就不能低于10元)，4m+5n>=20(道理同上)。

有时候求问题不好直接求的话，求原问题的对偶问题可能会简单点，在某些条件下，对偶问题的解也就是原文提的解，相对对偶问题更深入一步了解的话可以自己找找资料学习了解下。

现在考虑一个一下问题：

称之为原问题，引入拉格朗日乘子：

由于h（w）=0.所以第三项对整个式子无影响，令a>=0,所以第二项整体是小于等于0的（a可以选择小于0，那么第二项的正好则变成负号，这对原问题无影响），那么原问题为p，则p可以描述为：

如果g（w）>0的话（a已经是大于0的了），那么显然

会得到（2）的结果。

所以

我们目标是求f（W）的最小值，所以：

这个新的描述跟原问题的目标一致

现在定义一个，令，也就是说是我们的原问题，只是形式做了替换

再来看另一个问题：

定义：

这里的下标D表示对偶（dual），那么

如果定义：

那么就是的对偶问题了，

此时：

（可以这样理解，一堆高个子小伙中最矮的那个小伙怎么也不比一堆最矮的小伙中最高的那个小伙矮）

可以看到，在特定条条件下，，此时可以用对偶问题代替原问题。

9 什么样的条件才算是特定条件？

先来看对偶问题，明显只有当对偶问题取到最大值的时候，也就是取到最优解的时候，和才有可能相等，因为总是大于等于的，此时比多了个，要想等式成立，那么就只要令a*g（w）=0了，这就是特定条件，也就是Karush-Kuhn-Tucker (KKT) conditions,

KKT：

第一个和第二个是原问题和对偶问题取得优值的条件，第四和第五个是约束条件，第三个则是是原问题和对偶问题一致的条件。

10 求解最大

再回过头看之前的问题

对于约束条件做下调整得到

现在用KTT条件和拉格朗日乘子法求解这个问题，构造拉格朗日方程：

为了得到对偶问题，先将alpha固定，然后分别求偏导：

代入，得到：

其中第三项为0的，为内积，可以用来代替表示.

PS:本文的由来就是因为在ml in acthion一书中，不明白对偶问题的由来以及最终求解方程的由来，所以才有此文，简述下从原文提到对偶问题的推导，其实发现太挺简单的。

以下为推导过程：

那么就得到了只含有alpha的对偶问题了：

现在为了对偶问题的解与原问题一直，使用KTT条件，将代入，可以得到：

这样，当我们求出W和b后，对于任何一个新的数据，我们只需要计算即可，也就是要计算新的数据与所有已知数据的内积

观察发现，对于非support vector来说，alpha均为0，所以要计算的就是所有的support vector与未知点的内积就可以了，这样就极大的减少了计算开销。

11 什么是Kernels，为什么我们需要它？

（http://www.quora.com/What-are-Kernels-in-Machine-Learning-and-SVM、http://www.quora.com/What-is-the-kernel-trick）

到现在为止，svm可以解决线性可分的问题，但是如果碰到线性不可分的问题，该怎么处理呢？比如像最开始的图6.1中的几种情况？

假设我们现在有一些1D的数据，

“A 1-dimensional hyper plane would be a vertical line. Clearly no vertical line can separate the given data set”，很明显在在1D情况下无法找到一个超平面（点）去分割数据，但是，如果对这些数据做一些处理（mapping）的话，比如，将原本1D的数据变成2D的数据的话：

那么数据在2D上就编程线性可分的了，图中的红线就是一个超平面。

所以面对线性不可分的情况下，处理方式就是将数据映射到更高维的空间中，这个变换过程中用到的函数就被称为核函数。

youtubu上有一个更加可视化（自备梯子后点我）的视频来帮助理解。（https://www.youtube.com/watch?v=3liCbRZPrZA#action=share）

“So the central idea is to be able to project points up in a higher dimensional space hoping that separability of data would improve. This mapping ( in our example ) is called the Kernel function”

这位答主还提到：

“In practice we often map our data to very very high dimensional spaces using Kernels. In fact, certain Kernels like RBF kernel map data to infinite dimensional spaces. As you might be thinking, mapping and producing such high dimensional representation is a computationally daunting task. A related concept called Kernel Trick lets us pretty much bypass this computation cheaply. Kernel functions are almost never used without this Kernel Trick”

12 当数据投射到高维的时候，计算变得极其复杂了怎么办？

还是先从一个小例子来阐述问题。假设我们有俩个数据，x = (x1, x2, x3); y = (y1, y2, y3)，此时在3D空间已经不能对其经行线性划分了，那么我们通过一个函数将数据映射到更高维的空间，比如9维的话，那么 f(x) = (x1x1, x1x2, x1x3, x2x1, x2x2, x2x3, x3x1, x3x2, x3x3)，由于需要计算内积，所以在新的数据在9维空间，需要计算的内积，需要花费O（n^2）。

在具体点，令x = (1, 2, 3); y = (4, 5, 6)，那么f(x) = (1, 2, 3, 2, 4, 6, 3, 6, 9)，f(y) = (16, 20, 24, 20, 25, 36, 24, 30, 36)，

此时 = 16 + 40 + 72 + 40 + 100+ 180 + 72 + 180 + 324 = 1024

似乎还能计算，但是如果将维数扩大到一个非常大数时候，计算起来可就不是一丁点问题了。

但是发现， K(x, y ) = ()^2

K(x,y)=(4 + 10 + 18 ) ^2 = 32^2 = 1024

俩者相等，K(x, y ) = ()^2=，但是 K(x, y ) 计算起来却比简单的多，也就是说只要用K(x, y )来计算，，效果和是一样的，但是计算效率却大幅度提高了，如：K(x, y )是O（n），而是O（n^2）.所以使用核函数的好处就是，可以在一个低维空间去完成高维度（或者无限维度）样本内积的计算，比如K(x,y)=(4 + 10 + 18 ) ^2 的3D空间对比 = 16 + 40 + 72 + 40 + 100+ 180 + 72 + 180 + 324 的9D空间。

13 为什么可以使用核函数？

因为svm最终计算的式子可以写出内积形式，所以任何可以写成内积式子的地方，都可以用核函数来代替去完成计算，从而大幅度提高效率。

0x0C什么样的函数才能被认为是有效的核函数呢？

这个问题展开又会是另外一个数学证明极其相关的东西了，主要是满足2个条件：

Generally, a function k(x,y) is a valid kernel function (in the sense of the kernel trick) if it satisfies two key properties:

symmetry: k(x,y)=k(y,x)
positive semi-definiteness.

（http://stats.stackexchange.com/questions/48506/what-function-could-be-a-kernel，感兴趣的同学可以研究下，我这种数学渣就暂时放下了）

目前来说，比较经典的核函数有以下几个。

高斯核函数（RBF）：Gaussian radial basis function maps the examples into an infinite-dimensional space（http://www.quora.com/Why-does-the-RBF-radial-basis-function-kernel-map-into-infinite-dimensional-space，这个涉及到泰勒级数展开）

多项式核函数:Although the RBF kernel is more popular in SVM classification than the polynomial kernel, the latter is quite popular in natural language processing (NLP).^[1]^[5] The most common degree is d=2, since larger degrees tend tooverfit on NLP problems(http://en.wikipedia.org/wiki/Polynomial_kernel)

当然还有其他核函数，就不一一列举了。

总之有些kernel function可以完成更好的工作，比如高斯核函数可以计算infinite D空间的俩个样本间的内积，显然在无限维的样本中，去计算内积是不可能的，但是却可以在一个低维度的空间完成无限维空间中样本的计算。

这应该核函数的价值了（我的理解）

14 碰到有些数据就是比较拽（线性不可分）怎么办？

虽然通过核函数，可以将数据映射到高维空间，然后寻找超平面，但是也不能保证100%可以找到“理想”的超平面

(While mapping data to a high dimensional feature space via φ does generally increase the likelihood that the data is separable, we can’t guarantee that it always will be so)

比如以下这种情况：

上面两幅图可以看出，很明显，左边的那条线才是我们想要的，右边的实线因为左上角的一个数据而从虚线位置偏转到现在的位置，虽然能“ 完美”划分数据，但是很明显左边图的实线才是当前数据集的最佳超平面。

为了针对这种情况，所以引入一个新的变量，称作slack variable ξ （ ξ > 0）（松弛变量），

之前的目标：

现在的目标则为：

为了便于理解，找了附图：如下

当有一些比较“特殊”的点落在margin内或者在超平面的另外一侧的时候，那么ξi就大于0，当点都比较听话的时候，ξi就等于0，那常量C是个啥呢？

C主要是用来控制相对权重，目的是来保证目标函数最小值

（The parameter C
controls the relative weighting between the twin goals of making the ||w||^2 small (which we saw earlier makes the margin large) and of ensuring that most examples have functional margin at least 1.）

同样的，构造拉格朗日方程

然后利用拉格朗日乘子法对w, b, ξ分别求导数，便可以得到以下的对偶形式方程了：

此时的KTT条件为：

当alpha>0,也就是说，=0，此时的数据点就是有资格作为support vector，这这种条件下，

如果,,那么，此时,，那么在这个条件下的点就是"特殊点"，比如上图中的了。

如果,那么,此时,，可以看出是最小值(这里就体现了C的价值了),那么在这个条件下的点就是正好在超平面上的点了

当alpha=0的时候，很明显这些点都不满足作为support vector 了。

15 问题都搞的差不多了，那怎么求解目标呢？

一位名为John Platt的大神，给出了一个有效的解决方案，名为SMO算法(sequential minimal optimization)

16 SMO

大神的原文请戳我（自备小梯子）

解决目标问题有多种方式，但是效率比其他的要好，原因：Sequential Minimal Optimization (SMO) is a simple algorithm that can quickly solve the SVM QP problemwithout any extra matrix storage and without using numerical QP optimization steps at all。

SMO主要就是干了两件事情，1是每次迭代过程中解决2个拉格朗日乘子，2是启发式寻找下一次要解决的的拉格朗日乘子（a heuristic for choosing which multipliers to optimize）

为什么要一次同时解决两个拉格朗日乘子呢？

根据约束条件，可以得到，因为每次针对2个变量，所以其他变量视作常数。当与异号的时候，约束条件就成了上面的第一幅图所示，同号的话就如第二幅图所示。

所以的取值下限为：,上线值为：。同理当与同号的时候，上下限的值也都能相应表示出来。

然后将用来表示：

所以

然后对展开后的W经行求导，便可以得到，但是要满足已有的约束条件，假设新得到的=,那么有以下约束：

得到新的后，就可以得到新的。

的具体求法比较简单，

现在将、代入到W中求导可以得到：

其中，,表示迭代前的值。

继续化简可以得到(导数等于0)：

,其中，，也就是预测值与已知值的误差，

求得新的后，便可求得新的，

从中可以看出，,也就是两点间的相关性（也可以简单理解为距离）。

当求得，可以求得在下的的更新，同时得到后也可以得到一个下的更新。

根据KKT条件，在KKT条件下，每当得到一个新的alpha后，必须使得输入的输出结果为，

所以有：

在每次进行迭代前有：,

也就是说：,代入

可得：

,其中，

最后得到

原文如下：

PS：另外还发现二阶导数在正常情况下是大于0的，一阶导数单调，有兴趣的可以在这个上面在细究下：)

Python简单版代码如下：

def simplesvm(datMat,labelMat,C,toler,maxiter):
    dataMatrix=np.mat(datMat)#100X2
    labelMat=np.mat(labelMat).transpose()
    b=0
    m,n=np.shape(dataMatrix)
    cycle=0
    alphas=np.mat(np.zeros((m,1)))
    while cycle toler) and (alphas[i] > 0)):

                j = selectJrand(i,m)

                fXi = float(np.multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[j,:].T)) + b
                Ej=fXi-float(labelMat[j])
                alphaIold = alphas[i].copy()
                alphaJold = alphas[j].copy()
                if (labelMat[i] != labelMat[j]):
                    L = max(0, alphas[j] - alphas[i])
                    H = min(C, C + alphas[j] - alphas[i])
                else:
                    L = max(0, alphas[j] + alphas[i] - C)
                    H = min(C, alphas[j] + alphas[i])
                if L==H:
                    print "L==H"
                    continue
                eta=2.0*dataMatrix[i]*dataMatrix[j].T-dataMatrix[i]*dataMatrix[i].T-dataMatrix[j]*dataMatrix[j].T
                print 'a',eta
                if eta>0:
                    print "eta>=0"
                    continue
                alphas[j] -= labelMat[j]*(Ei - Ej)/eta
                alphas[j] = clipAlpha(alphas[j],H,L)
                if (abs(alphas[j] - alphaJold) < 0.00001):
                    #print "j not moving enough"
                    continue
                alphas[i] += labelMat[j]*labelMat[i]*(alphaJold - alphas[j])
                b1 = b - Ei- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[i,:].T - labelMat[j]*(alphas[j]-alphaJold)*\

dataMatrix[i,:]*dataMatrix[j,:].T
                b2 = b - Ej- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[j,:].T -labelMat[j]*(alphas[j]-alphaJold)*\
                            dataMatrix[j,:]*dataMatrix[j,:].T
                if (0 < alphas[i]) and (C > alphas[i]):
                    b = b1
                elif (0 < alphas[j]) and (C > alphas[j]):
                    b = b2
                else:
                    b = (b1 + b2)/2.0
                alphaPairsChanged += 1
                #print "iter: %d i:%d, pairs changed %d" % (cycle,i,alphaPairsChanged)
        if (alphaPairsChanged == 0):
            cycle += 1
        else:
            cycle=0
        #print "iteration number: %d" % cycle
    return b,alphas

上面的代码并不是完整版的SMO过程

完整版的过段时间再学习下。

整个过程中参考了很多谷歌和百度上优秀的文章帮助理解，限于数学水平实在有限，只能理解到这儿了。后面还有从二元分类扩充到多元分类的，有时间再接着补充。

文章主要框架是照着ML in action和AndrewNg的一个SVM的pdf来写的，同时很多概念的理解比如b的更新，以及a的范围理解参看其热心网友帮助，十分感谢。

http://www.pstat.ucsb.edu/student%20seminar%20doc/svm2.pdf

PS:http://private.codecogs.com/latex/eqneditor.php 一个好东西

你可能感兴趣的:(ML_in_Action,SVM,svm,python,algorithm)

Bug:eventlet ImportError cannot import name ‘ALREADY HANDLED uncle_ll Bug合集
问题测试gunicorn不同work下的性能时候，在eventlet方式下报错误Error:classuri'eventlet'invalidornotfound:[Traceback(mostrecentcalllast):File"/app/venv/lib64/python3.6/site-packages/gunicorn/util.py",line99,inload_classmod=i
Python语言程序设计 1 摸你就像摸自己 python
目录1Python基本语法元素￲1.1程序设计基本方法1.1.1计算机与程序设计1.1.2编译与解释1.1.3程序的基本编写方法—IPO1.1.4计算机编程1.2Python开发环境配置1.2.1Python语言概述1.2.2Python程序的编写与运行例1：计算圆面积例2：绘制同切圆例3：绘制五角星1.3实例一：温度转换1.3.1问题分析：实例编写：1.4Python程序语法元素分析1.4.1格
华为OD机试 - 最佳对手（ Python） AsiaFT. Py 华为OD机试AB卷 python od
题目描述游戏里面，队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实力相差太大，对于双方游戏体验都不会太好。给定n个队伍的实力值，对其进行两两实力匹配，两支队伍实例差距在允许的最大差距d内，则可以匹配。要求在匹配队伍最多的情况下匹配出的各组实力差距的总和最小。输入描述第一行，n，d。队伍个数n。允许的最大实力差距d。2<=n<=500<=d<=100第二行，n个队伍的实力值空格分割。0<=各
零基础上手Python数据分析 (6)：Python 异常处理，告别程序崩溃的烦恼！ kakaZhui python 数据分析数据库 excel 数据挖掘
回顾一下，前几篇博客我们学习了Python的基本语法、数据结构和文件操作。现在，我们已经掌握了Python编程的基础知识，可以开始编写更复杂的数据分析代码了。但是，在实际的数据分析工作中，程序并非总能一帆风顺地运行，总会遇到各种意外情况，例如：文件找不到：程序尝试读取一个不存在的数据文件。数据格式错误：数据文件中包含非预期的格式，例如本应是数字的列包含了文本。网络连接中断：程序尝试从网络获取数据，
2023华为OD机试真题-最佳对手(JAVA、Python、C++) huaweiod123 华为OD机试真题2023 java c++算法华为 python
题目描述：游戏里面，队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实例相差太大，对于双方游戏体验都不会太好。给定n个队伍的实力值，对其进行两两实力匹配，两支队伍实例差距在允许的最大差距d内，则可以匹配。要求在匹配队伍最多的情况下，匹配出的各组实力差距的总和最小。输入描述：第一行，n，d。队伍个数n。允许的最大实力差距d。(2<=n<=50,0<=d<=100)。第二行，n个队伍的实力值，空
使用PyInstaller打包Python程序时，如何避免生成的可执行文件（exe）过大的解决方法 ta叫我小白 python python 开发语言 pyinstaller 可执行文件
使用PyInstaller打包出来的exe等可执行文件过大（比如我的一个小项目，打包之后超过了600M），大概率是使用的python解释器（PythonInterpreter）中安装了许多当前项目没有使用的库。解决方法：打包时，最好为这个项目创建一个独立的虚拟解释器环境，如下图：指定了新的虚拟环境之后，你需要在新环境中安装你所需要的依赖库。在py文件中选择安装即可，此时依赖库会安装到新的环境中。切
华为OD机试E卷 - 最佳对手 / 实力差距最小总和（Java & Python& JS & C++ & C ）算法大师 java python javascript c++
题目描述游戏里面，队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实力相差太大，对于双方游戏体验都不会太好。给定n个队伍的实力值，对其进行两两实力匹配，两支队伍实例差距在允许的最大差距d内，则可以匹配。要求在匹配队伍最多的情况下匹配出的各组实力差距的总和最小。输入描述第一行，n，d。队伍个数n。允许的最大实力差距d。2<=n<=500<=d<=100第二行，n个队伍的实力值空格分割。0<=各
python语言程序设计基础,python编程代码大全 Rtee1 python 开发语言服务器
大家好，小编为大家解答python语言程序设计基础第二版课后答案的问题。很多人还不知道PYTHON语言程序设计实践教程(陈东)答案，现在让我们一起来看看吧！目录1Python基本语法元素￲1.1程序设计基本方法1.1.1计算机与程序设计1.1.2编译与解释1.1.3程序的基本编写方法—IPO1.1.4计算机编程1.2Python开发环境配置1.2.1Python语言概述1.2.2Python程序的
python字符级差异分析并生成 Word 报告 myzzb word python 文字识别算法文本差异
importdifflibfromdocximportDocumentfromdocx.sharedimportRGBColordefanalyze_char_differences(text_a,text_b):"""分析两个文本的字符级差异:paramtext_a:第一个文本:paramtext_b:第二个文本"""matcher=difflib.SequenceMatcher(None,te
力扣刷题-热题100题-第20题（c++、python） weixin_44505472 c++python leetcode
48.旋转图像-力扣（LeetCode）https://leetcode.cn/problems/rotate-image/?envType=study-plan-v2&envId=top-100-liked使用辅助矩阵直接创建一个新矩阵来装旋转好的矩阵，不过需要注意的是要将新矩阵的值赋值回原矩阵，在c++中是可以直接=，但python中要注意matrix[:]=matrix1才是赋值，直接=是改
python中如何组织项目工程文件晓风残月淡 python爬虫 python 开发语言项目工程文件
一、项目工程文件目录一个典型的Python项目工程目录结构可以帮助你更好地组织代码、资源和测试，从而使得项目更加清晰和易于维护。my_project/│├──my_project/#项目的主代码包│├──__init__.py#包初始化文件│├──module_1.py#示例模块1│└──module_2.py#示例模块2│├──tests/#测试代码目录│├──__init__.py#测试包初始
使用Annoy进行高效的近似最近邻搜索 eahba 前端 javascript angular.js python
在处理大型数据集时，我们经常面临需要快速、准确地查找与给定查询点相近的数据点的问题。Annoy（ApproximateNearestNeighborsOhYeah）就是为解决此类问题而生的一个强大工具。Annoy是一个用C++编写并具有Python绑定的库，专用于在空间中搜索与给定查询点相近的点。它能够创建大型的只读文件数据结构，并映射到内存中，以便于多个进程共享相同的数据。技术背景介绍Annoy
负载均衡策略之轮询策略 Time-Traveler Python 算法与数据结构
本文转自:https://mozillazg.com/2019/02/load-balancing-strategy-algorithm-weighted-round-robin.html#hidround-robin,尊重原创前言:本文简单介绍一下轮询(RoundRobin)这个负载均衡策略。轮询选择(RoundRobin):轮询选择指的是从已有的后端节点列表中按顺序依次选择一个节点出来提供服务
文本转语音常用的几个python库天蓝海乡 python 开发语言人工智能 nlp 语音识别
在Python编程领域，文本到语音（Text-to-Speech,TTS）的转换是一个常见的需求，尤其是在开发能够与用户交互的应用程序时。以下是几个流行的Python库，它们可以帮助开发者实现文本到语音的转换，并且有的可以将转换后的语音保存为MP3文件。gTTS(GoogleText-to-Speech)gTTS是一个依赖于Google的文本转语音API的Python库。它能够将文本转换为自然听起
python之pyttsx3实现文字转语音播报 l8947943 python问题语音识别人工智能 pyttsx3 python朗读
1.pyttsx3是什么pyttsx3是Python中的文本到语音转换库，可以实现文本的朗读功能。2.pyttsx3的安装pipinstallpyttsx33.pyttsx3的demoimportpyttsx3pyttsx3.speak("Areyouok?")pyttsx3.speak("最近有许多打工人都说打工好难")戴上耳机直接跑即可。是不是很简单！那如果我们想对读音的速率，中英文问题进行自
Python报错解决：img2pdf.AlphaChannelError: Refusing to work on images with alpha channel 定星照空 python 人工智能
img2pdf.AlphaChannelError:Refusingtoworkonimageswithalphachannel-solved解决img2pdf模块不能上传含alpha通道透明度的图片的问题解决img2pdf模块PNG图片转PDF文件因alpha通道报错问题文章目录前言一、AlphaChannelError为什么出现？二、该种报错解决方法1.方法一：转化其他格式图片2.方法二：去除
基于PyCATIA的工程图视图锁定工具开发实战解析 Python×CATIA工业智造 CATIA二次开发 python 自动化
引言本文针对CATIA工程图设计中视图误操作问题，基于PySide6与PyCATIA库开发了一款轻量化视图锁定工具。通过Python二次开发实现全视图/选定视图快速锁定、非模态交互界面及状态实时反馈功能，有效提升大型装配体工程图操作效率。文章深度解析代码架构设计、关键技术实现及工程应用价值，提供完整的开发方法论。一、工具功能与工程应用场景1.1核心功能模块功能模块技术指标应用场景全视图锁定批量操作
Python中Pyttsx3库实现文本转化成语音MP3格式文件定星照空 python
Pyttsx3库介绍pyttsx3库是一个功能强大且使用方便的Python本地文本转语音库。它不仅能在离线下将文本转换为语音MP3格式文件，也能在Windows、MacOS和Linux等多个操作系统上实现语音播报。同时，还可以调整语音播报的语速、音量和音色。安装与基本使用安装：cmd命令行中执行pipinstallpyttsx3。基本使用示例：importpyttsx3#初始化语音引擎engine
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
openai-agents 中custom example agent ZHOU_CAMP oi_agents 人工智能
代码pipshowopenai-agentsName:openai-agentsVersion:0.0.4Summary:OpenAIAgentsSDKHome-page:https://github.com/openai/openai-agents-pythonAuthor:Author-email:OpenAILicense-Expression:MITLocation:d:\soft\ana
Python 向量检索库Faiss使用懒大王爱吃狼 python python 开发语言自动化 Python基础 python教程
Faiss（FacebookAISimilaritySearch）是一个由FacebookAIResearch开发的库，它专门用于高效地搜索和聚类大量向量。Faiss能够在几毫秒内搜索数亿个向量，这使得它非常适合于实现近似最近邻（ANN）搜索，这在许多应用中都非常有用，比如图像检索、推荐系统和自然语言处理。以下是如何使用Faiss的基本步骤和示例：1.安装Faiss首先，你需要安装Faiss。你可
Python 应用部署云端实战指南 —— AWS、Google Cloud 与 Azure 全解析清水白石008 python Python题库 python aws azure
Python应用部署云端实战指南——AWS、GoogleCloud与Azure全解析在当下云计算飞速发展的时代，将Python应用部署到云平台已成为大多数开发者和企业的首选。无论是构建Web服务、API接口，还是自动化任务调度，云平台都能为我们提供高可靠性、弹性伸缩与简便管理的优势。本文将详细阐述如何将Python应用分别部署到AWS、GoogleCloud与Azure，并介绍各平台下涉及的部署工
Python编程：为什么使用同步原语林十一npc Python语言 python 开发语言
Python编程：为什么使用同步原语1.同步原语同步原语：计算机科学中用于实现进程或线程之间同步的机制。目的：提供一种方法来控制多个进程或线程的执行顺序，确保他们以一致的方式访问共享资源在多线程/多进程编程中，多个执行单元可能同时访问共享资源，导致竞态条件。同步原语通过协调执行顺序，确保数据一致性和操作原子性2.Python核心同步原语同步原语作用适用场景模块Lock（互斥锁）确保同一时间只有一个
python函数闭包和递归_闭包和递归_个人文章 - SegmentFault 思否 weixin_39830313 python函数闭包和递归
js变量的作用域:全局作用域(全局变量):在函数外面声明的变量**生命周期(变量从声明到销毁)：页面从打开到关闭.局部作用域(局部变量):在函数里面声明的变量**生命周：开始调用函数到函数执行完毕1.闭包使用介绍1.闭包介绍(closure)1.1闭包：是一个可以在函数外部访问函数内部变量的函数->闭包是函数1.2闭包作用：可以在函数外部访问函数内部变量->延长局部变量的生命周期1.3闭包语法：-
python函数闭包和递归_python函数基础3--闭包 + 递归 + 函数回调 weixin_39532019 python函数闭包和递归
一、闭包1.函数嵌套defouter():print("外层函数")definner():print("内层函数")returninner()outer()函数嵌套流程图2.闭包闭包的表现形式：函数里面嵌套函数，外层函数返回内层函数的函数名，这种情况就称之为闭包defouter():print("外层函数")definner():print("内层函数")returninnerret=outer(
探索简明虚拟机新纪元 —— SSVM 深度揭秘与应用指南殷巧或
探索简明虚拟机新纪元——SSVM深度揭秘与应用指南SSVMJavaVMrunningonaJVM项目地址:https://gitcode.com/gh_mirrors/ssv/SSVM在当今软件开发的浩瀚宇宙中，一种名为SSVM（StupidlySimpleVM）的轻量级虚拟机正悄然兴起，承诺为开发者带来前所未有的灵活性与效率。本文将深入剖析SSVM的核心特性，探讨其技术实现，展示应用场景，并揭示
python中的递归、回调函数以及闭包总结敲代码敲到头发茂密 Python成长之路 python 开发语言
这里写目录标题一、递归例1：利用递归函数计算1到10的和例2：利用递归函数计算10的阶乘二、回调函数特别注意：在函数中的调用函数分为以下情况：1、同步回调2、异步回调三、闭包一、递归作用：在函数内部调用自己若干次例1：利用递归函数计算1到10的和defsum_num(num):ifnum>=1:sum=num+sum_num(num-1)else:sum=0returnsumprint(sum_n
使用Pygame实现记忆拼图游戏点我头像干啥 Ai pygame python 开发语言
引言记忆拼图游戏是一种经典的益智游戏，玩家需要通过翻转卡片来匹配相同的图案。这类游戏不仅能够锻炼玩家的记忆力，还能带来很多乐趣。本文将详细介绍如何使用Pygame库来实现一个简单的记忆拼图游戏。我们将从Pygame的基础知识开始，逐步构建游戏的各个部分，最终完成一个完整的游戏。1.Pygame简介Pygame是一个用于编写视频游戏的Python库，它基于SDL库（SimpleDirectMedia
《Python实战进阶》No28: 使用 Paramiko 实现远程服务器管理带娃的IT创业者 Python实战进阶 python 服务器开发语言
No28:使用Paramiko实现远程服务器管理摘要在现代开发与运维中，远程服务器管理是必不可少的一环。通过SSH协议，我们可以安全地连接到远程服务器并执行各种操作。Python的Paramiko模块是一个强大的工具，能够帮助我们实现自动化任务，如代码部署、批量命令执行和文件传输。本集将深入讲解Paramiko的核心功能，并通过实战案例展示如何高效管理远程服务器。核心概念和知识点SSH协议的基本原
python八股（—） --FBV，CBV suohanfjiusbis 数据库 python
引言FBV是面向函数的视图。defFBV(request):ifrequest.method=='GET':returnHttpResponse("GET")elifrequest.method=='POST':returnHttpResponse("POST")CBV是面向类的视图。classCBV(View):defget(self,request):returnHttpResponse("G
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =