一无是处le

【学习笔记】机器学习基础--逻辑回归

系列文章目录

【第一章原理】【学习笔记】机器学习基础--线性回归_一无是处le的博客-CSDN博客

【第一章代码解释】【线性回归】原生numpy实现波士顿房价预测_一无是处le的博客-CSDN博客

【第三章】传统机器学习【~~先不写~~】

【第四章】聚类算法【~~先不写~~】

【第五章原理】【学习笔记】深度学习基础----DNN_一无是处le的博客-CSDN博客

【第五章代码实现】【学习笔记】手写神经网络之word2vec_一无是处le的博客-CSDN博客

系列文章目录

前言

一、【引入逻辑回归】

二、逻辑回归的介绍

定义与公式

三、激活函数

1.【引入激活函数】

2.sigmoid函数的定义和公式

四、损失函数

1.【引入损失函数】

2.KL距离

3.损失函数公式推导

五、梯度下降

--------------------------------------分割线---------------------------------------

六、补充/注意事项

1.为什么MSE不适用与逻辑回归？

2.多分类问题

3.如何解决线性不可分问题？

4.优化问题【重点】

5.分类阈值划分问题

6.样本不均衡问题

7.模型评估

8.同模型不同权重(系数)的影响

9.sigmoid函数推导（为什么要用sigmoid函数）

10.KL距离推导（为什么要用KL距离作为损失函数）

总结

前言

【学习笔记】机器学习基础--逻辑回归学习笔记，由浅入深理解逻辑回归，以下都是我自己个人的理解，如有错误欢迎指出啦！(●ˇ∀ˇ●)。本篇博客1.2w+字，写的很细，因为逻辑回归可以说是机器学习最本质的东西，后面的深度学习都是基于逻辑回归的，因此我将本篇化为重点，用大量笔墨描述。

一、【引入逻辑回归】

从我的上一篇博客中，我们已经知道了机器学习的一些基本流程，本篇博客会继续完善一些优化类的方法和一个新的机器学习方向----分类。而分类问题，我们入门需要学习的就是逻辑回归。而逻辑回归，我们可以看作是线性回归的延续，只是应用的方向不同（线性回归知道一个点来预测另一个点【拟合】，而逻辑回归是知道完整的坐标来计算点的相对位置【分类】），其中的很多思想都与线性回归是一样的，如果有些不懂的线性回归知识或者我没有提到的，可以去参考一下我的上篇博客----线性回归原理。

分类问题也分为二分类和多分类，为了更直观的表现和证明，我们这里通篇采用二分类（~~之所以不写多分类，一个是因为需要写的东西太多，太复杂，二是因为二分类问题可以拓展成为多分类，而且工程中也大多是这样做的~~）。

二、逻辑回归的介绍

定义与公式

        逻辑回归是一种常用的分类算法，它用于将输入特征与二元输出变量之间的关系建模。在逻辑回归中，输出变量是二元的，即只能取0或1两个值，因此逻辑回归可以被看作是一种二元分类算法。

        逻辑回归的基本公式如下：

                $p(y=1|x) = \frac{1}{(1 + e^{-d})}$

        其中，p(y=1|x)表示在给定输入x的情况下输出y=1的概率，e是自然对数的底数，d是线性函数的值：

d = w^T x + b

        其中，w和b分别是模型的权重向量和偏置项（bias），x是输入特征向量，w^T表示向量w的转置。

        对于二元输出变量，我们通常将其表示为y=1或y=0。因此，当d大于0时，p(y=1|x)的值就更接近于1，当d小于0时，p(y=1|x)的值就更接近于0。在模型学习的过程中，我们可以使用最大似然估计等方法来优化模型的参数，以最大化正确分类（或最小化损失函数）。

上面是GPT给的标准答案，从上面我们可以看出，其公式就是我们上一篇博客讲的线性回归的公式，只不过这里多加了一个激活函数sigmoid函数，用来给每个结果加权，最终概率最大的那个结果作为最终输出，如下图：

这就可以看作是逻辑回归的基本原理了。但是现在我们并不知道什么是sigmoid函数和为什么要用这个函数，下面我会一一将这些道来。

三、激活函数

1.【引入激活函数】

我们如果需要实现一个二分类问题，可以如何实现，我能想到的最简单的二分类如下：

就是使用最简单的线性回归找出一条直线 $y=w_{1}x_{1}+w_{2}x_{2}+w_{ 0}$ ，我这里给定义y>0为一类，y<=0为一类，这就是最简单的二分类。

现在我们要对这个函数的结果进行激活，也就是要输出结果，那么这个二分类最终的结果输出函数可以表示为

$d=w_{1}x_{1}+w_{2}x_{2}+w_{0}$

$f(out)=\left\{\begin{matrix} 1,if(d>0))\\0,if(d<0) \end{matrix}\right.$ ，分类曲线如下：

如图所示，这就是我们一下子就能想到的最简单的二分类曲线，但是这样的曲线存在什么问题呢？曲线太硬了，输出结果非0即1，只能带来分类信息而不能带来程度量信息，而少量的信息会达不到我们最终理想的效果。举个例子，假设我们现在要做一个图片分类，区分图片中的斑马和一般的马，假如一般的马的身上因为某些原因出现了一些斑点，那么哪怕d的结果是0.01，也会被认为是斑马，因此这样的分类曲线会在实际工程中造成很大的误差，也难以应用。因此，我们需要寻找一个相对平滑过渡的曲线，能代表不同权重的平滑曲线，这样我们之后调整特征权重也会变得简单，信息量增大，在实际中应用分类的结果也会越好，因此，就有数学家提出了一个比较好的分类曲线----sigmoid函数。

2.sigmoid函数的定义和公式

        sigmoid函数（又称为Logistic函数）是逻辑回归模型中常用的激活函数，它将任何实数压缩到[0,1]的区间上，并且其输出值可以被解释为对应于输入的概率值。

        sigmoid函数的基本公式如下：

                 $f(x) =\frac{1}{1 + e^-{w^{ T}x}}$

        其中，x是一个实数，e是自然对数的底数。当x越大，f(x)越接近于1；当x越小，f(x)越接近于0。sigmoid函数具有平滑并且连续的性质，在训练神经网络等模型时，sigmoid函数能够帮助梯度下降算法更快速地收敛。

sigmoid函数的图像如下：

这样的曲线就符合了我们的要求。

四、损失函数

1.【引入损失函数】

由分类曲线的定义我们可以知道，在离分类线越远的点，其分类正确的概率也就越大（越接近1或0），离分类线越近的点，其分类正确的概率越小（接近0.5），也就是说，我们的目标是需要不断调整w来使得最终的概率更接近目标值【即越小越好】，因此我们可以使用这一点来作为损失函数。（~~其实这个跟线性回归中的MSE也有很大的相似点，本质思想其实类似~~）那我们能否使用线性回归的损失函数（~~作为欧氏距离，看似可行~~）呢？答案是不能的，至于为什么，我后面会写道。因此我们需要使用一种新的距离来度量预测值和真实值----KL距离（~~想了解的可以自己去学习，这里只用来推导损失函数~~）。

2.KL距离

【看看就好】

         KL（Kullback-Leibler）距离，也称为相对熵，是衡量两个概率分布之间差异的一种度量方式。假设有两个离散概率分布 P、Q，它们分别由概率质量函数 p(x) 和 q(x) 给出，KL距离表示为 D_KL(P||Q)，定义为 P 和 Q 的交叉熵 H(P,Q) 减去 P 的熵 H(P)：

                D_KL(P||Q) = H(P, Q) - H(P)

        其中，熵 H(P) 用来衡量随机变量的不确定性，公式为：

                H(P) = -∑_x p(x) * log p(x)

        交叉熵 H(P,Q) 表示当我们使用错误的模型 Q 来近似真实的概率分布 P 时所需要额外增加的平均编码长度，公式为：

                H(P,Q) = -∑_x p(x) * log q(x)

        由于 KL 距离是一种度量方式，所以它满足以下性质：

非负性：D_KL(P||Q) >= 0，且仅在 P = Q 时等于0；

非对称性：D_KL(P||Q) ≠ D_KL(Q||P)；

稳定性：KL 距离具有模型不变性，即 KL 距离在模型缩放、平移或变换后仍保持不变。

这是GPT给出的标准答案，看着很乱不好理解，换一种方式表达他的公式为：

$KL=\sum_{i=1}^{n}p(x_{i})*log\frac{p(x_{i})}{q(x_{i})}$ 他们的差异体现在log上，如果两个概率相同的话，kl距离为0（log1=0），即预测值和真实值完全相同，完美分类。

但是要注意：KL距离虽然可以看似距离，但是它又不具备距离的一些性质，例如对称性。我们知道欧氏距离是具有对称性的，A到B的距离和B到A的距离是一样的，但是KL距离就不能这样看待，因为如果将p和q互换的话，他们的计算结果就不同（除非两个完全一样）。

变种：当分布为连续的点（也就是曲线的情况下），我们则需要将累加符号替换成积分号。

提出问题1：p(x)为真实值，q(x)为预测值，当 $KL=\sum_{i=1}^{n}p(x_{i})*log\frac{p(x_{i})}{q(x_{i})}$ 时，下图中q1和q2哪个最终的KL值小？

我们先将公式化简为： $KL=\sum_{i=1}^{n}p(x_{i})*logp(x_{i})-\sum_{i=1}^{n}p(x_{i})*logq(x_{i})$ ，我们从公式中可以看出， $\sum_{i=1}^{n}p(x_{i})*logp(x_{i})$ 这第一部分的值是固定的（px是真实值）也就是说我们只需要看 $\sum_{i=1}^{n}p(x_{i})*logq(x_{i})$ 这一部分，我们想要KL值小就需要这一部分尽可能的大，同时需要满足px和qx尽可能的接近， 那么毫无疑问，我们需要遵循抓大放小原则，需要尽可能保证大的px权重值的情况下qx大，因此这个情况下，我们认为q1的效果会更好。

提出问题2：同样的情况下如果将px和qx交换位置，结果如何？

同样的我们先将公式化简： $KL=\sum_{i=1}^{n}q(x_{i})*logq(x_{i})-\sum_{i=1}^{n}q(x_{i})*logp(x_{i})$ ，同样的 $\sum_{i=1}^{n}q(x_{i})*logq(x_{i})$ 这一部分的值是固定的（~~q曲线的位置不同只会影响分类效果，但是其大小不会改变~~），也就是我们同样只需要看 $\sum_{i=1}^{n}q(x_{i})*logp(x_{i})$ 这一部分，这种情况就不能用抓大放小了，因为q的位置是不确定的，我们只能看p，这种情况下由于log的影响，px越小的情况下其值越接近负无穷，因此我们想要这部分大的话就需要抵消负无穷带来的影响，因此我们需要qx尽可能的小并且同时需要满足px和qx尽可能的接近，因此这个问题的回答是q1的效果更好。

这两个问题也回答了KL距离不具有对称性的性质。

3.损失函数公式推导

我们上面提到KL距离能很好的作为分类情况下的度量函数，那么是否意味着我们可以直接使用 $KL=\sum_{i=1}^{n}p(x_{i})*log\frac{p(x_{i})}{q(x_{i})}$ 作为逻辑回归的损失函数呢？答案当然是否定的。这种情况下有很大的弊端，我们可以发现，当px=1的时候，预测值qx越趋近于1其KL值越小，但是当px=0的时候，无论预测值qx为多少，KL值都为0，也就是不做拟合。那么这是否意味着KL距离也无法作为损失函数呢？其实我们只需要变通一下即可--------------------------》 $f(x)=\sum_{i=1}^{n}\left \{ p(x_{i})*log\frac{p(x_{i})}{q(x_{i})}+\left [ 1-p(x_{i}) \right ]*log\frac{(1-p(x_{i}))}{1-(q(x_{i}))} \right \}$

这个公式看似复杂，实际上只是两个相同的部分罢了，第一部分负责px=1，第二部分负责px=0。那么我们将这个公式展开我们就会发现，这两部分当中都有一小部分存在log1，也就是说这部分没用，我们再将他化简平均，并换用更为直观的表达得到： $cost=\frac{-1}{n}\sum_{i=1}^{n}\left [y_{i}log(f_{i})+(1-y_{i})log(1-f_{i}) \right ]$ (这里f表示预测值，y表示真实值)

而这个函数，就可以作为逻辑回归的损失函数，而这个损失函数，也被称为交叉熵损失或者对数似然损失，这是分类学习中通常使用的损失函数。

补充：写到这里的时候我就想到，给KL距离增加一块让他能处理px=0的情况，但是同样的，这里没有考虑qx=0的情况，如果出现了哪怕一个，计算机都无法计算这种无穷之，会直接溢出报异常，但是细想之后实际情况下是不会出现这种情况的，因为我们用的激活函数是sigmoid函数，不存在为0或者为1的情况，这也可以作为我们为什么不使用开头那种”硬“的激活函数的理由。

五、梯度下降

~~这里就不赘述梯度下降的原理，如有需要可以看我上一篇博客--(1条消息) 【学习笔记】机器学习基础--线性回归_一无是处le的博客-CSDN博客~~

这里我们就直接对损失函数进行微分，我们先将所有需要求解的函数罗列出来：

$cost=\frac{-1}{n}\sum_{i=1}^{n}\left [y_{i}log(f_{i})+(1-y_{i})log(1-f_{i}) \right ]$

$f(x) =\frac{1}{1 + e^-{w^{ T}x}}$

那么我们直接对cost进行微分:

$\frac{\partial cost}{\partial w}=\frac{\partial cost}{\partial f}*\frac{\partial f}{\partial w}$ 【微分的链式法则】

则

$\frac{\partial cost}{\partial w}=\frac{-1}{n}\sum_{i=1}^{n}\left [ \frac{y_{i}}{f_{i}}-\frac{(1-y_{i})}{(1-f_{i})} \right ]f_{i}(1-f_{i})x$ （~~注意在python中log默认为ln，因此这里求导才会直接得到 1/fi 而非1/fi*lnfi~~）

化简得： $\frac{\partial cost}{\partial w}=\frac{-1}{n}\sum_{i=1}^{n}\left [ y_{i}(1-f_{i})-(1-y_{i})f_{i} \right ]x$

则梯度 $w_{1}=w_{0}-\alpha \frac{\partial cost}{\partial w_{0}}$ 带入计算即可。

--------------------------------------分割线---------------------------------------

至此，我们基本已经对逻辑回归有了一定程度的理解，因此，下面继续分享一些逻辑回归的性质

六、补充/注意事项

1.为什么MSE不适用与逻辑回归？

$MSE=\frac{1}{n}\sum_{i=1}^{n}(f_{i}-y_{i})^{2}$ 按道理，这个是能看作欧氏距离，也可以作为预测值与真实值之间的损失，那么为什么逻辑回归的分类问题中不用MSE作为损失函数呢？

我们先试着把MSE带入到逻辑回归中，求导得： $\frac{\partial MSE}{\partial w}=\frac{2}{n}\sum_{i=1}^{n}(f_{i}-y_{i})f_{i}(1-f_{i})x$ 那么问题就很明显了，这个导数有一个很严重的问题，因为其中的w开始是一个随机数，如果这个数很大或者很小，那么无论你x取什么值 fi 都是趋近于1或0，那么整个导数就会趋近于0，w也几乎不会发生太大的变化，仅凭这一个问题就直接否定了MSE作为逻辑回归的损失函数。用理论证明的话就是这个损失函数的曲线如下：

这个损失函数曲线不是一个凸函数，因此如果当w取到很大或者很小的时候，梯度下降是无法寻找到最优解。

这时候有人可能会问：如果多找几个初始值，或者用特殊的方法让初始值在一些特定的区域，不就行了。其实，这些方法可能有些用处，但是在真正的工程上，大多时候都是用不到的，因为现在作图之所以只有两个极小值点点是因为维度低，但是在工程上我们一般遇到的都是高维的数据，可能成百上千维，这个时候的极小值点可能有成千上万个（局部极小值点和维数的平方成正比），这个时候再去做初始值问题就失去了意义。

2.多分类问题

我们这里都是基于二分类写的，那么我们如果要进行多分类的话需要怎么做呢？有两种方法，一个是直接构建n个二分类模型【OVR--一对多】（一类为分类中的正类，其他所有类为负类，~~类似于决策树的结构，我个人理解~~，结果取概率最大的那一正类，如果概率都很小则不属于任何一类），另一种方法是对多分类直接全部放入，两两组合【OVO--一对一】，这需要C(n, 2) 个分类器，分别计算每一个类别的概率，取正类，结果取出现次数最多的那一个正类。这两种方法是目前使用最多的使用逻辑回归解决多分类问题的方法，他们也有优劣，第一种方法使用最广泛，模型简单，效率相对较好，但是容易造成训练集样本数量的不平衡（Unbalance），尤其在类别较多的情况下，经常容易出现正类样本的数量远远不及负类样本的数量，这样就会造成分类器的偏向性。第二种方法优点也很明显，它在一定程度上规避了数据集 unbalance 的情况，性能相对稳定，并且需要训练的模型数虽然增多，但是每次训练时训练集的数量都降低很多，其训练效率会提高。

详细了解参考：[机器学习-原理与实践]逻辑回归(LogisticRegression)多分类(OvR, OvO, MvM）_ovo逻辑回归_茫茫人海一粒沙的博客-CSDN博客https://blog.csdn.net/keeppractice/article/details/107088538?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168921283516800188586540%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168921283516800188586540&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-107088538-null-null.142%5Ev88%5Econtrol_2,239%5Ev2%5Einsert_chatgpt&utm_term=%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92ovr%E5%AE%9E%E7%8E%B0&spm=1018.2226.3001.4187

3.如何解决线性不可分问题？

在现实生活中，我们往往会遇到的都不是一些简单的问题，通常是一些奇奇怪怪，难以解释的问题，例如线性不可分问题，该如何解决，如下图：

就是这么一个常见的问题（线性不可分），我们该如何对他进行分类？有人可能会想到，这用一条曲线就可以将两类分开，即多项式回归，如下图：

这样就可以完美的分开两类，但是这样必要需要引入更多的特征，那么这些特征从哪里来？

毫无疑问的，在二维坐标中我们是无法使用线性对一个线性不可分问题进行划分的。因此我们要做的就很明确了，就是需要将这两类中的一类映射到另一个维度，这样就能让线性不可分问题转化为线性可分问题。如下图：

这样就可以使用是平面划分为两类（线性），而且我们不需要增加特征，例如这里，原本是两个特征（x1, x2），经过映射之后还是两个特征（x1, x2, x1x2），而这样的分类结果在平面上表示如下（与上面的多项式回归本质是一样的）：

4.优化问题【重点】

不管是线性回归还是逻辑回归亦或是其他的模型，在工程上进行大数据训练的时候，哪怕使用性能再强的计算器可能都要训练很久，因此，我们需要通过一定的优化来加快训练速度。

①.数据优化

在实际的工程上，我们要求做的分类不可能是一个一个的类，大多数情况下都是一段一段的分类，因此，我们可以将数据分段化。例如广告推荐，需要针对不同年龄段的人进行不同的推广，如果按照正常的分为100类，不仅x的维度很高，要进行大量的运算，并且对于实际工程效果并没有多大的提升，因此对数据分段，根据实际情况分成相应的段数，让x变稀疏（形如[0, 0, 0, 1, 0, 0, 0....]这种矩阵虽然看似维度不变，实际很多维度不参与计算），这样能大大的加速训练过程。

②.数据预处理

我们都知道，数据预处理是特征工程中十分重要的一个步骤，而其中最为重要的应该就是数据的标准化，因为在工程上，我们收集到的数据往往都是没有经过处理，这样的数据可能量级都不一样，这样的数据如果直接拿来使用会出现什么样的问题呢？我们看下图：

(图中的线为等高线，这里用来比较两个超参数，想了解可以自行搜索其用处，▲表示省略的微分)

图中这种冲突的情况就是输入数据量级不同带来的负面影响，这就意味着我们的模型很难（即使可以也要经过很长的时间）通过训练得到正确的答案。这就是为什么我们需要对数据进行预处理（一般都是数据标准化，有需要可以增加其他步骤），这里我们仅需要对数据进行标准化即可。

标准化的公式最简单可以使用 $\frac{x-min}{max-min}$ 进行，这样数据都会拟合到（0，1）区间，但是这个公式有一个很大的问题就是容易受到脏数据的影响，如果数据中出现了一个脏数据，所有的数据都会被污染，无法使用，例如出现了一个很大的数据，那么所有的数据经过这个标准化都会化为错误的数据，因此我们需要改进。

现在使用的标准化公式一般为 $\frac{x-\mu}{\sigma }$ 其中 $\mu$ 表示均值， $\sigma$ 表示方差。正态分布

详细参考：(2条消息) 机器学习——特征工程——数据的标准化（Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer）_robustscaler 标准化原理_xia ge tou lia的博客-CSDN博客https://blog.csdn.net/huangguohui_123/article/details/105813207?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168941110516800226552330%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168941110516800226552330&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~top_positive~default-1-105813207-null-null.142%5Ev88%5Econtrol_2,239%5Ev2%5Einsert_chatgpt&utm_term=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E6%95%B0%E6%8D%AE%E6%A0%87%E5%87%86%E5%8C%96&spm=1018.2226.3001.4187

③.模型优化【正则化】【重点】

当我们的模型构建好后，评估好之后，最终的需求就是需要让模型在测试集上也能有在训练集上的效果（越接近越好，一般不会出现超过训练集的情况）。那么我们的最终需求可以总结为：训练集上效果好，模型在训练集和测试集上差异小。

我们先抛开分类效果不谈，概率p=0.5的时候差异最小（此时w=0，模型完全是乱蒙），因此我们可以得出w越小，模型在训练集和测试集上的差异越小，因此得出公式：

$cost=\frac{-1}{n}\sum_{i=1}^{n}\left [y_{i}log(f_{i})+(1-y_{i})log(1-f_{i}) \right ]+\lambda ||w||$

在这个公式当中， $\frac{-1}{n}\sum_{i=1}^{n}\left [y_{i}log(f_{i})+(1-y_{i})log(1-f_{i}) \right ]$ 这一块用来调节分类器的性能，即让模型在训练集上效果好，这一块用来衡量w的算子，即让模型在训练集和测试集上差异小，两部分相互牵制， $\lambda$ 用来调节上面两块的比例，需要性能还是稳定。这部分的算子就是模型的正则项。这部分是逻辑回归中不可或缺的部分，因为当 $\lambda$ 为0的时候，模型只考虑训练集上的性能的情况下，模型中的w会不断变大，让函数变“硬”以达到降低损失（可以先看下面第9点），这样就会让w无限放大最后溢出，就算没溢出最终在训练集上的效果很好，但是在测试集上的效果就会很差，典型的过拟合，这样的模型不符合我们的要求。

因此我们总结一下正则项的作用：

1.从机器角度考虑：抑制w在正确分类的情况下，按比例无限增大

2.减少测试集和训练集的差异

3.破坏模型在训练集上的效果

正则项的衡量方式：

1. = $\sum_{i=1}^{n}|w_{i}|$ L1正则

2. = $\sqrt{\sum_{i=1}^{n}w_{i}^{2}}$ L2正则

L1正则和L2正则的区别：

L1正则是直接将对整体损失函数降低贡献小（不重要）或者冗余的特征给去掉（w为0）【绝对，但能用于降维】

L2正则则是将各个特征都减小，对整体损失函数降低贡献小（不重要）或者冗余的特征的权重尽量减小（w接近于0）【更为严谨，官方库默认使用】

这两种正则项的区别其实跟上一章中的损失函数取 $|f_{i}-y_{i}|$ 和 $(f_{i}-y_{i})^{2}$ 的区别类似，先看下图：

如图所示，我们可以发现，L1正则项对于w的改变无论什么时候对损失函数的贡献都是一样的，但是L2正则项则不同，随着w的降低，其对于损失函数的贡献就会逐渐降低。因此对于L1来说，w会一直减小直到0，而对于L2正则项来说，当w降低到一定的值之后（接近0）其对损失函数的贡献远远小于改变其他特征的w带来的贡献小，因此计算机就会转移注意力取改变其他w。

还有一个很重要的区别就是L1正则项不是处处可微的，而L2正则项处处可微，这也能在一定程度上说明上面说到的L1会使w变为0，而L2只会不断减小到接近于0。

详细理解参考：机器学习中正则化项L1和L2的直观理解_l1正则化_阿拉丁吃米粉的博客-CSDN博客https://blog.csdn.net/jinping_shi/article/details/52433975?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168938487916800184178189%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=168938487916800184178189&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~baidu_landing_v2~default-8-52433975-null-null.142%5Ev88%5Econtrol_2,239%5Ev2%5Einsert_chatgpt&utm_term=l1%E6%AD%A3%E5%88%99%E5%8C%96%E5%92%8Cl2%E6%AD%A3%E5%88%99%E5%8C%96&spm=1018.2226.3001.4187

5.分类阈值划分问题

在实际工程上，我们不可能说像推导激活函数一样，>=0.5的为一类，<0.5的为一类，因为任何模型预测都是存在错误率的，大多数情况下我们都是需要根据需求手动调整分类的阈值。举一个例子，例如病人癌症预测问题，医院需要尽可能的不错过一个癌症患者（宁多判，不少判），如果这时候阈值设置为0.5那么就会错过很多的癌症患者（阈值设置的越低，正确率越低，后面会讲到），因此在这种情况下，医院可能会要求阈值设置在0.99或者更高，就是这个原因。

6.样本不均衡问题

逻辑回归在训练模型，调整w的时候，其过程可以看作是每一个点都对分类器产生作用，远离分类器，如下图所示：

那么就有一个很明显的问题，那就是当两类的样本数量不均衡的情况下会发生什么情况？例如一类样本有9999个，另一类只有1个，出现的情况可能为如下：

按照这种情况分类，那么分类器的正确率能高达99.99%，但是没有实际的意义，这就是上面所说的样本不平衡问题（unbalanced）。那我们要解决这个问题肯定需要平衡样本，要么减少大样本的数量（下采样），要么增加小样本的数量（上采样），在实际过程中，我们一般多用上采样，因为在现实中，标注的样本较少，并且样本数减少的话对于预测效果可能会有一定的影响。那么如何进行上采样呢？实际情况下也不允许获取更多的样本的情况下，我们多使用现有的数据进行随机的重复，达到平衡样本的效果。这些数据都是真实的，只是用来平衡样本，因此不会对模型效果产生影响。

7.模型评估

在实际工程中，我们往往会对训练好的模型进行评估，来判断其各种性能。首先我们得引入混淆矩阵，这是所有指标的评判的基础。

在分类任务下，预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合，构成混淆矩阵(适用于多分类)

这里再给出几个评估模型的指标（都是硬知识，需要记住）：

1.正确率：预测结果为所有样本中正确的比例。【范围有限且容易受到样本不均衡的影响】

计算公式为： $\frac{TP+TN}{n}$

2.精确率：预测结果为正例样本中真实为正例的比例。【忽略了FN且容易受到阈值和不平衡数据集的影响】

计算公式为： $\frac{TP}{TP+FP}$ ，如下图：

3.召回率：真实为正例的样本中预测结果为正例的比例（查得全，对正样本的区分能力）。【忽略了FP，与精确率成负相关】

计算公式为： $\frac{TP}{TP+FN}$ ，如下图：

综合来看，上面提到的每一个评估指标如果单个拿出来看都是不能很好的评估模型的好坏，如果综合起来也会出现一些问题且不直观，因此我们需要寻找另一个更好的评估指标----AUC指标【能真正的评估模型的分类能力】。

这里先给出AUC指标的基底，

TPR = TP / (TP + FN)【所有真实类别为1的样本中，预测类别为1的比例】

FPR = FP / (FP + TN)【所有真实类别为0的样本中，预测类别为1的比例】

这里再给出AUC的图像ROC曲线

这么看图可能看不出什么东西，我们对他进行一定的推导：

假设有6次展示记录，有两次被点击了，得到一个展示序列（1:1,2:0,3:1,4:0,5:0,6:0），前面的表示序号，后面的表示点击（1）或没有点击（0）。

例1：如果概率的序列是（1:0.9,2:0.7,3:0.8,4:0.6,5:0.5,6:0.4），那么我们可以得到点击与否和其对应的概率的序列如下图（概率由大到小排列）：

那么我们由此可以通过计算TPR和FPR画出ROC曲线如下：

这个时候我们从得到的序列表就可以看到，我们可以通过划分阈值完美的分开两类，正样本的概率总在负样本之上，所以分对的概率为1，AUC=1。再看那个ROC曲线，它的积分是什么？也是1，ROC曲线的积分(曲线所围成的面积)与AUC相等。

例2：概率的序列是（1:0.9,2:0.8,3:0.7,4:0.6,5:0.5,6:0.4），那么我们可以得到点击与否和其对应的概率的序列如下图（概率由大到小排列）：

那么我们由此可以通过计算TPR和FPR画出ROC曲线如下：

这个时候我们就没法像上一个例子一样通过划分阈值完美的分开两类，如果取到了样本2和3，那就分错了，其他情况都分对了；所以分对的概率是0.875，AUC=0.875。再看那个ROC曲线，它的积分也是0.875，ROC曲线的积分与AUC相等。

例3：如果概率的序列是（1:0.4,2:0.6,3:0.5,4:0.7,5:0.8,6:0.9），那么我们可以得到点击与否和其对应的概率的序列如下图（概率由大到小排列）：

那么我们由此可以通过计算TPR和FPR画出ROC曲线如下：

这种情况下无论怎么取，都是分错的，所以分对的概率是0，AUC=0.0。再看ROC曲线，它的积分也是0.0，ROC曲线的积分与AUC相等。事实上，实际工程上是不可能出现这种情况的（不会出现正确率低于50%的情况），出现这种情况只能说明权值w取错了，只需要手动取反即可得到一个很好的分类器，之后会讲到。

经过上面的三个例子，其实我们已经对AUC和其对应的ROC曲线有了一定的了解，我们从上面的例子知道总共6个点，2个正样本，4个负样本，取一个正样本和一个负样本的情况总共有8种。任意正样本的得分大于负样本的得分的数量 / 总量 （曲线围成的面积）就是对应的AUC指标，这种指标因为考虑了所有的样本，因此可以避免阈值和不均衡样本带来的影响。

8.同模型不同权重(系数)的影响

对于同样的模型，例如x1+x2=0 这个分类模型，同样的，取 $2x_{1}+2x_{2}=0$ 或者 $-x_{1}-x_{2}=0$ 即只要a不为0，取任何数这个模型都是等价的，那么这些模型有什么区别呢？是否有好坏之分？答案是肯定的。

如上图所示，将分类器的权重w和自变量x看作向量，则w为分类线段的法向量，wx则为为经过归一化的内积，则x方向为w指向的方向（内积大于0）时为正类的方向，反之（内积小于0）则为负类方向。使用代数证明如下：

$f(x)=\frac{1}{1+e^{-wx}}$

$f(x_{1})+f(x_{2})=\frac{1}{1+e^{-wx}}+\frac{1}{1+e^{wx}} =\frac{e^{wx}}{e^{wx}+1}+\frac{1}{1+e^{wx}} =1$

那么我们知道上面的性质之后，则可以知道，只要让权重w取反，就能直接改变分类器，例如一个模型的分类正确率只有30%，则仅需要w取反就可以得到70%的正确率，因此这就是上面为什么说不会存在低于50%正确率的分类器。

那么对于权重w放大会有什么样的影响呢？ $f(x)=\frac{1}{1+e^{-wx}}$ 根据这个公式计算，w放大的情况下其取值分数会更接近于1或0，这样就回到了开始说的激活函数“硬”的问题，同时也会放大噪声。w变小则会影响分类效果，因此w的大小需要根据实际权衡。

9.sigmoid函数推导（为什么要用sigmoid函数）

推导过程如下：

10.KL距离推导（为什么要用KL距离作为损失函数）

推导过程如下：

总结

这是我自己对于机器学习学习笔记系列的第二章，逻辑回归，也可以看作是第一章（线性回归）的拓展，这里我只列出了我学习之后对于逻辑回归的自己的理解（要点），而代码可以自己根据理解，不使用别人封装好的库，自己来实现逻辑回归的各种公式，自己模拟实现一遍使用逻辑回归的机器学习项目。这样对于理解逻辑回归有着很大的帮助。还是那句话，这些都是我个人学习过后的理解，如有错误的地方欢迎指出。

你可能感兴趣的:(机器学习,学习,笔记)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方