AADGSEGA

吴恩达机器学习笔记

第一周基本概念

监督学习

分为回归算法和分类算法

无监督学习
事先没有正确答案。例如将客户群分成不同类，混合的声音区分开

先在Octave或者matlab实现，可行，再尝试用Java或者python或者C++重新写出来

只考虑两个变量的线性回归：例如找出一条函数拟合房价的那个例子里面的数据点。
数据集：输入x[i]，输出y[i]，中间函数是h。使用成本函数（即方差误差，这里假设是只有房屋大小这一个变量，所以线性函数是一条直线，用两个参数表示，m是样本的个数）来衡量我们的假设函数的准确性：

假设θ[0]=0，测试θ1。最低点误差为0，刚好就是实际函数h

测试θ[0]和θ[1]。有点类似高中地理的地势图


把上面那张图用立体显示出来就是下面这样，变量x和y就是θ[0]和θ[1]，输出变量z是误差（越小越好）。用梯度下降函数来调整θ[0]和θ[1]，该函数的第二个部分是导数，注意所有θ要同时调整。可以看到原本位置相差不大的两个点，下降的路径却完全不同。这里的梯度下降函数其实就是找局部最低点。

α可以影响下降的步长（导数的值也会影响），下降的方向就是斜率（导数）的方向，越接近局部最低点，导数的值越来越小，步长也越来越小（α保持不变）

矩阵A的转置和逆矩阵，用matlab测试一下

第二周单变量线性回归

线代的向量用来代表样本，下标n代表变量（属性），如年龄，面积等等。上标m代表第几个样本。

**考虑多个变量（多元）**的情况下，即h=θ0+θ1x1+θ2x2+θ3x3+θ4x4+θ5x5+…+θn*xn，其中x0=1，故省略，成本函数（误差）：

梯度下降函数：对比J(θ)可知，是在J(θ)的公式里面去掉平方，乘上x而已
这种梯度下降函数又称为批量梯度下降函数，因为“批量”就表示在画蓝色边框的这个式子里面，每次都得考虑所有的样本进行求和。

特征缩放feature scaling
能够帮助梯度下降函数更快的运行：如下图所示，当考虑两个变量即n=2时，成本函数（误差）画成平面（类似等势图）会是一个椭圆，梯度下降会使θ从边缘从中心点（值最小的点）靠近，但靠近的路径会是来回振荡而缓慢的。通过下图的右边所示，将变量x1和x2通过缩放的方法限制在0到1之间，可以使椭圆变得类似正圆，梯度下降就会很快。

均值归一化：不一定是要0到1，负的0.5到正的0.5，或者-3到3等等都是可以的。但不能是-0.00001到0.00001这么小，也不能是-100到100这么大。如下图所示，可以这样缩放成-0.5到0.5

补充：为什么梯度下降函数中的[a’hua]取值过大会发散
如下图右边所示的A点到B点。由于B点比A点高（函数值大），更加陡峭，故导数更大，导数与α相乘，箭头（步长）就越长了，所以就发散了。而α过小则收敛缓慢，如下图右边绿色的箭头所示。

下面的这种图，是选定一个α后，迭代次数（横轴）和误差值（纵轴）之间的关系。

选取合适的特征值来构建模型
1.例如可以选取房屋的大小这一个值（一元），也可以选取房屋的长和宽这两个值（二元）构建函数。
2.对于下面这个数据集（一元），用一条直线取拟合并不合适；选二次函数取拟合，如蓝色的线条所示，到后面会下降，也不合适；故选取三次函数（右边绿色方框所示，其实采取开根号的幂函数更好），比较合适。但是如果通过如图下方所示，(size)及其平方，立方数量级差距有点大。

其中一个解决办法是令x1=(size)，x2=(size)开根号，x3=(size)开立方根。类似题目如下：

正规方程（标准方程）法（Normal Equation）
梯度下降算法需要一步步迭代找到误差最低值，而我们可以利用所学到的微积分的知识，知道函数最低点就是导数为0的点。正规方程就是用来找到这个点的。如下图所示，构建出矩阵X和向量y，用最下方的红色方框圈出来的那个公式直接求出最终的θ
可以用matlab实现这个公式

梯度下降算法和用正规方程的优缺点对比：梯度下降算法需要不断尝试α以及多次迭代，而正规方程可以一步到位，而且不需要特征缩放。但是正规方程在计算"矩阵X的转置乘以矩阵X"这一步时，时间复杂度是O(n^3)，但n到达一万的时候就会开始有点慢了，而梯度下降算法就算百万级别都可以。而且正规方程在有些复杂的算法中不适用，只能用梯度下降算法。

备注：当矩阵X是不可逆矩阵的时候，可能原因和解决办法如下：

第三周分类问题及逻辑回归

概念

分类问题，y=0成为负类，y=1称为正类。
用线性回归来预测分类问题：例如我们设置阈值为0.5，即意味着函数值大于等于0.5则y=1，否则y=0（函数值等于0.5时也可以是y=0）。
P=（y=1|x;θ）表示在x和参数θ情况下，y=1的概率。

逻辑函数（等同于S型函数(sigmoid)）-> 逻辑回归（以线性回归为基础）
该函数坐标趋向于0，右边趋向于1，x=0时y=0.5，并且左右对称。因此正好可以利用这一点，将自变量换成h=θx，当h>0时预测y=1，h<0时预测y=0

注意g(z)是1./ 不是 1/。

现在tanh函数几乎在任何场景都比sigmoid函数好，除了二分类。如果不知道用哪个，就用relu函数，更快。
决策边界
不一定只使用一次幂，可以使用多阶函数。例如h=θ0+θ1x1+θ2x2+θ3*x1^2+θ4*x22等等。或者可以使用其他更复杂的函数，只要变量个数正确即可，例如只有两个变量就只能是x1和x2。
h=θx画出来的线就是决策边界，由θ决定，而不是数据集决定。
逻辑回归的成本函数（误差）
分情况讨论Cost(θ)，而不再是线性回归里面简单的h(x)-y

上面两种情况可以合二为一，以及向量化实现**（向量化实现，也就是用numpy库，可以避免使用for循环，大幅度提高运行效率，“避免使用for循环”是一个经验法则）：**
（但是有些情况，例如神经网络的正向传播，显式for循环是避免不了的）
逻辑回归的梯度下降函数，以及向量化实现：
matlab里面的句柄（符合：@）！！
https://www.cnblogs.com/Hand-Head/articles/8863702.html
注意掌握两种用法，一种是类似自定义函数 myfunc=@(x)(x^2-2*x+1) 再 myfunc(2)。一种是自定义函数，例如在myfunc.m文件里面定义函数myfunc，然后就可以func1 = @myfunc 再 func1(2)
matlab里面的fminunc函数！！
https://www.cnblogs.com/Hand-Head/articles/8863702.html
1.这个函数的功能是传入一个函数，计算这个函数的最小值，例如可以[a,b,c]=fminunc(@(x)(x^2-2*x+1),-1)，a是x值，b是y值，c表示是否收敛。
2.而在机器学习里面，我们用这个函数来计算成本函数（误差）最小值时的θ值（也就是x值）。可以用第1点提到的用法去用，matlab会调用比梯度下降函数更加高级（速度也快得多）的方法去计算（计算下一步应该用哪个θ值（x值）测试）。
也可以用我们自己定义的梯度下降函数，具体做法是在传入的成本函数的返回值里面，设置第一个返回值是y值，第二个返回值是下图中方框计算出来的值，matlab会自动调整设置α，然后得到下一次要用到的θ值（x值）。然后在fminunc函数里面加个options参数，值为options = optimset('GradObj','on','MaxIter','10')。matlab的函数的参数很多有这种key-value,key-value对应的关系，如这里’GradObj’和’MaxIter’是指定变量，'on’和10是变量的值。
一对多分类
过度拟合(overfit)
1.概念
1)欠拟合 = 高偏差
2)拟合过度 = 高方差
3)泛化即能够推广，拟合新的数据


2.解决办法
1)减少变量（特征值）：手动选择需要保留的变量或者使用模型选择算法
2)正则化：可以保留所有变量
正则化
思路：例如在房价的那个例子里面，高次幂反而会导致过度拟合，于是在成本函数（误差）里面添加对某些θ的惩罚

对除θ0以外的θ都进行惩罚，会有比较好的结果，公式如下。但如何公式里面的λ过大，会导致欠拟合，因此需要合理设置λ

正则化后的成本函数（误差）

正则化后的梯度下降函数

正则化后的正规方程（直接用矩阵算出）

第四周神经网络正向传播

上面用到的回归模型可以看成是只有输入层和输出层的神经网路模型。

神经网络（nn）原理

如果变量很多，例如100个，即使只考虑两两组合，即x1x2，x2x2这种，也有5000个θ，如果考虑三个组合，则上百万个θ
在识别汽车的例子中，5050个像素就2500个变量了，太大。
神经网络模仿生物的神经元，树突接受输入，轴突输出。

第一层是输入层，最后一层是输出层，中间是隐藏层。θ[上标j]表示从j层到j+1层的θ矩阵，如果第二层有4个神经元，第一层有2个神经元，那么θ[上标1]的维度是4（2+1）= 4*3。注意每一层在输出的时候都会加上一个第0个神经元，赋值为1。

神经网络每一层到下一层都是g(z)也就是逻辑回归函数计算的。也可以是ReLU线性整流函数。从第一层到最后的输出层，这样的顺序也称为前向传播。
向量化实现:

例子

异或XOR ：两个全为0或全为1，返回1
异或再取反XNOR : 两个里面有且只有一个为1
1.首先是逻辑或的神经网络例子：h(x)=θ0+θ1x1+θ2x2，当θ=[-10,20,20]时，就是逻辑或，因为只有当x1和x2全为0时，h(x)才为0，其他情况都为1

逻辑与的例子，取θ=[-30,20,20]

如果取θ=[10,-20,-20]，可以表示（NOT x1）AND（NOT x2）
2.将上面三种结合起来，两层神经网络就可以实现XNOR了

用神经网络解决一对多分类
例如有下图中要区分出四种物品，即有四类，则神经网络最后一层（输出层）有四个神经元，例如h=[1,0,0,0]表示对应第一类

第五周反向传播BP算法

学习神经网络
神经网络加了正则化后的代价函数/成本函数（误差）

可以近似看成：
反向传播算法（BP算法） ==》用来求出成本函数的导数
计算过程的简图如下：

详细过程：https://www.coursera.org/learn/machine-learning/supplement/pjdBA/backpropagation-algorithm
参考知乎用户YE Y的回答：https://www.zhihu.com/question/27239198（里面的图简单明了）
通过reshape()将参数存储为矩阵，在函数里面再还原取出来
matlab的reshape（）命令

用法：
梯度检验 grad check
其实就是利用导数的定义，取1e-4，判断下BP算法（也可以检验其他算法）得到的导数值是否正确。记得最后要把梯度检验的代码注释掉，因为梯度检验很慢。
参数值初始化
不能把θ设为全0或者全是相同的一个数，这样算不出来的，要随机赋不同的接近0的值
总结：神经网络的六步

第六周机器学习的应用设计及神经网络步骤

将数据集三七分，七分训练三分测试
如果训练集的误差很小，但测试集的误差很大，说明过拟合
将数据集六二二分，六分训练、二分cv调整（validation set 交叉验证）、二分测试
这里用来调整函数的最高次幂d

高方差variance（过拟合）与高偏差bias（欠拟合）

λ是惩罚高次幂项的那个参数，λ很小时训练集误差最小，拟合度最高，但会导致过拟合；λ很大时训练集误差会比较大，拟合度降低，但能防止过拟合。

我们要找出上图中指出的那个点

高偏差bias的话，增大数据量是没有用的

高方差的话，增大数据量是有用的

六种操作分别可以解决的问题
偏斜类
例如换癌症的人大约占总数的0.5%，因此就算全都预测为0（不患癌症），准确率也有99.5%。
说明：一般令y=1代表概率很少发生的事情，例如患癌症
解决办法：通过计算precision和recall的值来看（准确率和召回率）。如果阈值设置得很高，例如设为h(x)>=0.9才令y=1，则准确率很高，召回率很低，很可能会漏判；如果令阈值为0.3，则准确率很低，召回率（即预测y=0的正确率）很高。

再计算F值，值越高说明算法越好，权衡了准确率和召回率。这个测试应该放在cv test里面

第七周支持向量机SVM

支持向量机SVM
参考！！！：https://blog.csdn.net/u010665216/article/details/78382984

SVM用来替换逻辑回归神经网路模型，可以更好地用于分类问题。SVM不属于神经网路。
SVM就是画一条线（即超平面）将数据集（有几个特征值就有几维，不包括y）分类，既以“准确分类”为前提，又能“忽略异常值”。鲁棒性也就是指健壮性、稳健性、强健性。
核函数也就是kernel函数，用于参考链接中的场景5，把低维空间映射到高维空间。这种线性不可分的情况也称为软间隔。
SVM的工作原理是：确定分类器（即超平面），得到一个凸二次规划的问题 =》使用拉格朗日乘子法可得到其对偶问题 =》使用二次规划求解工具求解对偶问题，需要用到SMO算法。
使用sklearn库来实现SVM，除了指定kernel函数，还可能需要指定C（惩罚系数）和gamma参数
补充：
1）s.t的意思是subject to，也就是在后面这个限制条件下的意思
2）针对不同的问题或者场景选择不同的kernel函数。“不带核函数的SVM”等同于“带线性函数的SVM”（因为这个时候不需要将低维空间映射为高维空间），适用于函数简单，或特征非常多而实例非常少的情况。
3）大多数支持向量机软件包都有内置的支持多分类的功能
4）关于逻辑回归模型和SVM之间选择哪个的问题——下图中的每一句话都很重要！

第八周聚类和降维

聚类
聚类是无监督学习算法中的一种。
K-means算法（K均值算法）
算法流程：

1）给定两个点作为簇类中心（cluster centroids），计算数据点到这两个点的距离，距离短的就属于那个簇，染色。计算误差函数J(θ)
2）计算各个簇的所有数据点的平均值，将平均值作为那个簇的簇类中心。
3）褪色，重复1）和2）步骤。
补充：C[上标4]=3 表示第4个点属于第3个簇。
说明：
1）**误差函数J(θ)**公式如下，会不断减少，不会上升。

2）一开始簇类中心应该随机分布，尝试多次才会有比较好的结果。例如下图中，虽然都是三个簇类中心，但右下角两个明显是由于初始化不好导致了不好的分类。

3）关于一开始要选取多少个簇类中心，也就是簇类中心数K是多少。首先应该根据需求，其次可以尝试多个簇类中心数画出曲线，如果有肘点就选那个点。
降维
降维的动机
1）数据压缩，以节省内存和硬盘空间。例如下图中一个是厘米和英寸冗余，可以降至一维；一个是把3维降到2维。

2）高维数据可视化。例如一个国家的数据有50个特征，如GDP，人均寿命等等，降至二维或者三维，就能将数据画图出来了（可视化顶多画出3D，也就是三维）。问题在于，降维算法只负责减少维数，新产生的特征的意义就必须由我们自己去发现了。
降维的算法——PCA（主成分分析）
1）PCA问题的公式描述
a）PCA 要做的是找到一个方向向量(Vector direction)，当把所有的数据都投射到该向量上时，投射平均均方误差尽可能小。如下图，右边是PCA，找的是点到向量的垂直距离；而左边是线性回归，找的是误差值（y值误差）。

b）PCA问题要将n维数据降至k维，目标是找到向量u(1) ，u(2) ，…，u(k) 使得总的投射误差 Projected Error 最小
2）PCA算法过程
a）零均值化。计算出所有特征的均值，然后令 xj = xj − μj 。如果特征是在不同的数量级上，还需要将其除以标准差 σ2 。

这里x的均值是1.81，y的均值是1.91，于是变成

b）计算协方差矩阵(covariance matrix) sigma Σ
下图中第一个∑是协方差矩阵的意思，第二个Σ是求和的意思。

c）计算协方差矩阵 Σ 的特征向量(eigenvectors):在 Matlab 里我们可以利用奇异值分解(singular value decomposition)来得到特则向量矩阵 U，调用方式为 [U， S，V] = svd(sigma) 。（注：函数返回的矩阵 S 也有用，后续会讲到）

d）如果希望将数据从 n 维降至 k 维，只需要从 U 中选取前 k 个向量，获得一个 n × k 维度的矩阵，用Ureduce 表示，然后通过如下计算获得要求的新特征向量 z(i):

3）重建原始特征
当 x 为 2 维，z 为 1 维，z = UreduceT * x，则相反的方程为: xappox = Ureduce ⋅ z，这时有 xappox ≈ x。
4）如何选择主成分的数量K（也就是压缩后的维数）
首先计算“平均均方误差与训练集方差的比例”，如果结果是1%，那就说明有99%的原本数据的偏差被保留了下来。通常95%到99%是最常用的取值范围。（注：许多数据集都可以在保留大部分差异性的同时大幅降低数据的维度，因为大部分现实数据的许多特征变量都是高度相关的。）
公式如下：

得到K的过程如下：
a) 先令 k = 1，然后进行主要成分分析，获得Ureduce 和z，然后计算比例是否小于1%。
b) 如果不是的话，再令k = 2，如此类推，直到找到可以使得比例小于 1%的最小k 值。
改进：
第a）步中，我们在svd()的时候除了得到U，也得到了S，可以用S来直接计算“平均均方误差与训练集方差的比例”。就不需要算那个麻烦的公式了，直接一点点增大下式中的k即可。

应用建议：
机器学习中的应用：降维，将通过Ureduce得到的z替换原来的x，然后进行机器学习预测。（n是指n维，k是指k维，m是指样本个数，R[上标n]是指n维的数据（有理数集））

正确用法：
1）压缩数据，然后可以用来减少内存/磁盘空间，或者加快算法运行速度。
2）可视化数据（二维或者三维）
错误用法：
1）用于减少过拟合。（应该用正则化）
2）在项目开始时便将PCA考虑进去。（先不用PCA，必要的时候才用）
额外备注
还有一种自编码器autoencoder也可以用于降维（比喻：将一幅图片打上马赛克，还可以重新还原）

第九周异常检测与推荐系统

异常检测
异常检测(Anomaly detection)问题是机器学习算法的一个常见应用。这种算法虽然主要用于无监督学习问题，但从某些角度看，它又类似于一些监督学习问题。
应用场景：飞机检测异常引擎，欺诈检测（用户异常行为），数据中心的计算机是否有异常等等。
高斯分布（即正态分布）
通常如果变量 x 符合高斯分布 x∼N(μ， σ2 )，其中μ为所有数据的平均值，σ2为方差（标准差σ的平方），则其概率密度函数为 :

平均值决定位置，方差决定宽度（半山腰的整个宽度，不是一半）

平均值和方差的计算公式如下：

异常检测算法过程

系统搭建与评价
主要是数据集划分：将已有数据分开，从中选择一部分正常数据作为训练集，剩下的正常数据和异常数据混合构成交叉检验集和测试集。例子如下：

有 10000 台正常引擎的数据，有 20 台异常引擎的数据。 我们这样分配数据:

6000 台正常引擎的数据作为Training set；
2000 台正常引擎和 10 台异常引擎的数据作为CV set
2000 台正常引擎和 10 台异常引擎的数据作为Test set

计算p(x)，对比ε，预测哪些数据点异常。
由于正常的数据比异常的数据多很多，是偏斜类，因此要根据计算出precision和recall来评价。

异常检测与监督学习的对比

异常检测的选择特征
1）最好还是将数据转换成高斯分布，例如：使用对数函数 x = log(x + c)，其中 c为非负常数; 或者 x = xc ，c为 0-1 之间的一个分数。
2）一些异常的数据可能也会有较高的p(x)值，因而被算法认为是正常的。如下图。

解决办法：通常可以通过将一些相关的特征进行组合，例如增加两个特征值的比例这一特征。例如下面这个例子，用 CPU负载与网络通信量的比例作为一个新的特征，当CPU负载很高但网络通信量很低（说明不是网络通信造成的CPU负载高）时，说明出现了异常。

多元高斯分布
所需场景：

算法过程如下，最后跟原来的一样，计算出p(x)后跟ε比较即可：

其中，协方差矩阵对模型的影响（不懂。。。）：

均值μ对中心点的影响：

原始高斯分布模型和多元高斯分布模型对比

a）原高斯分布模型使用较广泛，如果特征之间在某种程度上相互关联，可以通过构造新特征的方法来捕捉这些相关性。
b）如果训练集不是太大，并且没有太多的特征，可以使用多元高斯分布模型。

推荐系统
基于内容的推荐系统
对比着前面笔记记录的梯度下降，成本函数，正则化，可以模仿着构建出来系统。关键是定义。已经有的评分是已知数据，问号的是要预测的值，x看成是输入层（这里代表的含义是电影的类型比例，加上前面的1是偏置值），θ是权重（由我们自己预定义初始值，我猜是这样：第一项是0对应偏置值的权重是0，第二项和第三项我们自己看表说话，这里分别对应用户对于爱情片和动作片的权重）。
到最后会训练出合适的θ参数。

协同过滤
在之前的基于内容的推荐系统中，使用电影的特征，训练出了每一个用户的参数。相反地，如果拥有用户的参数，可以学习得出电影的特征（应该就是把原先的x当作θ，把θ当作x）。
如果既没有用户的参数，也没有电影的特征，可以使用协同过滤算法，同时学习这两者。
协同过滤算法就是在梯度下降的时候，同时最小化x和θ

预测出电影的类型比例x后，可以通过特征向量之间的距离 ∥x(i) − x(j)∥，寻找另一部相似电影 x(j)
细节：加入全新的用户
这里主要是加入一位新的用户，没有为任何电影打过分，如果把该用户的θ都初始化为0，最后算法得到的预测值都是0，没有意义。于是将已经原有的打分全部均值归一化，并且加入均值，这样算法最后得到的结果就是电影的平均分了。

第十周大规模数据的机器学习

1.如果数据集特别大，则首先应该检查这么大规模是否真的必要
2.两种替换批量梯度下降函数的函数（因为数据集很大的时候，每次都遍历所有数据来统计误差，计算量太大了）：
随机梯度下降函数（SGD）

小批量梯度下降 Mini-Batch Gradient Descent
小批量梯度下降算法，介于批量梯度下降算法和随机梯度下降算法之间，每计算常数b次训练实例，更新一次参数 θ
通常会令 b 在 2-1024（2的整数次幂）之间。小批量梯度下降的好处在于可以用向量化的方式来循环b个训练实例，如果用的线性代数函数库能支持平行处理，那算法的总体表现将与随机梯度下降近似。
注意：如果b=m，就是批量梯度下降；如果b=1，就是随机梯度下降SGD

SGD的收敛图像
1.当数据集很大时使用随机梯度下降算法，这时为了检查随机梯度下降的收敛性，我们在每1000次迭代运算后，对最后1000个样本的cost值求一次平均，将这个平均值画到图中。
2.可以令α的值随着迭代次数的增加而减小，这样可以让收敛的时候震荡越来越小。

在线学习机制

映射化简和数据并行 Map Reduce and Data Parallelism
大规模数据下，批量梯度下降函数的代价很大，因此可以用map reduce分流而治的思想。例如求和任务可以分配：

很多高级的线性代数函数库能够利用多核 CPU 的来并行地处理矩阵运算，这也是算法的向量化实现如此重要的缘故(比调用循环快)。

#第十一周 Photo OCR 应用实例:图片文字识别
https://www.cnblogs.com/maxiaodoubao/p/10222391.html
建立一个从图片中识别出文字的系统需要三步：
1.文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来
2.字符切分(Character segmentation)——将文字分割成一个个单一的字符
3.字符分类(Character classification)——确定每一个字符是什么
获得更多数据的几种方法: 1.人工数据合成；2.手动收集、标记数据；3.众包
不要根据直觉，而是使用上限分析判断应该改进哪个模块：

如何知道哪一部分最值得花时间和精力去改善呢?可以使用流程图进行上限分析，流程图中每一部分的输出都是下一部分的输入。

在上限分析中，我们选取一部分，手工提供 100%正确的输出结果，然后看应用的整体效果提升了多少。假使当前总体效果为 72%的正确率：
1) 如果让文字检测部分100%正确，系统的总体效果从 72%提高到了89%。这意味着很值得投入时间精力来提高我们的文字检测的准确度
2) 接着让字符切分结果100%正确，系统总体效果只提升了 1%，这意味着字符切分部分可能已经足够好了
3) 最后让字符分类100%正确，系统总体效果又提升了10%，这意味着我们可能也会应该投入更多的时间和精力到分类这部分

【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
OpenLSD是一个自适应开源数据集，旨在支持逻辑综合中的多种机器学习任务。数据集
2024-11-14，由中国科学院计算技术研究所、鹏城实验室和北京大学等联合创建OpenLSD数据集，目的为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中，通过机器学习方法提升效率和质量。一、研究背景：逻辑综合是电子设计自动化（EDA）流程中的关键环节，它负责将高级设计规范转化为门级网络列表。近年来
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
机器学习线性回归学习心得_线性回归为机器学习的初学者解释 weixin_26750481 机器学习 python 人工智能逻辑回归深度学习
机器学习线性回归学习心得Datasciencewiththekindofpoweritgivesyoutoanalyzeeachandeverybitofdatayouhaveatyourdisposal,tomakesmart&intelligentbusinessdecisions,isbecomingamust-havetooltounderstandandimplementinyouror
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
【python 机器学习】sklearn数据集的使用人才程序员 python 机器学习 sklearn 人工智能深度学习神经网络目标检测
文章目录sklearn数据集的使用1.`sklearn`内置数据集2.导入`sklearn`数据集3.加载和使用Iris数据集3.1加载数据3.2查看数据3.3使用数据集进行分类任务4.加载和使用Digits数据集4.1加载数据4.2查看数据4.3使用数据集进行分类任务5.加载和使用BreastCancer数据集5.1加载数据5.2查看数据5.3使用数据集进行分类任务6.总结sklearn数据集的
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

吴恩达机器学习笔记