淡淡的生活

Stanford机器学习---第八讲. 支持向量机SVM

本栏目（Machine learning）包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM（Support Vector Machines 支持向量机）、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning中Andrew老师的讲解。（https://class.coursera.org/ml/class/index）

第八讲. 支持向量机进行机器学习——Support Vector Machine

===============================

（一）、SVM 的 Cost Function

（二）、SVM —— Large Margin Classifier

（三）、数学角度解析为什么SVM 能形成 Large Margin Classifier（选看）

（四）、SVM Kernel 1 —— Gaussian Kernel

（五）、SVM 中 Gaussian Kernel 的使用

(六)、SVM的使用与选择

本章内容为支持向量机Support Vector Machine（SVM）的导论性讲解，在一般机器学习模型的理解上，引入SVM的概念。原先很多人，也包括我自己觉得SVM是个很神奇的概念，读完本文你会觉得，其实只是拥有不同的目标函数，不同的模型而已，Machine Learning的本质还没有变，呵呵~

完成本文花了我很长时间，为了搞懂后面还有程序方便和参考网站大家实验，希望对大家有所帮助。

=====================================

（一）、SVM 的 Cost Function

前面的几章中我们分别就linear regression、logistic regression以及神经网络的cost function进行了讲解。这里我们通过logistic regression的cost function引入SVM。

首先回忆一下logistic regression的模型：

还是原先的假设，suppose我们只有两个类，y=0和y=1。那么根据上图h(x)的图形我们可以看出，

当y=1时，希望h(x)≈1，即z>>0；

当y=0时，希望h(x)≈0，即z<<0；

那么逻辑回归的cost function公式如下：

cost function我们之前已经讲过了，这里不予赘述。现在呢，我们来看看下面的两幅图，这两幅图中灰色的curve是logistic regression的cost function分别取y=1和y=0的情况，

y=1时，随着z↑，h(x)逐渐逼近1，cost逐渐减小。

y=0时，随着z↓，h(x)逐渐逼近0，cost逐渐减小。

这正是图中灰色曲线所示的曲线。

ok，现在我们来看看SVM中cost function的定义。请看下图中玫瑰色的曲线，这就是我们希望得到的cost function曲线，和logistic regression的cost function非常相近，但是分为两部分，下面呢，我们将对这个cost function进行详细讲解。

logistic regression的cost function:

现在呢，我们给出SVM的目标函数（cost function）定义：

该式中，cost0和cost1分别对应y=0和y=1时的目标函数定义，最后一项regularization项和logistic regression中的类似。感觉系数少了什么？是的，其实它们的最后一项本来是一样的，但是可以通过线性变换化简得到SVM的归一化项。

=====================================

（二）、SVM —— Large Margin Classifier

本节给出一个简单的结论——SVM是一个large margin classifier。什么是margin呢？下面我们做详细讲解，其理论证明将在下一节中给出。

在引入margin之前，我们回顾一下上一节中的SVM cost function curve，如下图所示分别是y取1和0时的情况。先给出一个结论，常数C取一个很大的值比较好（比如100000），这是为什么呢？

我们来看哈，C很大，就要求[]中的那部分很小（令[]中的那部分表示为W），不如令其为0，这时来分析里面的式子：

※需求1：

y=1时，W只有前一项，令W=0，就要求Cost₁(θ^Tx)=0，由右图可知，这要求θ^Tx>=1；

y=0时，W只有后一项，令W=0，就要求Cost₀(θ^Tx)=0，由右图可知，这要求θ^Tx<=-1；

由以上说明可知，对C的取值应该在分类是否犯错和margin的大小上做一个平衡。那么C取较大的值会带来什么效果呢？就是我们开头说的结论——SVM是一个large margin classifier。那么什么是margin？在第三章中我们已经讲过了decision boundary，它是能够将所有数据点进行很好地分类的h(x)边界。如下图所示，我们可以把绿线、粉线、蓝线或者黑线中的任意一条线当做decision boundary，但是哪一条最好呢？这里我们可以看出，绿色、粉色、蓝色这三类boundary离数据非常近，i.e.我们再加进去几个数据点，很有可能这个boundary就能很好的进行分类了，而黑色的decision boundary距离两个类都相对较远，我们希望获得的就是这样的一个decision boundary。margin呢，就是将该boundary进行平移所得到的两条蓝线的距离，如图中所指。

相对比：

C小，decision boundary则呈现为黑线；若C很大，就呈现粉线；

这个结论大家可以记住，也可以进行数学上的分析，下一节中我们将从数学角度分析，为什么SVM选用大valeu的C会形成一个large margin classifier。

再给出一个数学上对geometry margin的说明：

任意一个点x到分类平面的距离γ的表示如上图所示，其中y是{+1，-1}表示分类结果，x0是分类面上距x最短的点，分类平面的方程为wx+b=0,将x0带入该方程就有上面的结果了。对于一个数据集x，margin就是这个数据及所有点的margin中离hyperplane最近的距离，SVM的目的就是找到最大margin的hyperplane。

练习：

=====================================

（三）、数学角度解析为什么SVM 能形成 Large Margin Classifier（选看）

这一节主要为了证明上一节中的结论，为什么SVM是Large Margin Classification，能形成很好的decision boundary，如果仅仅处于应用角度考虑的朋友可以略过此节。

首先我们来看两个向量内积的表现形式。假设向量u，v均为二维向量，我们知道u，v的内积u^Tv=u₁v₁+u₂v₂。表现在坐标上呢，就如下图左边所示：

首先将v投影至u向量，记其长度为p（有正负，与u同向为正，反相为负，标量），则两向量的内积u^Tv = ||u|| · ||v|| · cosθ = ||u|| · p = u₁v₁+u₂v_2。

这样一来，我们来看SVM的cost function：

由于将C设的很大，cost function只剩下后面的那项。采取简化形式，意在说明问题即可，设θ₀=0，只剩下θ₁和θ₂，

则cost function J(θ)=1/2×||θ||^2

而根据上面的推导，有θ^Tx=p·||θ||，其中p是x在θ上的投影，则

※需求2：

y=1时，W只有前一项，令W=0，就要求Cost₁(θ^Tx)=0，由右图可知，这要求p·||θ||>=1；

y=0时，W只有后一项，令W=0，就要求Cost₀(θ^Tx)=0，由右图可知，这要求p·||θ||<=-1；

如下图所示：

我们集中精力看为什么SVM的decision boundary有large margin（这里稍微有点儿复杂，好好看哈）：

对于一个给定数据集，依旧用X表示正样本，O表示负样本，绿色的线表示decision boundary，蓝色的线表示θ向量的方向，玫瑰色表示数据在θ上的投影。

我们已知boundary的角度和θ向量呈的是90°角（自己画一下就知道了）。

先看这个图，对于这样一个decision boundary（没有large margin），θ与其呈90°角如图所示，这样我们可以画出数据集X和O在θ上的投影，如图所示，非常小；如果想满足[需求2]中说的

对正样本p·||θ||>=1，

对负样本p·||θ||<=-1，

就需要令||θ||很大，这就和cost function的愿望（min 1/2×||θ||^2）相违背了，因此SVM的不出来这个图中所示的decision boundary结果。

那么再来看下面这个图，

它选取了上一节中我们定义的“比较好的”decision boundary，两边的margin都比较大。看一下两边数据到θ的投影，都比较大，这样就可以使||θ||相对较小，满足SVM的cost function。因此按照SVM的cost function进行求解（optimization）得出的decision boundary一定是有large margin的。说明白了吧？！

练习：

分析：由图中我们可以看出，decision boundary的最优解是y=x1，这时所有数据集中的数据到θ上的投影最小值为2，换言之，想满足

对正样本p·||θ||>=1，

对负样本p·||θ||<=-1，

只需要

对正样本2·||θ||>=1，

对负样本（-2）·||θ||<=-1，

因此需要||θ||>=1/2，本着令cost function最小的原则，我们可知||θ||=1/2.

=====================================

（四）、SVM Kernel 1 —— Gaussian Kernel

对于一个非线性Decision boundary，我们之前利用多项式拟合的方法进行预测：

f1, f2, ... fn为提取出来的features。
定义预测方程h_θ(x)为多项式的sigmod函数值：h_θ(x)=g(θ₀f₀+θ₁f₁+…+θ_nf_{n)，其中fn为x的幂次项组合（如下图）}
当θ₀f₀+θ₁f₁+…+θ_nf_n>=0时h_θ(x)=1；else h_θ(x)=0；

那么，除了将fn定义为x的幂次项组合，还有没有其他方法表示 f 呢？本节就引入了Kernel，核的概念。即用核函数表示f。

对于上图的非线性拟合，我们通过计算输入原始向量与landmark之间的相似度来计算核值f：

发现相似度计算公式很像正态分布（高斯分布）对不对？是的！这就是高斯核函数。由下图可以看出，

x和l越相似，f越接近于1；

x与l相差越远，f越接近于0；

下图中的横纵坐标为x的两个维度值，高为f（new feature）。制高点为x=l的情况，此时f=1。

随着x与l的远离，f逐渐下降，趋近于0.

下面我们来看SVM核分类预测的结果：

引入核函数后，代数上的区别在于f变了，原来f是x1/x1^2/...，即xi幂次项乘积

引入核函数后，几何上来说可以更直观的表示是否应该归为该类了（如下图）

比如我们想将坐标上的所有数据点分为两类（如下图中）红色圈内希望预测为y=1；圈外希望预测为y=0。通过训练数据集呢，我们得到了一组θ值(θ0,θ1,θ2,θ3)=(-0.5,1,1,0)以及三个点(L1，L2，L3)，（具体怎么训练而成的大家先不要过分纠结，后面会讲）
对于每个test数据集中的点，我们首先计算它到（L1，L2，L3)各自的相似度，也就是核函数的值（f1，f2，f3），然后带入多项式θ₀f₀+θ₁f₁+…+θ_nf_n计算，当它>=0时，预测结果为类内点（正样本，y=1），else预测为负样本，y=0

=====================================

（五）、SVM 中 Gaussian Kernel 的使用

§5.1. landmark的选取和参数向量θ的求解

上一节中我们遗留了两个问题，一个是一些L点的选取，一个是向量θ计算。这一节我们就来讲讲这两个问题。

首先来看L的选取。上一节中一提到Gaussian kernel fi 的计算：

这里呢，我们选择m个训练数据，并取这m个训练数据为m个landmark（L）点（不考虑证样本还是负样本），如下图所示：

PS：那么在这m个训练数据中，每一个训练数据x(i)所得的特征向量（核函数）f中，总有一维向量的值为1（因为这里x(i)=l(i)）

于是，每个特征向量f有m+1维（m维训练数据[f1,f2,...,fm]附加一维f0=1）

在SVM的训练中，将Gaussian Kernel带入cost function,通过最小化该函数就可与得到参数θ，并根据该参数θ进行预测：

若θ^Tf>=0，predicty=1;

else predict y=0;

如下图所示，这里与之前讲过的cost function的区别在于用kernel f 代替了x。

§5.2. landmark的选取和参数向量θ的求解

好了，至此Landmark点和θ的求取都解决了，还有一个问题，就是cost function中两个参数的确定：C和σ²。

对于C，由于C=1/λ，所以

C大，λ小，overfit，产生low bias，high variance

C小，λ大，underfit，产生high bias，low variance

详细原因请参考第六章中关于bias和variance的讲解。

对于方差σ²，和正态分布中的定义一样，

σ²大，x-f 图像较为扁平;

σ²小，x-f 图像较为窄尖;

关于C和σ²的选取，我们来做个练习：

解析，过拟合说明应该适当加强cost function中的正则项所起的作用，因此应增大λ，即减小C；同时，过拟合是的只有一小部分范围内的x享有较大f，或者说x的覆盖面太窄了，所以应当增大σ²。

=====================================

（六）、SVM 的使用与选择

本节中主要介绍SVM在matlab中用libsvm中的应用，给大家一个用SVM进行实践的平台。

前面几节中我们已知用SVM进行机器学习的过程就是一个optimize参数θ的过程，这里呢，我们首先介绍一个 Chih-Chung Chang 和 Chih-Jen Lin 做的 matlab/C/Ruby/Python/Java...中通用的机器学习tool，libsvm，其基本讲解和测试我以前讲过（在这里），算是入门篇，并不详细，这里呢，我们将结合本章课程近一步学习，并用matlab实现。

首先大家来看看，想要进行SVM学习，有哪两类：

一种是No kernel（linear kernel），h_θ(x)=g(θ₀x₀+θ₁x₁+…+θ_nx_{n)，predict y=1 if θ^Tx>=0;}

_{另一种是使用kernel f（比如Gaussian Kernel），h_θ(x)=g(θ₀f₀+θ₁f₁+…+θ_nf_n)，这里需要选择方差参数σ²}

如下图所示：

需要注意的是，不管用那种方法，都需要在ML之前进行Normalization归一化！

当然，除了Gaussian kernel,我们还有很多其他的kernel可以用，比如polynomial kernel等，如下图所示，但andrew表示他本人不会经常去用（或者几乎不用）以下"more esoteric"中的核，一个原因是其他的核不一定起作用。我们讲一下polynomial kernel:

polynomial 核形如 K（x，l）= (x^Tl+c)^d，也用来表示两个object的相似度

首先给大家引入一个数据集，在该数据集中，我们可以进行初步的libsvm训练和预测，如这篇文章中所说，这个也是最基本的no kernel(linear kernel)。

然后呢，给大家一个reference，这是libsvm中traing基本的语法：

[cpp]  view plain copy 
      
     
 Usage: model = svmtrain(training_label_vector, training_instance_matrix, 'libsvm_options');  
 libsvm_options:  
 -s svm_type : set type of SVM (default 0)  
     0 -- C-SVC  
     1 -- nu-SVC  
     2 -- one-class SVM  
     3 -- epsilon-SVR  
     4 -- nu-SVR  
 -t kernel_type : set type of kernel function (default 2)  
     0 -- linear: u'*v  
     1 -- polynomial: (gamma*u'*v + coef0)^degree  
     2 -- radial basis function: exp(-gamma*|u-v|^2)  
     3 -- sigmoid: tanh(gamma*u'*v + coef0)  
     4 -- precomputed kernel (kernel values in training_instance_matrix)  
 -d degree : set degree in kernel function (default 3)  
 -g gamma : set gamma in kernel function (default 1/num_features)  
 -r coef0 : set coef0 in kernel function (default 0)  
 -c cost : set the parameter C of C-SVC, epsilon-SVR, and nu-SVR (default 1)  
 -n nu : set the parameter nu of nu-SVC, one-class SVM, and nu-SVR (default 0.5)  
 -p epsilon : set the epsilon in loss function of epsilon-SVR (default 0.1)  
 -m cachesize : set cache memory size in MB (default 100)  
 -e epsilon : set tolerance of termination criterion (default 0.001)  
 -h shrinking : whether to use the shrinking heuristics, 0 or 1 (default 1)  
 -b probability_estimates : whether to train a SVC or SVR model for probability estimates, 0 or 1 (default 0)  
 -wi weight : set the parameter C of class i to weight*C, for C-SVC (default 1)  
 -v n : n-fold cross validation mode  
 -q : quiet mode (no outputs)  

下面给大家一个例子：

[cpp]  view plain copy 
      
     
 function [ output_args ] = Nonlinear_SVM( input_args )  
 %NONLINEAR_SVM Summary of this function goes here  
 %   Detailed explanation goes here  
   
 %generate data1  
 r=sqrt(rand(100,1));%generate 100 random radius  
 t=2*pi*rand(100,1);%generate 100 random angles, in range [0,2*pi]  
 data1=[r.*cos(t),r.*sin(t)];%points  
   
 %generate data2  
 r2=sqrt(3*rand(100,1)+1);%generate 100 random radius  
 t2=2*pi*rand(100,1);%generate 100 random angles, in range [0,2*pi]  
 data2=[r2.*cos(t2),r2.*sin(t2)];%points  
   
 %plot datas  
  plot(data1(:,1),data1(:,2),'r.')  
  hold on  
 plot(data2(:,1),data2(:,2),'b.')  
 ezpolar(@(x)1);%在极坐标下画ρ=1，θ∈[0,2π]的图像，即x^2+y^2=1  
 ezpolar(@(x)2);  
 axis equal %make x and y axis with equal scalar  
 hold off  
   
 %build a vector for classification  
 data=[data1;data2];     %merge the two dataset into one  
 datalabel=ones(200,1);  %label for the data  
 datalabel(1:100)=-1;  
   
 %train with Non-linear SVM classifier use Gaussian Kernel  
   
 model=svmtrain(datalabel,data,'-c 100 -g 4');   
   
 end  

该例中我们分别生成了100个正样本和100个负样本，如下图所示，因为kernel type default=2（即Gaussian kernel），通过svmtrain(datalabel，data，'-c 100 -g 4')我们设置了第五节中奖的参数——C（c）和 2σ²（g）分别为100和4。

运行结果：

[cpp]  view plain copy 
      
     
 >> Nonlinear_SVM  
 *  
 optimization finished, #iter = 149  
 nu = 0.015538  
 obj = -155.369263, rho = 0.634344  
 nSV = 33, nBSV = 0  
 Total nSV = 33  

最后，我们比较一下logistic regresion和 SVM：

用n表示feature个数，m表示training exampl个数。

①当n>=m，如n=10000，m=10~1000时，建议用logistic regression, 或者linear kernel的SVM

②如果n小，m不大不小，如n=1~1000，m=10~10000，建议用Gaussian Kernel的SVM

③如果n很小，m很大，如n=1~1000，m>50000，建议增加更多的feature并使用logistic regression, 或者linear kernel的SVM

原因，①模型简单即可解决，③如果还用Gaussian kernel会导致很慢，所以还选择logistic regression或者linear kernel

神经网络可以解决以上任何问题，但是速度是一个很大的问题。

详见下图：

test：

我们可以把所有数据分为testset和training set两部分进行训练，example：

[cpp]  view plain copy 
      
     
 load heart_scale  
 [N D] = size(heart_scale_inst);  
   
 % Determine the train and test index,select top 200 as training data  
 % else as test data  
 trainIndex = zeros(N,1); trainIndex(1:200) = 1;  
 testIndex = zeros(N,1); testIndex(201:N) = 1;  
 trainData = heart_scale_inst(trainIndex==1,:);  
 trainLabel = heart_scale_label(trainIndex==1,:);  
 testData = heart_scale_inst(testIndex==1,:);  
 testLabel = heart_scale_label(testIndex==1,:);  
   
 % Train the SVM  
 model = svmtrain(trainLabel, trainData, '-c 1 -g 0.07 -b 1');  
 % Use the SVM model to classify the data  
 [predict_label, accuracy, prob_values] = svmpredict(testLabel, testData, model, '-b 1'); % run the SVM model on the test data  

运行结果：

[cpp]  view plain copy 
      
     
 optimization finished, #iter = 87  
 nu = 0.426369  
 obj = -56.026822, rho = -0.051128  
 nSV = 77, nBSV = 62  
 Total nSV = 77  
 *  
 optimization finished, #iter = 99  
 nu = 0.486493  
 obj = -64.811759, rho = 0.328505  
 nSV = 87, nBSV = 68  
 Total nSV = 87  
 *  
 optimization finished, #iter = 101  
 nu = 0.490332  
 obj = -64.930603, rho = 0.424679  
 nSV = 87, nBSV = 67  
 Total nSV = 87  
 *  
 optimization finished, #iter = 121  
 nu = 0.483649  
 obj = -64.046644, rho = 0.423762  
 nSV = 87, nBSV = 65  
 Total nSV = 87  
 *  
 optimization finished, #iter = 93  
 nu = 0.470980  
 obj = -63.270339, rho = 0.458209  
 nSV = 83, nBSV = 67  
 Total nSV = 83  
 *  
 optimization finished, #iter = 137  
 nu = 0.457422  
 obj = -76.730867, rho = 0.435233  
 nSV = 104, nBSV = 81  
 Total nSV = 104  
 Accuracy = 81.4286% (57/70) (classification)  
 >>   

这里只是一部分我做过的实验，希望有朋友能够有更完善的程序或者更好的资料推荐~谢谢！

==============================================

小结

本章讲述了Support Vector Machine的基本原理、SVM与linear regression、logistic regression、神经网络的关系和matlab中通过Libsvm库对数据进行训练，希望对大家有所帮助。

关于Machine Learning更多的学习资料将继续更新，敬请关注本博客和新浪微博Sophia_qing。

Reference:

1.How to build a custom Kernel function and use it with Libsvm in C?

2.Libsvm在matlab中的使用

3. SVM parameter tuning and number of SVs (Matlab libsvm)

4.Libsvm for matlab_Kittipat

你可能感兴趣的:(machine,learning)

TidyBot++：用于机器人学习开源的完整移动机械手三谷秋水计算机视觉智能体人工智能机器人开源人工智能机器学习深度学习
24年12月来自普林斯顿、斯坦福和dexterity.ai的论文“TidyBot++:AnOpen-SourceHolonomicMobileManipulatorforRobotLearning”。要充分利用模仿学习在移动机械操作方面的最新进展，需要收集大量人工引导的演示。本文提出一种开源设计，用于设计一种廉价、坚固、灵活的移动机械手，该机械手可支撑任意臂，从而实现各种现实世界的家用移动机械操作
TPAMI 2024 | 学习人类教育智慧：以学生为中心的知识蒸馏方法小白学视觉论文解读 IEEE TPAMI 知识蒸馏 TPAMI 论文解读深度学习
题目：LearningFromHumanEducationalWisdom:AStudent-CenteredKnowledgeDistillationMethod学习人类教育智慧：以学生为中心的知识蒸馏方法作者：S.Yang;J.Yang;M.Zhou;Z.Huang;W.-S.Zheng;X.Yang;J.Ren摘要现有的知识蒸馏研究通常侧重于以教师为中心的方法，其中教师网络根据自身标准进行训
Manus开源平替-开源通用智能体 galileo2016 人工智能
原文链接:https://i68.ltd/notes/posts/250306-opensource-agi-agent/OWL-比Manus还强的全能开源AgentOWL:OptimizedWorkforceLearningforGeneralMulti-AgentAssistanceinReal-WorldTaskAutomation，现实世界中执行自动化任务的通用多代理辅助优化学习框架项目仓
训练模型时，步长为什么不能太大也不能太小？ yuanpan 人工智能
在训练模型时，步长（也称为学习率，LearningRate）是一个关键的超参数，它控制着每次参数更新的大小。步长既不能太大，也不能太小，原因如下：1.步长太大的问题如果步长过大，会导致以下问题：模型发散（Divergence）：参数更新幅度过大，可能导致损失函数的值不断增大，甚至无法收敛，模型性能急剧下降。错过最优解：过大的步长可能导致参数在最优解附近震荡，甚至直接跳过最优解，无法找到良好的模型参
KVM安全模块生产环境配置与优化指南 TechStack 创行者 #服务器容器 Linux 服务器运维安全 kvm SELinux
KVM安全模块生产环境配置与优化指南一、引言在当今复杂多变的网络安全环境下，生产环境中KVM（Kernel-basedVirtualMachine）的安全配置显得尤为重要。本指南旨在详细阐述KVM安全模块的配置方法，结合强制访问控制（MAC）、硬件隔离及合规性要求，为您提供全面且深入的操作建议，确保KVM环境的安全性和稳定性。二、SELinux安全模块配置1.基础策略配置SELinux（Secur
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
信息检索系统评估指标的层级分析：从单点精确度到整体性能度量人工智能深度学习llm检索系统
在构建搜索引擎系统时，有效的评估机制是保证系统质量的关键环节。当用户输入查询词如"machinelearningtutorialspython"，系统返回结果列表后，如何客观评估这些结果的相关性和有效性？这正是信息检索评估指标的核心价值所在。分析用户与搜索引擎的交互模式，我们可以观察到以下行为特征：用户主要关注结果列表的前几项对顶部结果的关注度显著高于底部结果用户基于多次搜索体验形成对搜索系统整体
AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.06.25-2024.07.01 小小帅AIGC LLMs论文时报人工智能语言模型深度学习自然语言处理大语言模型 LLM
文章目录～1.AutoCherry-Picker:LearningfromHigh-qualityGenerativeDataDrivenbyLanguage2.BioMNER:ADatasetforBiomedicalMethodEntityRecognition3.BESTOW:EfficientandStreamableSpeechLanguageModelwiththeBestofTwoW
梯度下降法以及随机梯度下降法 HKkuaidou 人工智能深度学习 python pytorch
梯度下降法就是在更新weight的时候，向函数值下降的最快方向进行更新，具体的原理我就不再写了，就是一个求偏导的过程，有高数基础的都能够很快的理解过程。我在我的github里面会一直更新自己学习pytorch的过程，地址为：https://github.com/00paning/Pytorch_Learning这里我直接展示一个简易实现的python代码，我们还是先看一下运行的效果图：相关pyth
Python实现机器学习项目教程：房价预测向着开发进攻 python python 机器学习开发语言
Python实现机器学习小项目教程：房价预测案例机器学习（MachineLearning）是数据科学中的一项重要技术，它通过从数据中学习规律，进行预测和决策。对于初学者来说，通过实际的项目来学习机器学习的原理和实现方法，是非常有效的。本篇教程将通过Python实现一个简单的机器学习小项目——房价预测。我们将使用scikit-learn库来构建并训练一个线性回归模型，预测房价。项目背景假设我们拥有一
JVM 如何保证 Java 程序的安全性？冰糖心书房 JVM 2025 Java面试系列 jvm java
JVM（JavaVirtualMachine）在设计时就考虑了安全性，它提供了一套多层次的安全机制，以保护系统免受恶意代码的侵害。这些机制主要包括：1.类加载器(ClassLoader)及双亲委派模型:类加载器的作用：负责加载Java类（.class文件）到JVM中。将类的字节码转换为内存中的Class对象。执行类的初始化。类加载器的类型：启动类加载器(BootstrapClassLoader):
买瓜第十四届蓝桥杯大赛软件赛省赛C/C++ 大学 A 组 Geometry Fu 蓝桥杯蓝桥杯 c语言 c++
买瓜题目来源第十四届蓝桥杯大赛软件赛省赛C/C++大学A组原题链接蓝桥杯买瓜https://www.lanqiao.cn/problems/3505/learning/问题描述题目描述小蓝正在一个瓜摊上买瓜。瓜摊上共有nnn个瓜，每个瓜的重量为AiA_iAi。小蓝刀功了得，他可以把任何瓜劈成完全等重的两份，不过每个瓜只能劈一刀。小蓝希望买到的瓜的重量的和恰好为mmm。请问小蓝至少要劈多少个瓜才能买
异或和之和第十四届蓝桥杯大赛软件赛省赛C/C++ 大学 A 组 Geometry Fu 蓝桥杯蓝桥杯 c语言 c++
异或和之和题目来源第十四届蓝桥杯大赛软件赛省赛C/C++大学A组原题链接蓝桥杯异或和之和https://www.lanqiao.cn/problems/3507/learning/问题描述问题分析要点1：异或运算概念异或（ExclusiveOR，简称XOR）是一种数学运算符，常用于逻辑运算与计算机中的位运算。当且仅当两个输入值不同时，异或运算输出为真（1），否则输出为假（0），即“同为0，异为1”
AI界“打工人”革命！开源神器OWL如何让普通人零门槛拥有Manus级生产力？遇见小码 AI棱镜实验室人工智能开源 github 低代码 AIGC
当动辄上万元的Manus邀请码成为科技圈“奢侈品”时，一群开发者仅用0天复刻出功能媲美的开源方案——OWL项目，并一举拿下GAIA基准测试开源框架第一（58.18分）OWL是什么？OWL（OptimizedWorkforceLearning）是由CAMEL-AI团队打造的多智能体协作框架。它通过AI智能体动态分工协作，像人类团队一样完成复杂任务：无需编码：输入需求即可自动拆解步骤全能助手：能操作浏
深入解析Java虚拟机（JVM）：架构、内存管理与性能优化 EvLast jvm java 职场和发展性能优化
##引言Java虚拟机（JavaVirtualMachine,JVM）是Java生态系统的核心引擎，它不仅实现了"一次编写，到处运行"的跨平台承诺，更通过自动内存管理、即时编译等机制深刻影响着现代软件开发。截至2023年，全球超过90%的《财富》500强企业使用基于JVM的技术栈，其重要性可见一斑。##一、JVM核心架构解析###1.1类加载子系统-**双亲委派模型**：采用层级式加载机制，防止核
基于支持向量机SVM的电网负荷预测，libsvm工具箱详解，SVM详细原理神经网络机器学习智能算法画图绘图支持向量机SVM 支持向量机算法机器学习 SVM电网负荷预测 svr
目录支持向量机SVM的详细原理SVM的定义SVM理论Libsvm工具箱详解简介参数说明易错及常见问题SVM应用实例，基于支持向量机SVM的电网负荷预测代码结果分析展望摘要基于支持向量机SVM的电网负荷预测，SVM原理，SVM工具箱详解，SVM常见改进方法支持向量机SVM的详细原理SVM的定义支持向量机（supportvectormachines,SVM）是一种二分类模型，它的基本模型是定义在特征空
分子动力学仿真软件：GROMACS_（1）.GROMACS基础知识 kkchenjj 分子动力学2 仿真模拟模拟仿真分子动力学
GROMACS基础知识1.GROMACS简介GROMACS（GROningenMAchineforChemicalSimulations）是一款广泛用于分子动力学仿真的开源软件。它主要用于模拟蛋白质、脂质、核酸以及其他生物分子系统的动力学行为。GROMACS以其高效、灵活和强大的功能而闻名，支持大规模并行计算，适用于从小分子到复杂生物体系的多种应用场景。1.1GROMACS的历史和发展GROMAC
python文件名过长报错No such file or directory FL1623863129 环境配置经验分享
python读取一个超长路径文件名结果报错：Nosuchfileordirectory。原因不同操作系统对路径长度有不同的限制。在Windows上，路径长度限制是260个字符，而在Linux上则较长。如果路径长度超过了操作系统的限制，就会报“Nosuchfileordirectory”错误。解决方法修改Windows注册表，路径为：计算机\HKEY_LOCAL_MACHINE\SYSTEM\Cur
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读 EEG-TCNet Plan-C- 论文阅读
EEG-TCNet:AnAccurateTemporalConvolutionalNetworkforEmbeddedMotor-ImageryBrain–MachineInterfaces1.Intrduction本文提出了一种新颖的时间卷积网络（TCN），在需要很少的可训练参数的情况下实现了出色的精度。EG-TCNET成功地推广了单个数据集，通过0.25的元效应优于MOABB的当前最新技术水平
【论文阅读】Learning Transferable Visual Models From Natural Language Supervision（2021） Bosenya12 论文阅读
摘要State-of-the-art（最先进的）computervisionsystems（计算机视觉系统）aretrainedtopredictafixedsetofpredeterminedobjectcategories（被训练来预测一组固定的预定对象类别）.Thisrestrictedformofsupervision（受限制的监督形式）limitstheirgenerality（通用性）
【JVM虚拟机】第一篇：初始JVM 码上学道 JVM虚拟机 jvm
1.什么是JVMJVM全称是JavaVirtualMachine,我们中文翻译过来叫做Java虚拟机或者JVM虚拟机。JVM本质上是一个运行在电脑上的一个软件，他做的主要任务就是运行Java源代码编译出来的字节码文件。我们编译出来的源代码，首先使用java提供的jdk中javac编译成.class后缀的字节码文件，这个文件实际上并不能被系统加载并运行，而是需要通过jvm进行解释成计算机机器码才能够
扩散 Transformer 策略：用于通才视觉-语言-动作学习的规模化扩散 Transformer 三谷秋水计算机视觉大模型智能体 transformer 深度学习计算机视觉语言模型人工智能机器学习
25年2月来自上海AI实验室、浙大、香港中文大学、北大、商汤科技、清华和中科院香港科学创新研究院的论文“DiffusionTransformerPolicy:ScalingDiffusionTransformerforGeneralistVision-Language-ActionLearning”。最近，在多样化的机器人数据集上进行预训练的大型视觉-语言-动作模型，已展示出利用少量域内数据泛化到
可重构智能表面仿真平台 brook1711 RIS
RIScomponentsThisisapythonprojectforRIS(reconfigurableintelligentsurface)simulations.relatedworksMyfirstpaperLinktomypaper/Pdftomypaper:[1]X.Guo,Y.ChenandY.Wang,“Learning-basedRobustandSecureTransmiss
人工智能机器学习算法分类全解析 power-辰南人工智能人工智能机器学习算法 python
目录一、引言二、机器学习算法分类概述（一）基于学习方式的分类1.监督学习（SupervisedLearning）2.无监督学习（UnsupervisedLearning）3.强化学习（ReinforcementLearning）（二）基于任务类型的分类1.分类算法2.回归算法3.聚类算法4.降维算法5.生成算法（三）基于模型结构的分类1.线性模型2.非线性模型3.基于树的模型4.基于神经网络的模型
机器学习入门指南：从 TensorFlow 到 PyTorch 6v6-博客机器学习 tensorflow pytorch
机器学习入门指南：从TensorFlow到PyTorch机器学习（MachineLearning）是人工智能的核心领域之一，近年来在图像识别、自然语言处理、推荐系统等领域取得了巨大进展。本文将从基础概念入手，介绍机器学习的核心知识，并带你快速上手两大主流框架：TensorFlow和PyTorch。机器学习基础什么是机器学习？机器学习是一种通过数据训练模型，使计算机能够自动学习和改进的技术。它主要分
SCI 1区2区3区图像处理期刊 Vertira 博士图像处理人工智能机器学习
一区1.IEEETRANSACTIONSONPATTERNANALYSISANDMACHINEINTELLIGENCE顶刊:是出版商:IEEE2.IEEETransactionsonMultimedia顶刊:是出版商:IEEE3.InformationFusion顶刊:是出版商:ELSEVIER4.IEEETRANSACTIONSONIMAGEPROCESSING顶刊:是出版商:IEEE5.KNO
《高效迁移学习：Keras与EfficientNet花卉分类项目全解析》机器学习司猫白深度学习迁移学习 keras 分类 tensorflow efficientnet 性能优化
从零到精通的迁移学习实战指南：以Keras和EfficientNet为例一、为什么我们需要迁移学习？1.1人类的学习智慧想象一下：如果一个已经会弹钢琴的人学习吉他，会比完全不懂音乐的人快得多。因为TA已经掌握了乐理知识、节奏感和手指灵活性，这些都可以迁移到新乐器的学习中。这正是迁移学习（TransferLearning）的核心思想——将已掌握的知识迁移到新任务中。1.2深度学习的困境与破局传统深度
I-JEPA：联合嵌入预测架构的自监督学习实现平奇群Derek
I-JEPA：联合嵌入预测架构的自监督学习实现I-JEPAImplementationofI-JEPAfrom"Self-SupervisedLearningfromImageswithaJoint-EmbeddingPredictiveArchitecture"项目地址:https://gitcode.com/gh_mirrors/ij/I-JEPA项目介绍欢迎来到I-JEPA，这是一个基于Se
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb