wishchin

ML大杂烩:**常见机器学习算法公式梳理

机器学习方法有一个进阶的过程，不同的方法族，都有其基础和逐渐进化的模型。每一个更新的模型一般是对上一个简单模型的改进，比如SVM就直接改进了近邻方法，降低了保留的实例个数。

本文有大量修改，如有阅读不适，请移步原文。

原文链接：www.cnblogs.com/tornadomeet/p/3395593.html

前言：

　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，而随着科技的不断发展，相信这方面的人才需求也会越来越大。

　　纵观IT行业的招聘岗位，机器学习之类的岗位还是挺少的，国内大点的公司里百度，阿里，腾讯，网易，搜狐，华为（华为的岗位基本都是随机分配，机器学习等岗位基本面向的是博士）等会有相关职位，另外一些国内的中小型企业和外企也会招一小部分。当然了，其中大部分还是百度北京要人最多，上百人。阿里的算法岗位很大一部分也是搞机器学习相关的。另外本人有幸签约了网易杭州研究院的深度学习算法岗位，打算从事机器学习领域至少5年。非常感谢小易收留了我！

　　下面是本人在找机器学习岗位工作时，总结的常见机器学习算法（主要是一些常规分类器）大概流程和主要思想，希望对大家找机器学习岗位时有点帮助。实际上在面试过程中，懂这些算法的基本思想和大概流程是远远不够的，那些面试官往往问的都是一些公司内部业务中的课题，往往要求你不仅要懂得这些算法的理论过程，而且要非常熟悉怎样使用它，什么场合用它，算法的优缺点，以及调参经验等等。说白了，就是既要会点理论，也要会点应用，既要有点深度，也要有点广度，否则运气不好的话很容易就被刷掉，因为每个面试官爱好不同。

决策是智能化的一个重要表现，类似于数据库“触发器”的概念，其意义可以表示为：我们在什么情况下该做什么？ML领域“分类”概念与其类似，智能决策也是从决策条件到决策结果的出发，与分类类似。分类可以表示为 if() then () 语句，形象表示为BOOL逻辑的组合，if (Feature >X) Then (ClassLabel =1)，决策和触发器也可以这样表示。使用数据的模式识别方法，为机器学习，机器直接从数据中获取分类函数跳过规则获取这一步，隐式地把规则用模型的方式表现出来。

规律是科学的追逐目标，发现规则是简化复杂表象的方法，就像复杂的语义是由相对较少的语法规则约束，掌握了语义的形式化规则——语法，则可以利用少量的存储应对复杂的场景，机器学习是显式或者隐式寻找复杂场景隐藏规则的过程，通过模型的方式表现出来。

专家系统第一目标是完备性，即系统规则是无矛盾的。机器学习模型的第一目标是泛化性能，模型能完成更多空间样本的决策分类。

基于规则的专家系统为硬规则系统，规则在系统内表现为知识，专家系统可以表示为机器学习模型的最终表现形式。尽管规则的推广性不可能无限制增加，总有处理不了的新目标，这也是知识获取的来源——数据受限制决定的，并不能说明规则是错误的，可以通过规则细分化——决策树分裂来完成。

专家系统的规则面对新目标失效时，可以通过反馈重构规则，完成规则系统的完备性，对应在机器学习领域表现为“在线机器学习”，其同态映射为“在线决策树”算法。

算法的扩展性是机器学习算法性能衡量标准之一，机器学习算法遵循样本->新场景中实例确定因果关联。根据已知中间模型的类型和步骤不同，划分为多种。“可扩展性”、“泛化性能” 在数学系统的同态映射为函数的值域可拓延性范围，

ANN方法族：若样本-> 模型 ->新场景中实例确定模型为黑箱，则其代表为可能为神经网络，神经网络是使用参数描述模型的代表，甚至不用知道参数的意义也可以得到好的结果，这种使用结构来替代“决策”这种智能的描述值得追求吗？

概率描述方法族：若样本-> 模型 ->新场景中实例确定模型为先验概率和后验概率的关系，此种方法为朴素贝叶斯，朴素贝叶斯使用结果和规则来推测原因，利用数字化“可能性”来描述规则，必然有一定的错误率，这也是其他一切模型所能达到正确率的极限了。

决策树方法族：若样本-> 模型 ->新场景中实例确定模型为bool逻辑规则的附加，此种方法为决策树方法。决策树运用 “And”运算，对特征进行优先级分层建立树状结构，利用“And”运算完成从根部开始到叶子的递推，完成决策过程。决策树方法必然会出现过拟合现象，其泛化性能受样本拓扑分布特征约束明显，由于其分裂特性，决策空间划分为块状，其不同父类叶子间的分类面不相关。

　　一般映射方法族：若样本-> 模型 ->新场景中实例确定模型表现为连续函数，则需要拟合，方法有线性回归等。

近邻查询方法族：直接从分类的相似性要求开始，在整个模型的构建过程中，近邻性要求贯穿始终。

组合模型方法族：强化思想和泛化思想引发了两类不同的组合分了器，Boosting和Bag方法，一个主要使用增强用于提高模型的精度，一个主要用于保证模型的泛化性能。

下面的分类不是很规则，如有疑问，请自行排疑.

概率描述方法族

一. NaiveBayes朴素贝叶斯：

　　有以下几个地方需要注意：

　　1. 如果给出的特征向量长度可能不同，这是需要归一化为通长度的向量（这里以文本分类为例），比如说是句子单词的话，则长度为整个词汇量的长度，对应位置是该单词出现的次数。

　　2. 计算公式如下：

　　其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法，而由朴素贝叶斯的前提假设可知，

= ，

因此一般有两种，一种是在类别为ci的那些样本集中，找到wj出现次数的总和，然后除以该样本的总和；第二种方法是类别为ci的那些样本集中，找到wj出现次数的总和，然后除以该样本中所有特征出现次数的总和。

　　3. 如果中的某一项为0，则其联合概率的乘积也可能为0，即2中公式的分子为0，为了避免这种现象出现，一般情况下会将这一项初始化为1，当然为了保证概率相等，分母应对应初始化为2（这里因为是2类，所以加2，如果是k类就需要加k，术语上叫做laplace光滑, 分母加k的原因是使之满足全概率公式）。

　　朴素贝叶斯的优点：

　　对小规模的数据表现很好，适合多分类任务，适合增量式训练。

　　缺点：

　　对输入数据的表达形式很敏感。

后记：

　　贝叶斯方法是已知后验概率，收集条件概率，求取模型的先验分布的方法。

决策树方法族

二.决策树：

　　决策树中很重要的一点就是选择一个属性进行分枝，因此要注意一下信息增益的计算公式，并深入理解它。

　　信息熵的计算公式如下:

　　其中的n代表有n个分类类别（比如假设是2类问题，那么n=2）。分别计算这2类样本在总样本中出现的概率p1和p2，这样就可以计算出未选中属性分枝前的信息熵。

　　现在选中一个属性xi用来进行分枝，此时分枝规则是：如果xi=vx的话，将样本分到树的一个分支；如果不相等则进入另一个分支。很显然，分支中的样本很有可能包括2个类别，分别计算这2个分支的熵H1和H2,计算出分枝后的总信息熵H’=p1*H1+p2*H2.，则此时的信息增益ΔH=H-H’。以信息增益为原则，把所有的属性都测试一边，选择一个使增益最大的属性作为本次分枝属性。

　　决策树的优点：

　　计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征；

　　缺点：

　　决策树具有强表达性，因此容易过拟合，一般降低过拟合的方法为剪枝，类似于正则化，又分为后剪枝和预剪枝两种方法（后续出现了随机森林，使用随机性来保证繁华性能，减小了过拟合现象）；

一般函数映射方法族

三.Logistic回归：

　　Logistic是用来分类的，是一种线性分类器，需要注意的地方有：

　　1. logistic函数表达式为：

　　其导数形式为：

　　2. logsitc回归方法主要是用最大似然估计来学习的，所以单个样本的后验概率为：

　　到整个样本的后验概率：

　　其中：

　　通过对数进一步化简为：

　　3. 其实它的loss function为-l(θ)，因此我们需使loss function最小，可采用梯度下降法得到。梯度下降法公式为:

　　Logistic回归优点：

　　1、实现简单；

　　2、分类时计算量非常小，速度很快，存储资源低；

　　缺点：

　　1、参数过少，容易欠拟合，一般准确度不太高。

　　2、只能处理两分类问题（在此基础上衍生出来的softmax可以用于多分类），且必须线性可分；

一般函数映射方法族

四.线性回归：

　　线性回归才是真正用于回归的，而不像logistic回归是用于分类，其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化，当然也可以用normal equation直接求得参数的解。

结果为：

　　而在LWLR（局部加权线性回归）中，参数的计算表达式为:

　　因为此时优化的是：

　　由此可见LWLR与LR不同，LWLR是一个非参数模型，因为每次进行回归计算都要遍历训练样本至少一次。

　　线性回归优点：

　　实现简单，计算简单；

　　缺点：

　　不能拟合非线性数据；

近邻方法族

五.KNN算法：

　　KNN即最近邻算法，其主要过程为：

　　1. 计算训练样本和测试样本中每个样本点的距离（常见的距离度量有欧式距离，马氏距离等）；

　　2. 对上面所有的距离值进行排序；

　　3. 选前k个最小距离的样本；

　　4. 根据这k个样本的标签进行投票，得到最后的分类类别；

　　如何选择一个最佳的K值，这取决于数据。一般情况下，在分类时较大的K值能够减小噪声的影响。但会使类别之间的界限变得模糊。一个较好的K值可通过各种启发式技术来获取，比如，交叉验证。另外噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。

　　近邻算法具有较强的一致性结果。随着数据趋于无限，算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值，K近邻保证错误率不会超过贝叶斯理论误差率。

　　注：马氏距离一定要先给出样本集的统计性质，比如均值向量，协方差矩阵等。关于马氏距离的介绍如下：

　　KNN算法的优点：

　　1. 思想简单，理论成熟，既可以用来做分类也可以用来做回归；

　　2. 可用于非线性分类；

　　3. 训练时间复杂度为O(n)；

　　4. 准确度高，对数据没有假设，对outlier不敏感；

　　缺点：

　　1. 计算量大；

　　2. 样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；

　　3. 需要大量的内存；

近邻搜索方法族

六.SVM：

　　要学会如何使用libsvm以及一些参数的调节经验，另外需要理清楚svm算法的一些思路：

　　1. svm中的最优分类面是对所有样本的几何裕量最大（为什么要选择最大间隔分类器，请从数学角度上说明？网易深度学习岗位面试过程中有被问到。答案就是几何间隔与样本的误分次数间存在关系：，其中的分母就是样本到分类间隔距离，分子中的R是所有样本中的最长向量值），即：

　　经过一系列推导可得为优化下面原始目标：

　　2. 下面来看看拉格朗日理论：

　　可以将1中的优化目标转换为拉格朗日的形式（通过各种对偶优化，KKD条件），最后目标函数为：

　　我们只需要最小化上述目标函数，其中的α为原始优化问题中的不等式约束拉格朗日系数。

　　3. 对2中最后的式子分别w和b求导可得：

　　由上面第1式子可以知道，如果我们优化出了α，则直接可以求出w了，即模型的参数搞定。而上面第2个式子可以作为后续优化的一个约束条件。

　　4. 对2中最后一个目标函数用对偶优化理论可以转换为优化下面的目标函数：

　　而这个函数可以用常用的优化方法求得α，进而求得w和b。

　　5. 按照道理，svm简单理论应该到此结束。不过还是要补充一点，即在预测时有：

　　那个尖括号我们可以用核函数代替，这也是svm经常和核函数扯在一起的原因。

　　6. 最后是关于松弛变量的引入，因此原始的目标优化公式为：

　　此时对应的对偶优化公式为：

　　与前面的相比只是α多了个上界。

　　SVM算法优点：

　　~~#相对于KNN，SVM只保存少数支持向量，且是保存的高维空间的支持向量。~~

可用于线性/非线性分类，也可以用于回归；

　　相当于剪枝，低泛化误差；

　　支持向量的近邻特性，容易解释；

　　只保留少量的支持向量，计算复杂度较低；

　　缺点：

　　对参数和核函数的选择比较敏感；

　　优化方法决定SVM本质上是一个二分类器，原始的SVM只比较擅长处理二分类问题；

组合模型方法族

七.Boosting：

　　主要以Adaboost为例，首先来看看Adaboost的流程图，如下：

　　从图中可以看到，在训练过程中我们需要训练出多个弱分类器（图中为3个），每个弱分类器是由不同权重的样本（图中为5个训练样本）训练得到（其中第一个弱分类器对应输入样本的权值是一样的），而每个弱分类器对最终分类结果的作用也不同，是通过加权平均输出的，权值见上图中三角形里面的数值。那么这些弱分类器和其对应的权值是怎样训练出来的呢？

　　下面通过一个例子来简单说明。

　　书中（machinelearning in action）假设的是5个训练样本，每个训练样本的维度为2，在训练第一个分类器时5个样本的权重各为0.2.注意这里样本的权值和最终训练的弱分类器组对应的权值α是不同的，样本的权重只在训练过程中用到，而α在训练过程和测试过程都有用到。

　　现在假设弱分类器是带一个节点的简单决策树，该决策树会选择2个属性（假设只有2个属性）的一个，然后计算出这个属性中的最佳值用来分类。

　　Adaboost的简单版本训练过程如下：

　　1. 训练第一个分类器，样本的权值D为相同的均值。通过一个弱分类器，得到这5个样本（请对应书中的例子来看，依旧是machine learning in action）的分类预测标签。与给出的样本真实标签对比，就可能出现误差(即错误)。如果某个样本预测错误，则它对应的错误值为该样本的权重，如果分类正确，则错误值为0. 最后累加5个样本的错误率之和，记为ε。

　　2. 通过ε来计算该弱分类器的权重α，公式如下：

　　3. 通过α来计算训练下一个弱分类器样本的权重D，如果对应样本分类正确，则减小该样本的权重，公式为：

　　如果样本分类错误，则增加该样本的权重，公式为：

　　4. 循环步骤1,2,3来继续训练多个分类器，只是其D值不同而已。

　　测试过程如下：

　　输入一个样本到训练好的每个弱分类中，则每个弱分类都对应一个输出标签，然后该标签乘以对应的α，最后求和得到值的符号即为预测标签值。

　　Boosting算法的优点：

　　低泛化误差；

　　容易实现，分类准确率较高，没有太多参数可以调；

　　缺点：

　　Boosting方法的进阶训练过程中，着重强调了负样本的效用。对外表现为，模型对outlier比较敏感；

~~八.聚类：~~

　　~~根据聚类思想划分：~~

　　~~1. 基于划分的聚类:~~

　　~~K-means, k-medoids(每一个类别中找一个样本点来代表),CLARANS.~~

　　~~k-means是使下面的表达式值最小：~~

　　 ~~k-means算法的优点：~~

　　~~（1）k-means算法是解决聚类问题的一种经典算法，算法简单、快速。~~

　　~~（2）对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是O(nkt)，其中n是所有对象的数目，k是簇的数目,t是迭代的次数。通常k<~~

　　~~（3）算法尝试找出使平方误差函数值最小的k个划分。当簇是密集的、球状或团状的，且簇与簇之间区别明显时，聚类效果较好。~~

　　 ~~缺点：~~

　　~~（1）k-平均方法只有在簇的平均值被定义的情况下才能使用，且对有些分类属性的数据不适合。~~

　　~~（2）要求用户必须事先给出要生成的簇的数目k。~~

　　~~（3）对初值敏感，对于不同的初始值，可能会导致不同的聚类结果。~~

　　~~（4）不适合于发现非凸面形状的簇，或者大小差别很大的簇。~~

　　~~（5）对于"噪声"和孤立点数据敏感，少量的该类数据能够对平均值产生极大影响。~~

　　~~2. 基于层次的聚类：~~

　　~~自底向上的凝聚方法，比如AGNES。~~

　　~~自上向下的分裂方法，比如DIANA。~~

　　~~3. 基于密度的聚类：~~

　　~~DBSACN,OPTICS,BIRCH(CF-Tree),CURE.~~

　　~~4. 基于网格的方法：~~

　　~~STING, WaveCluster.~~

　　~~5. 基于模型的聚类：~~

　　~~EM,SOM,COBWEB.~~

　　~~以上这些算法的简介可参考聚类（百度百科）。~~

~~九.推荐系统：~~

　　推荐系统的实现主要分为两个方面：基于内容的实现和协同滤波的实现。

　　~~基于内容的实现：~~

　　不同人对不同电影的评分这个例子，可以看做是一个普通的回归问题，因此每部电影都需要提前提取出一个特征向量(即x值)，然后针对每个用户建模，即每个用户打的分值作为y值，利用这些已有的分值y和电影特征值x就可以训练回归模型了(最常见的就是线性回归)。这样就可以预测那些用户没有评分的电影的分数。（值得注意的是需对每个用户都建立他自己的回归模型）

　　从另一个角度来看，也可以是先给定每个用户对某种电影的喜好程度（即权值），然后学出每部电影的特征，最后采用回归来预测那些没有被评分的电影。

　　~~当然还可以是同时优化得到每个用户对不同类型电影的热爱程度以及每部电影的特征。具体可以参考Ng在coursera上的ml教程：https://www.coursera.org/course/ml~~

　　~~基于协同滤波的实现：~~

　　协同滤波（CF）可以看做是一个分类问题，也可以看做是矩阵分解问题。协同滤波主要是基于每个人自己的喜好都类似这一特征，它不依赖于个人的基本信息。比如刚刚那个电影评分的例子中，预测那些没有被评分的电影的分数只依赖于已经打分的那些分数，并不需要去学习那些电影的特征。

　　~~SVD将矩阵分解为三个矩阵的乘积，公式如下所示：~~

　　中间的矩阵sigma为对角矩阵，对角元素的值为Data矩阵的奇异值(注意奇异值和特征值是不同的)，且已经从大到小排列好了。即使去掉特征值小的那些特征，依然可以很好的重构出原始矩阵。如下图所示：

　　~~其中更深的颜色代表去掉小特征值重构时的三个矩阵。~~

　　果m代表商品的个数，n代表用户的个数，则U矩阵的每一行代表商品的属性，现在通过降维U矩阵（取深色部分）后，每一个商品的属性可以用更低的维度表示（假设为k维）。这样当新来一个用户的商品推荐向量X，则可以根据公式X'*U1*inv(S1)得到一个k维的向量，然后在V’中寻找最相似的那一个用户（相似度测量可用余弦公式等），根据这个用户的评分来推荐（主要是推荐新用户未打分的那些商品）。具体例子可以参考网页：SVD在推荐系统中的应用。

　　另外关于SVD分解后每个矩阵的实际含义可以参考google吴军的《数学之美》一书（不过个人感觉吴军解释UV两个矩阵时好像弄反了，不知道大家怎样认为）。或者参考machinelearning in action其中的svd章节。

~~十.pLSA:~~

　　~~pLSA由LSA发展过来，而早期~~LSA的实现主要是通过SVD分解。pLSA的模型图如下：

　　公式中的意义如下：

　　具体可以参考2010龙星计划：机器学习中对应的主题模型那一讲

十一、LDA：

　　主题模型，概率图如下：

　　和pLSA不同的是LDA中假设了很多先验分布，且一般参数的先验分布都假设为Dirichlet分布，其原因是共轭分布时先验概率和后验概率的形式相同。

组合模型方法

　　GDBT：

　　GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，好像在阿里内部用得比较多（所以阿里算法岗位面试时可能会问到），它是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的输出结果累加起来就是最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。

　　GBDT是回归树，不是分类树。其核心就在于，每一棵树是从之前所有树的残差中来学习的。~~为了防止过拟合，和Adaboosting一样，也加入了boosting这一项~~。这种学习方法即包含了Boosting的基本思想。

　　关于GDBT的介绍可以可以参考：GBDT（MART）迭代决策树入门教程 | 简介。

正则化，用于剪枝降低过拟合

　　~~Regularization:~~

　　作用是（网易电话面试时有问到）：

　　1. 数值上更容易求解；

　　2. 特征数目太大时更稳定；

　　3. 控制模型的复杂度，光滑性。复杂性越小且越光滑的目标函数泛化能力越强。而加入规则项能使目标函数复杂度减小，且更光滑。

　　4. 减小参数空间；参数空间越小，复杂度越低。

　　5. 系数越小，模型越简单，而模型越简单则泛化能力越强（Ng宏观上给出的解释）。

　　6. 可以看出是权值的高斯先验。

　　~~异常检测：~~

　　可以估计样本的密度函数，对于新样本直接计算其密度，如果密度值小于某一阈值，则表示该样本异常。而密度函数一般采用多维的高斯分布。如果样本有n维，则每一维的特征都可以看作是符合高斯分布的，即使这些特征可视化出来不太符合高斯分布，也可以对该特征进行数学转换让其看起来像高斯分布，比如说x=log(x+c),x=x^(1/c)等。异常检测的算法流程如下：

　　其中的ε也是通过交叉验证得到的，也就是说在进行异常检测时，前面的p(x)的学习是用的无监督，后面的参数ε学习是用的有监督。那么为什么不全部使用普通有监督的方法来学习呢（即把它看做是一个普通的二分类问题）？主要是因为在异常检测中，异常的样本数量非常少而正常样本数量非常多，因此不足以学习到好的异常行为模型的参数，因为后面新来的异常样本可能完全是与训练样本中的模式不同。

　　另外，上面是将特征的每一维看成是相互独立的高斯分布，其实这样的近似并不是最好的，但是它的计算量较小，因此也常被使用。更好的方法应该是将特征拟合成多维高斯分布，这时有特征之间的相关性，但随之计算量会变复杂，且样本的协方差矩阵还可能出现不可逆的情况（主要在样本数比特征数小，或者样本特征维数之间有线性关系时）。

　　上面的内容可以参考Ng的https://www.coursera.org/course/ml

　　~~EM算法：~~

　　有时候因为样本的产生和隐含变量有关（隐含变量是不能观察的），而求模型的参数时一般采用最大似然估计，由于含有了隐含变量，所以对似然函数参数求导是求不出来的，这时可以采用EM算法来求模型的参数的（对应模型参数个数可能有多个），EM算法一般分为2步：

　　~~E步：选取一组参数，求出在该参数下隐含变量的条件概率值；~~

　　~~M步：结合E步求出的隐含变量条件概率，求出似然函数下界函数（本质上是某个期望函数）的最大值。~~

　　~~重复上面2步直至收敛。~~

　　~~公式如下所示：~~

　　~~M步公式中下界函数的推导过程：~~

　　EM算法一个常见的例子就是GMM模型，每个样本都有可能由k个高斯产生，只不过由每个高斯产生的概率不同而已，因此每个样本都有对应的高斯分布（k个中的某一个），此时的隐含变量就是每个样本对应的某个高斯分布。

　　~~GMM的E步公式如下（计算每个样本对应每个高斯的概率）：~~

　　~~更具体的计算公式为：~~

　　~~M步公式如下（计算每个高斯的比重，均值，方差这3个参数）：~~

　　~~关于EM算法可以参考Ng的cs229课程资料或者网易公开课：斯坦福大学公开课：机器学习课程。~~

关联模式分析

　　~~Apriori:~~

　　Apriori是关联分析中比较早的一种方法，主要用来挖掘那些频繁项集合。其思想是：

　　1. 如果一个项目集合不是频繁集合，那么任何包含它的项目集合也一定不是频繁集合；

　　2. 如果一个项目集合是频繁集合，那么它的任何非空子集也是频繁集合；

　　Aprioir需要扫描项目表多遍，从一个项目开始扫描，舍去掉那些不是频繁的项目，得到的集合称为L，然后对L中的每个元素进行自组合，生成比上次扫描多一个项目的集合，该集合称为C，接着又扫描去掉那些非频繁的项目，重复…

　　看下面这个例子：

　　元素项目表格：

　　如果每个步骤不去掉非频繁项目集，则其扫描过程的树形结构如下：

　　在其中某个过程中，可能出现非频繁的项目集，将其去掉（用阴影表示）为：

　　上面的内容主要参考的是machinelearning in action这本书。

关联模式分析方法

　　~~FP Growth:~~

　　FPGrowth是一种比Apriori更高效的频繁项挖掘方法，它只需要扫描项目表2次。其中第1次扫描获得当个项目的频率，去掉不符合支持度要求的项，并对剩下的项排序。第2遍扫描是建立一颗FP-Tree(frequent-pattentree)。

　　接下来的工作就是在FP-Tree上进行挖掘。

　　比如说有下表：

　　它所对应的FP_Tree如下：

　　然后从频率最小的单项P开始，找出P的条件模式基，用构造FP_Tree同样的方法来构造P的条件模式基的FP_Tree，在这棵树上找出包含P的频繁项集。

　　依次从m,b,a,c,f的条件模式基上挖掘频繁项集，有些项需要递归的去挖掘，比较麻烦，比如m节点，具体的过程可以参考博客：Frequent Pattern 挖掘之二(FP Growth算法)，里面讲得很详细。

此种树的详细编写过程可以参考书籍《机器学习实践指南》，给出了完整的Python版本。

　　参考资料：

　 Harrington, P. (2012). Machine Learningin Action, Manning Publications Co.

最近邻算法（维基百科）

马氏距离（维基百科）

　聚类（百度百科）

https://www.coursera.org/course/ml

SVD在推荐系统中的应用

吴军 and 谷歌 (2012).数学之美, 人民邮电出版社.

2010龙星计划：机器学习对应的视频教程：2010龙星计划机器学习视频教程

GBDT（MART）迭代决策树入门教程 | 简介

Ng的cs229课程资料

斯坦福大学公开课：机器学习课程

Frequent Pattern 挖掘之二(FP Growth算法)

你可能感兴趣的:(MLandPy,AI/ES,图像检索)

深入理解 SemaphoreSlim 在.NET Core API 开发中的应用爱吃香蕉的阿豪 .net core SemaphoreSlim 线程并发控制
目录什么是SemaphoreSlimSemaphoreSlim的核心方法构造函数等待方法释放方法基本使用模式同步使用模式异步使用模式（推荐在API中使用）在Web开发中的常见用途1.限制API接口的并发请求数2.保护共享资源的并发访问3.控制外部服务的调用频率4.实现分布式锁的本地补充注意事项与最佳实践1.确保正确释放信号量2.合理设置信号量的生命周期3.避免过度限制并发4.注意异步操作中的取消机
解密 Python 的 MRO：C3 线性化如何优雅解决多重继承的菱形难题》
《解密Python的MRO：C3线性化如何优雅解决多重继承的菱形难题》引言：继承的优雅与复杂在Python的面向对象编程中，继承是一种强大的机制，它让我们能够复用代码、构建抽象层次、实现多态行为。然而，当我们引入多重继承时，继承体系的复杂性也随之而来，尤其是著名的“菱形继承问题”。Python通过一种称为C3线性化（C3Linearization）的算法来解决方法解析顺序（MethodResolu
ASP.NET Core MVC Redis 缓存应用郑小晨 .NET Redis ASP.NET Core 缓存
环境：ASP.NETCoreMVC，Redis-Win-x64-3.2.100本文介绍在ASP.NETCoreMVC中怎么用Redis缓存数据。1、启动Redis服务器，就是让我们的Redis跑起来，具体参照https://blog.csdn.net/u012835032/article/details/115438693。2、要在ASP.NETCoreMVC中用Redis需要做什么？参考http
放手爱吧，哪怕只有一天 Ahomelesskitten
在家里闲来无事，看了《beforesunrise》和《beforesunset》。两部电影的主演，导演，编剧都是同一批人，拍摄时间却相隔九年。电影的中文翻译时《爱在黎明破晓前》和《爱在落日余辉时》。中文的意境很悠远，一语道破，使原本稀松平常的片名有了别致的感觉。beforesunrise，beforesunset爱在黎明破晓前，爱在落日余辉时1995年，2004年。1995年的一个傍晚，列车上，他
当直播间告别“真人时代”：AI数字人重构商业新秩序数字人直播源码部署人工智能
在直播行业竞争日益激烈的今天，不少商家和企业都陷入了真人主播带来的重重困境。高昂的人力成本、难以协调的直播时间、主播状态不稳定导致的直播效果参差不齐……这些问题如同沉重的枷锁，阻碍着直播业务的发展。而如今，AI数字人直播横空出世，正以全新的姿态，为行业带来前所未有的变革，引领直播走向新方向。01真人主播的困境：成本高、风险大、管理难聘请一位优质的真人主播，需要支付高额的薪资、分成，还要投入大量资源
.net core session 存储到redis缓存数据库
1.Startup.cs文件ConfigureServices方法加入以下代码#region使用Redis保存SessionvarredisConn=Configuration["WebConfig:Redis:Connection"];varredisInstanceName=Configuration["WebConfig:Redis:InstanceName"];//Session过期时长分
【ASP.NET Core】内存缓存（MemoryCache）原理、应用及常见问题解析 ArabySide #ASP.NET Core asp.net 缓存后端 asp.net core c#
系列文章目录链接:【ASP.NETCore】REST与RESTful详解，从理论到实现链接:【ASP.NETCore】深入理解Controller的工作机制文章目录系列文章目录前言一、ASP.NETCore中的内存缓存——MemoryCache1.1内存缓存的结构1.2MemoryCache的注册1.3MemoryCache的配置项1.3.1缓存时间的过期策略1.3.2缓存的优先级1.4Memor
HoRain云--Docker容器迁移全攻略：4种方法详解与实战避坑指南 HoRain云小助手 arm开发
HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网
【ASP.NET Core】ASP.NET Core中Redis分布式缓存的应用 ArabySide #.NET Core Redis 缓存 redis 分布式缓存 asp.net asp.net core
系列文章目录链接:【ASP.NETCore】REST与RESTful详解，从理论到实现链接:【ASP.NETCore】深入理解Controller的工作机制链接:【ASP.NETCore】内存缓存（MemoryCache）原理、应用及常见问题解析文章目录系列文章目录前言一、Redis1.1Redis简介1.2常用数据结构1.3Redis的持久化1.3.1RDB1.3.2AOF1.4常用应用场景1.
Linux测速脚本 ljwheyxy
Linux服务器测速脚本：第一步：wgethttps://raw.githubusercontent.com/sivel/speedtest-cli/master/speedtest.py第二步：chmoda+rxspeedtest.py第三步：sudomvspeedtest.py/usr/local/bin/speedtest第四步：sudochownroot:root/usr/local/bi
学习笔记-C语言：数组+字符串函数一只高傲的鹤 C语言学习笔记学习 c语言开发语言
一维数组1.定义数组：变量名称[元素数量]inta[34]floatb[30]C99之前:元素数量必须是编译时刻确定的字面量，示例如下#includeintmain(){intn,i;//元素n为变量printf("请输入字符串的个数：");scanf("%d",&n);chara[n+1];a[n]='\0';printf("请开始输入字符串：");getchar();for(i=0;iintm
conda安装geemap Prophet.Z geemap GEE conda python 深度学习
打个卡，开始学习使用geemap网址：http://geemap.org/installation/conda安装geemap：打开Anacondaprompt终端，输入：condainstallgeemap-cconda-forge吴秋生老师建议创建一个新的conda环境来安装geemap。安装以下命令设置condaenv并按照geemap和pygis，其中包括geemap的所有可选的安装包。c
DA FMC子卡设计资料yuanlit：FMCJ456-基于JESD204B的2路3GspsAD 2路3Gsps DA FMC子卡
DAFMC子卡设计资料yuanlit：FMCJ456-基于JESD204B的2路3GspsAD2路3GspsDAFMC子卡一、板卡概述该子卡是高速AD9172DAC和AD9208ADC的FMC板。北京太速科技为客户提供高达2GHz的可用模拟带宽以及JESD204B接口，以快速地对各种宽带RF应用进行原型制作。包括1片AD芯片AD9208，片内双通道、14位、3GSPS模数转换。该模数转换器进行1G
FMC 子卡：2 通道 16bit 12G DA 播放 F_white 视频与图像采集处理雷达系统半实物仿真数据中心
FMC132是一款2通道12GSPS采样率16位DA播放FMC子卡模块，该板卡为FMC+标准，符合VITA57.4规范，可以作为一个理想的IO模块耦合至FPGA前端，8通道的JESD204B接口通FMC+连接器连接至FPGA的高速串行端口GTH。板卡支持板上可编程采样时钟和外部参考时钟，多片板卡还可以通过触发（输入/输出）信号进行输出同步，该板卡2路模拟信号输出通过50Ω特征阻抗的SSMC射频连接
2023年NOC大赛创客智慧编程赛项Python 复赛模拟题（二）青少儿编程课堂少儿编程资料大全付费专栏 python numpy 开发语言 noc大赛真题 noc试题
题目来自：NOC大赛创客智慧编程赛项Python复赛模拟题(二)NOC大赛创客智慧编程赛项Python复赛模拟题（二）第一题：编写一个成绩评价系统，当输入语文、数学和英语三门课程成绩时，输出三门课程总成绩及其等级。(1)程序提示用户输入三个数字，数字分别表示语文、数学、英语分数，对应的变量名称是Chinese、Math、English,并计算三个分数的和(score)进行输出。注：input()函
基于定制开发开源AI智能名片S2B2C商城小程序源码的搜索框个性化推荐机制研究
摘要：本文聚焦于定制开发开源AI智能名片S2B2C商城小程序源码场景下的搜索框个性化推荐机制。通过分析搜索框作为信息流槽位的产品形态特性，结合开源AI大模型与S2B2C模式的技术融合优势，提出基于用户强兴趣/即时兴趣的动态推荐策略。研究揭示了定制化开发在破解传统搜索框静态局限中的关键作用，并通过实证案例验证了该机制对提升用户转化率与平台GMV的显著效果，为新零售场景下的智能推荐系统设计提供了理论依
蒙牛社交电商的升级路径研究：基于开源链动2+1模式、AI智能名片与S2B2C商城小程序源码的融合创新
摘要：本文以蒙牛社交电商为研究对象，探讨传统微商向健康管理型社交电商平台升级的核心路径。通过分析蒙牛推出的慢燃、凝纯、益SHOW等大健康产品矩阵，结合开源链动2+1模式的裂变机制、AI智能名片的精准推荐能力及S2B2C商城小程序源码的供应链整合优势，揭示其如何通过技术赋能实现用户增长、供应链优化与用户体验升级。实证表明，该模式使蒙牛社交电商用户规模增长320%，私域客单价提升65%，为传统企业数字
【免费下载】 LabVIEW 2019 百度网盘安装教程
LabVIEW2019百度网盘安装教程【下载地址】LabVIEW2019百度网盘安装教程分享LabVIEW2019百度网盘安装教程本资源文件提供了LabVIEW2019的百度网盘安装教程，帮助用户轻松完成LabVIEW2019的安装过程项目地址:https://gitcode.com/Resource-Bundle-Collection/3164d本资源文件提供了LabVIEW2019的百度网盘安
每日一题7.22
P10450[USACO03MAR]BestCowFencesG-洛谷题目描述原题来自：USACO2003Mar.Green给定一个长度为n的非负整数序列A，求一个平均数最大的，长度不小于L的子段。输入格式第一行用空格分隔的两个整数n和L；第二行为n个用空格隔开的非负整数，表示Ai。输出格式输出一个整数，表示这个平均数的1000倍。不用四舍五入，直接输出。输入输出样例输入#1复制106642103
每日一题7.22 渣呵每日一题算法
P10451InnovativeBusiness-洛谷题目描述有N个元素，编号1,2,…,N，每一对元素之间的大小关系是确定的，关系具有反对称性，但不具有传递性。注意：不存在两个元素大小相等的情况。也就是说，元素的大小关系是N个点与2N×(N−1)条有向边构成的任意有向图。然而，这是一道交互式试题，这些关系不能一次性得知，你必须通过不超过10000次提问来获取信息，每次提问只能了解某两个元素之间的
每日一题7.2 渣呵每日一题图论算法 c++
P2863[USACO06JAN]TheCowPromS-洛谷算是一个tarjan的板子题#include#include#include#includeusingnamespacestd;constintN=1e4+5;intdfn[N],low[N],s[N],belong[N];vectorg[N];intcnt,top,num,ans,flag;boolins[N];voidtarjan(
运营商级对接方案：FreeSWITCH+IMS的网关健康监控与负载均衡实践 derek2026 部署实践服务器运维信息与通信
运营商级对接方案：FreeSWITCH+IMS的网关健康监控与负载均衡实践一、功能概述在对接运营商IMS系统的过程中，通常会提供多个信令地址以实现高可用性。本文档描述了如何在FreeSWITCH中配置两个SIP网关地址，实现以下功能：负载均衡：外呼时自动轮询使用两个SIP网关地址。健康检查：系统自动检测SIP网关是否可用。故障剔除：自动跳过当前不可用的SIP网关，仅使用健康状态的地址进行外呼。二、
【重磅】瑞数信息蝉联IDC中国AI赋能私有云WAF市场份额Top2！科技云报道人工智能
近日，国际数据公司IDC正式发布《IDC中国AI赋能的Web应用防火墙硬件市场份额，2024：合规需求带动市场反弹，LLM-WAF成为未来市场新增量》和《IDC中国AI赋能的云Web应用防火墙市场份额，2024：大模型全行业渗透，LLM-WAF带来市场新增量》系列报告。报告针对2024年中国Web应用防火墙市场的规模、增长速度、主要玩家、市场与技术的发展趋势等内容进行了详细研究。报告显示，2024
618风控战升级，瑞数信息“动态安全+AI”利剑出鞘科技云报道安全人工智能
每年的618电商促销季，都是各大电商平台和商家的兵家必争之地。数以亿计的消费者涌入线上平台，期待已久的优惠券、秒杀商品如潮水般涌现，海量交易在瞬间达成，无疑是一场商业狂欢。然而，在这场狂欢背后，自动化程序以毫秒级速度疯狂扫货囤积优惠券；AI驱动的拟人化攻击绕过传统规则引擎，以每秒数十万次的恶意请求冲击服务器；恶意API调用窥探用户数据，欺诈交易如影随形，这些隐形威胁正蚕食着电商生态的安全根基。面对
linux正则提取字符串,正则表达式 – shell脚本如何使用正则表达式提取字符串... weixin_39747577 linux正则提取字符串
使用bashregularexpressions：re="http://([^/]+)/"if[[$name=~$re]];thenecho${BASH_REMATCH[1]};fi编辑–OP要求解释语法。Regularexpressionsyntax是一个很大的话题，我无法在这里全面解释，但我会尝试解释足够的理解这个例子。re="http://([^/]+)/"这是存储在bash变量中的正则表达
linux git 命令补全,linux命令自动补全工具bash-completion，自动补全git、Docker、kubenetes等命令...
什么是命令自动补全在Linux命令行中，当输入字符后，按Tab键，Shell就会列出以这些字符开头的所有可用命令，如果只有一个命令匹配到，按一次Tab键就自动将这个命令补全。如果输入pass，此时按Tab键，因为以pass开头的命令只有passwd这个命令，Shell就会自动补全passwd命令。另外如果输入的字符匹配多个命令则会列出所有可用的命令，比如，如果输入do，此时按Tab键Shell就会
5minites Echarts 大地缸
title:"5minitesEcharts"date:2021-01-27T20:33:42+08:00draft:truetags:['echarts']author:"dadigang"author_cn:"大地缸"personal:"http://www.real007.cn"关于作者http://www.real007.cn/about获取ECharts你可以通过以下几种方式获取Apac
Java 原生 HTTP Client en-route 微服务之间如何调用 java http 开发语言
介绍Java原生HttpClient是从Java11开始引入的标准库，用于简化HTTP请求的发送与响应处理。它支持同步和异步请求，并内置对HTTP/1.1和HTTP/2协议的支持。HttpClient提供了易用的API来设置请求头、请求体、处理响应以及配置SSL/TLS加密等安全功能。一个简单的例子发送GET请求并将打印ResponseHttpClientclient=HttpClient.new
spring security 3 auto-config=“true”
springsecurity3设置auto-config=true时，会配置十个默认过滤器SecurityContextPersistenceFilterLogoutFilterUsernamePasswordAuthenticationFilterBasicAuthenticationFilterRequestCacheAwareFilterSecurityContextHolderAwareR
重塑未来：AI如何重新定义全栈开发熊猫钓鱼>_> 人工智能
在传统认知中，全栈开发者被誉为技术界的“全能选手”。——他们需要精通前端界面构建（HTML/CSS/JavaScript）、后端业务逻辑实现（Python/Java/Node.js）、数据库设计优化（MySQL/MongoDB）以及服务器部署运维（Linux/Docker）。这种“一人包打天下”的能力模型长期被视为高效开发的黄金标准，尤其受到创业公司和小型团队的青睐，因为它能大幅减少沟通成本，加速
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe