u010454729

TREE KERNELS IN SVM-LIGHT---在svm-light中树核的使用（翻译）

preface：树核是一个计算相似度比较强大的工具。在nlp领域里面对句子的语义分析，解析出句法分析树，通过比较树的结构，对比不同句子的相似度等等，可以应用到很多方面。其中树核早就在svm-light这个强大的工具里面实现了，只需要将需要的句子的语义解析树作为输入，就能对任务进行分类，可以应用于多类nlp任务中。

#转载请注明：无限大地nlp_空木--在svm-light中树核的使用

Tree kernels in svm-light原文的介绍也比较详细（百度svm tk即可），卤煮这里也是根据自己的理解稍微记录点东西。

#===============================================================#

树核在svm-light中的使用

svm-light-tk版本1.2(特征向量集合和树林)

by Alessandro Moschitti

在自然语言处理领域里面，句法解析树是最有用的工具之一。然而，如何在NLP任务里面使用语义解析树是一个值得考虑的开放问题。例如，学习自动句法消歧模型，或者指代消解模型，用语义树特征将很有用，但是句法解析树的设计和选择并不容易。

卷积核（参考核在NLP领域的哲学）特征可以代替一般明显的特征。卷积核用于计算两个语法树的子结构之间的相似性（参考Collins and Duffy在2002年发表的论文）。这些方法在谓语参数分类任务中对句法信息的处理得到最优结果。

假设我们想计算两个名词性短语的解析树之间的相似度，如“a dog”和“a cat”。通过如下图所示的图形可以看出句法树内在意义：

Figure 1: "a dog"和"a cat"的解析树

上述两个解析树有超过5个子树中，其中有3个子树的结构是完全一致的。

这种相似性已被证明在对m个最相似的句法解析树的排名非常有效（参考Collins and Duffy在2002年的论文）。其他的一些有趣应用如ProBank和问题分类（参考张和李在2003年的工作;Moschitti在ECML-2006的工作）。为了描述语义解析树是有效的这种语言现象，像是在谓词和它的语义角色之间的句法/语义关系对分类是否有效，我们需要从语法树的一些子树中提取特征。例如给定下面的句子：

“Paul gives a talk in Rome”

在RropBank任务中谓词参数注解如下：
[ Arg0 Paul] [ Predicate gives] [ Arg1 a talk] [ ArgM in Rome]
语法解析树可能如下所示：

TREE KERNELS IN SVM-LIGHT---在svm-light中树核的使用（翻译）_第1张图片

Figure 2: “Paul gives a talk in Rome”的句法解析树

为分析特定参数类型的语义信息，我们可以使用相应的子树

。

Figure 3: 三种子树的结构

树核对参数和参数之间的相似度的计算，主要是基于核算法自动地选择相似子结构。

如何使用svm-light-tk.1.2这个工具
树核已经被嵌到Thorsten Joachims写的一个众所周知的SVM-light软件中。输入格式和新的参数兼容原始的SVM-light 5.0.1版本。此外，可以结合树核和特征向量在SVM-light里面一起使用。

软件特征

快速核计算(参考Moschitti,EACL 2006)（在先前的版本里面已经用上了）
向量集合，在多维特征空间里面的多种特征向量可以作为核函数的输入，这让我们可以用不同核和不同的特征子集（注：简而言之，可以将向量作为核函数的输入参数）。给两个实体O1和O2，可以通过两个特征向量描述它们，而它们之间的核函数可以被描述如下：

树林，多维特征空间里的树的集合可以作为核函数的输入，这让我们可以用不同的结构特征集合来计算相似读（注：简而言之，可以将语义解析树或子树作为核函数的输入参数）比如，抽取解析树不同的部分并结合不同数据分布来计算相似度是可能的。给定两个实体O1,O2，可以分别用两颗子树描述他们XXX。核函数的定义可以写成如下形式：

两种类型的树核：

树核子集(SST)[Collins and Duffy,2002;Moschitti,EACL 2006]
核子数(ST)[Vishwanathan and Smola, 2001;Moschitti,EACL 2006]

树和向量的嵌入结合：

顺序相加，核可以用一对树作为参数输入的核函数结果和一对向量作为参数输入的核函数结果进行加和得到。参数tao可以看作树核Kt相对于特征向量核Kb的贡献，两种类型的核函数是否需要被正则化可以根据命令行参数来控制。一般形式：

2. 所有情况的相加，对实体1和实体2的每颗树和每个向量使用核函数叉乘：

数据格式

输入格式已经从以前的版本中改过来了，必须指定一些参数：

参数说明：

<line> ::= <target><blank><set-of-vectors> | <target><blank><set-of-trees> | <target><blank><trees-and-vectors>

<set-of-vectors> ::= <vector> |<vector><blank><begin-vector><blank><vector><blank>..<end-vector>

<set-of-trees> ::= <begin-tree><blank><tree><blank>..<begin-tree><blank><tree><blank><end-tree>

<trees-and-vectors>::= <set-of-trees><blank><set-of-vectors>

<vector> ::= <feature>:<value><blank><feature>:<value><blank>...<blank><feature>:<value> | <blank>

<target> ::= +1 | -1 | 0 | <float>

<feature> ::= <integer> | "qid"

<value> ::= <float>

<begin-tree> ::="|BT|"

<end-tree> ::="|ET|"

<begin-vector>::="|BV|"

<end-vector> ::="|EV|"

<tree> ::= <full-tree> | <blank>

<full-tree> ::= (<root><blank><full-tree>..<full-tree>) | (<root><blank><leaf>)

<leaf> ::= <string>

<root> ::= <string>

<blank> ::= " " (i.e. one space)

解释说明：

文件每行都可以有以下三种情况：

<target> 向量集合

<target> 树集合

<target> 树集合向量集合

其中<target>只能为四种情况：+1、-1、0、float类型数值

其中树集合形式如：|BT| 树1 |BT| 树2 |BT| 数3 |BT| 树n |ET|

其中树又分为两种：整颗数或者为空格

整颗数可以形式如：

<full-tree> = (root <full-tree> <full-tree>)|<root> <leaf>(注：递归定义,如自动机右递归形式)

(root (left_node1 (left_node2 (left_leaf leaf) (right_leaf leaf))) (right_node1 (left_leaf leaf) (right_leaf leaf)))（注：非递归定义，比较好理解）

其中<root>、<leaf>都为<string>,<string>为不包含空格左右括号的字符串

其中向量集合形式可以有如下两种如：

向量

向量1 |BV| 向量2 |BV| 向量3 |BV| 向量n |EV|

向量形式定义如：

feature1:value1 feature2:value2 feature3:value3 feature_n:value_n

空格

<tree>:通常使用宾州树库（http://www.cis.upenn.edu/~treebank/）的形式。

树的开始，“..|BT|”或者“|BT|..”，

向量的开始，“..|BV|”或者“|BV|..”，

形如序列"..|ET||BV|.."的形式，表明第一个向量是空的

例如，假设我们想要在问题分类分类任务上提取不同树，如给定为问题"What does S.O.S stand for"(S.O.Su符号表示什么？),我们可能会有如下森林树结构：
1 |BT| (SBARQ (WHNP (WP What))(SQ (AUX does)(NP (NNP S.O.S.))(VP (VB stand)(PP (IN for))))(. ?)) |BT| (BOW (What *)(does *)(S.O.S. *)(stand *)(for *)(? *)) |BT| (BOP (WP *)(AUX *)(NNP *)(VB *)(IN *)(. *)) |BT| (PAS (ARG0 (R-A1 (What *)))(ARG1 (A1 (S.O.S. NNP)))(ARG2 (rel stand))) |ET|

简而言之为：<target> |BT| SBARQ树 |BT| BOW树 |BT| BOP数 |BT| PAS树 |ET|
<target>为1
|BT|为树开始的标志
|ET|为树结束的标志
SBARQ树：问题解析树。
BOW树：将每个词单独作为一颗树，root为词本身，其子树为空记为星号*，故有(BOW (What *)(does *)(S.O.S. *)(stand *)(for *)(? *))
BOP树类似，将所有词的词性单独作为一颗树
PAS树：见ECMLMLG-2006任务定义

四种类型树分别为：问题解析树、BOW树(常用词袋bag-of-word)、BOP树(常用词性词袋bag-of-POS-tags)和PAS树(predicate argument tree，定义在[Moschitti et al.,ECML-MLG 2006任务中])

我们可以把树加到不同特征向量中。例如假设我们想基于树核和flat特征实现重排名任务，我们需要对实体两两对比。下面一行包含了一对PAS树和一对向量特征，目的是比较两个谓词参数结构。需要学习语义角色标注系统的一个重排名：

-1 |BT| (TREE (ARG0 (A1 NP))(ARG1 (AM-NEG RB))(ARG2 (rel fall))(ARG3 (AM-TMP NNP))(ARG4 (AM-TMP SBAR))(ARG5 null)(ARG6 null)) |BT| (TREE (ARG0 (A1 NP))(ARG1 (AM-NEG RB))(ARG2 (rel fall))(ARG3 (A4 RP))(ARG4 (AM-TMP NNP))(ARG5 (AM-TMP SBAR))(ARG6 null)) |ET| 1:1 21:2.742439465642236E-4 23:1 30:1 36:1 39:1 41:1 46:1 49:1 66:1 152:1 274:1 333:1 |BV| 2:1 21:1.4421347148614654E-4 23:1 31:1 36:1 39:1 41:1 46:1 49:1 52:1 66:1 152:1 246:1 333:1 392:1 |EV|

#target为-1,|BT| PAS树1 |BT| PAS树2 |ET| 向量1 |BV| 向量2 |EV|

在这个例子中我们可能想只用特征向量，那么我们可以把上面的写成：
-1 1:1 21:2.742439465642236E-4 23:1 30:1 36:1 39:1 41:1 46:1 49:1 66:1 152:1 274:1 333:1 |BV| 2:1 21:1.4421347148614654E-4 23:1 31:1 36:1 39:1 41:1 46:1 49:1 52:1 66:1 152:1 246:1 333:1 392:1 |EV|

然而，最初SVM-light输入格式并不能表明两个实体之间的联系而是分为两列：
-1 1:1 21:2.742439465642236E-4 23:1 30:1 36:1 39:1 41:1 46:1 49:1 66:1 152:1 274:1 333:1
+1 2:1 21:1.4421347148614654E-4 23:1 31:1 36:1 39:1 41:1 46:1 49:1 52:1 66:1 152:1 246:1 333:1 392:1

重要：一定要遵循<tree>定义的语义树规则（比如在左右括号之间没有空格），而且期望的输入是一个解析树，这意味着解析到最后一定是跟着一个叶子节点。

命令行参数
svm_classify和svm_learn两个命令可以使用最初svm-light格式：

usage: svm_learn [options] example_file model_file

Arguments:

example_file-> file with training data

model_file -> file to store the learned decision rules in

usage: svm_classify [options] example_file model_file

Arguments:

example_file-> file with testing data

model_file -> file to retrieve the learned decision rules

#svm_learn [options] training_data_file.txt model_file.txt

#svm_classify [options] testing_data_file.txt model_file.txt

svm_learn命令，通过训练文件，训练出模型存到model_file.txt文件中，其中可通过增加参数选择调试性能
svm_classify命令，通过已经训练出的模型文件model_file.txt，对测试文件分类，得到分类的结果。

核的参数选择（蓝色部分为新增加的的参数）：

-t int -> type of kernel function:

0: linear (default)

1: polynomial (s a*b+c)^d

2: radial basis function exp(-gamma ||a-b||^2)

3: sigmoid tanh(s a*b + c)

4: user defined kernel from kernel.h

5: combination of forest and vector sets according to W, V, S, C options

11: re-ranking based on trees (each instance must have two trees)

12: re-ranking based on vectors (each instance must have two vectors)

13: re-ranking based on both tree and vectors (each instance must have two trees and two vectors)

-W [S,A] -> a tree kernel is applied to the sequence of trees of two input forests and the results are summed;

-> with an "A", a tree kernel is applied to all tree pairs from the two forests (default "S")

-V [S,A] -> same as before but sequences of vectors are used (default "S" and the type of vector-based kernel is specified by the option -S)

-S [0,4] -> kernel to be used with vectors (default polynomial of degree 3, i.e. -S = 1 and -d = 3)

-C [*,+,T,V] -> combination operator between forests and vectors (default 'T')

-> "T" only the contribution from trees is used

-> "V" only the contribution from feature vectors is used

-> "+" or "*" sum or multiplication of the contributions from feature vectors and trees (default 'T')

-T float -> multiplicative constant for the contribution of tree kernels when -C = "+", i.e. K = tree-forest-kernel*r + vector-kernel (default 1)

-D [0,1] -> 0, SubTree kernel or 1, SubSet Tree kernels (default 1)

-L float -> decay factor in tree kernels (default 0.4)

-N [0,3] -> 0 = no normalization, 1 = tree normalization, 2 = vector normalization and, 3 = normalization of both trees and vectors. The normalization is applied to each individual tree or vector (default 3).

-u string -> parameter of user defined kernel

-d int -> parameter d in polynomial kernel

-g float -> parameter gamma in rbf kernel

-s float -> parameter s in sigmoid/poly kernel

-r float -> parameter c in sigmoid/poly kernel

解释说明：

-t表示核函数的类型，有5种，新增加4种。

-t 0：表示线性核函数，也是默认核函数，即不使用-t这个参数，默认使用线性核函数进行计算。

-t 1：表示多项式核函数，表达式为(a*b+c)^d，次数由参数d指定，偏置由c确定，即若是指定了-t 1,那么必须带参数d和参数r(负责偏置c的变化),即-t 1 -d 2 -r 3表示(a*b+3)^2。参数s不明白。

-t 2：表示RBF核函数，径向基核函数 (Radial Basis Function)，表达式为exp(-gamma||a-b||^2)。gamma参数由参数g确定，即-t 2 -g 2表示exp(-2||a-b||)^2,||a-b||表示2范式，不知道的不多解释。

-t 3：表示sigmoid tanh(s a*b+c)函数?什么鬼，需要参数s和r，r负责偏置c的变化。

-t 4：表示使用默认定义的核函数计算文件keanel.h，需要使用参数u，表明是使用自定的核函数计算。-t 4 -u kernel.h。可以修改kernel.h文件来自定义计算核函数，具体可以参考有关kernel的论文。

-t 11：基于树的重排名（每个实例必须有两颗树，用于对比的两颗树，如上面关于重排名的例子）

-t 12：基于向量的重排名（每个实例必须有两个向量）

-t 13：基于树和向量的重排名（每个实例必须有两颗树和两个向量）

-t 5：根据W,V,S,C等参数结合森林和向量集合进行计算，也即若想要同时用上树和向量，参数值必须设置为5。

-W [S,A]:森林里的两颗树的序列作为树核的输入，结果相加。(翻译不来)，若是单独一个”A“，表明两个森林的所有树对作为树核输入。默认使用参数“S”。

-V [S,A]:和之前的相同，表明向量序列被用上，默认使用“S”，基于向量的核类型一定要选择“S”。

-S [0,4]:用于向量的核函数(默认使用3次多项式，比如-S 1 -d 3)。

-C [*,+,T,V]:结合森林和向量的操作(默认使用“T”):

"T":仅仅只使用树

"V":仅仅只使用特征向量

"+":特征向量和树的加和

"*":特征向量和树的相乘

-T float:常数，用于乘以树核。用这个参数需要-C +，表示使用特征向量和树的相加，比如K = tree-forest-kernel*r + vector-kernel，(默认值为1,也即树核和向量核权重相等)

-D [0,1]:0表示子树核，1表示树核的子集(默认为1)

-L float:在树核中的衰减率，默认为0.4

-N [0,3]:0表示没有正则化;1表示对树进行正则化;2表示对向量正则化;3表示对树和向量都正则化。正则化被应用到每个树或者特征。默认为3,即都进行正则化。

-u string:使用自定义的核函数时用上。

-d int:多项式核函数的次数，使用多项式核，需要带上参数d。

-g float:rbf核函数的gamma参数。

-s float:使用sigmoid或多项式核中的参数s需要用上。

-r float:使用sigmoid或多项式核中的偏置c需要用上。

假设参数为 "-t 5 -T 1 -W S -V S -C +",实际上等于 "-t 5 -C +",参数T,W,V都是使用了默认的值，表示结合森林和特征集合，并且同等权重。

新参数的例子：
./svm_learn -t 5 example_file model_file
/* the subset-tree kernel alone is used, if the forest contains only a tree, the classic tree kernel is computed */

./svm_learn -t 5 -C V example_file model_file
/* the default polynomial kernel is used on the pairs from vector sequences */

./svm_learn -t 5 -C V -V A example_file model_file
/* the default polynomial kernel is used on the pairs from vector sequences. The pairs are built by combining each element of the first sequence with each element of the second sequence */

./svm_learn -t 5 -C + -S 1 -d 5 example_file model_file
/* the sequential summation of trees, using SST kernel, is summed to the sequential summation of vectors, using a polynomial kernel with degree = 5. The contribution of tree kernels is multiplied by t (i.e. default 1) */

./svm_learn -t 5 -C + -D 0 -S 1 example_file model_file
/* the sequential summation of trees, using the ST kernel (-D 0), is summed to the sequential summation of vectors, using polynomial kernel with degree = 5 */

./svm_learn -t 12 example_file model_file /* a re-ranker over a pair of trees and a pair of vectors is applied*/

./svm_learn example_file model_file /* original SVM-light linear kernel "-t 0". The input can be provided in the new style or in the old SVM-light format*/

下载
source code(可以使用windows下的DevC++或者linux下的gcc编译)
Example data(包含了宾州树库的参数，0表示正例，1表示负例)

如果我们想设计我们自己的核函数，结合树和向量的权值用不同地方式计算结果可以参考里面的定义的例子：
kernel.h，若自己定义核函数的计算非常有必要看懂这个h文件。

简而言之：

明确nlp任务，可否使用语义解析树。

使用宾州树库对句子进行解析，或者使用stanford parser对中英文句子解析，得到句法解析树。

环境：下载svm-light，编译，测试svm_learn和svm_classify这两个命令是否能用，使用例子测试svm-light是否可以正确预测对。

将句法解析树以及特征向量化为svm-light能够接受的格式，如example文件中的例子。

对数据划分为训练集和测试集，有必要的话，在训练集中划分为出验证集，将剩下的训练集和验证集用来调试参数。

使用svm_learn命令，对训练集训练出模型，在验证集上应用模型得到结果，分析效果。

使用不同参数，跑出新的模型，在验证集上测试出结果对比验证集的结果，重新调试，使用更好的参数，直到结果无法再提升。

使用最终训练出的模型，在测试集上预测，得到最终算法性能。

有一点缺陷的是，缺少交叉验证，libsvm这个工具好像有，给忘了。

附kernel.h

/************************************************************************/
/*                                                                      */
/*   kernel.h                                                           */
/*                                                                      */
/*   User defined kernel function. Feel free to plug in your own.       */
/*                                                                      */
/*   Copyright: Alessandro Moschitti                                    */
/*   Date: 20.11.06                                                     */
/*                                                                      */
/************************************************************************/

/* KERNEL_PARM is defined in svm_common.h The field 'custom' is reserved for */
/* parameters of the user defined kernel. */
/* Here is an example of custom kernel on a forest and vectors*/                          

// INPUT DESCRIPTION
// The basic input is a set of trees and a set of vectors.
// The semantics of vectors is the following

//        The first vector contains the parameter weights of each tree so its length is num_of_trees.
//        The second vector tells which kind of kernel should be used for trees (i.e. SST or ST) so also its size is num_of_trees.
//        The third vector tells which kind of kernel should be used for feature vectors (i.e. -t from 0 to 3). Its size is num_of_vectors - 4.
//        The fourth vector contains the parameter weights of each vector. Its size is num_of_vectors - 4.
//        From the fith vector to num_of_vectors there are (num_of_vectors - 4) feature vectors that describe the target object.
//
//
//        The final kernel is:   wt[1]*wt'[1]*TK_s1(t1,t'1)+..+wt[n]*wt'[n]*TK_sn(tn,t'n) + 
//                             + wv[1]*wv'[1]*K_r1(v1,v'1)+..+wv[m]*wv'[m]*K_rn(vn,v'n)
//        where:
//               wt[i] and wt'[i] are the weights associated with the i-th trees of the two objects,
//               si is the type of tree kernel applied to i-th trees (i.e. SST with si=1 or ST with si=0),
//               wv[i] and wv'[i] are the weight associated with the i-th feature vectors of the two objects,
//               ri is the type of the kernel applied to the i-th fetature vectors (i.e. ri = 0,1,2,3).
//
//        Example, to evaluate 
//          K(o,o) = 1*ST(t1,t1)+.5*.5*SST(t2,t2)+.1*.1*ST(t3,t3)+.125*.125*poly(v1,v1)+.670*.670*linear(v2,v2),
//        the following data is required (to simplify we have only one object o):
//             +1 |BT|(NN Paul) |BT| (JJ good) |BT| (VB give) |ET| \\ forest
//                    1:1 2:.5 3:.1 |BV| 1:0 2:1 3:0 |BV|          \\ tree parameters
//                    1:.125 2:.670 |BV| 1:1 2:0 |BV|              \\ feature vectors parameters
//                    1132:.2 1300:.01 12234:.23 30000:.23 30001:.001 30023:.034 |BV| \\ feature vectors
//                    4050:.3 5030:.1 11114:.7 |EV|
//
// To test the kernel use the following line as input_file:
// +1 |BT|(NN Paul) |BT| (JJ good) |BT| (VB give) |ET| 1:1 2:.5 3:.1 |BV| 1:0 2:1 3:0 |BV| 1:.125 2:.670 |BV| 1:1 2:0 |BV| 1132:.2 1300:.01 12234:.23 30000:.23 30001:.001 30023:.034 |BV| 4050:.3 5030:.1 11114:.7 |EV|
// and execute the command: svm_learn -t 4  input_file


// implementation 

double custom_kernel(KERNEL_PARM *kernel_parm, DOC *a, DOC *b) 
{

  int i;
  double k;
  
   k=0;

// a and b are structures containing a forest of trees and a set of vectors:
// - forest_vec[i] is the i-th tree
// - vectors[i] is the i-th feature vector
// - num_of_trees
// - num_of_vectors

// summation of tree kernels

   for(i=0; i< a->num_of_trees && i< b->num_of_trees; i++){ // a->num_of_trees should be equal to b->num_of_trees


      if(a->forest_vec[i]!=NULL && b->forest_vec[i]!=NULL){// Test if one the i-th tree of instance a and b is an empty tree

         SIGMA = a->vectors[1]->words[i].weight; // The type of tree kernel for i-th tree is told by vector 1. 
                                                 // The field "weight" according to the input data is 0 (ST) or 1 (SST).
         LAMBDA = 0.4; // An additional vector may contain the lambda parameters instead of .4 for all trees.
                       // other vectors may contain other specific parameters see "struct kernel_parm" in "svm_common.h".
         k+=  // summation of tree kernels
             a->vectors[0]->words[i].weight * // Weight of tree i (vector 0 is used to assign weigths to trees).
             b->vectors[0]->words[i].weight * // Weight of tree i for instace b.
             tree_kernel(kernel_parm, a, b, i, i)/ // Evaluate tree kernel between the two i-th trees.
             sqrt(tree_kernel(kernel_parm, a, a, i, i) * 
                  tree_kernel(kernel_parm, b, b, i, i)); // Normalize respect to both i-th trees.

/* TEST - print the i-th trees (of a and b instances)
printf("\ntree 1: <"); writeTreeString(a->forest_vec[i]->root);  
printf(">\ntree 2: <"); writeTreeString(b->forest_vec[i]->root);printf(">\n"); 
printf("\n\n(i,i)=(%d,%d)= Kernel-Sequence :%f \n",i,i,k);
fflush(stdout);
*/
      }

   }
   
// Summation of Vector Kernels

  for(i=0; i< a->num_of_vectors-4 && i< b->num_of_vectors-4; i++)
     
     if(a->vectors[i]!=NULL && b->vectors[i]!=NULL){ // Check if the i-th vectors are empty.
      
        kernel_parm->second_kernel = (long) a->vectors[3]->words[i].weight; // Type of standard feature vector kernel (from 0 to 3).
        kernel_parm->poly_degree = (long) 2; // Set the degree = 2 for polynomial kernel (for linear kernel it does not apply).
                                             // An additional vector could be defined to select different degrees for different feature vectors.
        k=   // summation of vectors
             a->vectors[2]->words[i].weight * // Weight of feature vector i (vector 2 is used to assign weigths to vectors).
             b->vectors[2]->words[i].weight * // Weight of feature vector i for instace b.
             basic_kernel(kernel_parm, a, b, i, i)/ // Compute standard kernel (selected according to the "second_kernel" parameter).
             sqrt(basic_kernel(kernel_parm, a, a, i, i) * 
                  basic_kernel(kernel_parm, b, b, i, i)); //normalize vectors

//TEST printf("\n\n(i,i)=(%d,%d)= Kernel-Sequence :%f \n",i,i,k);

      }
 
   return k;
}

embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
Python爬虫实战：研究TextBlob相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 html TextBlob
1.引言1.1研究背景与意义随着互联网技术的飞速发展，社交媒体已成为人们获取信息和表达观点的重要平台。每天在社交媒体上产生的海量文本数据蕴含着丰富的情感信息和社会舆情，分析这些文本情感倾向，有助于企业了解消费者对产品和服务的评价，政府部门监测社会舆论动态，研究机构探索公众对热点事件的态度。情感分析（SentimentAnalysis）作为自然语言处理的重要分支，旨在通过计算方法识别和提取文本中的主
对话云蝠智能：大模型如何让企业呼叫系统从 “成本中心” 变身 “价值枢纽”？ MARS_AI_ 人工智能自然语言处理信息与通信交互
在人工智能重塑企业服务的浪潮中，云蝠智能（南京星蝠科技有限公司旗下品牌）以深厚的技术积累和行业实践，逐步成长为国内智能外呼领域的标杆企业。其发展路径揭示了技术自主创新与场景深度结合的必然性。一、技术架构：全栈自研奠定领先基础云蝠智能的核心竞争力源于其全链路自研技术体系。该架构覆盖语音识别（ASR）、自然语言处理（NLP）、语音合成（TTS）及软交换六大层级，实现从基础设施到操作层的闭环设计。这一分
入选 ICML 2025！哈佛医学院等推出全球首个 HIE 领域临床思维图谱模型，神经认知结果预测任务上性能提升 15% hyperai
在人工智能技术突飞猛进的当下，大型视觉-语言模型（LVLMs）正以惊人的速度重塑多个领域的认知边界。在自然图像与视频分析领域，这类模型依托先进的神经网络架构、海量标注数据集与强大算力支持，已能精准完成物体识别、场景解析等高阶任务。而在自然语言处理领域，LVLMs通过对TB级文本语料的学习，在机器翻译、文本摘要、情感分析等任务上达到专业级水准，其生成的学术摘要甚至能精准提炼医学文献的核心结论。然而当
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
GRU与Transformer结合：新一代序列模型 AI大模型应用工坊 gru transformer 深度学习 ai
GRU与Transformer结合：新一代序列模型关键词：GRU、Transformer、序列模型、结合、深度学习摘要：本文深入探讨了GRU与Transformer结合所形成的新一代序列模型。先介绍了GRU和Transformer各自的核心概念及工作原理，然后阐述了二者结合的原因、方式和优势。通过代码实际案例展示了如何搭建结合的模型，还探讨了其在自然语言处理、语音识别等领域的实际应用场景。最后对未
《AI办公类工具PPT系列之七——智谱清言》再见孙悟空_ 【2025 AI工具合集】人工智能 iSlide AI AI智能PPT powerpoint AI PPT PPT
一.简介官网地址为chatglm.cn智谱清言（也被称为ChatGLM）是一款基于大模型技术的人工智能产品，旨在通过其强大的自然语言处理能力，为用户提供高效、智能的交互体验。该产品不仅具备广泛的应用场景，还能够在多个领域内实现深度学习和自我优化。二.功能介绍内容创作：创意写作：帮助用户进行故事、诗歌等文学作品的创作。媒体写作：辅助撰写新闻稿、社交媒体帖子等内容。写作辅助：提供写作建议、结构安排和编
PDF 问答工具对比 - 询问有关 PDF 的任何问题 ComPDFKit pdf PDF AI PDF问答
很好，我研究了面向普通用户、以英语支持为重点的顶级PDF问答AI工具。我将通过准确性、速度、价格、隐私和第三方集成等标准，对基于Web和可下载工具进行比较。最终的文章将包含一个对比表以便更清晰地呈现。顶级PDF问答AI工具借助AI技术的PDF问答工具让您可以上传PDF文件并通过对话方式提问其内容。这些工具无需手动阅读，而是会对文档进行索引，并使用自然语言处理模型从文本中提取答案、摘要或翻译。它们可
Java对接Dify API接口完整指南小侠C deepseek AI Dify Java
Java对接DifyAPI接口完整指南一、DifyAPI简介Dify是一款AI应用开发平台，提供多种自然语言处理能力。通过调用Dify开放API，开发者可以快速集成智能对话、文本生成等功能到自己的Java应用中。二、准备工作获取API密钥登录Dify平台控制台在「API密钥」模块创建新的密钥添加依赖org.apache.httpcomponentshttpclient4.5.13com.faste
借力提示词检索解码与 OpenVINO™ GenAI 全面提升 LLM 推理 OpenVINO 中文社区经验分享
大语言模型（LLM）彻底改变了自然语言处理，推动了聊天机器人、摘要和内容生成等应用的发展。然而，推理效率依然是一个关键挑战，尤其在需要低延迟响应的场景下更为突出。试想你在一家餐厅，经常点同样的菜。服务员不必每次都询问你的订单再传达给厨房，而是直接认出你常点的菜品并立即上菜，这样既缩短了等待时间，也加快了整个服务流程。同样，在文本生成中，模型常常遇到输入提示中的重复模式。与每次都从零开始生成toke
100个AI大模型基础概念（收藏版）程序员鑫港人工智能大模型 ai 开发语言 java 大语言模型 LLM
在人工智能技术快速发展的时代背景下，大模型作为核心驱动力，正深刻改变着各行业的发展模式与应用场景。从自然语言处理到计算机视觉，从智能对话系统到科学研究辅助，大模型展现出强大的通用性和适应性。本文将从基础概念、核心技术、数据处理、训练方法、评估体系、应用场景、伦理安全等多个维度，系统阐述100个AI大模型的关键基础知识，帮助读者全面理解这一前沿技术领域。前排提示，文末有大模型AGI-CSDN独家资料
深度学习应用于情感识别：利用YOLOv8进行AffectNet情感分类 YOLO实战营深度学习 YOLO 分类人工智能目标检测目标跟踪数据挖掘
引言情感识别（EmotionRecognition）是计算机视觉和自然语言处理中的一个重要研究方向，广泛应用于人机交互、智能客服、心理健康监测、视频分析等领域。随着深度学习技术的发展，情感识别取得了显著进展，特别是在面部表情识别方面。面部表情作为人类情感的自然表现之一，能在很大程度上反映个体的情感状态。AffectNet数据集是一个广泛使用的情感识别数据集，它包含了大量带有标注情感标签的面部表情图
AI 销售系统：重塑销售格局的科技利器小柔说科技人工智能科技 java
在数字化浪潮汹涌澎湃的当下，人工智能（AI）正以前所未有的速度渗透到各个行业，销售领域也不例外。AI销售系统作为一种融合了先进人工智能技术的创新工具，正逐渐成为企业提升销售效率、优化客户体验、增强市场竞争力的关键因素。一、AI销售系统的概念与核心技术AI销售系统是基于人工智能技术构建的一套综合性销售管理平台，它整合了自然语言处理（NLP）、机器学习（ML）、数据分析、预测建模等多种核心技术。通过这
Unity AR构建维护系统的以AI驱动增强现实知识检索系统 Morpheon unity ar 人工智能
本博客概述了为维护开发的AI驱动增强现实（AR）知识检索系统的开发过程，该系统集成了Unity用于AR、Python服务器用于后端处理，以及ChatGPT用于自然语言处理。该系统允许维护工人通过AR设备（如HoloLens2）查询特定任务的知识（例如，故障排除步骤），并以全息图形式显示上下文感知的响应。Unity账户注册中文账户注册比较困难。它需要额外的验证码验证步骤，有时即使验证成功也不会重定向
使用LangChain与Solar进行文本嵌入 Zbb159 langchain
使用LangChain与Solar进行文本嵌入在处理自然语言处理中，文本嵌入是将文本转换为数字向量的一种技术，它使计算机能够理解和处理文本数据。在这篇文章中，我们将探索如何使用LangChain与Solar进行文本嵌入。技术背景介绍文本嵌入可以用于多种自然语言处理任务，例如文本分类、情感分析和语义搜索等。Solar是一种简单易用的嵌入服务，提供了强大的推理能力，可以轻松地将文本转换为嵌入向量。核心
医疗大模型深度剖析：腾讯医疗大模型案例，引领智能医疗新时代！
腾讯医疗大模型是混元大模型的医疗版。在DeepSeek爆火之前，腾讯健康已经依据医疗细分场景的具体需求，以腾讯自研的混元大模型，打造出医疗行业大模型。DeepSeek-R1发布后，腾讯健康第一时间完成了混元大模型与DeepSeek的融合。腾讯医疗大模型深度融合医学知识库与自然语言处理技术，旨在为医疗行业提供智能化的辅助解决方案。通过海量医学文献、临床指南、电子病历等专业数据训练，具备强大的医学知识
NLP市场规模将破千千亿，哪些岗位会成为新风口？ duolapig 人工智能
近年来，自然语言处理（NLP）技术在全球范围内掀起了一场“语言革命”。从智能客服到机器翻译，从情感分析到内容生成，NLP正以惊人的速度重塑人类与机器的交互方式。艾媒咨询数据显示，2023年中国NLP市场规模已达660亿元，预计2027年将突破千亿大关。这一数字背后，不仅是技术迭代的加速，更是一场深刻的人才需求变革。在AI大模型浪潮的推动下，新的职业风口正在形成，而这场变革的核心逻辑，是技术与产业融
自然语言处理基础知识入门(三) RNN，LSTM，GRU模型详解这个男人是小帅 NLP自然语言知识梳理入门 rnn 自然语言处理 lstm gru 人工智能神经网络
文章目录前言一、RNN模型1.1RNN的作用1.2RNN基本结构1.3双向循环神经网络1.4深层双向循环神经网络1.5RNN的梯度爆炸和消失问题二、LSTM模型2.1LSTM和RNN的结构对比2.2LSTM模型细节三、GRU模型总结前言在上一章节中，深入探讨了Word2vec模型的两种训练策略以及创新的优化方法，从而得到了优质的词嵌入表示。不仅如此，Word2vec作为一种语言模型，也具备根据上下
RNN、LSTM、GRU详解昔颜1121 人工智能 rnn python
RNN、LSTM、GRU详解在深度学习领域，序列数据（如语音识别、机器翻译、文本生成等）广泛应用于自然语言处理（NLP）、时间序列预测、语音和视频处理等任务中。针对序列数据，循环神经网络（RNN,RecurrentNeuralNetwork）及其改进版本——长短时记忆网络（LSTM,LongShort-TermMemory）和门控循环单元（GRU,GatedRecurrentUnit）成为处理时序
小白的进阶之路系列之十六----人工智能从初步到精通pytorch综合运用的讲解第九部分金沙阳人工智能 pytorch python
从零开始学习NLP在这个由三部分组成的系列中，你将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。你将学习如何从零开始构建循环神经网络NLP的基本数据处理技术如何训练RNN以识别单词的语言来源。从零开始学自然语言处理：使用字符级RNN对名字进行分类我们将构建并训练一个基本的字符级循环神经网络(RNN)来对单词进行分类。展示了如何预处理数据以建模NLP。特别是，这些教程展示了如何以
人工神经网络：架构原理与技术解析 weixin_47233946 架构
##引言在深度学习和人工智能领域，人工神经网络（ArtificialNeuralNetwork,ANN）作为模拟人脑认知机制的核心技术，已在图像识别、自然语言处理和强化学习等领域实现了革命性突破。从AlphaGo击败人类顶尖棋手到ChatGPT的对话生成能力，ANN的进化持续推动技术边界的扩展。本文将深入剖析人工神经网络的核心原理、技术实现与发展趋势。##一、基础概念与数学模型###1.1生物启发
Spring中如何使用AI Mn孟 spring 人工智能 java 后端
Spring是一个用于构建Java应用程序的开源框架，它可以与各种AI技术集成。要在Spring中使用AI，首先需要选择一种AI技术，如机器学习、自然语言处理等。然后可以使用SpringBoot来构建应用程序，并使用相应的AI框架或库来实现AI功能。例如，可以使用TensorFlow或PyTorch来实现机器学习功能，使用NLTK或spaCy来实现自然语言处理功能。此外，还可以使用SpringCl
OpenAI Agents SDK 客户服务应用案例 lyh1344 easyui 前端 javascript
OpenAIAgentsSDK客户服务应用案例OpenAIAgentsSDK可用于构建智能化、自动化的客户服务解决方案。以下是一些典型应用案例及实现方法：智能问答助手通过OpenAIAgentsSDK训练一个基于知识库的问答助手，自动回答客户常见问题。可集成到网站、APP或社交媒体平台，提供24/7服务。支持自然语言处理，准确理解客户意图，提供个性化回复。多轮对话处理利用SDK的上下文保持能力，处
使用GutenbergLoader加载项目Gutenberg电子书 qq_37836323 langchain 人工智能 json
在现代应用中，文档加载器被广泛用于处理和分析各种格式的文本数据。在本文中，我们将重点介绍如何使用GutenbergLoader来加载项目Gutenberg的电子书并将其转换为可供后续处理的文档格式。技术背景介绍项目Gutenberg是一个在线数字图书馆，提供大量的免费电子书资源。为了有效地使用这些电子书，我们通常需要将它们的内容加载到一个可处理的文档格式。这使得后续的数据分析、自然语言处理等任务的
使用Hugging Face的BGE模型进行文本嵌入 lirxx 人工智能 langchain
在文本嵌入领域，BGE（BeijingAcademyofArtificialIntelligenceEmbeddings）模型是开源界的佼佼者。由北京智源人工智能研究院（BAAI）开发，BGE模型以其高效的嵌入性能和开放性获得了广泛的认可。本文将通过HuggingFace平台展示如何使用BGE模型进行文本嵌入。技术背景介绍文本嵌入是将文本数据转换为可计算向量的过程，这在自然语言处理（NLP）中具有
Java企业技术趋势分析：AI驱动下的Spring AI、LangChain4j与RAG系统架构在未来等你 Java场景面试宝典 AI 技术编程 Java Spring
【Java企业技术趋势分析：AI驱动下的SpringAI、LangChain4j与RAG系统架构】开篇在当今快速发展的技术环境中，人工智能（AI）正在以前所未有的速度重塑企业的技术架构和业务流程。Java作为企业级开发的主流语言之一，在AI应用落地方面也迎来了新的机遇和挑战。从自然语言处理（NLP）到机器学习（ML），再到生成式AI（GenerativeAI），Java开发者正在积极拥抱这些新兴技
PyABSA 入门指南：基于深度学习的情感分析工具包是纯一呀 DeepLearning AI NLP 深度学习人工智能 NLP
在自然语言处理（NLP）领域，情感分析（SentimentAnalysis）一直是热门任务之一。而基于方面的情感分析（Aspect-BasedSentimentAnalysis，ABSA），则是更细粒度的分析方式——不仅判断正负情绪，还识别情绪对象（方面）和具体情感极性（如好/差）。什么是PyABSA？PyABSA（PythonAspect-BasedSentimentAnalysis）是一个专为
AI智能时代SEO优化，AISEO-人工智能搜索引擎优化 weixin_ggwwsscc 人工智能搜索引擎 deepseek AI seo
AI驱动的关键词精准匹配与语义理解传统的关键词排名规则主要依赖于关键词的字面匹配，即网站内容中出现的关键词与用户搜索词完全一致或高度相似时，才有可能获得较好的排名。然而，随着AI技术在搜索引擎中的广泛应用，这一局面正在发生深刻改变。如今的搜索引擎借助自然语言处理（NLP）和机器学习算法，能够深入理解用户搜索词背后的语义和意图，实现更精准的内容匹配。AI智能时代SEO优化，AISEO-人工智能搜索引
从CoNLL-U格式文件读取文本的实战指南 yunwu12777 langchain 交互深度学习
在自然语言处理任务中，使用标准化的文本格式能够显著简化数据处理工作。CoNLL-U格式就是这样一种被广泛应用的文本格式，它是CoNLL-X格式的修订版，主要用于句法分析和词法标注任务。技术背景介绍CoNLL-U格式的文件是纯文本文件，采用UTF-8编码，文本内容包括三类行：词行：每个行代表一个词或标记，包含10个字段，用单个制表符分隔。空行：用于表示句子边界。注释行：以哈希符号(#)开头，用于附加
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

TREE KERNELS IN SVM-LIGHT---在svm-light中树核的使用（翻译）

你可能感兴趣的:(自然语言处理,svm-light)