SheenChi

文本相似度

前言

在自然语言处理过程中，经常会涉及到如何度量两个文本之间的相似性，我们都知道文本是一种高维的语义空间，如何对其进行抽象分解，从而能够站在数学角度去量化其相似性。而有了文本之间相似性的度量方式，我们便可以利用划分法的K-means、基于密度的DBSCAN或者是基于模型的概率方法进行文本之间的聚类分析；另一方面，我们也可以利用文本之间的相似性对大规模语料进行去重预处理，或者找寻某一实体名称的相关名称（模糊匹配）。而衡量两个字符串的相似性有很多种方法，如最直接的利用hashcode，以及经典的主题模型或者利用词向量将文本抽象为向量表示，再通过特征向量之间的欧式距离或者皮尔森距离进行度量。本文围绕文本相似性度量的主题，从最直接的字面距离的度量到语义主题层面的度量进行整理总结，并将平时项目中用到的文本相似性代码进行了整理，如有任何纰漏还请指出，我会第一时间改正^v^。（ps.平时用的Java和scala较多，本文主要以Java为例。）

字面距离

提到如何比较两个字符串，我们从最初编程开始就知道：字符串有字符构成，只要比较比较两个字符串中每一个字符是否相等便知道两个字符串是否相等，或者更简单一点将每一个字符串通过哈希函数映射为一个哈希值，然后进行比较。但是这种方法有一个很明显的缺点，就是过于“硬”，对于相似性的度量其只有两种，0不相似，1相似，哪怕两个字符串只有一个字符不相等也是不相似，这在NLP的很多情况是无法使用的，所以下文我们就“软”的相似性的度量进行整理，而这些方法仅仅考虑了两个文本的字面距离，无法考虑到文本内在的语义内容。

common lang库

文中在部分代码应用中使用了Apache提供的common lang库，该库包含很多Java标准库中没有的但却很实用的函数。其maven引用如下：


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      <dependency>
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      <groupId>org.apache.commonsgroupId>
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      <artifactId>commons-lang3artifactId>
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      <version>3.4version>
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      dependency>

相同字符数

在传统的字符串比较过程中，我们考虑字符串中每个字符是否相等，并且考虑了字符出现的顺序，如果不考虑字符出现的顺序，我们可以利用两个文本之间相同的字符数量，很简单不再赘述，可以利用common lang中的getFuzzyDistance：

int dis = StringUtils.getFuzzyDistance(term, query, Locale.CHINA);

莱文斯坦距离(编辑距离)

定义

我们在学习动态规划的时候，一个很经典的算法便是计算两个字符串的编辑距离，即：

莱文斯坦距离，又称Levenshtein距离，是编辑距离（edit distance）的一种。指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如将kitten一字转成sitting：

sitten （k→s）
sittin （e→i）
sitting （→g）

那么二者的编辑距离为3。
俄罗斯科学家弗拉基米尔·莱文斯坦在1965年提出这个概念。

实现方式

我们可以利用common lang中StringUtils的函数来计算：


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      int dis = StringUtils.getLevenshteinDistance(s1, s2);
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      //实现
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      public static int getLevenshteinDistance(CharSequence s, CharSequence t) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      if (s == 
      null || t == 
      null) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      throw 
      new IllegalArgumentException(
      "Strings must not be null");
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      int n = s.length(); 
      // length of s
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      int m = t.length(); 
      // length of t
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      if (n == 
      0) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      return m;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          } 
      else 
      if (m == 
      0) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      return n;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      if (n > m) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      // swap the input strings to consume less memory
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      final CharSequence tmp = s;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              s = t;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              t = tmp;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              n = m;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              m = t.length();
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      int p[] = 
      new 
      int[n + 
      1]; 
      //'previous' cost array, horizontally
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      int d[] = 
      new 
      int[n + 
      1]; 
      // cost array, horizontally
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      int _d[]; 
      //placeholder to assist in swapping p and d
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      // indexes into strings s and t
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      int i; 
      // iterates through s
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      int j; 
      // iterates through t
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      char t_j; 
      // jth character of t
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      int cost; 
      // cost
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      for (i = 
      0; i <= n; i++) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              p[i] = i;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      for (j = 
      1; j <= m; j++) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              t_j = t.charAt(j - 
      1);
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              d[
      0] = j;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      for (i = 
      1; i <= n; i++) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
                  cost = s.charAt(i - 
      1) == t_j ? 
      0 : 
      1;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
                   
      // minimum of cell to the left+1, to the top+1, diagonally left and up +cost
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
                  d[i] = Math.min(Math.min(d[i - 
      1] + 
      1, p[i] + 
      1), p[i - 
      1] + cost);
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      // copy current distance counts to 'previous row' distance counts
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              _d = p;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              p = d;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              d = _d;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      // our last action in the above loop was to switch d and p, so p now
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      // actually has the most recent cost counts
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      return p[n];
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
      }

Jaro距离

定义

Jaro Distance也是字符串相似性的一种度量方式，也是一种编辑距离，Jaro 距离越高本文相似性越高;而Jaro–Winkler distance是Jaro Distance的一个变种。据说是用来判定健康记录上两个名字是否相同，也有说是是用于人口普查。从最初其应用我们便可看出其用法和用途，其定义如下：

其中

是匹配数目（保证顺序相同）
字符串长度
是换位数目

其中t换位数目表示：两个分别来自S1和S2的字符如果相距不超过

我们就认为这两个字符串是匹配的；而这些相互匹配的字符则决定了换位的数目t，简单来说就是不同顺序的匹配字符的数目的一半即为换位的数目t，举例来说，MARTHA与MARHTA的字符都是匹配的，但是这些匹配的字符中，T和H要换位才能把MARTHA变为MARHTA,那么T和H就是不同的顺序的匹配字符，t=2/2=1。
而Jaro-Winkler则给予了起始部分就相同的字符串更高的分数，他定义了一个前缀p，给予两个字符串，如果前缀部分有长度为的部分相同，则Jaro-Winkler Distance为：

是两个字符串的Jaro Distance
是前缀的相同的长度，但是规定最大为4
则是调整分数的常数，规定不能超过0.25，不然可能出现dw大于1的情况，Winkler将这个常数定义为0.1

举个简单的例子：
计算的距离

我们利用 $\lfloor \frac{max(|s_1|,|s_2|)}{2}-1 \rfloor$ 可以得到一个匹配窗口距离为3，图中黄色部分便是匹配窗口，其中1表示一个匹配，我们发现两个X并没有匹配，因为其超出了匹配窗口的距离3。我们可以得到：

其Jaro score为：

$d_j=\frac{1}{3}(\frac{4}{5}+\frac{4}{8}+\frac{4-0}{4})=0.767$

而计算Jaro–Winkler score，我们使用标准权重 $p=0.1,\ell=2$ ，其结果如下：

实现方式

同样我们可以利用common lang中的getJaroWinklerDistance函数来实现，注意这里实现的是Jaro–Winkler distance


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      double dis = StringUtils.getJaroWinklerDistance(reviewName.toLowerCase(), newsName.toLowerCase());
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      //实现
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      public static double getJaroWinklerDistance(final CharSequence first, final CharSequence second) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      final 
      double DEFAULT_SCALING_FACTOR = 
      0.1; 
      //标准权重
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      if (first == 
      null || second == 
      null) {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      throw 
      new IllegalArgumentException(
      "Strings must not be null");
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      final 
      double jaro = score(first,second); 
      // 计算Jaro score
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      final 
      int cl = commonPrefixLength(first, second); 
      // 计算公共前缀长度
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      final 
      double matchScore = Math.round((jaro + (DEFAULT_SCALING_FACTOR * cl * (
      1.0 - jaro))) *
      100.0)/
      100.0;   
      // 计算 Jaro-Winkler score
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      return  matchScore;
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
      }

应用

在Wetest舆情监控中，我们在找寻游戏名简称和全称的对应关系时便使用到了Jaro-Winkler score进行衡量，其中我们将Jaro分数大于0.6的认为是相似文本，之后在总的相似文本中提取最相似的作为匹配项，实现效果还不错：

其中冒号左边是待匹配项，右边是匹配项<游戏名词频，Jaro-Winkler score>，Jaro-Winkler score较高的一般都是正确的匹配项。

SimHash

定义

SimHash是一种局部敏感hash，它也是Google公司进行海量网页去重使用的主要算法。
传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上仅相当于伪随机数产生算法。传统的hash算法产生的两个签名，如果原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别很大。所以传统的Hash是无法在签名的维度上来衡量原内容的相似度，而SimHash本身属于一种局部敏感哈希算法，它产生的hash签名在一定程度上可以表征原内容的相似度。
我们主要解决的是文本相似度计算，要比较的是两个文章是否相似，当然我们降维生成了hash签名也是用于这个目的。看到这里估计大家就明白了，我们使用的simhash就算把文章中的字符串变成 01 串也还是可以用于计算相似度的，而传统的hash却不行。

我们可以来做个测试，两个相差只有一个字符的文本串，“你妈妈喊你回家吃饭哦，回家罗回家罗” 和 “你妈妈叫你回家吃饭啦，回家罗回家罗”。
通过simhash计算结果为：
1000010010101101111111100000101011010001001111100001001011001011
1000010010101101011111100000101011010001001111100001101010001011
通过传统hash计算为：
0001000001100110100111011011110
1010010001111111110010110011101

通过上面的例子我们可以很清晰的发现simhash的局部敏感性，相似文本只有部分01变化，而hash值很明显，即使变化很小一部分，也会相差很大。

基本流程

注：具体的事例摘自Lanceyan[10]的博客《海量数据相似度计算之simhash和海明距离》

分词，把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重，我们假设权重分为5个级别（1~5）。比如：“ 美国“51区”雇员称内部有9架飞碟，曾看见灰色外星人 ” ==> 分词后为 “ 美国（4） 51区（5）雇员（3）称（1）内部（2）有（1） 9架（3）飞碟（5）曾（1）看见（3）灰色（4）外星人（5）”，括号里是代表单词在整个句子里重要程度，数字越大越重要。
hash，通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串数字，还记得文章开头说过的吗，要把文章变为数字计算才能提高相似度计算性能，现在是降维过程进行时。
加权，通过 2步骤的hash生成结果，需要按照单词的权重形成加权数字串，比如“美国”的hash值为“100101”，通过加权计算为“4 -4 -4 4 -4 4”；“51区”的hash值为“101011”，通过加权计算为 “ 5 -5 5 -5 5 5”。
合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。比如 “美国”的 “4 -4 -4 4 -4 4”，“51区”的 “ 5 -5 5 -5 5 5”，把每一位进行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。这里作为示例只算了两个单词的，真实计算需要把所有单词的序列串累加。
降维，把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为 1，小于0 记为 0。最后算出结果为：“1 0 1 0 1 1”。
整个过程的流程图为：

相似性度量

有了simhash值，我们需要来度量两个文本间的相似性，就像上面的例子一样，我们可以比较两个simhash间0和1不同的数量。这便是汉明距离（Hamming distance）

在信息论中，两个等长字符串之间的汉明距离（英语：Hamming distance）是两个字符串对应位置的不同字符的个数。换句话说，它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。
汉明重量是字符串相对于同样长度的零字符串的汉明距离，也就是说，它是字符串中非零的元素个数：对于二进制字符串来说，就是1的个数，所以11101的汉明重量是4。
例如：
1011101与1001001之间的汉明距离是2

一般在利用simhash进行文本相似度比较时，我们认为汉明距离小于3的文本是相似的。

存储索引

存储：

将一个64位的simhash签名拆分成4个16位的二进制码。（图上红色的16位）
分别拿着4个16位二进制码查找当前对应位置上是否有元素。（放大后的16位）
对应位置没有元素，直接追加到链表上；对应位置有则直接追加到链表尾端。（图上的 S1 — SN）

查找：

将需要比较的simhash签名拆分成4个16位的二进制码。
分别拿着4个16位二进制码每一个去查找simhash集合对应位置上是否有元素。
如果有元素，则把链表拿出来顺序查找比较，直到simhash小于一定大小的值，整个过程完成。
在去重时，因为汉明距离小于3则为重复文本，那么如果存在simhash相似的文本，对于四段simhash则至少有一段simhash是相同的，所以在去重时对于待判断文本D，如果D中每一段的simhash都没有相同的，那么D为无重复文本。

原理：
借鉴hashmap算法找出可以hash的key值，因为我们使用的simhash是局部敏感哈希，这个算法的特点是只要相似的字符串只有个别的位数是有差别变化。那这样我们可以推断两个相似的文本，至少有16位的simhash是一样的。具体选择16位、8位、4位，大家根据自己的数据测试选择，虽然比较的位数越小越精准，但是空间会变大。分为4个16位段的存储空间是单独simhash存储空间的4倍。

实现

在实际NLP的使用中，我利用Murmur3作为字符串的64位哈希值，用Java和spark分别实现了一个simhash的版本
我将源码放在了github上，如下链接：

github: xlturing/simhashJava

其中利用了结巴作为文本的分词工具，Murmur3用来产生64位的hashcode。另外根据上述存储方式，进行了simhash分段存储，提高搜索速度，从而进行高效查重。

应用

simhash从最一开始用的最多的场景便是大规模文本的去重，对于爬虫从网上爬取的大规模语料数据，我们需要进行预处理，删除重复的文档才能进行后续的文本处理和挖掘，那么利用simhash是一种不错的选择，其计算复杂度和效果都有一个很好的折中。
但是在实际应用过程中，也发现一些badcase，完全无关的文本正好对应成了相同的simhash，精确度并不是很高，而且simhash更适用于较长的文本，但是在大规模语料进行去重时，simhash的计算速度优势还是很不错的。

语义相似性

在NLP中有时候我们度量两个短文本或者说更直接的两个词语的相似性时，直接通过字面距离是无法实现的，如：中国-北京，意大利-罗马，这两个短语之间的相似距离应该是类似的，因为都是首都与国家的关系；再比如（男人、男孩），（女人、女孩）应该是相同的关系，但是我们看其字面距离都是0。
想要做到语义层面的度量，我们需要用到机器学习建模，而自然语言的问题转化为机器学习的首要问题便是找到一种方法把自然语言的符号数学化。

背景知识

在自然语言处理领域中，有两大理论方向，一种是基于统计的经验主义方法，另一种是基于规则的理性主义方法[15]。而随着计算机性能的提升，以及互联网发展而得到的海量语料库，目前NLP的研究更多是基于统计的经验主义方法。所以在本文讨论的语义相似性中，也是从统计学的角度出发进行总结。

统计语言模型

对于统计语言模型而言，最基础的理论便是贝叶斯理论（Bayes' theorem PS.关于贝叶斯理论强烈推荐：数学之美番外篇：平凡而又神奇的贝叶斯方法，一篇深入浅出的好文。另外推荐下自己师兄参与翻译的作品《贝叶斯方法——概率编程与贝叶斯推断》很全面的贝叶斯理论+实践书籍）。对于大规模语料库，我们可以通过词频的方式来获取概率，例如100个句子中，出现了1次"Okay"，那么

而同样的对于句子"An apple ate the chicken"我们可以认为其概率为0，因为这不符合我们说话的逻辑。
统计语言模型是用来计算一个句子的概率，其通常基于一个语料库D来构建。如何表示一个句子的概率呢？我们用来表示一个基元（通常就是指词语，也可以是字或短语），那么对于一个由N个词组成的句子W可以表示为

那么其联合概率

就可以认为是该句子的概率，根据贝叶斯公式的链式法则可以得到：

其中条件概率 $p(\omega_1)p(\omega_2|\omega_1)p(\omega_3|\omega_1,\omega_2)...p(\omega_n|\omega_1...\omega_{n-1})$ 便是语言模型的参数，如果我们把这些全部算出来，那么一个句子的概率我们就能很轻易的得出。但是很明显，这个参数的量是巨大的是无法计算的。这时我们可以将 $\omega_i|\omega_1...\omega_{i-1}$ 映射到某个等价类 $E(\omega_i|\omega_1...\omega_{i-1})$ ，从而降低参数数目。
ps.语料库我们用C表示，而词典D一般为语料中出现的所有不重复词

n-gram模型

既然每个单词依赖的单词过多，从而造成了参数过多的问题，那么我们就简单点，假设每个单词只与其前n-1个单词有关，这便是n-1阶Markov假设，也就是n-gram模型的基本思想。
那么对于句子W的概率我们可以简化如下：

那么对于最简单的一阶情况也称unigram或uni-gram或monogram（二阶bigram 三阶trigram）就简单表示为

为了在句首和句尾能够统一，我们一般会在句首加一个BOS标记，句尾加一个EOS标记，那么对于句子"Mark wrote a book"，其概率可以表示如下：

为了预估 $p(\omega_i|\omega_{i-1})$ 条件概率，根据大数定理，简单统计语料库中 $\omega_{i-1},\omega_i$ 出现的频率，并进行归一化。我们用c来表示频率，那么可表示如下：

$p(\omega_i|\omega_{i-1})=\frac{c(\omega_{i-1}\omega_i)}{\sum_{\omega_i}c(\omega_{i-1}\omega_i)}$

其中分母在unigram中就可以简单认为是词语 $\omega_{i-1}$ 出现的次数。
在n-gram模型中还有一个很重要的问题就是平滑化，因为再大的语料库都不可能涵盖所有情况，考虑两个问题：

$c(\omega_{i-1}\omega_i)=0$ 那么 $p(\omega_i|\omega_{i-1})=0$ 就是0吗？
$c(\omega_{i-1}\omega_i)=\sum_{\omega_i}c(\omega_{i-1}\omega_i)$ 那么 $p(\omega_i|\omega_{i-1})=0$ 就是1吗？

这显然是不合理的，这就需要进行平滑，这里不展开讨论。
根据最大似然，我们可以得到：

其中C表示语料库，表示词语的上下文，而这里对于n-gram模型 $Context(\omega)=\oemga^{i-1}_{i-n+1}$ ，取对数后的对数似然函数为：

从上式我们可以看出 $p(\omega|Context(\omega))$ 可以看做是 $\omega$ 关于的函数，即：

其中为待定参数集，通过语料库训练得到参数集后，F便确定了，我们不需要再存储概率 $p(\omega|Context(\omega))$ ，可以直接计算得到，而语言模型中很关键的就在于F的构造

词向量

为了从使得计算机从语义层面理解人类语言，首先要做的就是将语言数学化，如何进行表示呢？人们便提出了词向量的概念，即用一个向量来表示一个词。

One-hot Representation

一种最简单词向量就是利用词频向量将高维的语义空间抽象成数学符号表示，向量长度为词典的大小，这种表示方式非常直观，但是容易造成维度灾难，并且还是不能刻画语义的信息。

词语表示

对于词语而言，用一个向量来表示一个词，最直观简单的方式就是将每个词变为一个很长的向量，向量长度便是词典的长度，其中绝大部分为0，只有一个维度为1代表了当前词。
假设语料库：“冲突容易引发战争”，那么词典为

D=[冲突,容易,引发,战争]
冲突=[1,0,0,0]
战争=[0,0,0,1]

每个词都是含有一个1的n维向量（），这种方式我们压缩存储下，就是给每个词语分配一个ID，通常实际变成我们最简单的就是用hash值表示一个词语。这种方式可以用在SVM、最大熵和CRF等等算法中，完成NLP的大多数场景。例如，我们可以直接将
但是缺点很明显，就是我们用这种方式依旧无法度量两个词的语义相似性，任意两个词之间都是孤立的，比如上面的冲突和战争是近义词，但是却没有任何关联性。

文档表示

同样文档也可以用词频向量的形式来表示，一般我们会利用tf-idf作为每一个词的特征值，之后会挑选每篇文档比较重要的部分词来表示一篇文档，拿游戏来说，如下：
[王者荣耀, 阴阳师, 梦幻西游]

doc1:[tf-idf(王者荣耀), tf-idf(阴阳师), tf-idf(梦幻西游)]
doc2:[tf-idf(王者荣耀), tf-idf(阴阳师), tf-idf(梦幻西游)]

然后我们就可以利用K-means等聚类算法进行聚类分析，当然对于每篇文档，一般我们只会选取部分词汇，因为如果词汇过多可能造成NLP中常见的维度“灾难”。这种方式在大多数NLP场景中都是适用的，但是由于这种表示往往是建立在高维空间，为了避免维度灾难就要损失一定的语义信息，这也是这种方法的弊端。

Distributed representation

另外一种词向量的表示Distributed representation最早由 Hinton在 1986年提出。它是一种低维实数向量，这种向量一般长成这个样子：
[0.792, −0.177, −0.107, 0.109, −0.542, …]
维度以 50 维和 100 维比较常见，当然了，这种向量的表示不是唯一的。
Distributed representation的关键点在于，将高维空间中的词汇映射到一个低维的向量空间中，并且让相关或者相似的词，在距离上更接近（看到这里大家有没有想到普通hash以及simhash的区别呢？），这里引用一张图片（来自[13]）：

图中是英语和西班牙语通过训练分别得到他们的词向量空间，之后利用PCA主成分分析进行降维表示在二维坐标图中的。我们可以清晰的看出，对于两种语系的一二三四五，在空间距离上竟是如此的相似，这就是Distributed representation词向量表示的意义所在。
这种采用低维空间表示法，不但解决了维数灾难问题，并且挖掘了word之间的关联属性，从而提高了向量语义上的准确度，下面我们讨论的语言模型都是基于这种词向量表示方式。
PS. 有时候也会出现Word Represention或 Word Embedding(所谓词嵌入)的说法。另外我们这里说的词向量是在词粒度进行分析，当然我们也可以在字粒度的字向量、句子粒度的句向量以及文档粒度的文档向量进行表示分析。

主题模型

在长文本的篇章处理中，主题模型是一种经典的模型，经常会用在自然语言处理、推荐算法等应用场景中。本节从LDA的演变过程对LDA进行阐述，然后就LDA在长文本相似性的判断聚类上做简要说明。

LSA

首先对于一篇文档Document，词语空间的一个词频向量如下：

其中每个维度表示某一词语term在该文档中出现的次数，最终对于大量的训练样本，我们可以得到训练样本的矩阵X，如下图：

LSA的基本思想，便是利用最基本的SVD奇异值分解，将高维语义空间映射到低维空间，其流程如下：

这样对于训练样本中词表的每一个term我们便得到了一个低维空间的向量表示。但LSA的显著问题便是值考虑词频，并不区分同一词语的不同含义

PLSA

LSA基于最基本的SVD分解，但缺乏严谨的数理统计逻辑，于是Hofmann提出了PLSA，其中P便是Probabilistic，其基本的假设是每个文档所表示的词频空间向量w服从多项式分布（Multinomial distribution）

简单扯两句多项式分布：

伯努利分布（Bernoulli distribution）我们从接触概率论开始便知道，即所谓的投硬币，其离散分布如下：

但是吊吊的数学家们总喜欢做一些优雅的让人看不懂的事情，所以也可以写作如下公式：

其中k为0或者1
二项分布（Binomial distribution）：

如果进行次投硬币实验，计算出现m次正面朝上的概率
伯努利分布是二项分布中n=1时的特殊情况
Categorical分布（Categorical distribution），如果我们将投硬币改成掷骰子，那么原来一维向量x就会变成一个六维向量，其中每一维度为1表示出现该面，0表示没出现，用数学表示即对于随机变量X有k中情况，其中第种情况出现的概率为：

那么我们可以得到其离散概率分布如下：

其中如果那么为1，否则为0
多项式分布（Multinomial distribution）：与二项分布类似，Categorical分布进行N次试验，便得到多项式分布：

同样我们可以写成吊吊的形式：

其中为gamma函数：当n>0，则（ps.该形式与狄利克雷分布（Dirichlet distribution）的形式非常相似，因为多项式分布是狄利克雷分布的共轭先验）

OK简单梳理了下过去的知识，PLSA假设每篇文档的词频向量服从Categorical分布，那么对于整个训练样本的词频矩阵W则服从多项式分布。PLSA利用了aspect model，引入了潜在变量z（即所谓主题），使其变成一个混合模型（mixture model）。其图模型如下：

其中表示文档集，Z便是PLSA中引入的隐含变量（主题/类别），表示词表。表示单词出现在文档的概率，表示文档中出现主题下的单词的概率，给定主题出现单词的概率。其中每个主题在所有词项上服从Multinomial分布，每个文档在所有主题上服从Multinmial分布。按照生成模型，整个文档的生成过程如下：
(1)以的概率生成文档
(2)以的概率选中主题
(3)以的概率产生一个单词
那么对于单词出现在文档的联合概率分布，而是隐含变量。

其中和分别对应了两组Multinomial分布，PLSA需要训练两组分布的参数

LDA

有了PLSA，那么LDA就相对简单了，其相当于贝叶斯（Bayes' theorem PS.关于贝叶斯理论强烈推荐：数学之美番外篇：平凡而又神奇的贝叶斯方法，一篇深入浅出的好文）PLSA即：
LDA=Bayesian pLSA
为什么这么说呢？我们站在贝叶斯理论的角度看上文提到的PLSA，基于上文的阐述，我们知道PLSA的假设是文档-词语的词频矩阵服从多项式分布（multinomial distribution），那么在贝叶斯理论中，相当于我们找到了似然函数，那么想要计算后验概率时，我们需要找到先验概率。

简单扯两句共轭先验：
根据贝叶斯理论我们有如下形式：

OK其中我们可以成为似然函数即一件事情发生的似然性（最大似然估计），那么相当于先验概率分布，一般为一个常数，所以忽略。那么对于计算后验概率，我们需要找到似然函数和先验分布。
一般当我们已知似然函数的形式的时候，我们需要找到先验分布，那么对于所有满足[0,1]区间内的分布都符合这个条件，为了计算简单，我们采用与似然函数形式尽量一致的分布作为先验分布，这就是所谓的共轭先验。
在上文中介绍多项式分布时提到了Dirichlet分布，我们看多项式分布的形式如下：

那么我们需要找寻形式相似如下的分布：

而Dirichlet分布的形式如下：

看出来了吧，去掉左边的Beta分布不说，在右边的形式上Dirichlet分布和Multinomial分布是及其相似的，所以Dirichlet分布是Multinomial分布的共轭先验。

再回到LDA，根据之前分析的PLSA可知，每个文档中词的Topic分布服从Multinomial分布，其先验选取共轭先验即Dirichlet分布；每个Topic下词的分布服从Multinomial分布，其先验也同样选取共轭先验即Dirichlet分布。其图模型如下：

我们可以看出LDA中每篇文章的生成过程如下：

选择单词数N服从泊松分布，,
选择服从狄利克雷分布，,
对于N个单词中的每个单词 a. 选择一个主题，服从多项分布, b. 以概率生成单词，其中表示在主题上的条件多项式概率。

在LDA中我们可以利用来表示一篇文档。

应用

从之前LDA的阐述中，我们可以利用来表示一篇文档，那么我们自然可以利用这个向量对文档进行语义层面的词语和文档的相似性分析从而达到聚类、推荐的效果。当然了LDA本身对于文档分析出的主题，以及每个主题下的词汇，就是对于文档词汇的一层低维聚类。
之前用过Git上Java版的LDA实现，但是语料不是很大，对其性能并不能做出很好的评估。其地址如下：
github: A Java implemention of LDA(Latent Dirichlet Allocation)


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      public static void main(String[] args)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
      {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      // 1. Load corpus from disk
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          Corpus corpus = Corpus.load(
      "data/mini");
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      // 2. Create a LDA sampler
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          LdaGibbsSampler ldaGibbsSampler = 
      new LdaGibbsSampler(corpus.getDocument(), corpus.getVocabularySize());
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      // 3. Train it
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          ldaGibbsSampler.gibbs(
      10);
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      // 4. The phi matrix is a LDA model, you can use LdaUtil to explain it.
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      double[][] phi = ldaGibbsSampler.getPhi();
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          Map[] topicMap = LdaUtil.translate(phi, corpus.getVocabulary(), 
      10);
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          LdaUtil.explain(topicMap);
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
      }

其采用吉布斯采样的方法对LDA进行求解。之后自己也准备尝试用spark进行实现，看是否能够对性能进行优化。

Word2Vec

谷歌的Tomas Mikolov团队开发了一种词典和术语表的自动生成技术，能够把一种语言转变成另一种语言。该技术利用数据挖掘来构建两种语言的结构模型，然后加以对比。每种语言词语之间的关系集合即“语言空间”，可以被表征为数学意义上的向量集合。在向量空间内，不同的语言享有许多共性，只要实现一个向量空间向另一个的映射和转换，语言翻译即可实现。该技术效果非常不错，对英语和西语间的翻译准确率高达90%。

什么是word2vec？你可以理解为word2vec就是将词表征为实数值向量的一种高效的算法模型，其利用神经网络（关于神经网络之前有简单进行整理：马里奥AI实现方式探索 ——神经网络+增强学习），可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似。（PS. 这里往往人们会将word2vec和深度学习挂钩，但其实word2vec仅仅只是用了一个非常浅层的神经网络，跟深度学习的关系并不大。)
Word2vec输出的词向量可以被用来做很多NLP相关的工作，比如聚类、找同义词、词性分析等等。如果换个思路，把词当做特征，那么Word2vec就可以把特征映射到K维向量空间，可以为文本数据寻求更加深层次的特征表示。

神经网络语言模型

word2vec的思想最早起源于2003年Yoshua Bengio等人的论文A Neural Probabilistic Language Model：

Traditional but very successful approaches based on n-grams obtain generalization by concatenating very short overlapping sequences seen in the training set. We propose to fight the curse of dimensionality by learning a distributed representation for words which allows each training sentence to inform the model about an exponential number of semantically neighboring
sentences. [16]

从文中摘要中的这段话我们可以看出，神经网络语言模型提出的初衷便是为了解决传统的n-gram模型中维度灾难的问题，用distributed representation词向量的形式来表示每一个词语。
文中提出的模型利用了一个三层神经网络如下图(一般投影层算在输入层中，这里分开阐述)：

其中，对于语料库C，词典D的长度为(|D|=N)为语料库C的词汇量大小。对于任意一个词，表示其前n-1个词语，类似于n-gram模型，二元对为一个训练样本。我们为词向量，词向量的维度为m。图中W,U分别为投影层和隐藏层以及隐藏层和输出层之间的权值矩阵，p,q分别为隐藏层和输出层上的偏置向量。
论文中给出的神经网络模型如下图：

其中C(i)表示第i个词的特征向量（词向量），我们看到图中第一层为词的上下文的每个词向量，在第二层我们将输入层的n-1个词向量按顺序首尾拼接在一起，形成一个长向量，其长度为(n-1)m，输入到激活函数tanh双曲正切函数中，计算方式如下：

经过上述两步计算得到的只是一个长度为N的向量，我们看到图中第三层还做了一次softmax（Softmax function）归一化，归一化后
就可以表示为：

为词在词典D中的索引。
在之前的背景知识n-gram模型

我们知道语言模型中很关键的便是F的确定，其中参数如下：

词向量：，以及填充向量（上下文词汇不够n时）
神经网络参数：

论文的主要贡献有一下两点：

词语之间的相似性可以通过词向量来表示
不同于之前我们讨论的One-hot Representation表示方式，论文中指出在进行训练时，向量空间表达的词语维度一般为30、60或100，远远小于词典长度17000，避免了维度灾难。同时语义相似句子的概率是相似的。比如：某个语料库中的两个句子S1="A dog is running in the room", S2="A cat is running in the room"，两个句子从语义上看仅仅是在dog和cat处有一点区别，假设在语料库中S1=1000即出现1000次而S2=1即仅出现一次，按照之前我们讲述的n-gram模型，p(S1)>>p(S2)，但是我们从语义上来看dog和cat在句子中无论从句法还是语义上都扮演了相似的角色，所以两者概率应该相似才对。
而神经网络语言模型可以做到这一点，原因是：1）在神经网络语言模型中假设了相似的词在词向量上也是相似的，即向量空间中的距离相近，2）模型中的概率函数关于词向量是光滑的，那么词向量的一个小变化对概率的影响也是一个小变化，这样下面的句子：

A dog is ruuning in the room
A cat is running in the room
The cat is running in the room
A dog is walking in the bedroom
The dog was walking in the bedroom

只要在语料库中出现一个，其他句子的概率也会相应增大。

基于词向量的模型在概率计算上已经是平滑的，不需要像n-gram模型一样做额外的平滑处理，因为在softmax阶段我们已经做了归一化，有了平滑性。

我们最终训练得到的词向量，在整个神经网络模型中，似乎只是一个参数，但是这个副作用也正是word2vec中的核心产物。

CBOW和Skip-gram模型

word2vec中用到了两个重要模型：CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model)模型，文中作者Tomas Mikolov[17]给出了模型图如下：

由图中我们看出word2vec是一个三层结构的神经网络：输入层、投影层和输出层（这里我们发现word2vec与上面我们阐述的神经网络模型的显著区别是去掉了隐藏层）。对于图中左边的CBOW模型，是已知当前词的上下文的前提下预测当前词；而正好相反，Skip-gram模型是已知当前词的前提下来预测其上下文。
CBOW模型的目标函数，即其对数似然函数形式如下：

而Skip-gram模型的优化目标函数则形如：

Mikolov在word2vec中提出了两套框架，Hieraichical Softmax和Negative Sampling，这里由于博文篇幅太长了，就不错过多阐述，只对基于Hieraichical Softmax的CBOW模型进行简单总结。
CBOW模型中，与之前神经网络语言模型类似表示一个样本，其中表示词的前后各c个词语（共2c个），其三层结构我们可以细化如下：

输入层：包含中2c个词的词向量，每个词向量的维度都是m
投影层：将输入层的2c个词向量做求和累加，即
输出层：输出层对应一颗二叉树，它是以语料中出现过的词作为叶子节点，以各词在语料中出现的次数作为权重构造出来的一颗Huffman树（Huffman coding），其叶子节点共N(=|D|)个对应语料库D中的各个词，非叶子节点为N-1个。

对比我们之前讨论的最早的神经网络语言模型，CBOW模型的区别主要为以下三点：

从输入层到投影层的操作，前者通过拼接，而后者通过累加求和
前者有隐藏层，后者无隐藏层
输出层前者是线性结构（softmax），后者是树形结构（Hierarchical softmax）

word2vec对于词典D中的任意词，Huffman树必存在一条从根结点到词的路径（且唯一）。路径上存在个分支（每条路径上的总结点数为），将每个分支看做一次二次分类，每一次分类产生一个概率，将这些概率乘起来，便是所需的。在二分类的过程中，可以利用Huffman编码值，即左树为1右树为0进行逻辑回归分类。
word2vec在求解的过程中主要利用了梯度下降的方法，调整学习率，这里我们不再长篇大论的阐述，具体可以参考文献[14]，对word2vec中的数学原理阐述的非常清晰。

应用

word2vec从被发布起就是各种大红大紫，在谷歌的翻译系统中，得到了很好的验证。围绕本篇博文的主题，即文本相似度的度量，word2vec产生的词向量可以非常方便的让我们做这件事情，利用欧氏距离或者cos都可以。
在之前Wetest舆情项目，做句法分析时，需要找寻某一个词的同类词语，我们用用户的游戏评论训练word2vec，效果还是不错的如下图：

对于游戏的人工想到的维度词进行同类扩展，得到扩展维度词。
之前在应用时是自己师兄使用的python版word2vec，而Java对于word2vec有一个较好的东东DL4J，但其性能我并没有经过大规模预料测试，这个大家用的时候需谨慎。

OK，长舒一口气~，好长的一篇整理，整个文章虽然涵盖了好多个模型、算法，但是围绕的一个主题便是如何度量两个文本之间的相似性，从字面和语义两个角度对自己平时用过接触过的模型算法进行整理归纳，如有任何纰漏还请留言指出，我会第一时间改正。（感谢身边的同事和大神给予的指导帮助）

转载自： http://www.cnblogs.com/huilixieqi/p/6493089.html

你可能感兴趣的:(NLP,文本相似度)

机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
输入：0.5元/百万tokens（缓存命中）或2元（未命中）输出：8元/百万tokens 杏花春雨江南缓存
这句话描述了一种定价模型，通常用于云计算、API服务或数据处理服务中，根据资源使用情况（如缓存命中与否）来收费。以下是对这句话的详细解释：1.关键术语解释Tokens：在自然语言处理（NLP）或数据处理领域，Token通常指文本的最小单位（如一个单词或一个字符）。在这里，Tokens是计费的单位。缓存命中（CacheHit）：当请求的数据已经在缓存中时，称为缓存命中。缓存命中通常意味着更快的响应速
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
CSDN社区，到底该不该用DeepSeek AI生成文章？ Small踢倒coffee_氕氘氚 python 经验分享
##引言在当今数字化时代，人工智能（AI）技术正以惊人的速度发展，逐渐渗透到各个行业和领域。作为AI技术的一个重要分支，自然语言处理（NLP）在内容创作、文本生成等方面展现出了巨大的潜力。DeepSeekAI作为一款先进的AI写作工具，能够自动生成高质量的文章，极大地提高了内容创作的效率。然而，随着AI生成内容的普及，CSDN社区中的开发者、技术爱好者和内容创作者们开始思考一个问题：我们到底该不该
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
深入解析两大AI模型的架构与功能草莓屁屁我不吃人工智能 chatgpt
在人工智能（AI）领域，自然语言处理（NLP）一直是研究的热点之一。随着技术的不断进步，我们见证了从简单的聊天机器人到复杂语言模型的演变。其中，Google的Gemini和OpenAI的ChatGPT作为两大代表性模型，各自在技术和应用上展现出了卓越的性能。本文将详细解析Gemini和ChatGPT的系统架构、功能特性及其背后的技术原理。Gemini模型详解技术背景与架构Gemini，顾名思义，意
linux系统安全 IT小饕餮 linux基础 linux 系统安全运维
管理终端登录[root@localhost~]#grep"/sbin/nologin$"/etc/passwd表示禁止终端登录，应确保不被人改动输出结果：bin：x:1:1:bin:/bin:/sbin/nologindaemon：x:2:2:daemon:/sbin:/sbin/nologinadm：x:3:4:adm:/var/adm:/sbin/nologinlp：x:4:7:lp:/var
【NLP】 3. Distributional Similarity in NLP（分布式相似性） pen-ai NLP 机器学习自然语言处理分布式人工智能
DistributionalSimilarityinNLP（分布式相似性）分布式相似性（DistributionalSimilarity）是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。1.分布式假设（DistributionalHypothesis）分布式相似性基于以下假设：“Yoush
【NLP】 9. 处理创造性词汇 & 词组特征（Creative Words & Features Model），词袋模型处理未知词，模型得分 pen-ai NLP 机器学习自然语言处理人工智能深度学习
这里写目录标题处理创造性词汇&词组特征（CreativeWords&FeaturesModel）1.处理否定（NegationHandling）2.词组特征（Bigrams&N-grams）3.结合否定传播与n-grams进行优化词袋模型（Bag-of-Words,BoW）1.BoW示例2.处理未知词3.为什么忽略未知词？4.处理未知词的方法计算模型得分（ScoreCalculation）处理创造
【NLP】 5. Word Analogy Task（词类比任务）与 Intrinsic Metric（内在度量） pen-ai NLP 机器学习自然语言处理 word 人工智能
WordAnalogyTask（词类比任务）定义：WordAnalogyTask是用于评估词向量质量的内在指标（IntrinsicMetric）。该任务基于这样的假设：如果词向量能够捕捉单词之间的语义关系，那么这些关系应该能够在向量空间中保持一定的结构。示例：在一个理想的词向量空间中，单词之间的关系应该满足如下等式：king−man+woman≈queenking−man+woman≈queenk
大规模语言模型从理论到实践开源指令数据集 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践开源指令数据集1.背景介绍大规模语言模型（LargeLanguageModels,LLMs）近年来在自然语言处理（NLP）领域取得了显著的进展。诸如GPT-3、BERT等模型在各种任务中表现出色，从文本生成到翻译，再到问答系统，几乎无所不能。这些模型的成功离不开庞大的训练数据集和复杂的算法架构。然而，如何有效地构建和利用开源指令数据集，仍然是一个值得深入探讨的话题。2.核
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
如何用deepseek炒股 Real Man★ python 机器学习人工智能
使用DeepSeek进行炒股的核心思路是利用其强大的数据处理和预测能力，辅助投资决策。以下是具体的应用方法和步骤：一、数据收集与处理获取市场数据股票数据：通过API（如Tushare、YahooFinance）获取历史股价、成交量、财务数据等。新闻与舆情：使用DeepSeek的NLP能力分析新闻、社交媒体和公告，提取市场情绪和事件影响。宏观经济数据：收集GDP、利率、通胀等数据，分析其对股市的影响
你的AI客服为何总抓不住客户核心诉求？（附特征优化方案）人工智能
1特征工程的意义nlp任务中，原始文本经数值映射后形成的词向量序列，难充分表达语言深层语义特征。就需引入文本特征增强技术：语义信息补全：突破单词语义局限，捕获词序关联特征模型适配优化：构建符合算法输入规范的矩阵结构评估指标提升：通过特征增强直接影响模型准确率、召回率等核心KPI如电商评论情感分析场景，单纯用词频特征可能导致"这个手机质量差得惊人"和"这个手机质量惊人地差"被判定为相同语义，此时bi
NLP复习3，手撕多头attention 地大停车第二帅 NLP学习自然语言处理人工智能
importmathimporttorchimportcollectionsimportnumpyasnpimporttorch.nnasnnclassMultiHeadAttention(nn.Module):def__init__(self,heads,d_model,dropout=0.1):super().__init__()#输入的特征维度self.d_model=d_model#每个头
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
第20篇：从零开始构建NLP项目之电商用户评论分析：模型训练阶段 Gemini技术窝自然语言处理人工智能深度学习 AIGC 机器学习 nlp langchain
大家好，今天我们继续探讨如何从零开始构建一个NLP项目，特别是电商用户评论分析中的模型训练阶段。模型训练是NLP项目的核心环节，通过合理的调参和优化，可以显著提升模型性能。本文将详细介绍模型训练的步骤，并展示如何使用LangChain库进行模型训练、调参和优化。文章目录项目的背景和目标模型训练的详细步骤安装依赖包流程图1.准备数据2.定义模型3.训练模型4.评估模型5.调参与优化常见错误和注意事项
NLP-二分类的应用-区分外卖评论好评/差评左岸Jason 算法 python kafka flink elasticsearch
目录一、概念二、二分类实战-划分好评/差评1.处理步骤2.实战代码一、概念文本分类一般可以分为二分类、多分类、多标签分类三种情况。二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
模型蒸馏：从复杂到精简，AI技术的“瘦身”秘籍 lmtealily 人工智能
引言在人工智能的浪潮中，大型模型如BERT、GPT系列等在自然语言处理（NLP）、计算机视觉（CV）等领域取得了显著的成果。然而，这些“庞然大物”通常拥有数十亿甚至数千亿个参数，计算和存储成本极高，难以部署到资源受限的设备上。为了解决这一问题，模型蒸馏技术应运而生。模型蒸馏是一种将大型复杂模型的知识迁移到小型简单模型的技术，旨在保持高性能的同时大幅减少模型的参数量和计算复杂度。本文将带你深入了解模
Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：基于自然语言处理的股票新闻情感分析模型开发与优化的最佳实践在股市中，信息的力量是巨大的。一条新闻、一篇报道，甚至一条推文，都可能引发股价的波动。因此，利用自然语言处理（NLP）技术来分析股票新闻的情感倾向，可以帮助我们预测市场动向，从而做出更明智的投资决策。本文将带你了解如何开发和优化一个基于Pytho
百度快速收录2025最新科普 SEORoal 百度
跨境物流的智能突围战宁波某RCEP跨境物流平台接入214维特征矩阵后：✅'智能清关系统’72小时冲进TOP3✅'东盟电子报关’长尾词覆盖量暴涨4.2倍✅日均有效询盘突破300+技术三板斧：标题智能提取引擎（支持38种语义变异）动态阻抗参数混淆（误差≤0.15μΩ）实时工商特征同步（每2小时更新）2025生存指南：采用神经网络语义映射（NLP准确率98.2%）部署质量监控系统（误差率≤0.15%）加
数据标注工具及其对预训练模型性能的影响 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1预训练模型的崛起近年来，预训练模型（Pre-trainedModels）在自然语言处理（NLP）领域取得了显著的成功。这些模型通过在大规模无标注文本数据集上进行预训练，学习到丰富的语言知识和语义表示，并在下游任务中展现出优异的性能。BERT、GPT-3等预训练模型的出现，标志着NLP领域进入了一个新的时代。1.2数据标注的重要性尽管预训练模型展现出强大的能力，但它们仍然需要针对特
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
基于Transformer的医学文本分类：从BERT到BioBERT Evaporator Core 人工智能 #深度学习 #DeepSeek快速入门 transformer 分类 bert
随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。在医学领域，文本数据（如电子病历、医学文献、临床报告）具有高度的专业性和复杂性，传统的NLP方法往往难以处理。Transformer模型，尤其是BERT及其变体，通过预训练和微调的方式，能够有效捕捉医学文本中的语义信息，为医学文本分类提供了强大的工具。本文将探讨Transfor
TF-IDF：文本挖掘中的关键词提取利器巷955 tf-idf
引言在自然语言处理（NLP）和文本挖掘中，TF-IDF是一种常用的技术，用于评估一个词在文档中的重要性。它不仅在信息检索领域广泛应用，还在文本分类、关键词提取等任务中发挥着重要作用。本文将详细介绍TF-IDF的原理，并通过一个实际的代码示例来展示如何使用TF-IDF从《红楼梦》中提取核心关键词。1.什么是TF-IDF？TF-IDF是一种统计方法，用于评估一个词在文档中的重要性。它由两部分组成：-T
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end