文本相似度 -- 最小编辑距离算法

最小编辑距离算法是计算两个字符串之间相互转换最少要经过多少次操作(增加,移除,替换)的算法
算法原理
这个算法计算的是将s[1…i]转换为t[1…j](例如将beauty转换为batyu)所需最少的操作数(也就是所谓的编辑距离),这个操作数被保存在d[i,j]中。

例如我们将beauty转换为空字符串,我们需要进行的操作数为beauty的长度(所进行的操作为将beauty所有的字符丢弃)。
我们对字符可能进行的操作有三种:
将s[1…n]转换为t[1…m]当然需要将所有的s转换为所有的t,所以,d[n,m]就是我们所需的结果。
如果我们可以使用k个操作数把s[1…i]转换为t[1…j-1],我们只需要把t[j]加在最后面就能将s[1…i]转换为t[1…j],操作数为k+1
如果我们可以使用k个操作数把s[1…i-1]转换为t[1…j],我们只需要把s[i]从最后删除就可以完成转换,操作数为k+1
如果我们可以使用k个操作数把s[1…i-1]转换为t[1…j-1],我们只需要在需要的情况下(s[i] != t[j])把s[i]替换为t[j],所需的操作数为k+cost(cost代表是否需要转换,如果s[i]==t[j],则cost为0,否则为1)。
这个证明过程只能证明我们可以得到结果,但并没有证明结果是最小的(即我们得到的是最少的转换步骤)。所以我们引进了另外一个算法,即d[i,j]保存的是上述三种操作中操作数最小的一种。这就保证了我们获得的结果是最小的操作数

关于最小编辑距离算法 , 网上有很多资料 , 这里讲一下我遇到的论坛大神将最小编辑距离算法反用的计算文本相似度的算法

  /* 
     * 计算相似度 
     * */  
    public static double SimilarDegree(String strA, String strB){     
        String newStrA = removeSign(strA);      
        String newStrB = removeSign(strB);  
        //用较大的字符串长度作为分母,相似子串作为分子计算出字串相似度  
        int temp = Math.max(newStrA.length(), newStrB.length());      
        int temp2 = longestCommonSubstring(newStrA, newStrB).length();     
        return temp2 * 1.0 / temp;      
    }    


    /* 
     * 将字符串的所有数据依次写成一行 
     * */  
    public static String removeSign(String str) {     
        StringBuffer sb = new StringBuffer();   
        //遍历字符串str,如果是汉字数字或字母,则追加到ab上面  
        for (char item : str.toCharArray())     
            if (charReg(item)){      
                sb.append(item);    
            }    
        return sb.toString();    
    }    


    /* 
     * 判断字符是否为汉字,数字和字母, 
     * 因为对符号进行相似度比较没有实际意义,故符号不加入考虑范围。 
     * */  
    public static boolean charReg(char charValue) {      
        return (charValue >= 0x4E00 && charValue <= 0X9FA5) || (charValue >= 'a' && charValue <= 'z')  
                || (charValue >= 'A' && charValue <= 'Z')  || (charValue >= '0' && charValue <= '9');      
    }      


 public static String longestCommonSubstring(String str1, String strB) {     
        char[] chars_strA = strA.toCharArray();  
        char[] chars_strB = strB.toCharArray();   
        int m = chars_strA.length;     
        int n = chars_strB.length;   

        /* 
         * 初始化矩阵数据,matrix[0][0]的值为0, 
         * 如果字符数组chars_strA和chars_strB的对应位相同,则matrix[i][j]的值为左上角的值加1, 
         * 否则,matrix[i][j]的值等于左上方最近两个位置的较大值, 
         * 矩阵中其余各点的值为0. 
        */  
        int[][] matrix = new int[m + 1][n + 1];     
        for (int i = 1; i <= m; i++) {    
            for (int j = 1; j <= n; j++) {      
                if (chars_strA[i - 1] == chars_strB[j - 1])     
                    matrix[i][j] = matrix[i - 1][j - 1] + 1;      
                else     
                    matrix[i][j] = Math.max(matrix[i][j - 1], matrix[i - 1][j]);     
            }     
        }  
        /* 
         * 矩阵中,如果matrix[m][n]的值不等于matrix[m-1][n]的值也不等于matrix[m][n-1]的值, 
         * 则matrix[m][n]对应的字符为相似字符元,并将其存入result数组中。 
         *  
         */  
        char[] result = new char[matrix[m][n]];      
        int currentIndex = result.length - 1;     
        while (matrix[m][n] != 0) {     
            if (matrix[n] == matrix[n - 1])    
                n--;     
            else if (matrix[m][n] == matrix[m - 1][n])      
                m--;     
            else {     
                result[currentIndex] = chars_strA[m - 1];     
                currentIndex--;    
                n--;     
                m--;    
            }    
        }      
       return new String(result);     
    } 
    /* 
     * 结果转换成百分比形式  
     * */     
    public static String similarityResult(double resule){      
        return  NumberFormat.getPercentInstance(new Locale( "en ", "US ")).format(resule);     
    }  

你可能感兴趣的:(算法)