2018-08-21

算法题之字符串相似度

问题描述

面试阿里的时候问了我一个问题,如何求两个字符串之间的相似度,当时不知道该怎么回答,后来下来之后从网上查看才知道这是一个经典的动态规划题。
两个字符出的相似度定义为:将一个字符串转换成另一个字符串的代价(通过插入、删除、替换三种方式转换),转换的代价越高则说明两个字符串的相似度越低。

问题分析

这是一个典型的动态规划题。我们知道,可以用动态规划求解的题都有最优子结构性质,回到这个问题当中,假设source有字符串有n个字符,target字符串有m个字符,如果将问题定义为求解将source的1到n个字符转换为target的1到m个字符所需要的最少编辑次数(最小编辑距离),则子问题就可以定义为将source的1到i个字符转换为target的1到j个字符所需要的最少编辑次数,这就是本问题的最优子结构。我们用d[i,j]表示source[1...i]到target[1...j]之间的最小编辑距离,则计算d[i,j]的递推关系可以这样计算出来
source[i]==target[j]
d[i,j] = d[i-1,j-1]+0
如果source[i]!=target[j],则根据插入、删除和替换三个策略,分别计算出使用三种策略得到的编辑距离,然后取最小的一个:
d[i,j]=min(d[i-1][j]+1,d[i][j-1]+1,d[i-1,j-1]+1)
其中:
d[i][j-1]+1表示对source[i]执行插入操作后计算编辑最小距离
d[i-1][j]+1表示对source[i]执行删除操作后计算最小编辑距离
d[i-1,j-1]+1表示对source[i]替换成target[i]操作后计算最小编辑距离

代码实现

import java.util.Scanner;

public class StringSimilar {
    public static void main(String[] args){
        Scanner scan = new Scanner(System.in);
        String source = scan.nextLine();
        String target = scan.nextLine();
        System.out.println(editDistance(source,target));
        
    }
    public static int editDistance(String source,String target){
        char[] sources = source.toCharArray();
        char[] targets = target.toCharArray();
        int m = source.length();
        int n = target.length();
        int[][] distance = new int[m+1][n+1];
        int i,j;
        for(i=0;i<=m;i++){
            distance[i][0]=i;
        }
        for(j=0;j<=n;j++){
            distance[0][j]=j;
        }
        for(i=1;i<=m;i++){
            for(j=1;j<=n;j++){
                if(sources[i-1]==targets[j-1]){
                    distance[i][j]=distance[i-1][j-1];
                }else{
                    int insert = distance[i][j-1]+1;
                    int delete = distance[i-1][j]+1;
                    int replace =distance[i-1][j-1]+1;
                    distance[i][j]= Math.min(insert, delete)>replace?replace:Math.min(insert, delete);
                }
                
            }
        }
        
        return distance[m][n];
    }
}

你可能感兴趣的:(2018-08-21)